分类指南
按功能 · 架构 · 领域分类
语言模型 · 图像视频 · 多模态 · 音频 · 编程 · 垂直行业 · 端侧模型 · AI搜索 — 最新最全的AI模型生态参考
闭源 & 开源 多模态演进 端侧部署
语言模型 · LLM
文本生成 · 推理 · 代码闭源商用模型
API / WebGPT-4o OpenAI
GPT-4 Turbo OpenAI
o1 / o1-mini OpenAI
Claude 3.5 Sonnet Anthropic
Claude 3 Opus Anthropic
Gemini 2.0 Pro Google
DeepSeek-V3 深度求索
DeepSeek-R1 深度求索
文心一言 4.0 百度
通义千问-Max 阿里
Kimi (Moonshot) 月之暗面
智谱清言 GLM-4 智谱AI
豆包 Doubao 字节跳动
讯飞星火 科大讯飞
百川4 百川智能
MiniMax abab6.5 MiniMax
Perplexity AI AI搜索增强
Groq 超低延迟推理
开源模型 · 社区生态
可本地部署Llama 3.1 / 3.2 Meta
Qwen 2.5 阿里 (0.5B-72B)
DeepSeek-V2.5 深度求索 (MoE)
Mixtral 8x7B Mistral AI
Yi-34B 零一万物
Falcon 2 TII
Phi-3.5 Microsoft
Gemma 2 Google (2B/9B/27B)
Command R+ Cohere
图像 · 视频模型
生成 · 识别 · 编辑文生图 · 创意引擎
Midjourney V6/V7 DALL·E 3 Stable Diffusion 3.5 Flux.1 Ideogram 2.0 Leonardo AI Playground v3 Adobe Firefly 文心一格 通义万相 腾讯混元DiT
开源生态: SDXL / ControlNet / ComfyUI 工作流
文生视频 · 动态生成
Sora (OpenAI) Runway Gen-3 可灵AI (Kling) Luma Dream Machine Pika 2.0 Veo (Google) CogVideoX Vidu
识别/分割: YOLOv8/v10 · SAM2 · Grounding DINO · GPT-4V视觉
多模态模型 (文本+图像+音频+视频)
GPT-4o 端到端语音对话
Gemini 2.0/1.5 Pro 原生多模态 2M上下文
Claude 3.5 Sonnet 视觉推理强
Qwen-VL-Max 中英文OCR
智谱GLM-4V 图表理解
LLaVA / Chameleon 开源多模态
ImageBind 六模态对齐
Fuyu-8B 轻量端侧
音频 · 语音 · 音乐
🎙️ 语音识别 ASR Whisper · SenseVoice · Paraformer · Conformer
🗣️ 语音合成 & 声音克隆 ElevenLabs · Azure TTS · CosyVoice · Bark · ChatTTS · Fish Speech
🎵 音乐/Audio生成 Suno v4 · Udio · Stable Audio · AIVA · MusicFX
编程模型 · 代码助手
GitHub Copilot Cursor CodeWhisperer Codeium Tabnine DeepSeek-Coder CodeLlama Qwen-Coder Phind
集成IDE,代码补全、重构、Debug,Claude 3.5 Sonnet编程榜领先
垂直领域 · 行业大模型
🏥 医疗 Med-PaLM 2, BioGPT, Clinical Camel
💰 金融 Bloomberg GPT, FinGPT
⚖️ 法律 Harvey, Casetext CoCounsel
📚 教育 Khanmigo, Socratic
🔬 科学/科研 AlphaFold 3, Elicit, Scite, ChemCrow
🛒 电商/客服 阿里妈妈AI, 网易七鱼
端侧/轻量级模型
Phi-3.5-mini (3.8B) Gemma 2 (2B/9B/27B) Llama 3.2 (1B/3B) Qwen 2.5-0.5B/1.5B MobileLLM OpenELM (Apple)
手机/笔记本/嵌入式本地运行,低延迟隐私计算。
AI搜索 · 推理增强
Perplexity AI SearchGPT (原型) Bing Copilot 秘塔AI搜索 天工AI搜索 You.com
实时联网检索,结构化答案,附来源与推理链。
主流厂商/产品矩阵速览
更新至2025| 厂商 | 语言模型 | 图像/视频模型 | 特色亮点 |
|---|---|---|---|
| OpenAI | GPT-4o, o1, GPT-4Turbo | DALL·E 3, Sora | 多模态、推理增强、视频生成 |
| Anthropic | Claude 3.5 Sonnet/Opus | — | 长上下文,编程与安全性领先 |
| Gemini 2.0, Gemma | Veo, Imagen 3 | 原生多模态,超长上下文2M | |
| 深度求索 | DeepSeek-V3, R1 | — | 高性价比MoE,强推理能力 |
| 阿里 | 通义千问 Qwen-Max | 通义万相 | 开源Qwen系列,电商场景优化 |
| Meta | Llama 3.1/3.2 | SAM2, Chameleon | 开源生态领导者,分割模型SAM |
涵盖语言/多模态/视频/音频/代码/垂直/端侧 分类动态更新·工业级参考