分类指南

按功能 · 架构 · 领域分类

语言模型 · 图像视频 · 多模态 · 音频 · 编程 · 垂直行业 · 端侧模型 · AI搜索 — 最新最全的AI模型生态参考

闭源 & 开源 多模态演进 端侧部署

语言模型 · LLM

文本生成 · 推理 · 代码

闭源商用模型

API / Web
GPT-4o OpenAI
GPT-4 Turbo OpenAI
o1 / o1-mini OpenAI
Claude 3.5 Sonnet Anthropic
Claude 3 Opus Anthropic
Gemini 2.0 Pro Google
DeepSeek-V3 深度求索
DeepSeek-R1 深度求索
文心一言 4.0 百度
通义千问-Max 阿里
Kimi (Moonshot) 月之暗面
智谱清言 GLM-4 智谱AI
豆包 Doubao 字节跳动
讯飞星火 科大讯飞
百川4 百川智能
MiniMax abab6.5 MiniMax
Perplexity AI AI搜索增强
Groq 超低延迟推理

开源模型 · 社区生态

可本地部署
Llama 3.1 / 3.2 Meta
Qwen 2.5 阿里 (0.5B-72B)
DeepSeek-V2.5 深度求索 (MoE)
Mixtral 8x7B Mistral AI
Yi-34B 零一万物
Falcon 2 TII
Phi-3.5 Microsoft
Gemma 2 Google (2B/9B/27B)
Command R+ Cohere

图像 · 视频模型

生成 · 识别 · 编辑

文生图 · 创意引擎

Midjourney V6/V7 DALL·E 3 Stable Diffusion 3.5 Flux.1 Ideogram 2.0 Leonardo AI Playground v3 Adobe Firefly 文心一格 通义万相 腾讯混元DiT
开源生态: SDXL / ControlNet / ComfyUI 工作流

文生视频 · 动态生成

Sora (OpenAI) Runway Gen-3 可灵AI (Kling) Luma Dream Machine Pika 2.0 Veo (Google) CogVideoX Vidu
识别/分割: YOLOv8/v10 · SAM2 · Grounding DINO · GPT-4V视觉

多模态模型 (文本+图像+音频+视频)

GPT-4o 端到端语音对话
Gemini 2.0/1.5 Pro 原生多模态 2M上下文
Claude 3.5 Sonnet 视觉推理强
Qwen-VL-Max 中英文OCR
智谱GLM-4V 图表理解
LLaVA / Chameleon 开源多模态
ImageBind 六模态对齐
Fuyu-8B 轻量端侧

音频 · 语音 · 音乐

🎙️ 语音识别 ASR Whisper · SenseVoice · Paraformer · Conformer
🗣️ 语音合成 & 声音克隆 ElevenLabs · Azure TTS · CosyVoice · Bark · ChatTTS · Fish Speech
🎵 音乐/Audio生成 Suno v4 · Udio · Stable Audio · AIVA · MusicFX

编程模型 · 代码助手

GitHub Copilot Cursor CodeWhisperer Codeium Tabnine DeepSeek-Coder CodeLlama Qwen-Coder Phind

集成IDE,代码补全、重构、Debug,Claude 3.5 Sonnet编程榜领先

垂直领域 · 行业大模型

🏥 医疗 Med-PaLM 2, BioGPT, Clinical Camel
💰 金融 Bloomberg GPT, FinGPT
⚖️ 法律 Harvey, Casetext CoCounsel
📚 教育 Khanmigo, Socratic
🔬 科学/科研 AlphaFold 3, Elicit, Scite, ChemCrow
🛒 电商/客服 阿里妈妈AI, 网易七鱼

端侧/轻量级模型

Phi-3.5-mini (3.8B) Gemma 2 (2B/9B/27B) Llama 3.2 (1B/3B) Qwen 2.5-0.5B/1.5B MobileLLM OpenELM (Apple)

手机/笔记本/嵌入式本地运行,低延迟隐私计算。

AI搜索 · 推理增强

Perplexity AI SearchGPT (原型) Bing Copilot 秘塔AI搜索 天工AI搜索 You.com

实时联网检索,结构化答案,附来源与推理链。

主流厂商/产品矩阵速览

更新至2025
厂商语言模型图像/视频模型特色亮点
OpenAIGPT-4o, o1, GPT-4TurboDALL·E 3, Sora多模态、推理增强、视频生成
AnthropicClaude 3.5 Sonnet/Opus长上下文,编程与安全性领先
GoogleGemini 2.0, GemmaVeo, Imagen 3原生多模态,超长上下文2M
深度求索DeepSeek-V3, R1高性价比MoE,强推理能力
阿里通义千问 Qwen-Max通义万相开源Qwen系列,电商场景优化
MetaLlama 3.1/3.2SAM2, Chameleon开源生态领导者,分割模型SAM
涵盖语言/多模态/视频/音频/代码/垂直/端侧 分类动态更新·工业级参考

一、语言模型 (LLM)

类别模型名称开发公司/社区核心特点
闭源商用GPT-4o, GPT-4 Turbo, o1, o1-miniOpenAI原生多模态,推理增强,低延迟语音
闭源商用Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 HaikuAnthropic编程能力强,200K上下文,安全性高
闭源商用Gemini 2.0, Gemini 1.5 ProGoogle原生多模态,2M超长上下文,生态整合
闭源商用DeepSeek-V3, DeepSeek-R1深度求索MoE架构高性价比,推理能力领先,128K上下文
闭源商用文心一言 4.0, 文心一言 Turbo百度中文理解优秀,搜索生态结合紧密
闭源商用通义千问 Qwen-Max, Qwen-Plus阿里\)多模态支持,开源版本口碑好,128K上下文\)
闭源商用\)Kimi (Moonshot)\)月之暗面\)超长上下文(200万字),擅长处理大篇幅文档\)
闭源商用\)智谱清言 GLM-4, GLM-4-Plus\)智谱AI\)中英双语,工具调用能力强,128K上下文\)
闭源商用\)豆包 (Doubao), 豆包Pro\)字节跳动\)轻量快速,集成抖音生态,128K上下文\)
闭源商用\)讯飞星火 V4.0, Spark Max\)科大讯飞\)语音交互深度优化,教育领域强\)
闭源商用\)百川大模型 Baichuan 4, Baichuan 3\)百川智能\)中文金融、医疗场景优化\)
闭源商用\)MiniMax abab 6.5, abab 7\)MiniMax\)多模态,语音交互自然,128K上下文\)
闭源商用\)Perplexity AI, Groq\)Perplexity / Groq\)AI搜索引擎实时联网 / 极低延迟推理(每秒数百token)\)
开源模型\)Llama 3.1 (8B/70B/405B), Llama 3.2 (1B/3B/11B)\)Meta\)开源标杆,405B参数逼近闭源性能,支持多模态视觉\)
开源模型\)Qwen 2.5 (0.5B~72B全系列), Qwen2.5-Coder\)阿里\)多尺寸覆盖,代码数学能力强,中文友好\)
开源模型\)DeepSeek-V2.5, DeepSeek-Coder\)深度求索\)MoE架构,236B总参数激活21B,推理效率高\)
开源模型\)Mixtral 8x7B, Mistral 7B, Mistral Large\)Mistral AI\)MoE架构,性能超越Llama 2 70B,轻量高效\)
开源模型\)Yi-34B, Yi-6B\)零一万物\)双语优秀,中文支持好,34B尺寸性能突出\)
开源模型\)Phi-3.5 (3.8B/14B), Phi-3-mini\)Microsoft\)小尺寸高能力,适合端侧部署,推理能力超同尺寸\)
开源模型\)Gemma 2 (2B/9B/27B), Gemma\)Google\)轻量高效,适合移动端与边缘设备\)
开源模型\)Falcon 2 (11B), Falcon 180B\)TII\)性能稳定,多语言支持\)
开源模型\)Command R+, Command R\)Cohere\)企业级RAG优化,多语言,104B参数\)

二、图像/视频模型

子类别模型/产品名称开发公司/社区核心特点
文生图Midjourney V6 / V7Midjourney艺术风格标杆,细节丰富,Discord/Web使用
文生图DALL·E 3OpenAI与GPT深度集成,提示词理解准确
文生图Stable Diffusion 3.5, SDXL, SD3Stability AI开源生态最丰富,可本地部署,ControlNet支持
文生图Flux.1Black Forest Labs最新开源模型,图像质量接近Midjourney
文生图Ideogram 2.0Ideogram文字渲染能力极强,适合海报、标题
文生图Leonardo AI, Playground v3Leonardo / Playground游戏资产优化 / 高质量写实风格
文生图Adobe FireflyAdobe无缝集成PS/PR/AI,版权友好
文生图文心一格, 通义万相, 腾讯混元DiT百度/阿里/腾讯中文优化,国风/电商/海报场景
文生视频SoraOpenAI物理模拟能力强,最长60秒视频
文生视频Runway Gen-3, Gen-2Runway影视级质量,控制精细
文生视频可灵AI (Kling) 1.5/2.0快手真实感强,支持最长2分钟视频
文生视频Luma Dream Machine, Pika 2.0Luma / Pika Labs高质量快速生成 / 支持局部修改
文生视频Veo, CogVideoX, ViduGoogle / 智谱AI / 生数科技YouTube生态整合 / 开源中文视频生成 / 4K高清
识别/分割YOLOv8/v9/v10, SAM2, Grounding DINOUltralytics / Meta / IDEA实时目标检测/任意物体分割/开放集检测
视觉理解GPT-4V, Gemini Vision, Claude VisionOpenAI/Google/Anthropic多模态图像问答、图表分析、OCR

三、多模态模型 & 音频语音模型

类别模型/产品名称开发公司/社区核心特点
多模态GPT-4o, GPT-4o miniOpenAI文本+图像+音频+视频,端到端低延迟语音对话
多模态Gemini 2.0, Gemini 1.5 ProGoogle原生多模态,2M超长上下文,视频理解
多模态Claude 3.5 Sonnet, Claude 3 VisionAnthropic文本+图像,视觉推理能力强
多模态Qwen-VL-Max, Qwen2-VL阿里中英文OCR优秀,视频理解
多模态智谱清言 GLM-4V, LLaVA, Chameleon智谱AI / 学术社区 / Meta中文图表理解 / 开源多模态标杆 / 图文混合生成
语音识别 ASRWhisper large-v3, SenseVoice, ParaformerOpenAI / 阿里开源多语言鲁棒识别 / 中文情感识别 / 工业级中文ASR
语音合成TTSElevenLabs, Azure TTS, CosyVoice, BarkElevenLabs / Microsoft / 阿里 / Suno声音克隆标杆 / 神经网络自然度 / 开源中文合成 / 音乐音效
音乐生成Suno v4, Udio, Stable Audio, AIVASuno / Udio / Stability / AIVA音乐生成标杆/高质量控制/开源音频/配乐专用

四、编程模型 · 垂直领域 · 端侧模型 · AI搜索

类别模型/产品名称开发公司/社区核心特点
编程模型GitHub Copilot, Cursor, CodeWhispererGitHub/OpenAI / Cursor / AWS行业标杆AI编程 / AI原生IDE / 企业级安全扫描
编程模型Codeium, Tabnine, DeepSeek-Coder, CodeLlamaCodeium / Tabnine / 深度求索 / Meta免费多语言支持 / 私有化部署 / 开源代码模型
垂直领域Med-PaLM 2, BioGPT, Harvey, Bloomberg GPTGoogle / Microsoft / Harvey / Bloomberg医疗问答USMLE高分 / 生物医学文献 / 法律文书 / 金融财报
垂直领域Khanmigo, Elicit, AlphaFold 3, 阿里妈妈AIKhan Academy / Ought / DeepMind / 阿里个性化教育 / 文献综述 / 蛋白质结构预测 / 电商广告
端侧轻量级Phi-3.5 (3.8B/14B), Gemma 2 (2B/9B/27B), Llama 3.2 (1B/3B)Microsoft / Google / Meta手机端部署,小尺寸高能力,低延迟隐私计算
端侧轻量级Qwen 2.5-0.5B/1.5B, MobileLLM, OpenELM阿里 / Meta / Apple极致轻量 / 手机端推理 / Apple生态集成
AI搜索Perplexity AI, SearchGPT, Bing CopilotPerplexity / OpenAI / Microsoft实时联网检索,附来源,结构化答案
AI搜索秘塔AI搜索, 天工AI搜索, You.com秘塔科技 / 昆仑万维 / You中文AI搜索结构化 / 多模态搜索 / 个性化
分类涵盖语言模型、图像视频、多模态、音频语音、编程、垂直行业、端侧及AI搜索。数据基于主流生态持续更新。