AI导航百科 - 通往AI世界的钥匙

分类指南

按功能 · 架构 · 领域分类

语言模型 · 图像视频 · 多模态 · 音频 · 编程 · 垂直行业 · 端侧模型 · AI搜索 — 最新最全的AI模型生态参考

闭源 & 开源多模态演进端侧部署

语言模型 · LLM

文本生成 · 推理 · 代码

闭源商用模型

API / Web

GPT-4o OpenAI

GPT-4 Turbo OpenAI

o1 / o1-mini OpenAI

Claude 3.5 Sonnet Anthropic

Claude 3 Opus Anthropic

Gemini 2.0 Pro Google

DeepSeek-V3 深度求索

DeepSeek-R1 深度求索

文心一言 4.0 百度

通义千问-Max 阿里

Kimi (Moonshot) 月之暗面

智谱清言 GLM-4 智谱AI

豆包 Doubao 字节跳动

讯飞星火科大讯飞

百川4 百川智能

MiniMax abab6.5 MiniMax

Perplexity AI AI搜索增强

Groq 超低延迟推理

开源模型 · 社区生态

可本地部署

Llama 3.1 / 3.2 Meta

Qwen 2.5 阿里 (0.5B-72B)

DeepSeek-V2.5 深度求索 (MoE)

Mixtral 8x7B Mistral AI

Yi-34B 零一万物

Falcon 2 TII

Phi-3.5 Microsoft

Gemma 2 Google (2B/9B/27B)

Command R+ Cohere

图像 · 视频模型

生成 · 识别 · 编辑

文生图 · 创意引擎

Midjourney V6/V7 DALL·E 3 Stable Diffusion 3.5 Flux.1 Ideogram 2.0 Leonardo AI Playground v3 Adobe Firefly 文心一格通义万相腾讯混元DiT

开源生态: SDXL / ControlNet / ComfyUI 工作流

文生视频 · 动态生成

Sora (OpenAI) Runway Gen-3 可灵AI (Kling) Luma Dream Machine Pika 2.0 Veo (Google) CogVideoX Vidu

识别/分割: YOLOv8/v10 · SAM2 · Grounding DINO · GPT-4V视觉

多模态模型 (文本+图像+音频+视频)

GPT-4o 端到端语音对话

Gemini 2.0/1.5 Pro 原生多模态 2M上下文

Claude 3.5 Sonnet 视觉推理强

Qwen-VL-Max 中英文OCR

智谱GLM-4V 图表理解

LLaVA / Chameleon 开源多模态

ImageBind 六模态对齐

Fuyu-8B 轻量端侧

音频 · 语音 · 音乐

🎙️ 语音识别 ASR Whisper · SenseVoice · Paraformer · Conformer

🗣️ 语音合成 & 声音克隆 ElevenLabs · Azure TTS · CosyVoice · Bark · ChatTTS · Fish Speech

🎵 音乐/Audio生成 Suno v4 · Udio · Stable Audio · AIVA · MusicFX

编程模型 · 代码助手

GitHub Copilot Cursor CodeWhisperer Codeium Tabnine DeepSeek-Coder CodeLlama Qwen-Coder Phind

集成IDE，代码补全、重构、Debug，Claude 3.5 Sonnet编程榜领先

垂直领域 · 行业大模型

🏥 医疗 Med-PaLM 2, BioGPT, Clinical Camel

💰 金融 Bloomberg GPT, FinGPT

⚖️ 法律 Harvey, Casetext CoCounsel

📚 教育 Khanmigo, Socratic

🔬 科学/科研 AlphaFold 3, Elicit, Scite, ChemCrow

🛒 电商/客服阿里妈妈AI, 网易七鱼

端侧/轻量级模型

Phi-3.5-mini (3.8B) Gemma 2 (2B/9B/27B) Llama 3.2 (1B/3B) Qwen 2.5-0.5B/1.5B MobileLLM OpenELM (Apple)

手机/笔记本/嵌入式本地运行，低延迟隐私计算。

AI搜索 · 推理增强

Perplexity AI SearchGPT (原型) Bing Copilot 秘塔AI搜索天工AI搜索 You.com

实时联网检索，结构化答案，附来源与推理链。

主流厂商/产品矩阵速览

更新至2025

厂商	语言模型	图像/视频模型	特色亮点
OpenAI	GPT-4o, o1, GPT-4Turbo	DALL·E 3, Sora	多模态、推理增强、视频生成
Anthropic	Claude 3.5 Sonnet/Opus	—	长上下文，编程与安全性领先
Google	Gemini 2.0, Gemma	Veo, Imagen 3	原生多模态，超长上下文2M
深度求索	DeepSeek-V3, R1	—	高性价比MoE，强推理能力
阿里	通义千问 Qwen-Max	通义万相	开源Qwen系列，电商场景优化
Meta	Llama 3.1/3.2	SAM2, Chameleon	开源生态领导者，分割模型SAM

涵盖语言/多模态/视频/音频/代码/垂直/端侧分类动态更新·工业级参考

一、语言模型 (LLM)

类别	模型名称	开发公司/社区	核心特点
闭源商用	GPT-4o, GPT-4 Turbo, o1, o1-mini	OpenAI	原生多模态，推理增强，低延迟语音
闭源商用	Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku	Anthropic	编程能力强，200K上下文，安全性高
闭源商用	Gemini 2.0, Gemini 1.5 Pro	Google	原生多模态，2M超长上下文，生态整合
闭源商用	DeepSeek-V3, DeepSeek-R1	深度求索	MoE架构高性价比，推理能力领先，128K上下文
闭源商用	文心一言 4.0, 文心一言 Turbo	百度	中文理解优秀，搜索生态结合紧密
闭源商用	通义千问 Qwen-Max, Qwen-Plus	阿里\)	多模态支持，开源版本口碑好，128K上下文\)
闭源商用\)	Kimi (Moonshot)\)	月之暗面\)	超长上下文(200万字)，擅长处理大篇幅文档\)
闭源商用\)	智谱清言 GLM-4, GLM-4-Plus\)	智谱AI\)	中英双语，工具调用能力强，128K上下文\)
闭源商用\)	豆包 (Doubao), 豆包Pro\)	字节跳动\)	轻量快速，集成抖音生态，128K上下文\)
闭源商用\)	讯飞星火 V4.0, Spark Max\)	科大讯飞\)	语音交互深度优化，教育领域强\)
闭源商用\)	百川大模型 Baichuan 4, Baichuan 3\)	百川智能\)	中文金融、医疗场景优化\)
闭源商用\)	MiniMax abab 6.5, abab 7\)	MiniMax\)	多模态，语音交互自然，128K上下文\)
闭源商用\)	Perplexity AI, Groq\)	Perplexity / Groq\)	AI搜索引擎实时联网 / 极低延迟推理(每秒数百token)\)
开源模型\)	Llama 3.1 (8B/70B/405B), Llama 3.2 (1B/3B/11B)\)	Meta\)	开源标杆，405B参数逼近闭源性能，支持多模态视觉\)
开源模型\)	Qwen 2.5 (0.5B~72B全系列), Qwen2.5-Coder\)	阿里\)	多尺寸覆盖，代码数学能力强，中文友好\)
开源模型\)	DeepSeek-V2.5, DeepSeek-Coder\)	深度求索\)	MoE架构，236B总参数激活21B，推理效率高\)
开源模型\)	Mixtral 8x7B, Mistral 7B, Mistral Large\)	Mistral AI\)	MoE架构，性能超越Llama 2 70B，轻量高效\)
开源模型\)	Yi-34B, Yi-6B\)	零一万物\)	双语优秀，中文支持好，34B尺寸性能突出\)
开源模型\)	Phi-3.5 (3.8B/14B), Phi-3-mini\)	Microsoft\)	小尺寸高能力，适合端侧部署，推理能力超同尺寸\)
开源模型\)	Gemma 2 (2B/9B/27B), Gemma\)	Google\)	轻量高效，适合移动端与边缘设备\)
开源模型\)	Falcon 2 (11B), Falcon 180B\)	TII\)	性能稳定，多语言支持\)
开源模型\)	Command R+, Command R\)	Cohere\)	企业级RAG优化，多语言，104B参数\)

类别

模型名称

开发公司/社区

核心特点

闭源商用

GPT-4o, GPT-4 Turbo, o1, o1-mini

OpenAI

原生多模态，推理增强，低延迟语音

闭源商用

Claude 3.5 Sonnet, Claude 3 Opus, Claude 3 Haiku

Anthropic

编程能力强，200K上下文，安全性高

闭源商用

Gemini 2.0, Gemini 1.5 Pro

Google

原生多模态，2M超长上下文，生态整合

闭源商用

DeepSeek-V3, DeepSeek-R1

深度求索

MoE架构高性价比，推理能力领先，128K上下文

闭源商用

文心一言 4.0, 文心一言 Turbo

百度

中文理解优秀，搜索生态结合紧密

闭源商用

通义千问 Qwen-Max, Qwen-Plus

阿里\)

多模态支持，开源版本口碑好，128K上下文\)

闭源商用\)

Kimi (Moonshot)\)

月之暗面\)

超长上下文(200万字)，擅长处理大篇幅文档\)

闭源商用\)

智谱清言 GLM-4, GLM-4-Plus\)

智谱AI\)

中英双语，工具调用能力强，128K上下文\)

闭源商用\)

豆包 (Doubao), 豆包Pro\)

字节跳动\)

轻量快速，集成抖音生态，128K上下文\)

闭源商用\)

讯飞星火 V4.0, Spark Max\)

科大讯飞\)

语音交互深度优化，教育领域强\)

闭源商用\)

百川大模型 Baichuan 4, Baichuan 3\)

百川智能\)

中文金融、医疗场景优化\)

闭源商用\)

MiniMax abab 6.5, abab 7\)

MiniMax\)

多模态，语音交互自然，128K上下文\)

闭源商用\)

Perplexity AI, Groq\)

Perplexity / Groq\)

AI搜索引擎实时联网 / 极低延迟推理(每秒数百token)\)

开源模型\)

Llama 3.1 (8B/70B/405B), Llama 3.2 (1B/3B/11B)\)

Meta\)

开源标杆，405B参数逼近闭源性能，支持多模态视觉\)

开源模型\)

Qwen 2.5 (0.5B~72B全系列), Qwen2.5-Coder\)

阿里\)

多尺寸覆盖，代码数学能力强，中文友好\)

开源模型\)

DeepSeek-V2.5, DeepSeek-Coder\)

深度求索\)

MoE架构，236B总参数激活21B，推理效率高\)

开源模型\)

Mixtral 8x7B, Mistral 7B, Mistral Large\)

Mistral AI\)

MoE架构，性能超越Llama 2 70B，轻量高效\)

开源模型\)

Yi-34B, Yi-6B\)

零一万物\)

双语优秀，中文支持好，34B尺寸性能突出\)

开源模型\)

Phi-3.5 (3.8B/14B), Phi-3-mini\)

Microsoft\)

小尺寸高能力，适合端侧部署，推理能力超同尺寸\)

开源模型\)

Gemma 2 (2B/9B/27B), Gemma\)

Google\)

轻量高效，适合移动端与边缘设备\)

开源模型\)

Falcon 2 (11B), Falcon 180B\)

TII\)

性能稳定，多语言支持\)

开源模型\)

Command R+, Command R\)

Cohere\)

企业级RAG优化，多语言，104B参数\)

二、图像/视频模型

子类别	模型/产品名称	开发公司/社区	核心特点
文生图	Midjourney V6 / V7	Midjourney	艺术风格标杆，细节丰富，Discord/Web使用
文生图	DALL·E 3	OpenAI	与GPT深度集成，提示词理解准确
文生图	Stable Diffusion 3.5, SDXL, SD3	Stability AI	开源生态最丰富，可本地部署，ControlNet支持
文生图	Flux.1	Black Forest Labs	最新开源模型，图像质量接近Midjourney
文生图	Ideogram 2.0	Ideogram	文字渲染能力极强，适合海报、标题
文生图	Leonardo AI, Playground v3	Leonardo / Playground	游戏资产优化 / 高质量写实风格
文生图	Adobe Firefly	Adobe	无缝集成PS/PR/AI，版权友好
文生图	文心一格, 通义万相, 腾讯混元DiT	百度/阿里/腾讯	中文优化，国风/电商/海报场景
文生视频	Sora	OpenAI	物理模拟能力强，最长60秒视频
文生视频	Runway Gen-3, Gen-2	Runway	影视级质量，控制精细
文生视频	可灵AI (Kling) 1.5/2.0	快手	真实感强，支持最长2分钟视频
文生视频	Luma Dream Machine, Pika 2.0	Luma / Pika Labs	高质量快速生成 / 支持局部修改
文生视频	Veo, CogVideoX, Vidu	Google / 智谱AI / 生数科技	YouTube生态整合 / 开源中文视频生成 / 4K高清
识别/分割	YOLOv8/v9/v10, SAM2, Grounding DINO	Ultralytics / Meta / IDEA	实时目标检测/任意物体分割/开放集检测
视觉理解	GPT-4V, Gemini Vision, Claude Vision	OpenAI/Google/Anthropic	多模态图像问答、图表分析、OCR

子类别

模型/产品名称

开发公司/社区

核心特点

文生图

Midjourney V6 / V7

Midjourney

艺术风格标杆，细节丰富，Discord/Web使用

文生图

DALL·E 3

OpenAI

与GPT深度集成，提示词理解准确

文生图

Stable Diffusion 3.5, SDXL, SD3

Stability AI

开源生态最丰富，可本地部署，ControlNet支持

文生图

Flux.1

Black Forest Labs

最新开源模型，图像质量接近Midjourney

文生图

Ideogram 2.0

Ideogram

文字渲染能力极强，适合海报、标题

文生图

Leonardo AI, Playground v3

Leonardo / Playground

游戏资产优化 / 高质量写实风格

文生图

Adobe Firefly

Adobe

无缝集成PS/PR/AI，版权友好

文生图

文心一格, 通义万相, 腾讯混元DiT

百度/阿里/腾讯

中文优化，国风/电商/海报场景

文生视频

Sora

OpenAI

物理模拟能力强，最长60秒视频

文生视频

Runway Gen-3, Gen-2

Runway

影视级质量，控制精细

文生视频

可灵AI (Kling) 1.5/2.0

快手

真实感强，支持最长2分钟视频

文生视频

Luma Dream Machine, Pika 2.0

Luma / Pika Labs

高质量快速生成 / 支持局部修改

文生视频

Veo, CogVideoX, Vidu

Google / 智谱AI / 生数科技

YouTube生态整合 / 开源中文视频生成 / 4K高清

识别/分割

YOLOv8/v9/v10, SAM2, Grounding DINO

Ultralytics / Meta / IDEA

实时目标检测/任意物体分割/开放集检测

视觉理解

GPT-4V, Gemini Vision, Claude Vision

OpenAI/Google/Anthropic

多模态图像问答、图表分析、OCR

三、多模态模型 & 音频语音模型

类别	模型/产品名称	开发公司/社区	核心特点
多模态	GPT-4o, GPT-4o mini	OpenAI	文本+图像+音频+视频，端到端低延迟语音对话
多模态	Gemini 2.0, Gemini 1.5 Pro	Google	原生多模态，2M超长上下文，视频理解
多模态	Claude 3.5 Sonnet, Claude 3 Vision	Anthropic	文本+图像，视觉推理能力强
多模态	Qwen-VL-Max, Qwen2-VL	阿里	中英文OCR优秀，视频理解
多模态	智谱清言 GLM-4V, LLaVA, Chameleon	智谱AI / 学术社区 / Meta	中文图表理解 / 开源多模态标杆 / 图文混合生成
语音识别 ASR	Whisper large-v3, SenseVoice, Paraformer	OpenAI / 阿里	开源多语言鲁棒识别 / 中文情感识别 / 工业级中文ASR
语音合成TTS	ElevenLabs, Azure TTS, CosyVoice, Bark	ElevenLabs / Microsoft / 阿里 / Suno	声音克隆标杆 / 神经网络自然度 / 开源中文合成 / 音乐音效
音乐生成	Suno v4, Udio, Stable Audio, AIVA	Suno / Udio / Stability / AIVA	音乐生成标杆/高质量控制/开源音频/配乐专用

类别

模型/产品名称

开发公司/社区

核心特点

多模态

GPT-4o, GPT-4o mini

OpenAI

文本+图像+音频+视频，端到端低延迟语音对话

多模态

Gemini 2.0, Gemini 1.5 Pro

Google

原生多模态，2M超长上下文，视频理解

多模态

Claude 3.5 Sonnet, Claude 3 Vision

Anthropic

文本+图像，视觉推理能力强

多模态

Qwen-VL-Max, Qwen2-VL

阿里

中英文OCR优秀，视频理解

多模态

智谱清言 GLM-4V, LLaVA, Chameleon

智谱AI / 学术社区 / Meta

中文图表理解 / 开源多模态标杆 / 图文混合生成

语音识别 ASR

Whisper large-v3, SenseVoice, Paraformer

OpenAI / 阿里

开源多语言鲁棒识别 / 中文情感识别 / 工业级中文ASR

语音合成TTS

ElevenLabs, Azure TTS, CosyVoice, Bark

ElevenLabs / Microsoft / 阿里 / Suno

声音克隆标杆 / 神经网络自然度 / 开源中文合成 / 音乐音效

音乐生成

Suno v4, Udio, Stable Audio, AIVA

Suno / Udio / Stability / AIVA

音乐生成标杆/高质量控制/开源音频/配乐专用

四、编程模型 · 垂直领域 · 端侧模型 · AI搜索

类别	模型/产品名称	开发公司/社区	核心特点
编程模型	GitHub Copilot, Cursor, CodeWhisperer	GitHub/OpenAI / Cursor / AWS	行业标杆AI编程 / AI原生IDE / 企业级安全扫描
编程模型	Codeium, Tabnine, DeepSeek-Coder, CodeLlama	Codeium / Tabnine / 深度求索 / Meta	免费多语言支持 / 私有化部署 / 开源代码模型
垂直领域	Med-PaLM 2, BioGPT, Harvey, Bloomberg GPT	Google / Microsoft / Harvey / Bloomberg	医疗问答USMLE高分 / 生物医学文献 / 法律文书 / 金融财报
垂直领域	Khanmigo, Elicit, AlphaFold 3, 阿里妈妈AI	Khan Academy / Ought / DeepMind / 阿里	个性化教育 / 文献综述 / 蛋白质结构预测 / 电商广告
端侧轻量级	Phi-3.5 (3.8B/14B), Gemma 2 (2B/9B/27B), Llama 3.2 (1B/3B)	Microsoft / Google / Meta	手机端部署，小尺寸高能力，低延迟隐私计算
端侧轻量级	Qwen 2.5-0.5B/1.5B, MobileLLM, OpenELM	阿里 / Meta / Apple	极致轻量 / 手机端推理 / Apple生态集成
AI搜索	Perplexity AI, SearchGPT, Bing Copilot	Perplexity / OpenAI / Microsoft	实时联网检索，附来源，结构化答案
AI搜索	秘塔AI搜索, 天工AI搜索, You.com	秘塔科技 / 昆仑万维 / You	中文AI搜索结构化 / 多模态搜索 / 个性化

类别

模型/产品名称

开发公司/社区

核心特点

编程模型

GitHub Copilot, Cursor, CodeWhisperer

GitHub/OpenAI / Cursor / AWS

行业标杆AI编程 / AI原生IDE / 企业级安全扫描

编程模型

Codeium, Tabnine, DeepSeek-Coder, CodeLlama

Codeium / Tabnine / 深度求索 / Meta

免费多语言支持 / 私有化部署 / 开源代码模型

垂直领域

Med-PaLM 2, BioGPT, Harvey, Bloomberg GPT

Google / Microsoft / Harvey / Bloomberg

医疗问答USMLE高分 / 生物医学文献 / 法律文书 / 金融财报

垂直领域

Khanmigo, Elicit, AlphaFold 3, 阿里妈妈AI

Khan Academy / Ought / DeepMind / 阿里

个性化教育 / 文献综述 / 蛋白质结构预测 / 电商广告

端侧轻量级

Phi-3.5 (3.8B/14B), Gemma 2 (2B/9B/27B), Llama 3.2 (1B/3B)

Microsoft / Google / Meta

手机端部署，小尺寸高能力，低延迟隐私计算

端侧轻量级

Qwen 2.5-0.5B/1.5B, MobileLLM, OpenELM

阿里 / Meta / Apple

极致轻量 / 手机端推理 / Apple生态集成

AI搜索

Perplexity AI, SearchGPT, Bing Copilot

Perplexity / OpenAI / Microsoft

实时联网检索，附来源，结构化答案

AI搜索

秘塔AI搜索, 天工AI搜索, You.com

秘塔科技 / 昆仑万维 / You

中文AI搜索结构化 / 多模态搜索 / 个性化