Skip to content

Embedding 模型怎么选 | 从零理解如何构建 AI Agent

帮助你快速判断本章定位、前置要求与学习目标。

说明:本文是截至 2026-06 的选型图谱,不是实时排名。模型能力、价格、部署选项和版本会变化,采购或上线前请以官方文档、价格页、版本说明和业务样本评测为准。

阅读定位

这篇只解决 Embedding 模型选型,不解决完整 RAG 架构。Chunk、metadata、权限过滤、Hybrid、Rerank 和评估闭环需要结合后续文章一起设计。

这个类别解决什么

Embedding 模型负责把文本、代码或其他内容编码成向量,让系统可以用相似度做语义召回。

它解决的是:

text
文本或代码
  -> 向量表示
  -> 相似度检索
  -> 候选 chunk

它不解决:

  • 文档解析;
  • chunk 边界;
  • 权限过滤;
  • 文档版本;
  • 实时信息;
  • rerank 排序;
  • 最终答案是否忠于引用。

如果 chunk、metadata 或权限模型错了,换更贵的 Embedding 模型也救不回来。

主流选择有哪些

方案本质强项代价适合场景不适合场景
OpenAI text-embedding-3-small托管 Embedding成本低、通用、多语言能力稳定依赖外部服务,合规要评估SaaS、通用知识库、成本敏感生产系统数据不能出域、强私有化
OpenAI text-embedding-3-large托管 Embedding精度更高、通用能力强成本更高,向量维度和存储成本更高高质量通用 RAG、多语言知识库极低成本、大规模离线入库
Cohere Embed托管 Embedding企业搜索、多语言、检索任务优化成本和供应商绑定企业搜索、多语言 RAG强内网部署
Voyage Embeddings托管 Embedding检索、代码、专业领域模型选择多依赖外部服务,版本选择要评测代码 RAG、法律、金融等专业检索数据不能出域
BGE 系列开源 Embedding中文、多语言、本地部署友好需要部署、压测和调优中文知识库、私有化、本地 RAG不想维护模型服务
BGE-M3开源多语言 Embedding多语言,支持 dense、sparse、多向量思路部署和性能调优成本更高中英混合、私有化、Hybrid 检索极简 Demo
E5 系列开源 Embedding通用检索稳定,生态成熟中文和领域效果要实测开源通用 RAG、本地部署强中文业务不验证直接上线
GTE 系列开源 Embedding中文/英文通用语义检索需要用业务样本 benchmark通用知识库、本地部署高精度生产场景不测试直接用
Jina Embeddings开源/托管 Embedding长文本、多语言、多模态方向能力具体版本差异要验证长文档、多语言、多模态场景简单低成本中文 RAG
Nomic Embed开源 Embedding本地、低成本、通用极高精度场景要评估本地应用、低成本 RAG企业高精度问答直接上线

不要把这个表当排名。Embedding 模型必须用自己的问题、自己的文档和自己的语言测。

怎么选

text
中文知识库?
  -> BGE / BGE-M3 / GTE / OpenAI / Cohere 都可以进候选。
     用中文业务样本实测,不要只看英文榜单。

中英混合?
  -> 优先多语言 Embedding。
     不要让中英文进入两个不可对齐的向量空间。

代码库 Agent?
  -> 不要只靠普通文本 Embedding。
     要结合符号索引、文件路径、调用关系和测试关系。

私有化部署?
  -> BGE / E5 / GTE / Jina / Nomic 优先。

快速生产,不想维护模型服务?
  -> OpenAI / Cohere / Voyage 这类托管模型优先。

大规模入库,成本敏感?
  -> 先选低成本模型,再用 Hybrid + Rerank 补精度。

高精度问答?
  -> Embedding 只是第一阶段召回,通常还要 Reranker。

关键指标

指标含义工程影响
维度向量长度影响存储、索引大小和检索成本
上下文长度单次可编码文本长度影响 chunk 策略
多语言能力不同语言是否能对齐到同一语义空间影响中英混合知识库
领域能力是否适合代码、法律、金融、医学等资料影响垂直知识库召回
吞吐单位时间可编码多少文本影响入库速度和更新成本
成本调用或部署成本影响大规模索引和重建
可部署性托管还是本地影响合规、运维和延迟
版本稳定性模型升级是否改变向量空间影响索引重建

Embedding 模型一换,旧向量通常不能直接混用。生产系统要记录 embedding_modeldimensionversion 和构建时间。

不同场景的推荐方向

场景推荐方向不要先做什么
POC / DemoOpenAI small、Chroma 默认模型、BGE 小模型不要一开始自建复杂模型服务
中文企业知识库BGE / BGE-M3 / GTE / OpenAI,多模型实测不要只看英文 benchmark
多语言知识库多语言 Embedding不要按语言拆成互不兼容的索引
代码库 RAG代码友好 Embedding + 符号索引不要只按普通文档切 chunk
强私有化开源 Embedding 本地部署不要把敏感资料发给外部服务
大规模低成本低成本 Embedding + Hybrid + Rerank不要直接用最贵模型全量入库
高准确问答强 Embedding + Rerank + 固定评测集不要只优化最终答案 prompt

典型误判

误判问题
Embedding 越大越好更大意味着更高存储、成本和延迟,不一定更适合业务样本
换 Embedding 就能解决 RAG 不准chunk、metadata、权限、版本错了,换模型没用
只看榜单榜单样本和你的业务问题通常不是一回事
中文模型一定适合所有中文业务法规、客服、代码、产品文档的分布完全不同
代码库 RAG 只靠 Embedding代码需要符号、路径、调用图和测试关系
托管模型一定省事数据合规、调用成本和供应商锁定要单独评估

最小推荐

阶段推荐
本地试验BGE / E5 / GTE 小模型,或托管 small 模型
通用 SaaSOpenAI / Cohere / Voyage 这类托管模型
企业内网BGE / BGE-M3 / E5 / GTE 本地部署
代码库 Agent代码友好 Embedding + 符号索引 + Hybrid
高精度生产Embedding + BM25 + Rerank + 固定评测集

最终判断

text
中文:用业务样本测
多语言:选多语言模型
代码:Embedding 只是辅助
私有化:开源模型优先
大规模:成本和重建优先
高精度:Embedding + Rerank

Embedding 模型是召回入口,不是 RAG 质量的全部。真正的工程质量来自 chunk、metadata、权限、Hybrid、Rerank 和评估闭环。