Skip to content

E15 · 成本、性能与模型路由

企业 Agent 一旦进入多步执行,成本和延迟会快速变成现实问题。

一次看似简单的请求,可能包含:

  • 意图识别;
  • 查询改写;
  • RAG 检索后重排;
  • Text-to-SQL 计划生成;
  • 答案生成;
  • 工具调用结果总结。

如果每一步都用最强模型,系统会慢,也会贵。

不同步骤不需要同一个模型

IMS Copilot 可以把模型调用分层:

任务模型策略
意图分类小模型或规则优先
实体抽取小模型 + schema 校验
查询改写中等模型
高风险计划强模型 + 校验
最终回答按场景选择模型
审计摘要小模型或模板

关键原则是:把强模型用在需要推理和综合判断的地方,而不是每个步骤都用。

路由依据

模型路由至少要看四个维度:

维度说明
任务类型分类、抽取、生成、推理
风险等级是否涉及写操作或敏感数据
上下文长度是否需要处理长制度文档
延迟要求是否在用户实时等待路径上

可以抽象成:

ts
type ModelRouteDecision = {
  taskType: 'classify' | 'extract' | 'rewrite' | 'reason' | 'summarize'
  riskLevel: 'low' | 'medium' | 'high'
  latencyClass: 'realtime' | 'background'
  selectedModel: string
  fallbackModel?: string
}

模型路由应该是运行时策略,不要散落在各个 Prompt 里。

缓存要谨慎

企业 Agent 里缓存很有价值,但也很危险。

可以缓存:

  • 公共制度文档的检索结果;
  • 文档 chunk 的 embedding;
  • 非敏感的意图分类结果;
  • 操作入口配置。

不应该随便缓存:

  • 个人数据查询结果;
  • 带用户身份的完整回答;
  • 高风险工具调用结果;
  • 审计明细。

缓存的核心问题不是能不能命中,而是会不会跨用户泄露。

降级策略

生产系统一定会遇到模型超时或服务不可用。

IMS Copilot 可以按能力降级:

能力降级方式
Policy Q&A返回检索到的原文摘要和引用
个人数据查询返回结构化结果,不做复杂总结
操作引导返回固定流程模板
流程自动化停止在确认前,不执行写操作

高风险场景的降级原则是:宁可少做,不要盲做。

这一篇的结论

企业 Agent 的成本和性能优化,不是简单换便宜模型。

它要把任务拆细,按任务类型、风险等级、上下文长度和延迟要求做路由。

IMS Copilot 的稳定方案是:

  • 小任务小模型;
  • 高风险计划强模型;
  • 公共知识可缓存;
  • 个人数据慎缓存;
  • 模型失败时按能力降级;
  • 写操作失败或不确定时直接停在安全边界。