E15 · 成本、性能与模型路由

企业 Agent 一旦进入多步执行，成本和延迟会快速变成现实问题。

一次看似简单的请求，可能包含：

意图识别；
查询改写；
RAG 检索后重排；
Text-to-SQL 计划生成；
答案生成；
工具调用结果总结。

如果每一步都用最强模型，系统会慢，也会贵。

不同步骤不需要同一个模型

IMS Copilot 可以把模型调用分层：

任务	模型策略
意图分类	小模型或规则优先
实体抽取	小模型 + schema 校验
查询改写	中等模型
高风险计划	强模型 + 校验
最终回答	按场景选择模型
审计摘要	小模型或模板

关键原则是：把强模型用在需要推理和综合判断的地方，而不是每个步骤都用。

路由依据

模型路由至少要看四个维度：

维度	说明
任务类型	分类、抽取、生成、推理
风险等级	是否涉及写操作或敏感数据
上下文长度	是否需要处理长制度文档
延迟要求	是否在用户实时等待路径上

可以抽象成：

type ModelRouteDecision = {
  taskType: 'classify' | 'extract' | 'rewrite' | 'reason' | 'summarize'
  riskLevel: 'low' | 'medium' | 'high'
  latencyClass: 'realtime' | 'background'
  selectedModel: string
  fallbackModel?: string
}

模型路由应该是运行时策略，不要散落在各个 Prompt 里。

缓存要谨慎

企业 Agent 里缓存很有价值，但也很危险。

可以缓存：

公共制度文档的检索结果；
文档 chunk 的 embedding；
非敏感的意图分类结果；
操作入口配置。

不应该随便缓存：

个人数据查询结果；
带用户身份的完整回答；
高风险工具调用结果；
审计明细。

缓存的核心问题不是能不能命中，而是会不会跨用户泄露。

降级策略

生产系统一定会遇到模型超时或服务不可用。

IMS Copilot 可以按能力降级：

能力	降级方式
Policy Q&A	返回检索到的原文摘要和引用
个人数据查询	返回结构化结果，不做复杂总结
操作引导	返回固定流程模板
流程自动化	停止在确认前，不执行写操作

高风险场景的降级原则是：宁可少做，不要盲做。

这一篇的结论

企业 Agent 的成本和性能优化，不是简单换便宜模型。

它要把任务拆细，按任务类型、风险等级、上下文长度和延迟要求做路由。

IMS Copilot 的稳定方案是：

小任务小模型；
高风险计划强模型；
公共知识可缓存；
个人数据慎缓存；
模型失败时按能力降级；
写操作失败或不确定时直接停在安全边界。

E15 · 成本、性能与模型路由 ​

不同步骤不需要同一个模型 ​

路由依据 ​

缓存要谨慎 ​

降级策略 ​