Skip to content

基础概念

这一类题最常出现在一面或开场提问里。面试官通常不是要听大词,而是看你能不能用干净的边界把 Agent、Chatbot、Workflow、Copilot 这些概念分开讲清楚。

这一页最适合用来打“定义题”的底子。建议先把短答版背到能顺口说出来,再用深答版补“概念本质、边界、误区”三层,这样你在被追问时不容易越答越散。读这一页时,重点不是记术语,而是记判断轴:到底是在比模型能力、系统闭环,还是执行路径。

高频题

1. Agent 和普通 LLM 对话有什么本质区别?

  • 题目:如果都是调用模型 API,为什么一个系统叫 Agent,另一个只是聊天机器人?

  • 面试官想听什么:你能不能把“模型能力”和“系统能力”分开讲,避免把 Agent 说成一个更强的大模型。

  • 短答版:核心区别不是会不会对话,而是有没有“决策后行动,再根据结果继续决策”的闭环。普通 LLM 主要负责生成文本,Agent 则把模型输出转成动作,调用工具、接收反馈并继续推进任务。

  • 深答版:

    展开深答版

    这题的本质是区分“推理能力”和“执行框架”。LLM 本身只负责在当前上下文里生成下一个最可能的 token,它天然擅长理解、归纳和生成,但它并不会自己访问文件系统、点击网页或修改数据库。Agent 则是在模型外面包了一层运行时,让模型不仅能想,还能通过工具把想法变成动作,并根据动作结果继续往下走。

    真正的边界不在于回答像不像真人,也不在于对话能不能多轮,而在于系统是否形成了“决策 -> 执行 -> 反馈 -> 再决策”的闭环。只要没有这条闭环,再长的 prompt、再强的上下文管理,本质上也还是增强版对话系统。

    工程上这意味着你要设计的不是一句更厉害的 prompt,而是工具层、状态层、权限层和循环控制层。常见误区是把“多轮聊天 + 长上下文”误当成 Agent。你可以记成:LLM 负责想,Agent 负责把想法放进行动闭环里。

  • 追问方向:如果一个系统只能调用固定一个工具,还算不算 Agent?

2. Agent 和 Workflow 有什么区别?

  • 题目:为什么不是所有自动化流程都该叫 Agent?

  • 面试官想听什么:你是否理解“开放决策”和“固定编排”是两种不同系统,不会把所有自动化都包装成 Agent。

  • 短答版:Workflow 的步骤是预先编排好的,优点是稳定、可审计、成本低;Agent 的价值在于路径不确定、需要模型动态决定下一步做什么。真正的边界不是复杂度,而是决策空间是否开放。

  • 深答版:

    展开深答版

    这题的核心是区分“固定编排”和“开放决策”。Workflow 解决的是“步骤我已经知道了,只需要系统稳定执行”;Agent 解决的是“目标清楚,但执行路径、工具选择和信息获取方式要到运行时才知道”。所以边界不在流程长短,而在决策空间是不是开放的。

    如果流程本身已经很确定,比如审批、对账、状态流转、报表生成,那 Workflow 往往更好,因为它稳定、便宜、好审计。只有当任务需要边查边判断、边做边改路线时,Agent 的灵活性才真正有价值。很多真实系统不是二选一,而是用 Workflow 管主流程,只把少数不确定节点交给 Agent。

    工程上,Workflow 的优势是可预测、可回放;Agent 的代价是调试、评估和成本治理都会更重。常见误区是因为 Agent 听起来更高级,就想重写所有流程。你可以记成:Workflow 是路径已知的执行,Agent 是路径未知的决策。

  • 追问方向:什么场景下 Workflow 明显优于 Agent?

3. 一个系统至少具备什么,才值得叫 Agent?

  • 题目:你会怎么定义最小 Agent?

  • 面试官想听什么:你有没有一个最小可落地定义,而不是把记忆、规划、RAG、Multi-Agent 全部混成“标准配置”。

  • 短答版:我会把最小 Agent 定义成三件事:模型负责理解和决策,工具负责执行动作,执行循环负责把结果继续喂回模型。记忆和规划很重要,但属于增强能力,不一定是最小闭环的硬前提。

  • 深答版:

    展开深答版

    这题本质上是在看你有没有“最小系统观”。一个系统要被叫作 Agent,至少得有三样东西:能做决策的模型、能把决策变成动作的工具、以及把执行结果继续送回去的运行循环。如果连“决策 -> 执行 -> 反馈”都没闭环,它通常还不算完整 Agent。

    这里最容易混淆的是把增强能力当成最小定义。记忆、规划、反思、RAG、多 Agent 协作都很重要,但它们解决的是“闭环做得更稳、更长、更复杂”的问题,不是“闭环是否存在”的问题。也就是说,它们更像增强件,不是出厂必备件。

    工程上先做最小闭环,再按真实故障补记忆和规划,会比一开始全堆上去更稳。常见误区是把“功能越多越像 Agent”当成判断标准。你可以记成:最小 Agent = 模型决策 + 工具执行 + 反馈回路。

  • 追问方向:为什么你把记忆和规划排在“可增强能力”而不是“最小必要条件”?

4. 什么时候不该用 Agent?

  • 题目:如果业务方说“我们也想上 Agent”,你怎么判断是不是过度设计?

  • 面试官想听什么:你是不是有工程克制,而不是一味鼓吹 Agent。

  • 短答版:如果流程高度固定、容错空间极小、必须强审计,通常不该默认上 Agent。Agent 更适合目标明确但路径不明确的问题,不适合高风险、低容错的事务型流程。

  • 深答版:

    展开深答版

    这题的核心判断是“Agent 不是默认答案”。只要业务流程高度确定、容错空间极小、而且要求强审计,优先解法通常都不是 Agent,而是规则系统、Workflow 或传统服务。像转账、扣费、报销、合规校验这类事务,本质上更强调确定性,而不是探索性。

    Agent 更适合的问题是另一类:目标明确,但路径不确定;信息不完整,需要边查边判断;外部环境会变化,必须在执行中持续修正。比如复杂调研、代码修复、异常归因、开放式客服处理,这类任务才更符合 Agent 的价值区间。

    工程取舍上,Agent 换来的是灵活性,但也会同时带来更高的不可控性、评估成本和安全风险。常见误区是把“业务方觉得新”当成技术依据。你可以记成:确定流程别上 Agent,不确定路径才考虑 Agent。

  • 追问方向:银行转账、发票审核、表单提交流程为什么不适合默认交给 Agent?

5. Agent 最大的局限是什么?

  • 题目:如果你要用一句话提醒团队别神化 Agent,你会怎么说?

  • 面试官想听什么:你有没有长期运行系统的视角,知道 Agent 真正难的不是 demo,而是稳定性和可控性。

  • 短答版:Agent 最大的局限不是不够聪明,而是它在成本、稳定性、可控性和可验证性上天然比固定系统更难。它擅长处理不确定任务,但也更容易在边界条件下失控。

  • 深答版:

    展开深答版

    这题本质上考察你是否真的理解 Agent 的工程代价。Agent 的价值来自它能处理开放任务,但开放任务的另一面,就是系统更难做到完全可预测、完全可验证、完全可审计。它不是“更聪明的程序”这么简单,而是“更灵活、也更难控的系统”。

    很多人第一反应会说幻觉,但幻觉其实只是表层。真正长期难的是:它会不会误选工具、会不会在异常路径上不断重试、会不会把上下文越滚越脏、会不会在高风险操作上做错动作。这些问题和模型聪不聪明有关,但更和系统有没有护栏有关。

    所以工程判断从来不只是“效果更强”,而是要配套评估、监控、权限、防护和人工接管机制。常见误区是把 Agent 想成会自动成长的智能员工。你可以记成:Agent 的上限来自灵活性,Agent 的代价来自不可控性。

  • 追问方向:你会优先从哪些工程手段降低这种不确定性?

扩展题

6. Agent 和普通自动化最大的分界线是什么?

  • 题目:同样都能“自动完成任务”,Agent 和脚本自动化、RPA、定时任务的本质差别到底在哪?

  • 面试官想听什么:你能不能把“自动执行”和“运行时决策”拆开,不会把一切自动化都包装成 Agent。

  • 短答版:自动化强调按预设路径稳定执行,Agent 强调在运行时根据上下文决定下一步。边界不在于有没有调用 API,而在于系统是不是在真实环境反馈下持续做选择。

  • 深答版:

    展开深答版

    这题最容易掉进“都能自动干活,所以都是 Agent”的坑。普通自动化强调的是“按预设路径稳定执行”,决策早在设计阶段就已经写死了;Agent 强调的是“在运行时根据环境反馈继续做选择”,也就是路径不是完全预先展开的。

    所以边界不在于系统有没有调 API、会不会自动运行很多步,而在于决策权落在哪里。脚本、RPA、定时任务都可以自动完成事情,但如果它们只是按既定规则走完流程,本质上还是自动化,不是 Agent。

    工程上,自动化的优势是稳定、便宜、好回放;Agent 的价值是灵活,但代价是更难测、更难控。真正成熟的系统通常是把确定流程留给自动化,把不确定节点交给 Agent。

  • 追问方向:如果一个流程只有最后一步需要模型判断,整体还算自动化还是 Agent?

7. 搜索增强或 UI 自动修复,什么时候还不算 Agent?

  • 题目:带搜索的问答系统、会自动点按钮修页面的工具,为什么很多时候不该直接叫 Agent?

  • 面试官想听什么:你是否能识别“能力增强”和“自治闭环”的区别,不会只看表面效果命名系统。

  • 短答版:有搜索、有浏览器操作不等于就是 Agent。只要路径仍然固定,模型只是填一个步骤里的内容,它更像检索系统或自动化工具,而不是自治 Agent。

  • 深答版:

    展开深答版

    这题是在考你会不会被“能查、能点、能改”这些动作迷惑。动作本身并不稀缺,关键是系统有没有围绕目标和反馈做动态决策。一个带搜索的问答,如果流程始终是“检索 -> 拼接 -> 回答”,它更像 RAG 系统;一个自动修页面的工具,如果规则是固定的,它更像工程自动化。

    真正的分界线不是有没有外部能力,而是这些能力是不是被纳入了运行时闭环。也就是说,系统会不会根据前一步结果决定下一步做什么、要不要换路径、要不要停下来,而不是只是把模型嵌进一个固定步骤里。

    工程上,乱贴 Agent 标签的问题不只是命名不准,还会让团队误判风险和治理需求。本该用稳定指标衡量的系统,被说成“智能体能力”,后续设计就容易跑偏。

  • 追问方向:一个浏览器代理如果只能按录制脚本点页面,为什么不能算真正的 Agent?

8. 什么样的系统看起来很聪明,但其实不是 Agent?

  • 题目:有些产品能多轮对话、能总结历史、还能切换模板,为什么你还是会说它不是 Agent?

  • 面试官想听什么:你能不能指出“看起来像智能”与“具备行动闭环”不是一回事。

  • 短答版:多轮对话、记忆用户偏好、回答很像真人,都只能说明交互体验更强,不等于它有自主行动能力。只要系统没有围绕目标做决策和执行闭环,它大概率仍然是增强型 Chatbot。

  • 深答版:

    展开深答版

    这题常见于产品 demo 很亮眼的时候。很多系统能多轮对话、会模仿语气、能记住上下文,甚至还能切换角色,这些都会让人主观上觉得“它像个 Agent”。但这些能力大多还停留在输入输出层,不等于系统真的会为了目标去行动。

    从工程定义看,智能感来自交互体验,Agent 性来自运行机制,这两者不能混。一个系统可以非常像真人,却仍然只是高级聊天系统;反过来,一个真正的 Agent 在交互上不一定花哨,但它有决策、执行和反馈闭环。

    工程上,如果把“很像真人”误判成“是 Agent”,就容易过度引入编排、安全和评估复杂度。更稳的做法是先看闭环是否成立,再谈体验是否像智能体。

  • 追问方向:带长期记忆的客服机器人,为什么仍可能不是 Agent?

9. Agent 和 Copilot / Assistant 的边界怎么讲?

  • 题目:很多产品都叫助手、Copilot、Agent,这几个词在面试里你会怎么区分?

  • 面试官想听什么:你能不能把“辅助用户”与“代表用户执行”拆开,不会把交互形态和系统能力混为一谈。

  • 短答版:Assistant 更偏回答和建议,Copilot 更偏人在回路里的协作增强,Agent 则更强调围绕目标自主决定并执行下一步。区别不在名字,而在系统到底是在“给建议”,还是“拿着反馈继续做事”。

  • 深答版:

    展开深答版

    这题的关键不是背定义,而是抓责任边界。Assistant 更偏回答和建议,价值主要停留在信息层;Copilot 更偏协作增强,通常嵌在具体工作流里帮人提速,但关键动作仍然由人拍板;Agent 则更进一步,它会围绕目标自己决定下一步并持续推进。

    一个很实用的区分方式是看“最后一步动作谁负责”。如果系统主要提供建议,最后操作权在用户,那更像 Assistant 或 Copilot;如果系统已经拿着反馈自己往前推进,那才更接近 Agent。它们可以混合存在,但不能因为都是聊天框就混成一类。

    工程上,越往 Agent 走,收益是自动化更强,代价是权限、安全、回放和人工接管都要更重。所以这题答得好不好,核心在于责任边界,而不是术语本身。

  • 追问方向:一个代码 Copilot 如果能自动改文件但还要人确认提交,它更像 Copilot 还是 Agent?

10. 判断一个需求值不值得先做成 Agent,最先看什么信号?

  • 题目:面对一个新需求,你第一眼看什么,来判断它有没有必要先按 Agent 方向设计?

  • 面试官想听什么:你是否有前置筛选意识,能先抓住最有信息量的信号,而不是一上来就讨论模型和工具选型。

  • 短答版:我先看这个需求是不是“目标明确,但路径和信息获取方式在运行时才知道”。如果步骤一开始就能写死,它大概率不该先按 Agent 设计。

  • 深答版:

    展开深答版

    这题和“什么时候不该用 Agent”不一样,它考的是你做方案筛选时先抓什么信号。最有信息量的判断通常不是“能不能接工具”,也不是“听起来像不像 AI”,而是任务路径是不是天然不确定。

    如果用户只给出目标,系统需要边查边判断、边行动边修正,这说明任务决策空间是开放的,Agent 才有成立空间;反过来,如果输入、规则、步骤、输出都比较稳定,那优先就该想 Workflow、规则系统或普通服务,而不是先堆 Agent 组件。

    工程上,先抓“路径是否开放”这个信号,能最快避免把所有智能需求都做成重系统,也能防止还没搞清问题类型,就开始堆记忆、规划和多工具。

  • 追问方向:如果一个需求前 80% 步骤固定,只有最后 20% 需要探索,你会怎么设计?

11. 为什么有工具调用,也不一定是 Agent?

  • 题目:如果一个系统已经会调用搜索、数据库或浏览器工具了,为什么你还是可能不把它叫 Agent?

  • 面试官想听什么:你能不能指出“会调工具”和“具备自治闭环”之间还差什么,不把 Tool Use 直接等同于 Agent。

  • 短答版:因为工具调用只说明系统多了执行能力,不说明它有运行时决策闭环。一次性按固定模板调工具,更像增强型功能;只有能基于结果继续判断下一步,才更接近 Agent。

  • 深答版:

    展开深答版

    这题特别高频,因为很多人会把 Tool Use 当成 Agent 的同义词。实际上,工具调用只是能力接口,它说明系统能“做点什么”,但不自动说明系统具备自治闭环。

    真正的分界线在于系统有没有把工具结果重新纳入决策。也就是说,它会不会根据结果决定继续、换工具、改参数还是终止。如果只是按固定模板调一次工具,然后直接出答案,那更像“模型填空 + 程序执行”,不一定是 Agent。

    工程上,把所有 Tool Use 都叫 Agent,会高估系统自治程度,也会把权限和编排责任说重。更稳的做法是把“工具接口”和“自治运行时”拆开看,边界会清楚很多。

  • 追问方向:如果工具链路是“检索一次 -> 回答一次”,你会怎么追问判断它是不是 Agent?

12. 面试里最常见的 Agent 误定义有哪些?

  • 题目:如果候选人把 Agent 说错了,你最常听到哪几种说法?

  • 面试官想听什么:你是否见过常见误区,并能快速纠偏到清晰定义。

  • 短答版:最常见的误定义有三种:把 Agent 说成更强的模型、把 Agent 说成所有自动化、把 Agent 说成必须有记忆和规划的大而全系统。它们共同的问题是都没抓住运行时决策闭环。

  • 深答版:

    展开深答版

    这题适合用“错在哪里”来展示边界感。最常见的三种误定义分别是:把 Agent 当成更强的模型、把 Agent 当成所有自动化、把 Agent 当成必须集齐记忆规划反思多 Agent 的大而全系统。

    这三种说法看起来方向不同,但共同问题都一样:它们绕开了运行时闭环这个核心。第一种混淆了模型和系统,第二种混淆了自动化和开放决策,第三种混淆了最小定义和增强能力。换句话说,它们都没有抓住 Agent 最关键的判断轴。

    面试里这题答得好,关键不是背误区清单,而是快速把主线拉回“能不能围绕目标在环境反馈里持续做决定”。只要这条主线讲清,后面很难被追问带散。

  • 追问方向:如果候选人把 RAG 问答直接说成 Agent,你会怎么追问把边界问清?

13. LLM 到底擅长什么,不擅长什么?

  • 题目:如果不谈产品包装,只谈能力边界,你会怎么概括 LLM 真正擅长和不擅长的事情?

  • 面试官想听什么:你是否能把模型本体能力和系统层能力拆开,避免把“看起来会”误判成“稳定能做”。

  • 短答版:LLM 擅长的是语言层工作,比如理解表达、归纳模式、压缩信息、组织答案;不擅长的是系统层工作,比如稳定执行、状态保持、强约束控制和高可靠事务。判断边界时,先分清这是“语言生成问题”还是“系统保证问题”。

  • 深答版:

    展开深答版

    这题的关键不是列一个“优缺点清单”,而是先把任务类型分开。LLM 本质上擅长的是语言层压缩和归纳,因此它对解释概念、总结材料、做开放式判断、把零散上下文组织成自然语言答案非常强。这也是为什么它在问答、写作、提炼、弱结构信息整合上表现亮眼。

    但只要任务开始要求强确定性、稳定状态、长期一致约束,问题就变了。LLM 并不是天生的状态机,也不是事务系统。它可能在当前上下文里把一件事说得很像会做,但一旦涉及多步执行、精确引用、跨阶段状态延续、严格格式和副作用控制,它就会暴露出不稳定的一面。也就是说,它很擅长“生成看起来合理的下一步”,不天然擅长“持续维持一个可靠系统状态”。

    所以工程上最重要的不是问“模型能不能做”,而是问“这是语言层问题,还是系统层问题”。一旦把系统可靠性、状态一致性、权限边界这些问题全压给 LLM,本质上就是让模型替代本不该由它承担的职责。面试里可以这样收口:LLM 擅长生成和归纳,不擅长替代系统保证。

  • 追问方向:如果一个团队说“模型已经够强了,很多工程护栏可以先省掉”,你会先反驳哪一点?

14. 上下文窗口变长,为什么不等于 Agent 一定更强?

  • 题目:模型上下文已经越来越长了,为什么 Agent 还要做检索、摘要、记忆分层和上下文工程?

  • 面试官想听什么:你是否理解“能放进去更多信息”和“能稳定利用这些信息”是两回事,而不是把长上下文直接等价成更强 Agent。

  • 短答版:上下文窗口变长,只说明模型一次能接收更多内容,不说明它一定能稳定抓住最重要的信息。信息越多,噪声、注意力稀释、成本和延迟问题也会一起放大。对 Agent 来说,真正决定上限的仍然是检索质量、上下文组织和状态压缩,而不是单纯把窗口拉长。

  • 深答版:

    展开深答版

    这题的核心是区分“容量提升”和“利用效率提升”。长上下文确实让系统可以一次塞进更多历史、更多文档、更多执行记录,但这并不自动等于模型能稳定地抓住关键线索。信息一多,最常见的问题不是“放不下”,而是“重点被稀释了”。模型可能看过了,但没把真正关键的证据放在当前决策中心。

    对 Agent 来说,这个问题会更明显,因为它面对的不是一次性问答,而是持续滚动的运行时上下文。长窗口能缓解一部分装载压力,却不能替代检索、摘要、去重、分层记忆这些治理动作。否则你会得到一个上下文越来越长、决策越来越慢、真正有用信息越来越难凸显的系统。也就是说,长上下文改善的是上限空间,不是自动解决信息组织问题。

    另外,工程代价也不能忽略。窗口越长,推理成本、响应延迟、日志体积和状态治理成本都可能同步上升。很多时候,真正高质量的 Agent 不是把所有内容原样塞进去,而是让正确的信息在正确的时刻以正确的形态出现。所以长上下文是能力补充,不是上下文工程的替代品。面试里可以这样收口:长上下文解决容量问题,Agent 仍然要自己解决信息组织问题。

  • 追问方向:如果你发现系统明明有长上下文,但还是频繁漏掉前面已经出现过的关键信息,你会优先怀疑哪一层设计?

15. 为什么说 LLM 有能力上限,也有能力错觉?

  • 题目:为什么很多时候大家会高估 LLM 的能力,不只是因为它会犯错,还因为它很容易制造“它好像真的会”的感觉?

  • 面试官想听什么:你是否能区分模型真实稳定具备的能力、偶然表现出的能力,以及用户和团队被表面流畅度误导后的能力幻觉。

  • 短答版:这题重点不是再说一遍“它擅长什么”,而是解释为什么人会高估它。能力上限来自它在稳定性和可验证性上的天然短板;能力错觉来自它太会把偶尔做对包装成像是一直会做。很多误判都出在把样本表现当成真实能力边界。

  • 深答版:

    展开深答版

    这题要先把两个概念拆开,而且重点放在“为什么会误判”。能力上限说的是:有些任务即使模型偶尔做成,也不代表它天然适合作为主要承载者,比如长链路稳定执行、跨阶段状态一致性维护、严格规则下的高可靠决策。这些任务要求的不只是“当前这一步像对”,而是很多步连续都不能漂,而且还得可验证、可复现、可回退。LLM 在这类问题上通常没有你想象得稳。

    能力错觉则更隐蔽。LLM 非常擅长输出一段结构完整、语气自信、局部细节也像真的内容,这会让人下意识把“表达质量”误认成“任务能力”。尤其在开放题、弱约束题、少量样例评测里,模型很容易给出高分表现,于是团队会误以为它已经具备了更广泛、更稳定的能力边界。也就是说,这题关注的是“为什么看起来会”,而不是简单重复“它会什么不会什么”。

    真正危险的地方在于,很多系统事故不是因为模型完全不会,而是因为它在前 8 次都表现得像会,第 9 次在高风险场景里突然失手。也就是说,工程判断不能根据“它能不能偶尔做对”,而要根据“它能不能在要求的可靠度下持续做对”。这就是为什么评估 LLM 不能只看 demo、单题正确率或几次人工印象。

    面试里可以用一句话收口:LLM 最容易让人误判的,不是它完全没有能力,而是它会把“偶发表现”包装得很像“稳定能力”。工程上必须按稳定下限设计,而不是按最佳样本下注。

  • 追问方向:如果一个团队拿几组惊艳案例证明“模型已经会复杂推理了”,你会追问哪些验证问题来拆掉这种错觉?

16. 为什么“会输出步骤”不等于“真的会规划”?

  • 题目:如果一个模型能把思路分成很多步写出来,为什么你不会立刻认为它就具备了稳定的规划能力?

  • 面试官想听什么:你是否能区分“语言上像计划”和“运行上能指导执行”的差别,不把步骤化表述误判成可用规划能力。

  • 短答版:因为把步骤写出来只说明模型会生成一种“像计划”的文本,不说明它真的理解了任务依赖、前提条件和关键约束。很多时候它只是把常见解法组织成多步表达,看起来有条理,但不等于具备稳定的全局规划能力。

  • 深答版:

    展开深答版

    这题的关键是区分“表述能力”和“规划能力”。LLM 很擅长把答案包装成条理清楚的多步骤形式,所以它看起来很像在规划。但很多时候,这只是语言层面的结构化输出,不代表它已经完成了真正的任务分解、依赖分析和前提识别。换句话说,能说出“第一步、第二步、第三步”,并不等于它真的建立了一个可靠的全局解法。

    真正的规划能力,至少意味着模型能识别哪些前提不能省、哪些步骤有依赖、哪些约束会改变后续路径,以及哪些局部选择会影响全局结果。如果一份“计划”只是把常识性动作堆成列表,一遇到真实约束就改口、跳步、漏前提,那它更像是在生成解释性文本,而不是在做稳定规划。

    这也是为什么很多 demo 看起来模型很会“思考”,一到复杂任务里就不稳定。因为展示里通常只看它有没有写出一串像样的步骤,但没有验证这些步骤是不是建立在正确前提上,能不能覆盖关键分支,能不能在条件变化后保持一致。规划的难点不是把步骤说出来,而是让步骤背后的约束关系真的成立。

    面试里可以收口成一句:会把答案写成多步,是语言组织能力;能稳定识别依赖、前提和约束,才更接近真正的规划能力。

  • 追问方向:如果一个模型给出的计划经常“表面完整但执行时总缺关键前提”,你会优先怀疑哪类能力缺口?

17. 为什么“能调用外部工具”不等于“有环境理解能力”?

  • 题目:如果一个模型已经会调用搜索、浏览器、数据库之类的工具,为什么你还不会轻易说它已经具备了环境理解能力?

  • 面试官想听什么:你是否能区分“会发起工具调用”和“理解环境状态、约束、反馈并据此调整行为”之间的差距。

  • 短答版:因为工具调用只说明模型多了一个外部操作接口,不说明它真的理解了环境里的状态变化、权限边界、隐含约束和反馈信号。环境理解能力要看它能不能基于外部世界的真实反馈持续修正判断,而不只是把工具当成可插拔函数。

  • 深答版:

    展开深答版

    这题很容易被“Tool Use = 更懂世界”这个错觉带偏。模型会调工具,只能说明它有机会接触外部信息和执行外部动作,但接触不等于理解。很多时候它只是学会了在某种提示格式下触发一个接口,拿回结果后再生成下一段文字。这离真正理解环境里的状态、规则和边界,还差得很远。

    真正的环境理解,至少包含几件事。第一,它要知道当前环境里哪些信息是关键的,哪些只是噪声。第二,它要知道环境是会变化的,之前有效的判断在新状态下可能失效。第三,它要能识别外部反馈的含义,比如报错是权限问题、资源不存在、参数不合法,还是状态已经变化。第四,它要能据此调整后续行为,而不是机械重复同一个调用。

    所以一个系统即使“会调工具”,也可能完全不理解环境。典型表现就是:拿到报错只会重试,看到空结果只会换个说法继续问,读到了页面信息却不知道哪些是当前决策的约束条件。这类系统看起来比纯文本模型更能做事,但本质上还是把环境当成静态输入片段,而不是一个有状态、有反馈、有边界的外部世界。

    面试里可以收口成一句:工具调用解决的是“能碰到环境”,环境理解解决的是“能不能根据环境真实变化做出正确调整”。两者差得不止一步。

  • 追问方向:如果一个 Agent 遇到同一个外部报错连续重试三次,你会怎么判断这是工具问题还是环境理解不足?

18. 为什么“模型更像人”不等于“系统更可控”?

  • 题目:很多人会说模型越像人、越会聊天、越会临场发挥,Agent 就越高级。为什么你会说这不等于系统更可控?

  • 面试官想听什么:你是否能区分“交互自然度”与“系统可预测性、可验证性、可约束性”之间的差别。

  • 短答版:因为更像人通常意味着输出更灵活、表达更自然、临场变化更多,但可控系统需要的是边界清楚、行为稳定、异常可诊断。对工程系统来说,像人可能提升体验,却不自动提升可预测性,很多时候反而会增加行为漂移和验证难度。

  • 深答版:

    展开深答版

    这题核心是把“产品体验上的像人”和“工程治理上的可控”拆开。模型更像人,通常表现为更会聊天、更会顺势补充、更会根据语境自由发挥。这对用户感知很有帮助,因为它会让交互更顺滑、更自然。但工程上,可控并不是看它像不像人,而是看它能不能在约束下稳定输出、能不能被验证、能不能在出错时被定位和收敛。

    问题在于,人类式表达往往带有更强的补全倾向和自由裁量空间。也就是说,模型越“像人”,很多时候越容易在信息不完整时主动脑补、在边界不清晰时自行解释、在模糊指令下做风格化扩展。对聊天产品这可能是优点,但对执行型 Agent,这种自由度如果没有护栏,很容易转化成行为漂移和副作用风险。

    所以对系统设计来说,一个更“像人”的模型,不一定是更好的执行核心。真正重要的是哪些能力交给模型自由发挥,哪些能力必须由系统强约束。你可以让它在表达层更自然,但不能因此把权限控制、状态一致性、规则约束这些本应由系统兜底的部分也交给它“像人一样判断”。

    面试里可以收口成一句:像人提升的是交互体验,可控提升的是系统可靠性。前者不自动推出后者,很多时候还会和后者天然拉扯。

  • 追问方向:如果一个产品团队坚持要“更像真人助理”,你会先加哪类约束,避免体验升级变成执行失控?

书内关联阅读