基础概念

这一类题最常出现在一面或开场提问里。面试官通常不是要听大词，而是看你能不能用干净的边界把 Agent、Chatbot、Workflow、Copilot 这些概念分开讲清楚。

这一页最适合用来打“定义题”的底子。建议先把短答版背到能顺口说出来，再用深答版补“概念本质、边界、误区”三层，这样你在被追问时不容易越答越散。读这一页时，重点不是记术语，而是记判断轴：到底是在比模型能力、系统闭环，还是执行路径。

高频题

1. Agent 和普通 LLM 对话有什么本质区别？

题目：如果都是调用模型 API，为什么一个系统叫 Agent，另一个只是聊天机器人？
面试官想听什么：你能不能把“模型能力”和“系统能力”分开讲，避免把 Agent 说成一个更强的大模型。
短答版：核心区别不是会不会对话，而是有没有“决策后行动，再根据结果继续决策”的闭环。普通 LLM 主要负责生成文本，Agent 则把模型输出转成动作，调用工具、接收反馈并继续推进任务。
深答版：
展开深答版
这题的本质是区分“推理能力”和“执行框架”。LLM 本身只负责在当前上下文里生成下一个最可能的 token，它天然擅长理解、归纳和生成，但它并不会自己访问文件系统、点击网页或修改数据库。Agent 则是在模型外面包了一层运行时，让模型不仅能想，还能通过工具把想法变成动作，并根据动作结果继续往下走。
真正的边界不在于回答像不像真人，也不在于对话能不能多轮，而在于系统是否形成了“决策 -> 执行 -> 反馈 -> 再决策”的闭环。只要没有这条闭环，再长的 prompt、再强的上下文管理，本质上也还是增强版对话系统。
工程上这意味着你要设计的不是一句更厉害的 prompt，而是工具层、状态层、权限层和循环控制层。常见误区是把“多轮聊天 + 长上下文”误当成 Agent。你可以记成：LLM 负责想，Agent 负责把想法放进行动闭环里。
追问方向：如果一个系统只能调用固定一个工具，还算不算 Agent？

2. Agent 和 Workflow 有什么区别？

题目：为什么不是所有自动化流程都该叫 Agent？
面试官想听什么：你是否理解“开放决策”和“固定编排”是两种不同系统，不会把所有自动化都包装成 Agent。
短答版：Workflow 的步骤是预先编排好的，优点是稳定、可审计、成本低；Agent 的价值在于路径不确定、需要模型动态决定下一步做什么。真正的边界不是复杂度，而是决策空间是否开放。
深答版：
展开深答版
这题的核心是区分“固定编排”和“开放决策”。Workflow 解决的是“步骤我已经知道了，只需要系统稳定执行”；Agent 解决的是“目标清楚，但执行路径、工具选择和信息获取方式要到运行时才知道”。所以边界不在流程长短，而在决策空间是不是开放的。
如果流程本身已经很确定，比如审批、对账、状态流转、报表生成，那 Workflow 往往更好，因为它稳定、便宜、好审计。只有当任务需要边查边判断、边做边改路线时，Agent 的灵活性才真正有价值。很多真实系统不是二选一，而是用 Workflow 管主流程，只把少数不确定节点交给 Agent。
工程上，Workflow 的优势是可预测、可回放；Agent 的代价是调试、评估和成本治理都会更重。常见误区是因为 Agent 听起来更高级，就想重写所有流程。你可以记成：Workflow 是路径已知的执行，Agent 是路径未知的决策。
追问方向：什么场景下 Workflow 明显优于 Agent？

3. 一个系统至少具备什么，才值得叫 Agent？

题目：你会怎么定义最小 Agent？
面试官想听什么：你有没有一个最小可落地定义，而不是把记忆、规划、RAG、Multi-Agent 全部混成“标准配置”。
短答版：我会把最小 Agent 定义成三件事：模型负责理解和决策，工具负责执行动作，执行循环负责把结果继续喂回模型。记忆和规划很重要，但属于增强能力，不一定是最小闭环的硬前提。
深答版：
展开深答版
这题本质上是在看你有没有“最小系统观”。一个系统要被叫作 Agent，至少得有三样东西：能做决策的模型、能把决策变成动作的工具、以及把执行结果继续送回去的运行循环。如果连“决策 -> 执行 -> 反馈”都没闭环，它通常还不算完整 Agent。
这里最容易混淆的是把增强能力当成最小定义。记忆、规划、反思、RAG、多 Agent 协作都很重要，但它们解决的是“闭环做得更稳、更长、更复杂”的问题，不是“闭环是否存在”的问题。也就是说，它们更像增强件，不是出厂必备件。
工程上先做最小闭环，再按真实故障补记忆和规划，会比一开始全堆上去更稳。常见误区是把“功能越多越像 Agent”当成判断标准。你可以记成：最小 Agent = 模型决策 + 工具执行 + 反馈回路。
追问方向：为什么你把记忆和规划排在“可增强能力”而不是“最小必要条件”？

4. 什么时候不该用 Agent？

题目：如果业务方说“我们也想上 Agent”，你怎么判断是不是过度设计？
面试官想听什么：你是不是有工程克制，而不是一味鼓吹 Agent。
短答版：如果流程高度固定、容错空间极小、必须强审计，通常不该默认上 Agent。Agent 更适合目标明确但路径不明确的问题，不适合高风险、低容错的事务型流程。
深答版：
展开深答版
这题的核心判断是“Agent 不是默认答案”。只要业务流程高度确定、容错空间极小、而且要求强审计，优先解法通常都不是 Agent，而是规则系统、Workflow 或传统服务。像转账、扣费、报销、合规校验这类事务，本质上更强调确定性，而不是探索性。
Agent 更适合的问题是另一类：目标明确，但路径不确定；信息不完整，需要边查边判断；外部环境会变化，必须在执行中持续修正。比如复杂调研、代码修复、异常归因、开放式客服处理，这类任务才更符合 Agent 的价值区间。
工程取舍上，Agent 换来的是灵活性，但也会同时带来更高的不可控性、评估成本和安全风险。常见误区是把“业务方觉得新”当成技术依据。你可以记成：确定流程别上 Agent，不确定路径才考虑 Agent。
追问方向：银行转账、发票审核、表单提交流程为什么不适合默认交给 Agent？

5. Agent 最大的局限是什么？

题目：如果你要用一句话提醒团队别神化 Agent，你会怎么说？
面试官想听什么：你有没有长期运行系统的视角，知道 Agent 真正难的不是 demo，而是稳定性和可控性。
短答版：Agent 最大的局限不是不够聪明，而是它在成本、稳定性、可控性和可验证性上天然比固定系统更难。它擅长处理不确定任务，但也更容易在边界条件下失控。
深答版：
展开深答版
这题本质上考察你是否真的理解 Agent 的工程代价。Agent 的价值来自它能处理开放任务，但开放任务的另一面，就是系统更难做到完全可预测、完全可验证、完全可审计。它不是“更聪明的程序”这么简单，而是“更灵活、也更难控的系统”。
很多人第一反应会说幻觉，但幻觉其实只是表层。真正长期难的是：它会不会误选工具、会不会在异常路径上不断重试、会不会把上下文越滚越脏、会不会在高风险操作上做错动作。这些问题和模型聪不聪明有关，但更和系统有没有护栏有关。
所以工程判断从来不只是“效果更强”，而是要配套评估、监控、权限、防护和人工接管机制。常见误区是把 Agent 想成会自动成长的智能员工。你可以记成：Agent 的上限来自灵活性，Agent 的代价来自不可控性。
追问方向：你会优先从哪些工程手段降低这种不确定性？

扩展题

6. Agent 和普通自动化最大的分界线是什么？

题目：同样都能“自动完成任务”，Agent 和脚本自动化、RPA、定时任务的本质差别到底在哪？
面试官想听什么：你能不能把“自动执行”和“运行时决策”拆开，不会把一切自动化都包装成 Agent。
短答版：自动化强调按预设路径稳定执行，Agent 强调在运行时根据上下文决定下一步。边界不在于有没有调用 API，而在于系统是不是在真实环境反馈下持续做选择。
深答版：
展开深答版
这题最容易掉进“都能自动干活，所以都是 Agent”的坑。普通自动化强调的是“按预设路径稳定执行”，决策早在设计阶段就已经写死了；Agent 强调的是“在运行时根据环境反馈继续做选择”，也就是路径不是完全预先展开的。
所以边界不在于系统有没有调 API、会不会自动运行很多步，而在于决策权落在哪里。脚本、RPA、定时任务都可以自动完成事情，但如果它们只是按既定规则走完流程，本质上还是自动化，不是 Agent。
工程上，自动化的优势是稳定、便宜、好回放；Agent 的价值是灵活，但代价是更难测、更难控。真正成熟的系统通常是把确定流程留给自动化，把不确定节点交给 Agent。
追问方向：如果一个流程只有最后一步需要模型判断，整体还算自动化还是 Agent？

7. 搜索增强或 UI 自动修复，什么时候还不算 Agent？

题目：带搜索的问答系统、会自动点按钮修页面的工具，为什么很多时候不该直接叫 Agent？
面试官想听什么：你是否能识别“能力增强”和“自治闭环”的区别，不会只看表面效果命名系统。
短答版：有搜索、有浏览器操作不等于就是 Agent。只要路径仍然固定，模型只是填一个步骤里的内容，它更像检索系统或自动化工具，而不是自治 Agent。
深答版：
展开深答版
这题是在考你会不会被“能查、能点、能改”这些动作迷惑。动作本身并不稀缺，关键是系统有没有围绕目标和反馈做动态决策。一个带搜索的问答，如果流程始终是“检索 -> 拼接 -> 回答”，它更像 RAG 系统；一个自动修页面的工具，如果规则是固定的，它更像工程自动化。
真正的分界线不是有没有外部能力，而是这些能力是不是被纳入了运行时闭环。也就是说，系统会不会根据前一步结果决定下一步做什么、要不要换路径、要不要停下来，而不是只是把模型嵌进一个固定步骤里。
工程上，乱贴 Agent 标签的问题不只是命名不准，还会让团队误判风险和治理需求。本该用稳定指标衡量的系统，被说成“智能体能力”，后续设计就容易跑偏。
追问方向：一个浏览器代理如果只能按录制脚本点页面，为什么不能算真正的 Agent？

8. 什么样的系统看起来很聪明，但其实不是 Agent？

题目：有些产品能多轮对话、能总结历史、还能切换模板，为什么你还是会说它不是 Agent？
面试官想听什么：你能不能指出“看起来像智能”与“具备行动闭环”不是一回事。
短答版：多轮对话、记忆用户偏好、回答很像真人，都只能说明交互体验更强，不等于它有自主行动能力。只要系统没有围绕目标做决策和执行闭环，它大概率仍然是增强型 Chatbot。
深答版：
展开深答版
这题常见于产品 demo 很亮眼的时候。很多系统能多轮对话、会模仿语气、能记住上下文，甚至还能切换角色，这些都会让人主观上觉得“它像个 Agent”。但这些能力大多还停留在输入输出层，不等于系统真的会为了目标去行动。
从工程定义看，智能感来自交互体验，Agent 性来自运行机制，这两者不能混。一个系统可以非常像真人，却仍然只是高级聊天系统；反过来，一个真正的 Agent 在交互上不一定花哨，但它有决策、执行和反馈闭环。
工程上，如果把“很像真人”误判成“是 Agent”，就容易过度引入编排、安全和评估复杂度。更稳的做法是先看闭环是否成立，再谈体验是否像智能体。
追问方向：带长期记忆的客服机器人，为什么仍可能不是 Agent？

9. Agent 和 Copilot / Assistant 的边界怎么讲？

题目：很多产品都叫助手、Copilot、Agent，这几个词在面试里你会怎么区分？
面试官想听什么：你能不能把“辅助用户”与“代表用户执行”拆开，不会把交互形态和系统能力混为一谈。
短答版：Assistant 更偏回答和建议，Copilot 更偏人在回路里的协作增强，Agent 则更强调围绕目标自主决定并执行下一步。区别不在名字，而在系统到底是在“给建议”，还是“拿着反馈继续做事”。
深答版：
展开深答版
这题的关键不是背定义，而是抓责任边界。Assistant 更偏回答和建议，价值主要停留在信息层；Copilot 更偏协作增强，通常嵌在具体工作流里帮人提速，但关键动作仍然由人拍板；Agent 则更进一步，它会围绕目标自己决定下一步并持续推进。
一个很实用的区分方式是看“最后一步动作谁负责”。如果系统主要提供建议，最后操作权在用户，那更像 Assistant 或 Copilot；如果系统已经拿着反馈自己往前推进，那才更接近 Agent。它们可以混合存在，但不能因为都是聊天框就混成一类。
工程上，越往 Agent 走，收益是自动化更强，代价是权限、安全、回放和人工接管都要更重。所以这题答得好不好，核心在于责任边界，而不是术语本身。
追问方向：一个代码 Copilot 如果能自动改文件但还要人确认提交，它更像 Copilot 还是 Agent？

10. 判断一个需求值不值得先做成 Agent，最先看什么信号？

题目：面对一个新需求，你第一眼看什么，来判断它有没有必要先按 Agent 方向设计？
面试官想听什么：你是否有前置筛选意识，能先抓住最有信息量的信号，而不是一上来就讨论模型和工具选型。
短答版：我先看这个需求是不是“目标明确，但路径和信息获取方式在运行时才知道”。如果步骤一开始就能写死，它大概率不该先按 Agent 设计。
深答版：
展开深答版
这题和“什么时候不该用 Agent”不一样，它考的是你做方案筛选时先抓什么信号。最有信息量的判断通常不是“能不能接工具”，也不是“听起来像不像 AI”，而是任务路径是不是天然不确定。
如果用户只给出目标，系统需要边查边判断、边行动边修正，这说明任务决策空间是开放的，Agent 才有成立空间；反过来，如果输入、规则、步骤、输出都比较稳定，那优先就该想 Workflow、规则系统或普通服务，而不是先堆 Agent 组件。
工程上，先抓“路径是否开放”这个信号，能最快避免把所有智能需求都做成重系统，也能防止还没搞清问题类型，就开始堆记忆、规划和多工具。
追问方向：如果一个需求前 80% 步骤固定，只有最后 20% 需要探索，你会怎么设计？

11. 为什么有工具调用，也不一定是 Agent？

题目：如果一个系统已经会调用搜索、数据库或浏览器工具了，为什么你还是可能不把它叫 Agent？
面试官想听什么：你能不能指出“会调工具”和“具备自治闭环”之间还差什么，不把 Tool Use 直接等同于 Agent。
短答版：因为工具调用只说明系统多了执行能力，不说明它有运行时决策闭环。一次性按固定模板调工具，更像增强型功能；只有能基于结果继续判断下一步，才更接近 Agent。
深答版：
展开深答版
这题特别高频，因为很多人会把 Tool Use 当成 Agent 的同义词。实际上，工具调用只是能力接口，它说明系统能“做点什么”，但不自动说明系统具备自治闭环。
真正的分界线在于系统有没有把工具结果重新纳入决策。也就是说，它会不会根据结果决定继续、换工具、改参数还是终止。如果只是按固定模板调一次工具，然后直接出答案，那更像“模型填空 + 程序执行”，不一定是 Agent。
工程上，把所有 Tool Use 都叫 Agent，会高估系统自治程度，也会把权限和编排责任说重。更稳的做法是把“工具接口”和“自治运行时”拆开看，边界会清楚很多。
追问方向：如果工具链路是“检索一次 -> 回答一次”，你会怎么追问判断它是不是 Agent？

12. 面试里最常见的 Agent 误定义有哪些？

题目：如果候选人把 Agent 说错了，你最常听到哪几种说法？
面试官想听什么：你是否见过常见误区，并能快速纠偏到清晰定义。
短答版：最常见的误定义有三种：把 Agent 说成更强的模型、把 Agent 说成所有自动化、把 Agent 说成必须有记忆和规划的大而全系统。它们共同的问题是都没抓住运行时决策闭环。
深答版：
展开深答版
这题适合用“错在哪里”来展示边界感。最常见的三种误定义分别是：把 Agent 当成更强的模型、把 Agent 当成所有自动化、把 Agent 当成必须集齐记忆规划反思多 Agent 的大而全系统。
这三种说法看起来方向不同，但共同问题都一样：它们绕开了运行时闭环这个核心。第一种混淆了模型和系统，第二种混淆了自动化和开放决策，第三种混淆了最小定义和增强能力。换句话说，它们都没有抓住 Agent 最关键的判断轴。
面试里这题答得好，关键不是背误区清单，而是快速把主线拉回“能不能围绕目标在环境反馈里持续做决定”。只要这条主线讲清，后面很难被追问带散。
追问方向：如果候选人把 RAG 问答直接说成 Agent，你会怎么追问把边界问清？

13. LLM 到底擅长什么，不擅长什么？

题目：如果不谈产品包装，只谈能力边界，你会怎么概括 LLM 真正擅长和不擅长的事情？
面试官想听什么：你是否能把模型本体能力和系统层能力拆开，避免把“看起来会”误判成“稳定能做”。
短答版：LLM 擅长的是语言层工作，比如理解表达、归纳模式、压缩信息、组织答案；不擅长的是系统层工作，比如稳定执行、状态保持、强约束控制和高可靠事务。判断边界时，先分清这是“语言生成问题”还是“系统保证问题”。
深答版：
展开深答版
这题的关键不是列一个“优缺点清单”，而是先把任务类型分开。LLM 本质上擅长的是语言层压缩和归纳，因此它对解释概念、总结材料、做开放式判断、把零散上下文组织成自然语言答案非常强。这也是为什么它在问答、写作、提炼、弱结构信息整合上表现亮眼。
但只要任务开始要求强确定性、稳定状态、长期一致约束，问题就变了。LLM 并不是天生的状态机，也不是事务系统。它可能在当前上下文里把一件事说得很像会做，但一旦涉及多步执行、精确引用、跨阶段状态延续、严格格式和副作用控制，它就会暴露出不稳定的一面。也就是说，它很擅长“生成看起来合理的下一步”，不天然擅长“持续维持一个可靠系统状态”。
所以工程上最重要的不是问“模型能不能做”，而是问“这是语言层问题，还是系统层问题”。一旦把系统可靠性、状态一致性、权限边界这些问题全压给 LLM，本质上就是让模型替代本不该由它承担的职责。面试里可以这样收口：LLM 擅长生成和归纳，不擅长替代系统保证。
追问方向：如果一个团队说“模型已经够强了，很多工程护栏可以先省掉”，你会先反驳哪一点？

14. 上下文窗口变长，为什么不等于 Agent 一定更强？

题目：模型上下文已经越来越长了，为什么 Agent 还要做检索、摘要、记忆分层和上下文工程？
面试官想听什么：你是否理解“能放进去更多信息”和“能稳定利用这些信息”是两回事，而不是把长上下文直接等价成更强 Agent。
短答版：上下文窗口变长，只说明模型一次能接收更多内容，不说明它一定能稳定抓住最重要的信息。信息越多，噪声、注意力稀释、成本和延迟问题也会一起放大。对 Agent 来说，真正决定上限的仍然是检索质量、上下文组织和状态压缩，而不是单纯把窗口拉长。
深答版：
展开深答版
这题的核心是区分“容量提升”和“利用效率提升”。长上下文确实让系统可以一次塞进更多历史、更多文档、更多执行记录，但这并不自动等于模型能稳定地抓住关键线索。信息一多，最常见的问题不是“放不下”，而是“重点被稀释了”。模型可能看过了，但没把真正关键的证据放在当前决策中心。
对 Agent 来说，这个问题会更明显，因为它面对的不是一次性问答，而是持续滚动的运行时上下文。长窗口能缓解一部分装载压力，却不能替代检索、摘要、去重、分层记忆这些治理动作。否则你会得到一个上下文越来越长、决策越来越慢、真正有用信息越来越难凸显的系统。也就是说，长上下文改善的是上限空间，不是自动解决信息组织问题。
另外，工程代价也不能忽略。窗口越长，推理成本、响应延迟、日志体积和状态治理成本都可能同步上升。很多时候，真正高质量的 Agent 不是把所有内容原样塞进去，而是让正确的信息在正确的时刻以正确的形态出现。所以长上下文是能力补充，不是上下文工程的替代品。面试里可以这样收口：长上下文解决容量问题，Agent 仍然要自己解决信息组织问题。
追问方向：如果你发现系统明明有长上下文，但还是频繁漏掉前面已经出现过的关键信息，你会优先怀疑哪一层设计？

15. 为什么说 LLM 有能力上限，也有能力错觉？

题目：为什么很多时候大家会高估 LLM 的能力，不只是因为它会犯错，还因为它很容易制造“它好像真的会”的感觉？
面试官想听什么：你是否能区分模型真实稳定具备的能力、偶然表现出的能力，以及用户和团队被表面流畅度误导后的能力幻觉。
短答版：这题重点不是再说一遍“它擅长什么”，而是解释为什么人会高估它。能力上限来自它在稳定性和可验证性上的天然短板；能力错觉来自它太会把偶尔做对包装成像是一直会做。很多误判都出在把样本表现当成真实能力边界。
深答版：
展开深答版
这题要先把两个概念拆开，而且重点放在“为什么会误判”。能力上限说的是：有些任务即使模型偶尔做成，也不代表它天然适合作为主要承载者，比如长链路稳定执行、跨阶段状态一致性维护、严格规则下的高可靠决策。这些任务要求的不只是“当前这一步像对”，而是很多步连续都不能漂，而且还得可验证、可复现、可回退。LLM 在这类问题上通常没有你想象得稳。
能力错觉则更隐蔽。LLM 非常擅长输出一段结构完整、语气自信、局部细节也像真的内容，这会让人下意识把“表达质量”误认成“任务能力”。尤其在开放题、弱约束题、少量样例评测里，模型很容易给出高分表现，于是团队会误以为它已经具备了更广泛、更稳定的能力边界。也就是说，这题关注的是“为什么看起来会”，而不是简单重复“它会什么不会什么”。
真正危险的地方在于，很多系统事故不是因为模型完全不会，而是因为它在前 8 次都表现得像会，第 9 次在高风险场景里突然失手。也就是说，工程判断不能根据“它能不能偶尔做对”，而要根据“它能不能在要求的可靠度下持续做对”。这就是为什么评估 LLM 不能只看 demo、单题正确率或几次人工印象。
面试里可以用一句话收口：LLM 最容易让人误判的，不是它完全没有能力，而是它会把“偶发表现”包装得很像“稳定能力”。工程上必须按稳定下限设计，而不是按最佳样本下注。
追问方向：如果一个团队拿几组惊艳案例证明“模型已经会复杂推理了”，你会追问哪些验证问题来拆掉这种错觉？

16. 为什么“会输出步骤”不等于“真的会规划”？

题目：如果一个模型能把思路分成很多步写出来，为什么你不会立刻认为它就具备了稳定的规划能力？
面试官想听什么：你是否能区分“语言上像计划”和“运行上能指导执行”的差别，不把步骤化表述误判成可用规划能力。
短答版：因为把步骤写出来只说明模型会生成一种“像计划”的文本，不说明它真的理解了任务依赖、前提条件和关键约束。很多时候它只是把常见解法组织成多步表达，看起来有条理，但不等于具备稳定的全局规划能力。
深答版：
展开深答版
这题的关键是区分“表述能力”和“规划能力”。LLM 很擅长把答案包装成条理清楚的多步骤形式，所以它看起来很像在规划。但很多时候，这只是语言层面的结构化输出，不代表它已经完成了真正的任务分解、依赖分析和前提识别。换句话说，能说出“第一步、第二步、第三步”，并不等于它真的建立了一个可靠的全局解法。
真正的规划能力，至少意味着模型能识别哪些前提不能省、哪些步骤有依赖、哪些约束会改变后续路径，以及哪些局部选择会影响全局结果。如果一份“计划”只是把常识性动作堆成列表，一遇到真实约束就改口、跳步、漏前提，那它更像是在生成解释性文本，而不是在做稳定规划。
这也是为什么很多 demo 看起来模型很会“思考”，一到复杂任务里就不稳定。因为展示里通常只看它有没有写出一串像样的步骤，但没有验证这些步骤是不是建立在正确前提上，能不能覆盖关键分支，能不能在条件变化后保持一致。规划的难点不是把步骤说出来，而是让步骤背后的约束关系真的成立。
面试里可以收口成一句：会把答案写成多步，是语言组织能力；能稳定识别依赖、前提和约束，才更接近真正的规划能力。
追问方向：如果一个模型给出的计划经常“表面完整但执行时总缺关键前提”，你会优先怀疑哪类能力缺口？

17. 为什么“能调用外部工具”不等于“有环境理解能力”？

题目：如果一个模型已经会调用搜索、浏览器、数据库之类的工具，为什么你还不会轻易说它已经具备了环境理解能力？
面试官想听什么：你是否能区分“会发起工具调用”和“理解环境状态、约束、反馈并据此调整行为”之间的差距。
短答版：因为工具调用只说明模型多了一个外部操作接口，不说明它真的理解了环境里的状态变化、权限边界、隐含约束和反馈信号。环境理解能力要看它能不能基于外部世界的真实反馈持续修正判断，而不只是把工具当成可插拔函数。
深答版：
展开深答版
这题很容易被“Tool Use = 更懂世界”这个错觉带偏。模型会调工具，只能说明它有机会接触外部信息和执行外部动作，但接触不等于理解。很多时候它只是学会了在某种提示格式下触发一个接口，拿回结果后再生成下一段文字。这离真正理解环境里的状态、规则和边界，还差得很远。
真正的环境理解，至少包含几件事。第一，它要知道当前环境里哪些信息是关键的，哪些只是噪声。第二，它要知道环境是会变化的，之前有效的判断在新状态下可能失效。第三，它要能识别外部反馈的含义，比如报错是权限问题、资源不存在、参数不合法，还是状态已经变化。第四，它要能据此调整后续行为，而不是机械重复同一个调用。
所以一个系统即使“会调工具”，也可能完全不理解环境。典型表现就是：拿到报错只会重试，看到空结果只会换个说法继续问，读到了页面信息却不知道哪些是当前决策的约束条件。这类系统看起来比纯文本模型更能做事，但本质上还是把环境当成静态输入片段，而不是一个有状态、有反馈、有边界的外部世界。
面试里可以收口成一句：工具调用解决的是“能碰到环境”，环境理解解决的是“能不能根据环境真实变化做出正确调整”。两者差得不止一步。
追问方向：如果一个 Agent 遇到同一个外部报错连续重试三次，你会怎么判断这是工具问题还是环境理解不足？

18. 为什么“模型更像人”不等于“系统更可控”？

题目：很多人会说模型越像人、越会聊天、越会临场发挥，Agent 就越高级。为什么你会说这不等于系统更可控？
面试官想听什么：你是否能区分“交互自然度”与“系统可预测性、可验证性、可约束性”之间的差别。
短答版：因为更像人通常意味着输出更灵活、表达更自然、临场变化更多，但可控系统需要的是边界清楚、行为稳定、异常可诊断。对工程系统来说，像人可能提升体验，却不自动提升可预测性，很多时候反而会增加行为漂移和验证难度。
深答版：
展开深答版
这题核心是把“产品体验上的像人”和“工程治理上的可控”拆开。模型更像人，通常表现为更会聊天、更会顺势补充、更会根据语境自由发挥。这对用户感知很有帮助，因为它会让交互更顺滑、更自然。但工程上，可控并不是看它像不像人，而是看它能不能在约束下稳定输出、能不能被验证、能不能在出错时被定位和收敛。
问题在于，人类式表达往往带有更强的补全倾向和自由裁量空间。也就是说，模型越“像人”，很多时候越容易在信息不完整时主动脑补、在边界不清晰时自行解释、在模糊指令下做风格化扩展。对聊天产品这可能是优点，但对执行型 Agent，这种自由度如果没有护栏，很容易转化成行为漂移和副作用风险。
所以对系统设计来说，一个更“像人”的模型，不一定是更好的执行核心。真正重要的是哪些能力交给模型自由发挥，哪些能力必须由系统强约束。你可以让它在表达层更自然，但不能因此把权限控制、状态一致性、规则约束这些本应由系统兜底的部分也交给它“像人一样判断”。
面试里可以收口成一句：像人提升的是交互体验，可控提升的是系统可靠性。前者不自动推出后者，很多时候还会和后者天然拉扯。
追问方向：如果一个产品团队坚持要“更像真人助理”，你会先加哪类约束，避免体验升级变成执行失控？

基础概念 ​

高频题 ​

1. Agent 和普通 LLM 对话有什么本质区别？ ​

2. Agent 和 Workflow 有什么区别？ ​

3. 一个系统至少具备什么，才值得叫 Agent？ ​

4. 什么时候不该用 Agent？ ​

5. Agent 最大的局限是什么？ ​

扩展题 ​

6. Agent 和普通自动化最大的分界线是什么？ ​

7. 搜索增强或 UI 自动修复，什么时候还不算 Agent？ ​

8. 什么样的系统看起来很聪明，但其实不是 Agent？ ​

9. Agent 和 Copilot / Assistant 的边界怎么讲？ ​

10. 判断一个需求值不值得先做成 Agent，最先看什么信号？ ​

11. 为什么有工具调用，也不一定是 Agent？ ​

12. 面试里最常见的 Agent 误定义有哪些？ ​

13. LLM 到底擅长什么，不擅长什么？ ​

14. 上下文窗口变长，为什么不等于 Agent 一定更强？ ​

15. 为什么说 LLM 有能力上限，也有能力错觉？ ​

16. 为什么“会输出步骤”不等于“真的会规划”？ ​

17. 为什么“能调用外部工具”不等于“有环境理解能力”？ ​

18. 为什么“模型更像人”不等于“系统更可控”？ ​

书内关联阅读 ​