在面试中聊 Agent,这样说反而更安全 最近在面AI产品/AI应用岗的时候,发现一个现象:Agent几乎成了必聊话题。不管是面试官问,还是候选人主动说,大家都会往Agent上靠。但这个问题,其实我自己在工作和面试准备中反复想过很多次。 在实际项目里,我越来越觉得:Agent本身更像一个中枢,而不是能力本身。它主要负责理解你要干嘛、判断下一步该怎么走,但一个系统能不能稳定跑、能不能真的把事情做好,关键还是在背后的执行能力是不是扎实、可控。主要是因为在一些项目里,我看到过这样一种做法:每来一个业务场景,就包一层新的Agent。短期看确实很快,Demo也很好看,但往后走会慢慢暴露出一些问题。 第一个问题:维护成本会上来 不同Agent各自维护Prompt、状态和逻辑,时间一长,系统会变得越来越复杂,出了问题也很难快速定位。 第二个问题:表现不稳定 每个Agent都在“自己决策”,只要底层能力稍微不稳,整体结果就会出现比较大的波动。这种不确定性,在真实业务里其实是很难接受的。 在一些场景下,我反而会更倾向于:Agent数量尽量少,但底层能力尽量做扎实。也就是用一个相对通用的Agent,去编排一套 结构化、可复用的执行能力。Agent负责理解意图和流程编排,能力模块负责事情稳定、可控地执行好。 这样做的好处是:系统复杂度是可控的,能力边界也比较清楚,不同业务之间还能不断复用和积累。 我并不是不看好Agent,只是更倾向于把它当成入口和调度层,而不是把所有复杂性都堆到Agent里。你在项目或面试中接触到的Agent,更多是帮你简化问题,还是引入了新的复杂度? #LLM #AI产品经理 # #面试问题 #大模型 #互联网大厂
00:00 / 02:36
连播
清屏
智能
倍速
点赞48
这道AI面试题,我后来发现90%的人都会答错 面试AI/大模型/应用岗的时候有一道题我被反复问到:“如果用户的问题在知识库里查不到,你们系统怎么兜底?”一开始我也以为这是个偏技术的问题,后来才发现这题真正考的,是系统能不能真的上线。 这个问题我一般会从三个层面来看:先确认是不是真的“无匹配”,再设计分层的fallback,最后才是Agent的反思或重试机制,而且一定是受控的。 在真实系统里,很多时候不是“完全没有结果”,而是“结果不够好用”。所以我不会只看“知识库里有没有召回结果”,而是会综合看几类信号: 检索相似度是不是整体偏低 有没有覆盖问题里的关键关键词或实体 模型在当前证据条件下,能不能判断自己可以回答 如果这些信号整体都偏低,我才会明确认定为低置信度,这时候不会强行生成答案,避免模型在证据不足的情况下瞎编。 一旦低置信,就进入fallback 第一层:轻量修复 比如:对用户query做一次改写,换一种问法重新检索,适当放宽条件、扩大topK,一般只允许1~2次,再往后命中率提升很有限,成本和延迟会上得很快。 第二层:澄清式fallback 如果轻量修复之后,系统还是判断信息不足,或者发现问题本身缺少关键条件,那就不会硬答。而是主动向用户确认一到两个关键信息,比如具体对象、时间范围、业务背景,让用户帮我们把问题说清楚一点。 第三层:明确拒答/转人工 如果在澄清之后,或者在一些高风险场景下,还是没有可靠依据,那就会明确拒答,或者引导人工处理。这一步的目标不是“尽量回答”,而是让系统行为安全、可控、可预期。 那Agent会不会一直自己反思、一直重试?这一点我在面试里会刻意说得比较保守。我不会让Agent自由反思、无限重试,而是基于失败原因来做受控重试。比如:是没检索到结果,还是相似度太低,还是问题本身太泛。不同原因,对应不同处理动作,避免它在同一个地方来回打转。 重试次数怎么定? 我一般会从两个维度定:成本和用户体验在常见的知识库问答场景下:和检索相关的重试不超过2次,整体决策步骤不超过3步,超过这个点之后,成功率提升已经很小了,但延迟和成本会上去,用户反而会觉得系统在“兜圈子”。 所以整体设计目标其实很简单:在无匹配的时候不瞎编、不死循环,同时给用户一个清楚的反馈,让他知道现在卡在什么地方、下一步能做什么。 #大模型 #llm #算法 #ai #互联网大厂
00:00 / 02:35
连播
清屏
智能
倍速
点赞5
软件测试狗都不……干! #软件测试工程师 #软件测试工程#干货 #普及知识 前两年吐槽最多的一句话就是:"这活儿软件测试狗都不……干!" 说实话,有些重复劳动干久了,人会有点钝掉,那段时间我也迷茫过。 后来我反过来想了一下:既然这些事连"测试狗都不想干"😂,那我能不能用点别的方式解决?从这里开始,我才慢慢把自己的职场技能,往**自动化测试**和**AI测试**上挪了一点点。 我之前也卡住过,不过后来找到了自己的方法: 不是一上来就学一大堆新框架,而是先定一个简单的自学路线—— - 先把语言基础补上(至少能看懂能改动脚本) - 再选一条线深一点,比如接口自动化 or UI 自动化 - 然后再往前加一点 AI测试 的内容:用大模型生成用例、脚本,帮忙分析日志之类的 学习方法上,我不太追求"一口吃透",更多是小块练习:今天搞清楚一个函数,明天把一个接口自动化起来。做完一定要写个小总结,这些东西后面都能变成你的面试技巧素材,聊个人成长就有话说,而不是"我就学了学"这种空话。 在职提升也一样,不用搞得很隆重。可以先挑一个最烦的日常任务,想想:这个东西能不能自动化一部分,或者让 AI 帮你先跑一版?哪怕效率只提高一点,也是积累。 我当时就是靠这些小步子,一点点把路走窄的。别怕,从基础开始就能学得动,先帮自己干掉几个"连测试都不想干"的活儿,成就感会回来不少。
00:00 / 02:13
连播
清屏
智能
倍速
点赞2
00:00 / 00:48
连播
清屏
智能
倍速
点赞0