粉丝1285获赞1.2万


欢迎收听扣子 ai 播客。 哈喽,大家好,最近我发现身边好多朋友都在玩豆包的 ugc 智能体,好像不用花一分钱就能搭出自己专属的 ai 助手。我自己也试了试,确实挺有意思的。今天咱们就来好好聊聊,怎么从零开始搭建测试,甚至用它变现。 对,我之前刷到过别人做的那种小学生作文辅导 ai, 还有职场文案机器人,感觉特别实用。不过到底什么是豆包 ugc 智能体啊?我之前一直没搞太清楚。 其实简单来说就是你可以用文字训练出一个专属的 ai 助手,不用写代码,不用租服务器,完全零成本。比如你想做个育儿规划师,就可以把自己的育儿经验、看过的育儿书籍上传进去,它就能帮你给家长出方案。 核心价值就是一次创建,后续别人用你的智能体,你就能持续拿收益。而且它还能自动吸收用户生成的内容,不断优化自己的回答。 听起来确实挺香的,那搭建的具体步骤是什么样的?能不能给我们拆解一下?没问题,我总结了五个核心步骤。首先,第一步得找准定位和入口,你不能什么都想做,得聚焦一个单一功能。比如小学生作文辅导 ai, 就 专门帮小学生改作文除写作思路,这样用户一搜就能找到你。 对,太泛了,反而没人用,得让用户一眼就知道你这个智能体是干嘛的。那第二步呢?是不是要起个名字? 没错,第二步就是基础信息配置,名字一定要直白,最好是用图加人群加功能的结构。比如小学生作文辅导 ai, 别人一看就知道是给小学生改作文的一句话,简介也要说清核心能力,比如专注小学生作文批改,写作思路启发,别写那种模棱两可的话。 那第三步的角色指令设定呢?是不是要写很多东西?不用,反而要短,控制在三十到五十字左右,采用角色加能力加规则的结构。比如你是专业小学生作文辅导老师,能精准批改作文,给出修改建议,只回答作文相关问题,这样 ai 就 不会跑题, 千万别写长篇大论,不然 ai 反而不知道自己该干嘛。哦,原来如此,那第四步的知识点呢?是不是要上传很多资料? 对,你可以上传 pdf、 txt 或者 word 文档,系统会自动分段。这六个关键一定要开启严格匹配模式,这样 ai 就 只会用你上传的知识库内容回答问题,不会胡说八道。比如你上传了小学作文评分标准,他就会按照这个标准批改,不会自己瞎编。 那第五步的交互限制是干嘛用的?就是设置一些规则,比如用户问了超出知识库的问题,你可以预设一个回复,比如,抱歉,这个问题超出我的专业范围,请提问作文相关问题,还要设置触发词机制和追问机制,最多让用户追问两次,避免无限循环。 搭建完之后是不是就直接能用了?肯定还要测试吧?那必须的,测试是非常重要的环节,我总结了三个测试阶段。第一阶段是单轮响应测试,要覆盖知识点的全部章节,准确率得达到百分之九十五以上,不能答非所问。 第二阶段是多轮连贯性测试,至少进行五轮以上的交互,看看 ai 能不能保持角色一致性,比如全程都像小学作文老师一样说话,不会突然变成职场顾问。那第三阶段的压力并发症是什么意思?普通人也能测吗? 其实就是模拟很多人,同时用你的智能体,看看延迟高不高。官方要求是一百,病发请求下延迟稳定在一点八秒以内,这样用户体验才好。不过普通人可能测不了这么专业,你可以找几个朋友同时用你的智能体,看看回答速度慢不慢。 那测试完之后怎么迭代优化呢?有没有什么具体的计划?我给你分享一个。七天进阶调试计划。第一天,先解决答非所问的问题,把知识库中模糊的地方改清楚,调整角色指令。 第二天,优化输出结构和细节,比如让 ai 的 回答更有条理分点说明。第三天,添加变量适配规则,比如针对不同年纪的小学生给出不同难度的写作建议。 第四天呢,是不是要让用户能反馈?对第四天添加反馈优化机制,比如让用户可以给回答、点赞或者点彩,你定期查看这些反馈,调整知识库和指令。 第五天,进行多场景适配,比如模拟不同用户的提问方式,看看 ai 能不能应对。第六天,提升效率与精准度,比如删除知识库中重复的内容,优化触发词机制。第七天,复盘固化,把这次搭建的经验整理成模板,下次再搭就不用从头来了。 听起来这个计划挺实用的,那迭代优化的关键是什么?主要是两个方面,一是记录偏差,对用户标记为有帮助或无帮助的回答进行分析,看看哪些地方答的不好,及时更新 prompt 和知识库。二是数据管理,定期清理荣誉对话,把优质的回答导出存档,下次可以直接附用。 那搭建的时候有没有什么常见的坑?需要避开?新手最容易犯的几个错误,比如指令太具体,导致低效回复。比如你写当用户问写春天的作文,你要先写开头,再写中间,再写结尾,这样 ai 就 只会按照这个模板回答,不会灵活应对。 还有就是内容偏离场景,明明是作文辅导, ai 却上传了很多育儿的资料,导致回答混乱。还有呢?比如隐私方面有没有要注意的? 当然有,隐私保护很重要,绝对不能上传敏感信息,比如个人身份证号、银行卡号,还有用户的隐私数据。还有就是指令要具体,别写,做个方案,这种模糊表述要写清楚,做一个适合三年级学生的春天主题作文写作方案。 那安全合规方面有没有什么要求?官方有数据安全的三道关。采集原则是最小必要,就是只采集必要的信息,别什么都要 存储,要分级加密,重要的数据加密存储使用权限要隔离和脱敏。比如用户的个人信息要脱敏处理,不能直接显示。还要建立三级审核机制,事前敏感词过滤适中, ai 检测,事后人工抽检,避免出现违规内容。 那搭建完智能体之后怎么变现呢?除了别人使用拿收益,还有其他途径吗?主要有三种变线路径。 第一种是使用收益,别人每次使用你的智能体,你就能拿到分成。第二种是流量收益,如果你的智能体排名靠前,官方会给你推荐,流量多了收益自然就高。 第三种是个人 ip 打造,你可以搭建多个专业智能体,比如作文辅导、职场文案、育儿规划,积累一定粉丝后就可以接咨询,带徒弟做社群。那哪些应用场景比较高频呢? 我总结了几类学习辅导类,比如作文辅导、英语单词背诵。自媒体文案类,比如短视频脚本生成、公众号文章写作。职场办公类,比如 ppt 模板生成、工作总结待写。 健康养生类,比如食谱推荐、运动计划制定、生活实用类,比如旅游攻略生成、穿搭建议,这些都是用户需求比较大的场景。那豆包 ugc 智能体的技术底座是什么样的?未来有什么发展趋势? 它的技术底座是豆包大模型二点零,用了 transform 改进版和动态稀疏注意力机制,还有 m o e 混合专家模型,处理复杂任务的性能提升了七倍。 ultra man 超长记忆架构,能支持几万字的上下文,比如你上传一本几百页的书,它也能记住里面的内容。还有扣子平台是一站式智能体开发与运营平台,支持了六十多个插件,比如天气查询、翻译、计算器。 那未来的发展趋势呢?我觉得有几个方向,一是打通所有应用的统一账号,比如你用豆包账号就能登录所有智能体,不用再注册新账号。二是通过强化学习自我进化,比如 ai 能根据用户的反馈自动调整自己的回答,不用人工干预。 三是多模态融合的 agent 生态。未来的智能体不仅能处理文字,还能处理图片、语音、视频,比如你上传一张照片,它就能帮你生成配文,或者给你做视频脚本。听起来未来的发展空间挺大的,那普通人现在开始搭建还来得及吗? 当然来得及,现在豆包 ugc 智能体还在快速发展阶段,官方也在大力扶持,只要你找准定位,做好内容,很快就能拿到收益。而且搭建门槛特别低,不用懂技术,零成本就能上手,适合所有想尝试 ai 变现的人。 那今天咱们聊了这么多,能不能给新手总结几个关键点?没问题,新手搭建的时候记住这几点。第一,定位要精准,聚焦单一功能,别贪多。第二,角色指令要简洁,采用角色加能力加规则的结构。 第三,知识库要精准开启,严格匹配模式。第四,测试要全面覆盖单轮、多轮、并发三个阶段。第五,迭代要及时,根据用户反馈不断优化。只要做好这几点,你就能搭出一个好用又能变现的智能体。 好的,今天咱们的分享就到这里了,希望对大家有所帮助。如果你也搭建了自己的智能体,欢迎在评论区分享你的经验。没错,咱们下期再见!

欢迎收听扣子 ai 播客! 哈喽,大家好,又到了咱们的新手课堂时间。没错,今天咱们要聊的是一个特别实用的工具,豆包 ugc 智能体知识库搭建。我知道很多新手朋友一听到知识库这几个字就犯怵,其实真没那么难,跟着咱们一步步来,你也能答出越用越专业的智能体,是 先得搞明白到底什么是豆包 ugc 智能体知识库啊!说白了就是你给豆包定制一个专属的知识储备库,让他能根据你上传的内容更精准的回答问题,甚至帮你处理特定的任务。 对比如你是做电商的,把自家产品的说明书、用户常见问题都传进去,以后客户问问题,豆包就能直接用你给的资料来回复,不用你再反复解释。或者你是学生,把教材笔记上传,他就能帮你整理重点,解答疑惑。 没错,这就是他最实用的地方,能帮咱们节省大量重复劳动的时间。而且新手学这个也很有必要,毕竟现在 ai 工具越来越普及,掌握一点定制化的技巧,能让工具真正为自己所用。 那咱们先从最基础的开始,创建豆包智能体的完整流程。首先得确保你的豆包 app 是 v 七点、五点零级以上的版本,不然可能找不到智能体工坊的入口。 对这个版本要求一定要注意,要是版本太低,先去应用商店更新一下,更新完之后打开豆包 app, 点击右下角的我的,然后找到智能体功房,点进去就能看到创建智能体的按钮了。 没错,这几步其实挺简单的,跟着路径走就行。接下来就是知识库搭建的关键步骤了。首先是上传文档,豆包支持 pdf、 txt、 d、 o、 c、 x 这些常见格式,单次最多能传五个文件,总大小不能超过一百 mb。 这里有个小细节,上传的时候尽量把相关的文件分类整理好,比如把产品的说明书放在一起,用户问题放在一起,这样豆包在调用知识的时候会更清晰,而且上传之后系统会自动解析文档内容,这个过程可能需要等一会,别着急。 对上传完文档之后就可以设置角色了,角色设定特别重要,他决定了智能体的说话风格和回答逻辑。比如你想让他当一个专业的客服,就可以把角色设定成热情耐心的电商客服,熟悉产品知识,能快速解答用户疑问。 没错,角色设定的描述越具体越好,最好能明确他的身份、语气和职责范围。比如你要让他当老师,就可以写严谨负责的高中数学老师,擅长用通俗的语言讲解复杂知识点。 接下来就是配置技能了,技能配置其实就是告诉智能体他能做什么,比如解答产品使用问题、生成产品介绍、文案整理、用户反馈等等。你可以根据自己的需求来添加不同的技能。 这里还有几个关键参数需要注意,比如响应长度默认是五百到两千字之间,你可以根据需要调整。还有敏感词过滤和联网搜索开关,敏感词过滤建议打开,避免智能体输出不合适的内容。 联网搜索开关如果打开的话,智能体可以结合网上的信息来回答问题,不过要是你希望他只使用你上传的知识库内容,就把这个开关关掉, 对这些参数的设置要根据自己的使用场景来调整。比如你要是用智能体来处理内部文档的问题,就关掉联网搜索,这样他就只会用你上传的内容来回答更精准。 那说完了基础的搭建步骤,咱们再聊聊实用技巧,怎么让智能体越用越专业。首先就是持续迭代知识库,随着你的业务发展或者知识更新,要及时上传新的文档,替换旧的内容 没错,比如你家产品更新了功能,就要把新的说明书上传进去,不然智能体还会用旧的内容来回答问题,就会出错。而且每次上传新内容之后,最好再重新测试一下,确保智能体能正确调用新的知识。 然后就是测试优化方法,最常用的是一致性测试和边界控制测试。一致性测试就是问同一个问题,多次看智能体的回答是不是保持一致,避免出现前后矛盾的情况。 边界控制测试就是问一些超出知识库范围的问题,看看智能体会不会胡乱回答。比如你上传的是电商产品的资料,就问他一些关于医疗的问题,要是他说我不太清楚,那就说明边界控制做的不错。要是他随便乱答,你就要调整角色设定或者技能配置,明确他的回答范围。 对,还有一个小技巧,就是持续优化人设描述和技能配置。比如你发现智能体的回答语气太生硬,就可以在角色设定里加上语气亲切,像朋友一样和用户交流,要是他的技能不够全面,就再添加新的技能。 没错,这些优化都是一个循序渐进的过程,不可能一次就做到完美,需要你不断的测试和调整。聊完了技巧,咱们再说说新手常见的坑,帮大家避避雷。 第一个常见问题就是上传的文档格式不对,导致系统解析失败。比如有些 pdf 文件是图片扫描件,不是可编辑的文本格式,系统就没法解析,这时候你就得先把扫描件转换成可编辑的文本格式再上传。 对!还有一个问题就是角色设定太模糊,比如只写客服,没说清楚是电商客服还是售后客服,也没说清楚语气要求,这样智能体的回答就会比较随意,达不到你想要的效果,所以角色设定一定要具体。 还有一个坑就是上传的文件太大,超过了一百 mv 的 限制。这时候你可以把大文件拆分成几个小文件,比如把一本厚书分成几张分别上传,或者先压缩一下文件,看看能不能把大小降下来。 没错。还有就是忽略了测试环节,刚搭好智能体就直接用,结果发现回答错误百出,所以一定要先测试,确保智能体的回答符合你的要求之后再正式使用。 还有一个常见问题就是不知道怎么叠带知识库,很多人搭好之后就不管了,过了几个月,知识库的内容已经过时了,智能体的回答自然也不准确,所以一定要养成定期更新知识库的习惯。对,这些都是新手很容易犯的错误,大家搭建的时候一定要注意。 好了,今天咱们把豆包 u j c 智能体知识库搭建的整个流程,关键步骤、使用技巧和避坑指南都聊的差不多了,其实总结下来,核心就是三步,搭建基础框架配置、关键参数,持续优化迭代。 没错,新手朋友不用害怕,先从简单的开始。比如先上传一份自己的笔记,设置一个简单的角色,测试一下效果,然后再慢慢调整和优化。 对,最重要的是动手实践,光听理论没用,自己操作一遍,遇到问题再回来看看咱们的指南,很快就能上手。而且随着你不断的优化知识点,智能体会越来越专业,真正成为你的得力助手。 没错,希望今天的内容能帮到大家,要是你在搭建过程中遇到什么问题,欢迎在评论区留言,咱们一起交流讨论。好了,今天的节目就到这里,感谢大家的收听,咱们下次再见!再见啦!

欢迎收听扣子 ai 播客。 哈喽,大家好,我是今天的主持人,咱们今天来聊一个最近挺火的话题,就是普通人零代码也能搭建自己的锤类智能体知识库,而且它的长期价值真的能帮咱们省下不少力气。 没错,很多人可能觉得知识库就是给智能体额外加点资料,其实它根本不是可有可无的锦上添花,而是垂直智能体的能力基石。要是知识库设计的乱七八糟,不仅会让 ai 的 回答变得离谱,后续维护起来也会特别麻烦。 那先跟大家拆解一下核心概念吧,什么是 ugc 智能体啊? ugc 智能体就是咱们普通用户不用写代码就能创建的专属 ai 助手,你可以给他设定角色,绑定知识库,还能编排工作流,让他完全按照你的需求来干活。 那锤类知识库又是什么呢?锤类知客就是聚焦特定领域的结构化资料,比如医疗、法律、金融这些,它是通过 r a g, 也就是解锁增强生成的技术来提升 ai 回答的准确性和可解释性。 简单来说,通用大模型靠的是它自己的训练数据,而锤类智能体靠的就是咱们搭建的知识库。所以锤类知识库一定要有纯度和关联度,可别把资料堆成大杂烩,那样反而起不到作用。 明白了,接下来咱们就进入保姆级的搭建流程,首先得知道入口在哪里,还有需要准备什么,对吧? 对手机端的话,你得打开最新版的豆包 app, 版本要在 v 七点五点零以上。然后点击我的,找到智能体工坊,电脑端直接访问豆包点 com, 进入我的智能体或者创作中心就行。不过在这之前得先完成实名认证,开通相关的权限,不然可能操作不了。 接下来就是设置基础信息和人设了,这一步有什么需要注意的吗?名称得直白,体现功能,而且要控制在十二字以内,不能有特殊符号。 一句话简介要明确,核心直能。比如帮你解答职场面试问题,性格与语气可以勾选关键词,比如严谨、幽默、简明这些。开场白也要好好写,引导用户正确使用这个智能体。比如可以说,你好,我是职场面试助手,有问题随时问我。 然后就是创建知识库和上传文档了。这一步听起来好像挺复杂的,其实还好, 新建知识库的时候,命名要用英文数字或者下划线,而且得以字母开头描述,可以写零到五百字,说明这个知识库是做什么的。数据类型分非结构化和结构化。非结构化的有 pdf、 word, markdown、 txt。 结构化的有 csv、 excel、 json、 l。 那项链化模型怎么选呢?一般默认选 dobell, embedding, 二四零七一五,加上关键词模型就行。如果是长文本,可以选多语言模型,要是追求精度,就选 large 版本。 切片与缩影这块非结构化数据可以设置切片规则,一般八百到一千五百 token, 重叠两百 token, 这样能保证上下文的连贯性。结构化数据就按字段来分,缩影算法默认选 h n s w h hybrid, 它能兼顾语义和关键词。解锁 投喂资料的时候,格式优先级是怎样的啊?格式优先级是 markdown 最高,然后是 html、 word、 pdf 尽量别用扫描件和图片型的 pdf, 因为 ai 很 难识别里面的内容。还有数据清洗也很重要,得按四步法来。先把格式标准化,比如转成 markdown, 玻璃页眉页脚,然后划分语义单元,按章节或者条款分段, 还要保证术语一致,比如同一词要统一,最后做好时效性管理,加上版本号和更新频率。上传文件的时候有什么限制吗? 单次上传的文件数和总大小大概限制在两百 mb 左右,而且系统会自动过滤敏感信息进行审计,这个不用担心。 接下来就是把智能体和知识库绑定在一起了,怎么操作呢?在智能体编辑页找到知识库高级技能,然后添加资料,你可以上传文档,也可以直接粘贴文本或者 faq, 系统会自动解析这些资料,建立语义缩引,大概两到三分钟就能生效。 这里还要设置提示词约束,让 ai 优先寄予知识库。回答,如果不确定的话,要明确告诉用户,他不知道别瞎编。 那工作流和技能这块是进阶内容对吧?对,这部分是可选的,你可以设置意图识别、条件路由,精确检测的工作流,实现智能路由,让 ai 根据用户的问题自动找到对应的知识库内容。 还可以添加官方技能,比如 pdf 提取、表格识别、网页解析,还有插件,比如天气搜索、邮件飞书这些,让智能体的功能更丰富。 最后就是发布和测试了,这一步得好好检查对吧?没错,发布的时候可以选择可见性,比如仅自己可见,仅链接可见,或者公开搜索,如果选公开搜索,要优化关键词标签,增加曝光。 测试的时候要检查三个要点,一致性就是回答是不是基于知识库的内容边界控制。当问题超出知识库范围时, ai 要礼貌拒绝,还有多轮对话记忆,能不能记住之前的对话内容。测试完要是有问题就返回编辑页修改设定或者更新知识库, 而且系统有版本管理和回滚机制,不用担心改坏了找不回来。刚才讲完了搭建流程,再跟大家说说最佳实践和避坑指南吧。 首先,知识库拆分要遵循原则,最好按主题或者实体来分,比如分成公司信息、产品中心、售后 faq、 技术支持这些,别把所有资料都堆在一起,那样 ai 解锁的时候会混乱。 那解锁策略方面有什么需要注意的吗?可以选择向量解锁关键词 bm 二五或者混合解锁。还可以用 re、 rinking 和 melaton 的 权重来优化解锁结果,让 ai 更精准地找到需要的资料。 怎么验证知识库的质量呢?可以让专家审核资料的准确性,也可以用工具辅助检测敏感词和内容冲突。还要定期复盘,看看高频问题是什么,错误率最高的 top 五是哪些。然后针对性的优化知识库,知识库也需要持续更新,对吧? 当然日常可以根据用户反馈和业务变更来更新,比如有新的产品上线,就把产品信息加到知识库里面。 还要建立定期机制,比如每月统计一下大家的问题,扩充相关的知识。版本控制也很重要,可以用领域、年纪的格式来命名,比如职场面试下划线、二零二四 q 三,方便管理和回溯。 最后总结一下,普通人搭建垂类知识库其实没那么难,零代码大概十分钟就能跑通一个垂直场景,而且一次创建就能长期复利。 没错,垂类知识库是专业能力的基石,他的成败就在于结构化设计和持续迭代。未来智能体的竞争本质上就是知识库的广度、深度和活性的竞争。 所以建议大家先跑通一个垂直场景,再复制扩张,而且一定要注意数据合规和隐私保护,别泄露了重要信息。今天的保姆级教程就到这里了,希望对大家有帮助,咱们下次再见!再见!




欢迎收听扣子 ai 播客。 哈喽,大家好,欢迎来到今天的播客。最近我一直在研究豆包 ugc 智能体的知识库搭建,就发现好多朋友都卡在了知识碎片收集这一步。今天就专门来跟大家聊聊这个话题,也请我身边的这位知识达人一起帮咱们梳理梳理思路。 没问题,其实我最近也在帮朋友做这个,确实踩了不少坑。那你先跟大家说说,到底什么是知识碎片啊?我感觉好多人可能跟我一样,一听到这个词就有点蒙,不知道具体指的是什么。 其实很好理解,就是那些不成体系的零散信息,比如你刷到了一篇干货帖子,看到的一段视频字幕,甚至是和朋友聊天时学到的一个小技巧,这些都算是知识碎片,他们本身可能没什么用,但攒多了,整理好了,就能变成知识库的重要组成部分。 原来是这样,那咱们搭建 ugc 智能体的知识库,为什么一定要重视知识碎片的收集呢? 因为 ugc 智能体的核心优势就是能快速响应用户的各种个性化问题,这些问题往往不是那种标准答案式的,而是需要结合各种零散信息来解答。如果你的知识库全是大段的理论文章,那智能体可能就没办法灵活调用信息,回答出来的内容也会显得生硬死板。 没错,我之前试过用那种长篇大论的文档喂给智能体,结果他回答问题的时候,要么就是直接复制粘贴大段文字,要么就是答复所问。那你觉得我们应该从哪些渠道去收集这些知识碎片呢? 渠道其实挺多的,我总结了几个主要方向。首先就是社交媒体平台,像小红书、抖音、 b 站这些地方,有很多用户分享的实用经验和小技巧,这些内容往往都是非常接地气的知识碎片。 然后是专业论坛和社区,比如知乎、 c、 s、 d、 n, 还有一些垂直领域的论坛,里面的讨论和回答常常能挖到很多干货。 我平时也会刷这些平台,但感觉信息太杂了,有时候刷半天都找不到有用的内容。有没有什么具体的收集策略,能让我们更高效地找到想要的知识碎片? 当然有,首先得明确你搭建的智能体是面向哪个领域的,比如是做美食的还是做编程的。先把范围缩小,然后可以利用平台的搜索功能,精准搜索关键词。比如你想收集烘焙相关的知识碎片,就可以搜烘焙小技巧、新手烘焙避坑指南之类的。 这个我试过,但有时候搜出来内容还是太乱了,怎么筛选出有用的呢?这就需要你先建立一个初步的知识框架。比如你想搭建烘焙知识库,就可以先分成食材处理、烘焙工具使用、常见问题解决这些大类。然后在搜索的时候,针对每个大类去收集对应的知识碎片, 这样收集起来的信息就会更有条理,后面整理的时候也会轻松很多。听起来很有道理,那除了手动搜索,有没有什么工具可以帮助我们自动收集知识碎片呢? 有很多工具可以用,比如印象笔记、 note 这些笔记类工具,它们都有网页简藏功能,你看到有用的内容,一键就能保存下来。还有像斐得里这样的 rss 阅读器,可以订阅你感兴趣的公众号,簿刻自动帮你收集更新的内容。 另外,一些 ai 工具也能帮你筛选和整理信息。比如豆包本身就有总结文本、提取关键信息的功能。这些工具我都用过,但有时候收集了一堆知识碎片,却不知道怎么把它们整理成有用的知识库内容,你有没有什么整理的方法可以分享一下? 整理的关键还是要先分类,我一般会用标签系统来管理知识碎片,比如我收集到一个关于七风蛋糕消泡原因的帖子,就会给他打上七风蛋糕常见问题、新手避坑这些标签,这样后面需要调用的时候,只要搜索标签就能快速找到相关的信息。 我之前也试过用标签,但总是觉得标签打的太随意,后面找起来还是很麻烦。怎么才能打好标签呢? 打标签的时候要尽量统一标准,比如不要一会用新手,一会又用入门,最好提前制定一套标签规则,比如按照知识领域、内容类型、适用人群这些维度来设置标签。另外,标签不要打的太细,也不要太笼统适中就好,比如打三到五个标签是比较合适的。 明白了,那在收集和整理知识碎片的过程中,有没有什么需要特别注意的地方?首先就是版权问题,这个一定要重视。你收集的知识碎片,如果是别人原创的内容,最好先征得作者同意或者著名来源,避免侵权。 然后是信息的准确性,很多社交媒体上的内容可能存在错误,你在收集的时候最好交叉验证一下,确保信息的可信。 对版权问题真的很重要,我之前就看到有人因为未经授权使用别人的内容被投诉了,那除了这些还有没有其他需要注意的? 还有就是要定期更新和清理知识库,知识是不断更新的,旧的知识碎片可能已经过时了,需要及时替换掉。另外,收集知识碎片的时候不要贪多,要注重质量,一些重复的没有价值的内容就不要留着了,不然会占用大量的存储空间,也会影响智能体的运行效率。 我之前就是收集了太多没用的内容,导致知识库变得很臃肿,智能体响应速度都变慢了。 那你觉得我们在收集知识碎片的时候,应该怎么判断哪些是有用的,哪些是没用的呢?主要看两个方面,一是相关性,这个知识碎片是不是和你搭建的智能体领域相关,能不能帮助智能体更好的回答用户的问题。二是实用性,这个知识碎片是不是能解决实际问题,有没有可操作性, 如果一个内容既不相关又不实用,那就可以直接删掉了。没错,实用性真的很重要。很多时候我们收集的内容看起来很高级,但实际上对用户没什么帮助,这种内容就没必要留着。那你有没有什么具体的例子可以跟大家说说怎么把知识碎片转化成知识库的有效内容? 比如我之前收集到一个关于如何用微波炉做蛋挞的短视频,里面有几个关键信息,比如蛋挞液的配方、加热的时间和温度,我就把这些关键信息提取出来,整理成一篇清晰的教程,然后给他打上微波炉美食蛋挞、制作快手食谱这些标签。 这样智能体在回答用户关于微波炉做蛋挞的问题时,就能快速调用这些信息,给出准确又实用的回答。这个例子太直观了,一下就明白怎么操作了。那除了这种实用教程类的知识碎片,像一些观点性的内容,比如用户对某个产品的评价,能不能也用来搭建知识库呢? 当然可以,不过这类内容需要更谨慎的处理。首先要确保观点是客观的,最好收集多个不同用户的评价,综合起来,形成更全面的信息。然后可以把这些评价中的关键观点提取出来,整理成产品的优缺点分析,这样智能体在回答用户关于产品的问题时,就能给出更客观的建议。 明白了,那你觉得在整个知识碎片收集和知识库搭建的过程中,最难的一步是什么? 我觉得最难的是保持持续的收集和更新。很多人一开始热情很高,收集了一大堆内容,但过了一段时间就坚持不下去了,知识点也慢慢变得陈旧。所以我建议大家可以制定一个收集计划,比如每天花三十分钟去收集和整理知识碎片,养成习惯,这样才能保证知识点的持续更新和完善。 确实,坚持是最难的,那有没有什么办法可以让这个过程变得更轻松一点呢? 你可以找几个志同道合的朋友一起做,大家分工收集不同领域的知识碎片,然后互相分享,这样既能提高效率,也能增加动力。另外你还可以利用一些自动化工具,比如设置定时提醒,或者用爬虫工具自动抓取相关的内容。不过爬虫工具使用的时候要注意遵守平台的规则,不要违规抓取。 这个主意不错,组队收集确实能解决很多问题。那今天咱们聊了这么多,你能不能给大家总结一下,搭建豆包 ugc 智能体知识库收集知识碎片的核心要点是什么? 核心要点其实就三个,第一是明确目标,先确定你搭建的智能体是面向哪个领域的,需要解决哪些问题,这样才能有针对性的收集知识碎片。 第二是注重质量,不要盲目收集,要选择那些准确实用相关的内容。第三是持续更新,知识是不断变化的,知识库也要跟着更新,这样智能体才能一直保持良好的性能。 总结的太到位了,今天跟你聊了这么多,我感觉自己对知识碎片收集和知识库搭建有了更清晰的认识。相信听了咱们今天的播课,大家也能少走很多弯路。 没错,希望这些经验能帮到大家。如果大家在搭建过程中遇到什么问题,也可以在评论区留言,咱们一起交流探讨。好的,今天的播课就到这里了,感谢大家的收听,咱们下期再见!



本期视频我将演示如何用 flow 的 agent 的 功能去克隆一个按摩器的视频,那我们可以看到是像这个,那么在开始之前呢?我建议是先看一下,呃,你在导入视频的时候, ai 给生成的这个 这个提示词是否正确?因为我刚才发现,呃, ai 把这个视频里面的大腿它看成了小腿 啊,以至于我还得专门去学习一下大腿和小腿的那个英英文单词是啥,因为我刚才测试了一下, 这个克隆出来怎么都在按摩小腿啊,这原视频不是大腿。所以说我建议大家先去核对一下 ai 给出的这个分析结果是不是正确,当然这个也不是太大问题,我们点击这里开始生成啊,开始选择这个视频,然后开始选择之后呢? a 政的会去,呃,先分析一下这个视频,然后他会给出这个人物和产品。当然人物和产品我们只提供内置的三款人物啊,当然也包括我是第三个,然后 产品或者是其他人物。那你就要自己在这个 asset 里面,你去准备一下各个角度的照片,因为我们可零三的话,它的要求是每个 一个物体要有两个角度的照片。那我们这里的话,我们就选择这个男生和这个按摩器吧。那我们这里的话可以看到已经提前给你准备好了,你可以回复什么话,我们这里的话就选择。呃,使用这个人物和产品的话,我们再发送。 那么接下来 a 字呢,会基于原视频的结构去把提示词替换为你,你选择这些人物和角色,但是这个也依然是不确定的, 那可以看到 a 阵的告诉我们,呃,接下来会有一个 things one, 然后去用我们刚才选的这个男声和这个按摩器,然后并且告诉我们,如果你非常确定了,请输入这个确认替换,那我们这里就确认,然后再发给他。 那我们可以看到接下来会进入一个叫工作空间的模式,那我们先把这个折起来。由于这个视频非常的短,所以 a 层的只给出了一个片段, 那么首先在最左边是我们的每个片段的照片,那么控制这个照片呢?是我们这里的图片,呃,提示词的输入框,你可以通过像这种艾特的形式去换也行。 然后呢,第二个是这个视频的预览,视频的预览相关的提示词是从这里开始。呃,我们一共是有三个这个镜头,你可以通过拖拽去更改镜头的长度,最高的十五秒是受限于我们可零三这个模型的长度。呃时长, 那么我们一共是有。呃,我把这个镜头,我们一共是有三个这个镜头,每个镜头又分为几个核心的参数,你依然可以在这些参数里面去艾特去呃替换,呃人物或者产品,但是这个是基于你上一步选择好的 a 帧的这种替换的。 那我们现在的话可以看到 agent 告诉我们,请你呃去浏览,并且去编辑我们这些提示词在左边,然后如果你觉得没有问题,可以先进行这个图片的生成,所以我们可以呃直接去发出这句话, 那么我们图片生成使用的是 nano banana 二模型,呃,生成时间大概是在三十秒以内。 好了,我们可以看到这个照片的话,这个人物的大腿明显是穿的衣服了,所以说你可以去改这个提示词,然后去,呃,然后在这里你可以看到你可以直接去让他重新生成 这个照片,然后呢,如果你觉得没有问题,你就可以再输入这个开始视频生成就行了,但是生成等待时间比较长,可能是五到十分钟之内一直。 and if you hear this sound then go on your back go on your knees baby shake it to the max but did you please turn off the bass to the max, please just do one let me shake it to the max。
