下班无聊顺手用豆包搭建了个人知识库,体验感直接拉满。二零二六年,作为 ai 智能体全面爆发的一年,就连春晚都在大力普及。不过一直使用在线网页版,总担心隐私安全,重要文件也不敢随意上传。趁着下班不忙,花了三小时在本地电脑搭建了属于自己的知识库, 文档都能直接导入,想提问就提问,完全不用担心数据泄露。关键的是全程不需要服务器,自己电脑就能跑。我已经整理好小白也能看懂的保姆级教程,图文并茂,跟着走下来就能搭建出自己的知识库,要练习的朋友不嫌弃就抱走吧!
粉丝2254获赞1.4万

欢迎收听扣子 ai 播客。 哈喽,大家好,我是大一,我是咪仔,欢迎来到我们的技术分享时间。最近刷技术论坛的时候,看到好多人都在聊豆包 ugc 智能体,说搭建起来特别麻烦,踩了好多坑, 刚好我们团队刚做完一个垂直场景的智能体搭建,今天就跟大家聊聊从零到一的完整流程,还有怎么把这套流程附用起来,快速复制到别的场景里。 对哦,我记得最开始我们启动这个项目的时候,你还跟我吐槽过,好多人都在跟风做智能体,但大多都是那种通用型的,放到垂直场景里根本不好用。 没错,就是这个问题。当时我们服务的是一个做家居建材 ugc 社区的客户,用户经常在社区里问一些非常具体的问题,比如小户型客厅怎么搭配沙发实木地板怎么保养之类的。通用智能体要么达的太泛,要么就是直接复制粘贴网上的内容,根本没有针对性。 那客户当时的需求就是要一个专门针对家居建材 ugc 场景的智能体,能理解用户的具体问题,还能结合社区里的优质内容给出准确的回答是吧? 对,而且客户还有个痛点,就是他们的运营团队不是技术出身,没法自己维护和更新智能体的知识库,每次有新的社区内容上线,都得找我们帮忙调整,效率特别低。 所以我们当时就想,能不能做一套可以附用的搭建流程,不仅解决当前的垂直场景问题,以后遇到类似的 ugc 场景也能快速上手。那第一步肯定是需求分析吧,毕竟要先搞清楚用户到底想要什么,才能开始后面的技术选型和功能设计。 没错,需求分析我们分了两步走,第一步是跟客户的产品和运营团队聊,搞清楚他们的核心诉求。除了刚才说的针对性回答和方便维护之外,他们还希望智能体能自动识别社区里的优质内容,自动更新到知识库,这样就能减少运营成本。 那第二步呢?是不是还要去跟终端用户聊聊,看看他们平时在社区里的使用习惯和真正的问题点? 对,我们找了大概二十个活跃用户做了深度访谈,还爬取了社区里三个月的用户提问数据,发现大家的问题主要集中在产品选购、安装维护、搭配设计这几个方面,而且很多问题都是带有强烈场景化的, 比如租房党怎么选性价比高的床垫、南方回南天怎么保养皮质沙发之类的。这些数据应该给后面的功能设计提供了不少方向吧。 没错,需求分析做完之后,我们就开始进入选型了,当时考虑了几个方案,最开始想直接用豆包的基础模型,然后通过 prompt 工程来优化,但后来发现 prompt 工程只能解决部分问题,对于 ugc 场景里的个性化内容处理还是不够灵活。那最后你们选了什么方案? 最后我们决定采用基础模型加垂直领域知识库加自定义技能的架构。基础模型还是用豆包的四点零版本,因为他的语理解能力确实不错。垂直领域知识库我们用了向量数据库,把社区里的优质内容转换成像量存储进去,这样智能体就能快速解锁到相关的内容。 自定义技能这块我们开发了几个针对家居建材场景的插件,比如产品参数查询、搭配方案生成、保养指南推荐之类的。听起来这个架构还挺清晰的,那功能设计这块你们是怎么考虑的? 功能设计我们围绕用户的核心需求分了几个模块,第一个是用户提问处理模块,负责接收用户的问题,进行意图识别和语音解析,然后判断是直接调用基础模型回答还是需要从知识库中解锁内容,或者调用自定义技能。 那第二个模块应该就是知识库管理模块吧,毕竟客户希望运营团队能自己维护知识库。没错,知识库管理模块我们做了可视化的界面,运营人员不需要懂技术就能上传新的社区内容,系统会自动转化成像量存储到数据库里。 而且我们还加了智能审核功能,能自动过滤到低质量或者违规的内容,减轻运营的审核负担。那第三个模块呢?是不是还有智能体的对话管理模块,负责处理多轮对话的上下文? 对对话管理模块很重要,因为很多用户的问题不是一次性就能问清楚的,可能需要多轮交互才能得到满意的回答。比如用户问小户型客厅怎么搭配沙发,智能体给出推荐之后,用户可能会接着问,那茶几选什么材质的比较好? 这时候智能体需要记住之前的对话上下文,给出连贯的回答。那具体实施的时候,你们是怎么一步步把这些功能落地的? 实施阶段我们分了四个步骤,第一步是数据准备把社区里的优质内容整理出来,清洗到重复和无效的内容,然后转换成适合向量数据库存储的格式。这一步花了大概一周的时间,因为数据量比较大,而且还要人工标注一些关键信息,比如内容的分类、关键词之类的。 那第二步应该就是搭建知识库和配置基础模型了吧?对,第二步我们先搭建了向量数据库,把整理好的内容导入进去,然后配置了豆包的 api 接口,设置了基础的 prompt 模板,让模型能根据用户的问题结合知识库的内容生成回答。 这一步我们遇到了一个问题,就是模型有时候会忽略知识库的内容,直接用自己的训练数据回答。后来我们调整了 prompt 的 权重,强制模型优先使用知识库的内容,才解决了这个问题。 第三步是不是就是开发自定义技能和界面了?没错,第三步我们开发了几个自定义技能,比如产品参数查询,我们对接了客户的产品数据库,用户问某个产品的参数,智能体就能直接调用接口获取数据,然后整理成自然语言回答。 界面这块我们做了外部版本和小程序版本,用户可以在社区里直接和智能体对话,运营人员也可以通过外部界面管理知识库。那第四步就是测试和上线了。 对,测试我们分了三个阶段,第一个阶段是内部测试,我们团队的人模拟用户提问,检查智能体的回答是否准确,有没有出现幻觉或者错误的信息。第二个阶段是邀请了一百个社区的活跃用户做灰度测试,收集他们的反馈,然后根据反馈调整模型的参数和 prompt 模板。 第三个阶段就是正式上线,上线之后我们还做了一周的实时监控,每天查看对话日记,及时处理用户的投诉和建议。 那搭建过程中你们遇到的最大挑战是什么?最大的挑战应该是知识库的更新和维护问题。最开始我们是手动上传内容,但后来发现社区里每天都有大量新的优质内容产生,手动上传根本跟不上。 后来我们开发了一个自动爬取和筛选的工具,能自动识别社区里的高赞内容,自动转换成像量存储到知识库,这样就解决了更新不及时的问题。还有其他的技术难点吗? 还有一个难点就是多轮对话的上下文管理。有时候用户的问题比较复杂,涉及多个场景和知识点,智能体很容易忘记之前的对话内容,导致回答不连贯。 后来我们优化了对话管理模块,增加了上下文缓存和记忆机制,让智能体能记住用户之前的提问和回答,这样多轮对话的体验就好了很多。那现在这个智能体上线之后效果怎么样? 效果还不错,客户反馈说,用户的提问响应速度比之前快了很多,回答的准确率也提升了大概百分之三十。而且运营团队现在不需要找我们帮忙维护知识库了,他们自己就能上传和更新内容,效率提升了不少。 那接下来就是大家最关心的部分了,怎么把这套流程附用起来,快速复制到其他同类场景?其实我们在搭建这个智能体的时候,就考虑到了附用的问题, 所以我们把整个流程抽象成了几个标准化的模块。第一个模块是需求分析模板,我们整理了一套针对 ugc 场景的需求分析框架,包括用户访谈提纲、数据爬取方案、需求优先级评估方法之类的。以后遇到类似的项目,直接套用这个模板,就能快速完成需求分析。 那第二个模块应该就是技术选型和架构设计的标准化了吧?对,第二个模块是技术架构的标准化,我们把基础模型加垂直领域知识库加自定义技能这套架构固化下来,针对不同的垂直场景,只需要更换知识库的内容和自定义技能的功能,就能快速搭建新的智能体。 比如如果要做一个美食 ugc 场景的智能体,只需要把知识库换成美食相关的内容,自定义技能换成菜谱查询、食材推荐之类的功能就可以了。 那第三个模块是不是就是实施流程的标准化?没错,第三个模块是实施流程的标准化。我们把从数据准备、知识库搭建、模型配置,既能开发到测试上线的每个步骤都整理成了详细的操作手册, 每个步骤都有明确的时间节点和质量标准,以后不管哪个团队来做类似的项目,都能按照这个流程一步步来,避免走弯路。 那除了这些标准化的模块,还有什么可以附用的东西吗?还有一些通用的工具和组建,比如我们开发的自动爬取和筛选工具,知识库管理界面对话日记分析工具之类的,这些工具都是可以附用的,只需要根据不同的场景做一些小的调整就能用。 那对于其他想尝试类似项目的团队或个人,你有什么建议吗?首先,我觉得要明确自己的核心需求,不要盲目跟风做智能体,先想清楚你要解决什么问题,目标用户是谁,他们的痛点是什么? 然后在技术选型的时候,不要追求最先进的技术,要选择最适合自己场景的方案,比如如果你的场景比较简单,可能用 prompt 工程就能解决问题,没必要搭建复杂的架构,还有吗? 其次,要注重数据的积累和知识库的维护,智能体的回答质量很大程度上取决于知识库的内容,所以一定要花时间整理优质的垂直领域数据,而且要建立定期更新的机制。 另外,在开发过程中要多做测试,尤其是灰度测试,收集用户的反馈,不断优化模型的参数和功能。最后还有什么要提醒大家的吗? 最后,我觉得要注重流程的标准化和附用性,不要每次做项目都从头开始,要把之前的经验和成果沉淀下来,形成可附用的模板和工具,这样以后再做类似的项目就能节省大量的时间和成本。 还有就是要保持学习,智能体技术发展的很快,要不断关注新的技术和方案,及时更新自己的知识体系。今天跟大一聊了这么多,收获真的很大,从项目背景、搭建流程到关键挑战和赋能价值,都讲的非常详细,相信对很多想尝试智能体开发的朋友会有很大的帮助。 没错,希望今天的分享能给大家带来一些启发。如果大家有什么问题或者想法,欢迎在评论区留言,我们会及时回复。好的,今天的技术分享就到这里,感谢大家的收听,我们下期再见!再见!

上班摸鱼顺手用豆包搭建了个自己的知识库,没想到好用到起飞。二零二六年 ai 大 模型可谓是掀起巨大浪潮,但很多人还在用网页版 ai, 隐私和数据安全没保障,正好上班摸鱼闲得慌,于是就花了三小时在本地搭了个自己的知识库,再也不用担心数据泄露。 我把完整的搭建步骤都整理好了,我会带你走完从本地部署到知识库搭建全流程,感兴趣的朋友可以直接抱走学习。

不会还有人把豆包当百度去用吧?豆包加微信才是真正的王炸组合,我给你们看一下他们到底是怎么做的?来看视频,千万不要再把豆包当成百度去用了,豆包加微信才是真的王炸组合。我给你们演示一下, 比如我拿这个胶带全程封住,不讲话,注意看,全程封住胶布,没有讲话,就这样比划,比划 好给你们看一下他到底是怎么玩的。打开一条你喜欢的视频,复制他的链接,把他丢给我们的豆包,让他帮我们提取一下竹子膏,帮我提取一下竹子膏, 提取成功了,点击复制,提取成功以后,把他丢给我们的小程序,找到我们的 ai 智能, 然后粘贴过来刚才这段文案,然后选择我们刚才拍的这段胶布的视频,再给大家确定一下哈,就是刚才这段贴着胶布完全不讲话的这段视频。选择之后,再选择一个自己的一个音色,这是我提前克隆好自己的声音,然后这边有个模板,我们去挑一个自己喜欢的,就好 比如说我喜欢这个,点击确定,然后下面有一个标题,我们可以添加自己想要的成长的励志经历。好,这边 bgm 是 自动给我们添加好的。点击生成视频, 这边大概等待两分钟的时间。 later 视频生成好了,我们一起来看一下效果。你做什么都不会失败,因为你要么成功,要么学到东西, 对了就是成功,错了就是进步,你做什么都不会白做,明白吗?你尽管去干就好了,但就是怕你太在乎自己那一文不值的面子了。能把一个人终生困在底层的,就是他的羞耻心。 犹豫不决,患得患失,这些都是在为以后的遗憾去埋下伏笔。你记住我刚才说的,要么学到,要么赚到。最后还是那句, 没有天赋,那就是全程我是嘴巴贴着胶布完全不讲话的。就是这样,轻松点,一点一气呵成,从剪辑啊,文案啊,配乐啊,所有的一切轻松搞定。 我是不是把麦克的给得罪了?确实动了很多人的蛋糕啊。这条视频且看且珍惜,粉丝群低调学习。

欢迎收听扣子 ai 播客。 哈喽,大家好,我是今天的主持人,咱们今天来聊一个最近挺火的话题,就是普通人零代码也能搭建自己的锤类智能体知识库,而且它的长期价值真的能帮咱们省下不少力气。 没错,很多人可能觉得知识库就是给智能体额外加点资料,其实它根本不是可有可无的锦上添花,而是垂直智能体的能力基石。要是知识库设计的乱七八糟,不仅会让 ai 的 回答变得离谱,后续维护起来也会特别麻烦。 那先跟大家拆解一下核心概念吧,什么是 ugc 智能体啊? ugc 智能体就是咱们普通用户不用写代码就能创建的专属 ai 助手,你可以给他设定角色,绑定知识库,还能编排工作流,让他完全按照你的需求来干活。 那锤类知识库又是什么呢?锤类知客就是聚焦特定领域的结构化资料,比如医疗、法律、金融这些,它是通过 r a g, 也就是解锁增强生成的技术来提升 ai 回答的准确性和可解释性。 简单来说,通用大模型靠的是它自己的训练数据,而锤类智能体靠的就是咱们搭建的知识库。所以锤类知识库一定要有纯度和关联度,可别把资料堆成大杂烩,那样反而起不到作用。 明白了,接下来咱们就进入保姆级的搭建流程,首先得知道入口在哪里,还有需要准备什么,对吧? 对手机端的话,你得打开最新版的豆包 app, 版本要在 v 七点五点零以上。然后点击我的,找到智能体工坊,电脑端直接访问豆包点 com, 进入我的智能体或者创作中心就行。不过在这之前得先完成实名认证,开通相关的权限,不然可能操作不了。 接下来就是设置基础信息和人设了,这一步有什么需要注意的吗?名称得直白,体现功能,而且要控制在十二字以内,不能有特殊符号。 一句话简介要明确,核心直能。比如帮你解答职场面试问题,性格与语气可以勾选关键词,比如严谨、幽默、简明这些。开场白也要好好写,引导用户正确使用这个智能体。比如可以说,你好,我是职场面试助手,有问题随时问我。 然后就是创建知识库和上传文档了。这一步听起来好像挺复杂的,其实还好, 新建知识库的时候,命名要用英文数字或者下划线,而且得以字母开头描述,可以写零到五百字,说明这个知识库是做什么的。数据类型分非结构化和结构化。非结构化的有 pdf、 word, markdown、 txt。 结构化的有 csv、 excel、 json、 l。 那项链化模型怎么选呢?一般默认选 dobell, embedding, 二四零七一五,加上关键词模型就行。如果是长文本,可以选多语言模型,要是追求精度,就选 large 版本。 切片与缩影这块非结构化数据可以设置切片规则,一般八百到一千五百 token, 重叠两百 token, 这样能保证上下文的连贯性。结构化数据就按字段来分,缩影算法默认选 h n s w h hybrid, 它能兼顾语义和关键词。解锁 投喂资料的时候,格式优先级是怎样的啊?格式优先级是 markdown 最高,然后是 html、 word、 pdf 尽量别用扫描件和图片型的 pdf, 因为 ai 很 难识别里面的内容。还有数据清洗也很重要,得按四步法来。先把格式标准化,比如转成 markdown, 玻璃页眉页脚,然后划分语义单元,按章节或者条款分段, 还要保证术语一致,比如同一词要统一,最后做好时效性管理,加上版本号和更新频率。上传文件的时候有什么限制吗? 单次上传的文件数和总大小大概限制在两百 mb 左右,而且系统会自动过滤敏感信息进行审计,这个不用担心。 接下来就是把智能体和知识库绑定在一起了,怎么操作呢?在智能体编辑页找到知识库高级技能,然后添加资料,你可以上传文档,也可以直接粘贴文本或者 faq, 系统会自动解析这些资料,建立语义缩引,大概两到三分钟就能生效。 这里还要设置提示词约束,让 ai 优先寄予知识库。回答,如果不确定的话,要明确告诉用户,他不知道别瞎编。 那工作流和技能这块是进阶内容对吧?对,这部分是可选的,你可以设置意图识别、条件路由,精确检测的工作流,实现智能路由,让 ai 根据用户的问题自动找到对应的知识库内容。 还可以添加官方技能,比如 pdf 提取、表格识别、网页解析,还有插件,比如天气搜索、邮件飞书这些,让智能体的功能更丰富。 最后就是发布和测试了,这一步得好好检查对吧?没错,发布的时候可以选择可见性,比如仅自己可见,仅链接可见,或者公开搜索,如果选公开搜索,要优化关键词标签,增加曝光。 测试的时候要检查三个要点,一致性就是回答是不是基于知识库的内容边界控制。当问题超出知识库范围时, ai 要礼貌拒绝,还有多轮对话记忆,能不能记住之前的对话内容。测试完要是有问题就返回编辑页修改设定或者更新知识库, 而且系统有版本管理和回滚机制,不用担心改坏了找不回来。刚才讲完了搭建流程,再跟大家说说最佳实践和避坑指南吧。 首先,知识库拆分要遵循原则,最好按主题或者实体来分,比如分成公司信息、产品中心、售后 faq、 技术支持这些,别把所有资料都堆在一起,那样 ai 解锁的时候会混乱。 那解锁策略方面有什么需要注意的吗?可以选择向量解锁关键词 bm 二五或者混合解锁。还可以用 re、 rinking 和 melaton 的 权重来优化解锁结果,让 ai 更精准地找到需要的资料。 怎么验证知识库的质量呢?可以让专家审核资料的准确性,也可以用工具辅助检测敏感词和内容冲突。还要定期复盘,看看高频问题是什么,错误率最高的 top 五是哪些。然后针对性的优化知识库,知识库也需要持续更新,对吧? 当然日常可以根据用户反馈和业务变更来更新,比如有新的产品上线,就把产品信息加到知识库里面。 还要建立定期机制,比如每月统计一下大家的问题,扩充相关的知识。版本控制也很重要,可以用领域、年纪的格式来命名,比如职场面试下划线、二零二四 q 三,方便管理和回溯。 最后总结一下,普通人搭建垂类知识库其实没那么难,零代码大概十分钟就能跑通一个垂直场景,而且一次创建就能长期复利。 没错,垂类知识库是专业能力的基石,他的成败就在于结构化设计和持续迭代。未来智能体的竞争本质上就是知识库的广度、深度和活性的竞争。 所以建议大家先跑通一个垂直场景,再复制扩张,而且一定要注意数据合规和隐私保护,别泄露了重要信息。今天的保姆级教程就到这里了,希望对大家有帮助,咱们下次再见!再见!

欢迎收听扣子 ai 播客! 哈喽,大家好,又到了咱们的新手课堂时间。没错,今天咱们要聊的是一个特别实用的工具,豆包 ugc 智能体知识库搭建。我知道很多新手朋友一听到知识库这几个字就犯怵,其实真没那么难,跟着咱们一步步来,你也能答出越用越专业的智能体,是 先得搞明白到底什么是豆包 ugc 智能体知识库啊!说白了就是你给豆包定制一个专属的知识储备库,让他能根据你上传的内容更精准的回答问题,甚至帮你处理特定的任务。 对比如你是做电商的,把自家产品的说明书、用户常见问题都传进去,以后客户问问题,豆包就能直接用你给的资料来回复,不用你再反复解释。或者你是学生,把教材笔记上传,他就能帮你整理重点,解答疑惑。 没错,这就是他最实用的地方,能帮咱们节省大量重复劳动的时间。而且新手学这个也很有必要,毕竟现在 ai 工具越来越普及,掌握一点定制化的技巧,能让工具真正为自己所用。 那咱们先从最基础的开始,创建豆包智能体的完整流程。首先得确保你的豆包 app 是 v 七点、五点零级以上的版本,不然可能找不到智能体工坊的入口。 对这个版本要求一定要注意,要是版本太低,先去应用商店更新一下,更新完之后打开豆包 app, 点击右下角的我的,然后找到智能体功房,点进去就能看到创建智能体的按钮了。 没错,这几步其实挺简单的,跟着路径走就行。接下来就是知识库搭建的关键步骤了。首先是上传文档,豆包支持 pdf、 txt、 d、 o、 c、 x 这些常见格式,单次最多能传五个文件,总大小不能超过一百 mb。 这里有个小细节,上传的时候尽量把相关的文件分类整理好,比如把产品的说明书放在一起,用户问题放在一起,这样豆包在调用知识的时候会更清晰,而且上传之后系统会自动解析文档内容,这个过程可能需要等一会,别着急。 对上传完文档之后就可以设置角色了,角色设定特别重要,他决定了智能体的说话风格和回答逻辑。比如你想让他当一个专业的客服,就可以把角色设定成热情耐心的电商客服,熟悉产品知识,能快速解答用户疑问。 没错,角色设定的描述越具体越好,最好能明确他的身份、语气和职责范围。比如你要让他当老师,就可以写严谨负责的高中数学老师,擅长用通俗的语言讲解复杂知识点。 接下来就是配置技能了,技能配置其实就是告诉智能体他能做什么,比如解答产品使用问题、生成产品介绍、文案整理、用户反馈等等。你可以根据自己的需求来添加不同的技能。 这里还有几个关键参数需要注意,比如响应长度默认是五百到两千字之间,你可以根据需要调整。还有敏感词过滤和联网搜索开关,敏感词过滤建议打开,避免智能体输出不合适的内容。 联网搜索开关如果打开的话,智能体可以结合网上的信息来回答问题,不过要是你希望他只使用你上传的知识库内容,就把这个开关关掉, 对这些参数的设置要根据自己的使用场景来调整。比如你要是用智能体来处理内部文档的问题,就关掉联网搜索,这样他就只会用你上传的内容来回答更精准。 那说完了基础的搭建步骤,咱们再聊聊实用技巧,怎么让智能体越用越专业。首先就是持续迭代知识库,随着你的业务发展或者知识更新,要及时上传新的文档,替换旧的内容 没错,比如你家产品更新了功能,就要把新的说明书上传进去,不然智能体还会用旧的内容来回答问题,就会出错。而且每次上传新内容之后,最好再重新测试一下,确保智能体能正确调用新的知识。 然后就是测试优化方法,最常用的是一致性测试和边界控制测试。一致性测试就是问同一个问题,多次看智能体的回答是不是保持一致,避免出现前后矛盾的情况。 边界控制测试就是问一些超出知识库范围的问题,看看智能体会不会胡乱回答。比如你上传的是电商产品的资料,就问他一些关于医疗的问题,要是他说我不太清楚,那就说明边界控制做的不错。要是他随便乱答,你就要调整角色设定或者技能配置,明确他的回答范围。 对,还有一个小技巧,就是持续优化人设描述和技能配置。比如你发现智能体的回答语气太生硬,就可以在角色设定里加上语气亲切,像朋友一样和用户交流,要是他的技能不够全面,就再添加新的技能。 没错,这些优化都是一个循序渐进的过程,不可能一次就做到完美,需要你不断的测试和调整。聊完了技巧,咱们再说说新手常见的坑,帮大家避避雷。 第一个常见问题就是上传的文档格式不对,导致系统解析失败。比如有些 pdf 文件是图片扫描件,不是可编辑的文本格式,系统就没法解析,这时候你就得先把扫描件转换成可编辑的文本格式再上传。 对!还有一个问题就是角色设定太模糊,比如只写客服,没说清楚是电商客服还是售后客服,也没说清楚语气要求,这样智能体的回答就会比较随意,达不到你想要的效果,所以角色设定一定要具体。 还有一个坑就是上传的文件太大,超过了一百 mv 的 限制。这时候你可以把大文件拆分成几个小文件,比如把一本厚书分成几张分别上传,或者先压缩一下文件,看看能不能把大小降下来。 没错。还有就是忽略了测试环节,刚搭好智能体就直接用,结果发现回答错误百出,所以一定要先测试,确保智能体的回答符合你的要求之后再正式使用。 还有一个常见问题就是不知道怎么叠带知识库,很多人搭好之后就不管了,过了几个月,知识库的内容已经过时了,智能体的回答自然也不准确,所以一定要养成定期更新知识库的习惯。对,这些都是新手很容易犯的错误,大家搭建的时候一定要注意。 好了,今天咱们把豆包 u j c 智能体知识库搭建的整个流程,关键步骤、使用技巧和避坑指南都聊的差不多了,其实总结下来,核心就是三步,搭建基础框架配置、关键参数,持续优化迭代。 没错,新手朋友不用害怕,先从简单的开始。比如先上传一份自己的笔记,设置一个简单的角色,测试一下效果,然后再慢慢调整和优化。 对,最重要的是动手实践,光听理论没用,自己操作一遍,遇到问题再回来看看咱们的指南,很快就能上手。而且随着你不断的优化知识点,智能体会越来越专业,真正成为你的得力助手。 没错,希望今天的内容能帮到大家,要是你在搭建过程中遇到什么问题,欢迎在评论区留言,咱们一起交流讨论。好了,今天的节目就到这里,感谢大家的收听,咱们下次再见!再见啦!

怎么通过豆包上的免费智能体进行变现?我们直接上实操?好,我们首先呢打开豆包, 点击左上角两条线,点击这个地方智能体,再点击右上角的放大镜, 然后输入龙哥深度解读,我这个地方已经有了,直接点击一下,这个地方呢,最上面出现了一个龙哥深度解读,用吧智能体点击进去,然后在上面这个部分有一个内容由 ai 生成,点击这个位置, 然后再点击创建人,这个位置创建人只使用吧,龙哥点击一下,然后我们就会看到 我发行的十五个智能体,这些智能体对大家来讲现在是可以免费使用的,比如说纳沃尔宝典,我们点击加号进去,点击进去,这个时候有 a 零零幺,没有这个邀请码,大家呢是访问不了的,比如说我试着输入一个别的 显示,没有查到这个邀请码,就没有办法访问。假如我们现在输入 a 零零幺, 经验通过,可以正常使用,他会提示我们是否需要以说人话的方式来介绍纳瓦尔堡的核心思想,能够解决什么问题,适用的行业和人群啊?我说需要。 好,他就开始介绍核心思想,一句话概括,通过积累无法被替代的专长,加上利用杠杆放大成果来创造财富,通过管理欲望和练习幸福技能来获得内心的平静。他解决的核心问题是什么? 他的原则,通俗的解释都有了,适用的行业和人群,以及与其他的智能体之间的区别,比如这个地方, 这个智能体啊,麦克老师的智能体,通用大模型的智能体,彼此之间跟他们的区别是什么?对于提示词,对于幻觉,特别是交互模式,这个才是核心,没有这个我的这个智能体就没有价值。 重点是这个交互原则,通过下一步选项 q 一 杠 a 杠 b 杠 c 来进行下一步的细化,我们每个人都可以根据自己的实际情况来进行下一步的细化,这就让我们有了真正把知识落地的可能。 好返回去,这么多的智能题大家都可以拿来使用,现在是免费使用的,那怎么能够变现呢? 刚才看到邀请码了,这个邀请码如果你有你就能够使用,如果没有你就不能够使用,有了之后还可以设置截止日期, 这就是首先呢,必须这个智能体有价值。我的智能体和其他人开发的智能体是不一样的,因为我解决的是把经典书籍的知识真正落地这样一个价值,而不是只是去讲解,只是让大家去听一个知识点去解读,不是这个样子,是真正的落地,这就有了价值,在这个基础上 再去进行变现,这就是顺利成功的事了。更关键的是这十五个智能体只是我一千六百五十个智能体当中的十几个而已, 那一千六百个智能体几乎可以解决一个人从出生到老去这整个的生命周期当中遇到的绝大部分人生的卡点问题。无论是个人成长还是财富积累啊,还是方方面面,还是亲子关系,还是情感方方面面,经济学、心理学,全都包含了有需要的粉丝群。

欢迎收听扣子 ai 播客。 hello, 大家好,我是大一,我是咪仔,欢迎来到今天的播客。最近我在社群里看到好多人吐槽说用豆包智能体做知识库的时候越用越乱哦,我也有朋友跟我说过类似的事,他把所有资料都堆在一个库里,结果 ai 经常答非所问。 对,这就是今天咱们要聊的核心问题。很多人刚开始用豆包智能体的时候,觉得建一个库就够了,不管是产品文档、营销方案还是客户反馈,一股脑全塞进去。 我能理解这种心态,刚开始用吗?觉得省事,反正都能解锁到就行。是,但你仔细想,就像你把所有衣服都堆在一个衣柜里,找一件衬衫的时候得翻半天,还容易把其他衣服弄乱。豆包智能体的知识库也是这个道理,资料混杂在一起, ai 解锁的时候就容易混乱。 那具体会出现哪些问题呢?首先是关键词重叠。比如你同时存了产品的功能文档和客服的常见问题,里面都有退款这个词。 ai 解锁的时候,可能会把功能文档里关于退款流程的说明和客服问题里的退款案例混在一起,给你的回答就会很杂乱。 确实,这样用户看的时候也得自己去梳理,反而更麻烦了。还有就是 ai 难以精准定位内容,比如你想让 ai 生成一份产品的营销文案,结果他把产品的技术参数、售后政策都混进来了,因为这些内容都在一个库里, ai 没办法快速区分你到底想要哪部分信息。 那有没有什么办法可以解决这个问题呢?当然有,最直接的办法就是拆分知识库,做到专库专用。就像你把衣柜分成衬衫区、裤子区、外套区一样,把不同类型的资料放在不同的库里。 那具体应该怎么拆分呢?可以按照主题、场景、功能这些维度来拆分。比如按照主题拆分的话,你可以建产品知识库、营销知识库、客服知识库,每个库里只放对应主题的资料,这样是不就能让 ai 更精准的找到需要的内容了? 对,比如你需要生成营销文案的时候,就直接调用营销知识库, ai 就 只会去解锁里面的营销方案、竞品分析这些内容,不会把产品的技术参数混进来。 除了主题还有其他拆分为度吗?还有场景维度,比如你可以建售前场景知识库、售后场景知识库,售前库里放产品介绍、常见疑问,售后库里放退换货流程、故障排查指南,这样不同岗位的人用的时候直接调用对应的场景库就行,不用在海量资料里翻找, 听起来挺实用的,那功能维度呢?功能维度就是按照 ai 的 使用功能来拆分。比如你用豆包智能体做内容生成,就建一个内容生成知识库,放一些写作模板、行业案例。如果是用来做数据分析,就建一个数据分析知识库,放一些数据报表、分析模型。 这样拆分之后是不是就能提升检测准确率了?那肯定的,就像你去图书馆找书,按照分类去找,比随便翻找快多了。而且拆分之后,你还可以给每个知识库设置不同的权限。 比如营销知识库只有市场部的人能访问,客服知识库,只有客服能访问,这样也能保证资料的安全性。那在规划知识库结构的时候,还有什么需要注意的吗? 首先要提前做好规划,不要想到什么就建什么库,你得先梳理清楚自己的资料类型和使用场景,比如你有多少种资料,分别是用来做什么的,然后再决定怎么拆分, 对提前规划很重要,不然拆来拆去反而更乱了。还有就是要给知识库起一个清晰易懂的名字,比如资料库一,资料库二,时间长了你自己都不知道里面放的是什么, 这个细节确实很重要,很多人可能会忽略。还有就是要定期整理知识库,就像你衣柜里的衣服,穿久了也要整理一下,把旧的没用的资料删掉,把新的资料归类到对应的库里,这样才能保证知识库的整洁和高效。 那有没有什么实践建议可以分享给大家呢?首先,刚开始用的时候,可以先从小范围拆分开始,比如先把最常用的几类资料拆分出来,用一段时间觉得好用了,再逐步拆分其他资料,不要一开始就建十几个库,反而会增加管理成本, 对循序渐进比较好。其次,要给每个知识库设置清晰的标签和描述,比如在营销知识库的描述里写清楚,这个库是用来存放营销方案、竞品分析、用户调研这些内容的,这样你自己或者其他人用的时候,一眼就能知道这个库是干嘛的, 这样确实能提升使用效率。还有就是要多测试,拆分之后,你可以让 ai 生成几个内容,看看它的回答是不是更精准了,如果还是有混乱的情况,就再调整一下知识库的结构。那总结一下知识库管理的最佳实践是什么呢? 首先就是避免资料堆弃,不要把所有资料都放进一个库。然后是合理拆分,按照主题、场景、功能这些维度,做到专库专用,还要定期整理和测试,保证知识库的整洁和高效。 没错,其实就像我们整理自己的房间一样,把东西分门别类放好,找的时候才会更方便。豆包智能体的知识库也是一样,管理好了才能发挥它最大的作用。 对,很多人觉得建知识库就是把资料上传进去就行,但其实管理好知识库才是关键,不然就像一个乱糟糟的房间,看起来东西很多,但用的时候什么都找不到。 希望今天的分享能给大家带来一些帮助,如果你还有其他关于豆包智能体使用的问题,欢迎在评论区留言,没错,我们下期播课,再见!再见啦!

这期视频手把手教你搭一个属于自己的 ai 智能题。首先,什么是智能题啊?我们可以把它理解成为一个你自己训练出来的专属 ai 员工, 那么你可以给他设定好身份、任务和规则,以后每次找到他的时候,他都能按照你的要求来回答,我们直接上实操。第一步,先创建智能题,打开豆包,在首页找到创建 ai 智能题,点击进入。第二步,上传一个形象照, 一张真实的照片最好,看起来很亲切,有信任感。第三步呢,取一个好的名字,可以叫文案编辑、 ai 训练师、直播顾问啊等等。那这个名字本质上呢,就是这个智能体的标签,一定要让 别人明白能够解决什么样的问题。第四步,就是去填写智能体的简介,而且这一步决定了会不会用你的智能体。 你需要把三件事情讲清楚,第一,主要擅长哪些领域,第二,可以提供什么样的帮助,第三,能够解决哪些问题啊,至少来写三条内容,越清楚越好。全部填完之后,点击创建智能题, 一个属于你的 ai 智能题就正式的搭好了,但是搭好只是开始,关键是要训练它。 一个训练好的 ai 智能题呢,可以辅助你出境拍视频呀,处理生活中的各种难题,更重要的是 还可以把你的产品给他,让 ai 智能体来帮你做介绍,替你卖货。我觉得这个就是大势所趋啊,一个没有训练过的智能体,他只是摆设,训练好了之后,他是你的最强搭档。 觉得有用的话呢,就点个关注吧,我是开心,后面会继续分享更多的 ai 实战玩法,我们下期再见,拜拜!

欢迎收听扣子 ai 播客。 hello, 大家好,咱们今天来聊一个挺实用的话题,就是豆包智能体的知识库数据类型。你平时在做智能体知识库的时候,有没有纠结过到底该上传哪种格式的文件? 那可太有了,我之前上传过 word 文档,也传过 excel 表格,但一直没太搞懂这两种类型到底有啥不一样。 这不就说到点子上了吗?其实豆包智能体的知识库数据主要分两大类,非结构化和结构化数据。先来说说非结构化数据吧,就是咱们平时常见的 pdf、 word、 markdown, 还有 txt 这些文档格式。 对,这些格式我都用过,感觉就是把平时写的文档直接上传就行。但是好像有时候智能体理解起来不是特别精准,是不是跟这个非结构化的特点有关? 你错,非结构化数据的核心特点就是以自然语言为主,就像咱们平时写的工作报告、产品说明书,里面都是大段的文字,没有固定的格式和字段划分。 所以这些数据上传之后,智能体得先做文本提取、清洗、分段这些预处理工作,才能把里面的信息拆解成自己能理解的内容。哦,原来是这样,那结构化数据呢?是不是就不用这么麻烦了? 对,结构化数据就规范多了,像 csv、 excel、 json 这些格式,都是按照表格或者字段来组织的。比如说你做的销售数据表,每一行是一个订单,每一列是订单号、客户姓名、成交金额这些明确的字段, 智能体可以直接读取这些字段,不用再额外处理,解锁起来也更快更准确。这么看来,结构化数据好像优势更大啊。那为什么还要用非结构化数据呢? 这你就不懂了,不同的数据类型适合不同的应用场景。非结构化数据的优势在于能承载更丰富的信息,像公司的产品白皮书、项目文档里面有大量的上下文和细节,这些信息用结构化表格根本装不下。 而且非结构化数据更贴近咱们日常的表达方式,智能体处理之后能更好的理解文本里的逻辑和情感,回答问题的时候也更自然。 确实,我之前上传过一份产品的使用手册,是 word 格式的,智能体就能根据里面的步骤详细解答用户的操作问题。要是换成 excel 表格,可能就只能列出一些参数了。 没错,这就是非结构化数据的价值。那结构化数据的优势呢?主要体现在数据处理的效率和准确性上。 比如说,你想让智能体分析销售数据,上传一份 excel 表格,里面有每个月的销售额、客户分类这些字段,智能体可以直接根据这些字段进行统计和分析,很快就能给出像第三季度哪个地区的销售额最高这种精准的回答。 那咱们在实际使用的时候,该怎么选择合适的数据类型呢?这就得看你的业务需求了。如果是想让智能体处理大量的文档资料,比如帮助客户查询产品信息,解答常见问题,那非结构化数据就更合适,因为他能提供更全面的背景信息。 要是你需要智能体做数据统计、报表分析,或者快速解锁特定字段的信息,那结构化数据就是更好的选择? 我明白了,就是根据具体的使用场景来选。那有没有可能两种数据类型结合起来用呢? 当然可以啊,这其实是很多企业的最佳实践。比如说你先把产品的核心参数做成结构化的 excel 表格,方便智能体快速回答关于产品规格的问题,再把产品的详细介绍、使用案例做成非结构化的 word 文档,补充更多的细节信息。 这样智能体就能在不同的场景下调用不同类型的数据,给出更全面准确的回答。这个思路挺好的,既能兼顾效率,又能保证信息的丰富度。那除了选择合适的数据类型,在知识库、数据管理方面还有什么需要注意的地方吗? 当然有,首先就是数据的质量问题,不管是结构化还是非结构化,数据上传之前都得做好清洗工作。非结构化数据要去掉里面的溶于信息,比如重复的段落,无关的注视。 结构化数据要保证字断的一致性,不能有的行用成交金额,有的行用销售额,这样智能体才能准确识别。对数据质量确实很重要,要是数据本身就乱七八糟的,智能体肯定也处理不好,还有吗? 然后就是数据的分类管理,最好把不同类型、不同主题的数据分开存放,比如专门建一个文件夹放产品文档,另一个放销售数据,这样不仅方便后续更新和维护,智能体在解锁的时候也能更快定位到需要的信息。 这个我深有体会,之前我把所有文档都混在一起,后来想找某个特定的资料,找了半天都没找到,整理之后就方便多了。 没错,还有就是定期更新知识库的数据,不管是产品迭代了还是业务流程变了,都要及时把新的文档或者数据上传到知识库,不然智能体还在用旧的信息回答问题就会出错。 对,这个也很关键,要是用户问的是最新的产品功能,智能体还回答旧版本的内容,那不就闹笑话了吗? 最后就是权限管理,要是你的知识库里面有敏感数据,比如客户的隐私信息,公司的内部机密,一定要设置好访问权限,不能让所有人都能随便查看和修改,避免数据泄露。 总结下来就是要选对数据类型,管好数据质量,做好分类和更新,还有注意权限安全。这么看来知识库的管理也挺有讲究的。 可不是吗,虽然豆包智能体已经很智能了,但还是需要咱们做好前期的准备工作,才能让它发挥最大的作用。希望今天咱们聊的这些能帮你在搭建知识库的时候少走点弯路。那必须的,今天学到了不少实用的知识,以后在做智能体知识库的时候就知道该怎么选择和管理数据了。 行,那咱们今天的分享就到这里,要是你还有其他关于豆包智能体的问题,欢迎下次再来跟我们一起探讨。好的,谢谢大家收听,咱们下次再见!

为什么不建议同学们拿 deepsea 或者豆包直接写呢?因为他们压根就接不上任何文献数据库后面给你列的那些参考文献全是瞎编的,一旦被查出来,后果真的很严重。但是也别太焦虑,今天我来教大家借助知网,二十分钟左右就能出一篇格式,不用调 图标完整 ai 检测也没问题的范围。第一步呢,我们到知网这里填上关键词,然后点击解锁,然后时间勾选最近五年内的,太老的就不要了,这时候就可以快速过一遍, 从里面挑出大概二十篇左右跟你论文最相关的文献。这些文献挑完以后呢,去点一下导出与分析,然后选择导出 x 叉新引文的格式,复制好存着。接下来我们来到这个辅助工具,第一件事就是把你的论文标题填上去,再选择一下学历层次和论文字数, 全部核对无物之后呢,我们就点下一步,到这一步呢,就是让你补充真实文献,我们把之前从制网上导出的那些文献直接粘贴进去就行了,要是你觉得文献片数不太够,下面平台也会根据你前面填的那些信息,给你推荐一批比较匹配的文献供你挑选, 没问题就点确认好了。同学们,来到最后一步了,如果你手上已经有现成的提纲了,那就选粘贴心仪提纲,直接贴上去就行。 在这个大纲上面呢,你可以随便改,想加标题就加,想删章节就删,需要插入图标或者代码也都可以在这里操作,然后点下一步,差不多以二十分钟左右的样子,你就能拿到这样一篇图标齐全的初稿了, 最厉害的是它的格式都是已经调整好了,参考文献也全都是我们一篇篇从制网上亲手选出来的, ai 律这种更不必多说。最后祝大家毕业顺利!

本节课程 deep seek、 阿里云、智能体、豆包在讲这个之前,我们先说一说对接大模型和对接智能体有什么不同。 我们可以打一个比喻,大模型就是螺丝钉或者说一个单独的机器,但智能体就是一条生产线。带着这个比喻我们一个一个的看,比如说大模型可以选择的内容,我们现在有统一千万 dipstick、 豆包, 智能体有扣子、阿里云,但是这个大模型每一个模型里面都有很多个小的版本, 比如说我们常见的这个千问,现在都有二点零、三点零这样的说法, dipshit 有 三点零、三点二之类的说法,豆包也有很多的版本。 那么从配置速度来看,直接对接大模型是非常快的,什么都不用配,把这个 k 一 填写完之后呢,后台就没有更多内容了。但是对接智能体 包含智能体应用和工作流程的应用就会比较慢,你起码要建这个智能体或者建这个工作流吧,这是最基本的。提示词方面,一般来说对接大模型是统一的, 就是我们程序里面写实的一个提示词,这种效果是比较差的。而对接自燃体的话,这个是可以在扣子,可以在阿里云上面自定义的,效果肯定是很好。从灵活性方面,对接大模型它可能就是比较差, 就没有太多灵活性,因为这些东西在我们的程序里面固化对接智能体的话会很好,这些东西你只要在扣子或者在阿里云上面自动修改就可以了。 从变化的适应的角度来看,比如说某些版本的模型会下降,这样的话如果我们的这个库文件不修改,它会直接会导致这个服务中断, 这个是很严重的一个问题。但是对接这个智能体修改这个大模型的版本就很快,在界面上面点一下鼠标,这样的话就算这个模型下架了,我们也会配置的比较快。 那么我们综合的回顾一下刚才说的内容啊,就对接大模型,其实相当于我们对接的是一个单一的机器,对接的是一个螺丝钉,这些东西都是固化的,但是它是整个配置过程非常的快, 就不能说实现太多差异的东西。但是对接智能体包含智能体应用和工作流程的应用,这个应该来说是 速度稍微慢一点,配置的时候会慢一点,运行的时候也可能会慢一点,因为在这个流程里面,它可能是调用了一个大模型来判断,意图调用另外一个大模型来进行一个答复, 这样的话整体效率也会低一点点,但是它可以实现的功能是非常的强大的, 也就是以后我们的这些项目其实更多的是对接智能体,对接单一的大模型,这种呢应该来说会比较少,除非是一个非常非常简单的应用,我不需要这个大模型返回一个 jc 呢,返回一些控制指令等等的, 这样的话就可以使用对接大模型。随着现在 ai 模型的升级越来越多,越来越快,那么对接智能体可能会更加的方便,更加的容易的实现我们相应的功能。 那么我们讲讲对接 dipstick, 这里所说的这个平台其实是部署在阿里云上面的,所以对于我们来说什么也不用改,因为本身阿里云上面就有这个东西, 那么这个 ai 我 们选择 dipstick 就 可以了,就跟上一节课的同一千万有所区别,其他的四个内容都不需要修改,这样就完成了,非常的简单。 但是在阿里云上面部署的 tips 可能速度也一般般,那么我们看一下怎么对接智能体。首先在 阿里云的平台上面,我们可以搜索百炼平台,然后转到对应的平台,然后打开这个应用管理,创建应用,然后就给他一个名字,立即创建,这个就很简单了。 选择方面,我们不要选择太慢的,功能太强大了这平台,因为毕竟我们是一个对话, 越简单越好。这里我们选了一个叫做 tool 的 这么一个平台,这个也是比较简单的一个内容吧,可以不要快速的回复,如果大家能找到更快的,你就选更快的就行了,因为对于我们这个 这个对话的过程,肯定要选一个比较快的模型才能反应过来。那么我们在提示词这里啊,正如我刚刚说的,这个提示词你随便改, 如果你直接对接的是同一千万或者第四个的话,你这个提示词我都固化了啊,你就是一个 ai 助手,然后没其他内容了 啊,这样的话整个效果会大打折扣。模型的能力倒不一定说很差,但是你这个提示词没有写好,那可能就是整个都非常糟糕了。我们这里提示词大概内容就可以查询天气 啊,能够简单的返回啊,就这么简单的一个意思,然后再选择 m c p, m c p 是 目前来说大模型调用这个外部服务最好的一个东西,这个 m c p 你 可以实现各种各样功能,甚至你操纵电脑的浏览器,你在本地不属于 m c p 也是可以的。我们点一下这个加号,然后选择这个未开通, 在这里输入高德,然后再筛选一下,再找到这个高德地图,再立即开通, 它会提示有这么一个内容,我们选的是确认开通就行了,不需要填入个人的那些 key, 然后在已开通这里添加全部,那就完了。 填写完这个我们就可以在这里输入一个天气的,比如说广州天气,这样的话它就会返回一些信息了,如果你感觉这个不是你想要的,或者说太啰嗦了,我们也可以在这里不断地进行修改就 ok 了。 这个返回的内容应该来说就是跟我们的 tts 是 一样的, 这些都配置完之后我们就发布,发布完之后就在应用管理这里啊,应用 id, 这里这里这这个图标我们点一下就把它复制下来, 复制下来之后呢,它其实填的地方就是填在这个自然体 id 的 这个地方,其他的基本一样,这里选择阿里云智能体。 然后这三个是语音的支撑一样的,就像上个项目一样,都是填写之前的语音支撑,这个 a i t 也是填写同一千万的, 也跟刚才的 dips 的 t 是 一样的,也就是前面这四个没有变化,再增加这个就可以了,配置起来其实是非常的简单的。 我们再看一下怎么对接豆包,这个豆包它有推理这个模式,也就是可以暂时缓存一些数据,我们也看一下是怎么样的配置。 登录之后也像刚才那样,就是要输入一个搜索框啊,然后填写的是火山方舟, 进入这个火山方舟这个引擎里面,我们找到 api t 的 这个内容,然后就创建一个 api t, 这个跟之前我们在阿里云上面的这个创建 api t 是 一样的, 我们接着往下看,在开通管理,我们找到这里开通管理,然后打开这个在搜索这里我们选择 l i t, 意思就是说我们要找比较快的模型,如果那些功能太强大了,我们也搞不定,所以的话我们找到这个比较 旧一点的一点五版本的这个三十二 k 的 就开通一下,我们点了开通之后啊,它可能会提示你要身份认证,比如说你没有做实名认证的,你可能要先提交这个信息,它才让你开通 好了。这些信息都提交完之后呢,我们就正式这个开通的界面了,然后我们再找到开通管理那个界面,把这个 记录往右移啊,一直移到这里推理缓存定价,然后在这里点击这个开通缓存,然后这里就弹出这么一个开通的一个界面了, 然后再找到在线推理这个功能,然后点创建推理接入点, 在这个界面里面填写接入点的名称,选定一个模型,选刚才那个,也就是我们开通了哪个,你就应该选择这个,如果选其他的,那这个就是不生效的。 填写这些东西都填写完之后就再点创建,这些都搞好之后呢,我们就是再从这里啊拷贝它的 id 出来, 最后那个 id 是 填在这个豆包推理接入点。另外我们在这个地方啊,就不是在填这个阿里云的 key 了,是填写这个火山方舟里面的 api key 的 内容 就这个两个地方要发生变化,然后这里要选豆包,这三个地方还是没有发生变化,因为我们都是使用阿里云的语音支撑, 有些朋友就不是很理解的,为什么你不使用这个豆包的语音之称,嗯,其实也没什么不好理解的啊,因为我们就是这平台就暂时开发了这个功能,只支持这个,而且这个也比较便宜,试用期三个月。 那这样的话就是我们一直用这个也挺好的,就是有时候感觉怪怪的啊,这个 ai 用豆包,然后这个语音识别语音合成用的阿里云这个东西啊,这也是表现我们这个组合式对话的这么一个特点呢。 我们以阿里云智能企为例,看一下相关的效果,填写好这个 key 上传代码之后就可以正常对话了。比如说你就问他,你好他就回复,然后问他啊,广州的天气怎么样,他就回复今天明天的一个天气情况。 本节内容小节,第一个是了解对接智能体和对接大模型的差异,第二个是了解 deepsea 阿里云智能体豆包的申请和配置,第三个是学习有关米斯特编程的相关代码。

欢迎收听扣子 ai 播客。 hello, 大家好,欢迎来到今天的 ai 播客,我是今天的主持人。最近好多听众都跟我聊到豆包智能体在行业里用的越来越多,但怎么让它更懂自己的业务好像还是个难题。今天我们就来好好聊聊豆包 ugc 智能体的垂直调教,让它真正成为你的专业小助手。 嗯,这个话题确实挺实用的,我身边好多做企业的朋友都在问我,怎么才能让豆包更贴合他们的业务需求。 没错,其实豆包能做到这么精准的行业适配,核心就是他的知识库技术,这里面有几个关键技术点,我得给大家好好拆解一下。 首先就是 r a g 机制解锁增强生成。简单来说就是豆包在回答问题的时候,不是凭空生成内容,而是先去知识库里面找最相关的信息,再结合这些信息来回答,这样就能保证回答的准确性和专业性,而不是全靠模型自己瞎编。 哦,这个我好像有点印象,是不是有点像我们写论文的时候,先去查资料,再根据资料来组织语言。 对,差不多就是这个意思。除了 r a g, 还有向量化存储和语义剪缩。向量化存储就是把文档里的文字转换成计算机能理解的向量,这样剪缩的时候就能更快找到语义相似的内容。 而语义解锁就不是简单的关键词匹配了,他能理解你问题里真正的含义。比如你问怎么查企业年报,他能找到和企业年报查询相关的所有内容,而不是只找年报。这两个字听起来挺厉害的,那具体怎么用这些技术来做垂直调教呢?有没有一套完整的流程可以参考? 当然有了,其实整个流程可以分成几个步骤,首先是创建知识库,你可以根据自己的行业需求,比如教育、医疗、法律,创建不同的知识库。然后就是上传文档,这里面有个小技巧,就是分段策略, 你不能把一整个大文档直接上传,最好是按照主题分成一个个小段落。比如医疗领域,可以按照疾病分类、治疗方案、用药指南来分段,这样豆包在解锁的时候,就能更精准的找到对应的内容 哦,这个很重要,如果文档太大太杂,豆包可能就找不到最相关的信息了。那上传完文档之后呢?是不是还要进行优化测试? 对,优化测试是必不可少的一步,一般来说,我们可以分成三个阶段来测试,第一阶段是单轮响应测试,就是给豆包提一个具体的问题,看看他能不能从知识库中找到准确的答案。 第二阶段是多轮连贯性测试,就是连续提几个相关的问题,看看豆包能不能记住之前的对话,保持回答的连贯性。第三阶段是压力并发测试,就是同时给豆包提多个问题,看看他能不能稳定的回答,不会出现卡顿或者错误。 听起来挺严谨的,那有没有一些实际的行业应用案例,可以让我们更直观的感受到知识库调教的效果? 当然有了,比如杭州银行的百叶云智能客服,之前的准确率只有百分之六十五,经过知识库调教之后,准确率提升到了百分之八十九。还有教育领域的浙大先生平台,通过知识库整合了浙大的课程资料和教学经验,现在已经服务了五万师生,帮助他们解决学习和科研证的各种问题。 哇,这个效果提升的很明显啊,那除了这些大型企业和机构,普通用户或者中小企业能不能用这个功能呢? 当然可以了,豆包的 ugc 智能体就是面向普通用户开放的,不管你是个人还是企业,都可以创建自己的知识库,调教适合自己的智能体。比如你是一个 python 开发者,你可以把 python 开发手册上传到知识库,让豆包成为你的专属编程助手。 如果你是一个企业 hr, 你 可以把企业内部制度上传到知识库,让豆包帮助员工解答人事相关的问题。那在调教的过程中,有没有一些技巧和最佳实践可以让我们的智能体更专业呢? 有的,首先就是结构化文档,你上传的文档最好是结构化的,比如用标题列表表格来组织内容,这样豆包更容易理解和提取信息。 然后是问答队训练,你可以准备一些常见的问题和对应的标准答案,让豆包学习这些问答队,这样他就能更准确的回答类似的问题。还有就是场景模拟,你可以模拟一些实际的业务场景,比如客服对话、法律咨询,让豆包在这些场景中不断练习,提升他的专业度。 这些技巧听起来都很实用,那在实际使用的过程中,有没有一些常见的挑战呢?比如知识库维护、数据时效性、幻觉控制这些问题应该怎么应对? 确实,这些都是使用过程中经常遇到的问题。首先是知识库维护,随着业务的发展,知识库的内容也需要不断更新和优化。你可以定期检查知识库的内容,删除过时的信息,添加新的内容。 然后是数据时效性,有些行业的信息更新非常快,比如医疗法规、科技新闻,你可以设置自动更新机制,让知识库的内容保持最新。 还有就是幻觉控制,虽然豆包有知识库的支持,但有时候还是可能会生成一些不准确的内容。你可以通过严格匹配模式,比如对数值型、法条编号等内容进行精准控制,减少幻觉的发生。 哦。这个严格匹配模式是怎么回事?就是当豆包需要回答一些涉及准确数值或者具体法条的问题时,他会严格从知识库中查找对应的内容,不会自己生成。 比如你问医疗事故处理条例的第几条是关于赔偿的,豆包会直接从知识库中找到对应的法条编号,而不是自己随便编一个, 这样就能大大提升回答的准确性了。那除了这些技术层面的应对策略,有没有一些管理层面的方法呢? 当然有了。比如你可以建立一个专门的知识库维护团队,负责内容的更新和审核,你也可以设置权限管理,不同的用户可以访问不同的知识库内容,保证数据的安全性。还有就是定期对豆包的回答进行评估和反馈,根据反馈结果来优化知识库和调教策略。 听你这么一说,我感觉豆包的 ugc 智能体知识库调教其实是一个技术和管理相结合的过程,既要掌握技术方法,也要做好日常的维护和管理。 错,就是这样。不过也不用太担心,豆包提供了很多工具和资源来帮助你完成这些工作。比如他有可视化的知识库管理界面,你可以很方便的上传编辑和管理文档,还有详细的操作指南和视频教程,就算你是技术小白,也能轻松上手。 那对于普通用户来说,有没有一些入门级的建议呢?比如刚开始的时候应该从哪里入手?我觉得刚开始的时候,你可以先从小规模的知识库开始尝试。比如你可以先上传一些自己常用的文档,比如个人笔记、工作手册,然后提一些简单的问题,看看豆包的回答效果怎么样。 等你熟悉了流程之后,再慢慢扩大知识库的规模,尝试一些更复杂的场景。嗯,这个建议很实用,先从简单的开始,一步步来,这样就不会觉得太难了。 对,而且你还可以参考一些成功的案例,看看别人是怎么调教的,学习他们的经验和技巧。比如你可以去豆包的官方社区,看看其他用户分享的知识库案例和调教心得,说不定能给你带来一些启发。 那今天我们聊了这么多,最后能不能给大家总结一下,豆包 ugc 智能体知识库调教的核心价值是什么? 我觉得核心价值主要有两个方面,一方面是提升回家的专业性和准确性,让豆包真正成为你在专业领域的得力助手。 另一方面是降低使用门槛,不管你是企业还是个人,都可以通过简单的操作创建自己的知识库,调教适合自己的智能体。简单来说就是让 ai 更懂你的行业,更懂你的需求。 说的太好了,希望今天的内容能对大家有所帮助,让大家都能学会如何用知识库来调教豆包 ugc 智能体验,让他成为自己的专业小助手。 没错,也希望大家能在实践中不断探索和尝试,找到最适合自己的调教方法。如果大家在使用过程中有什么问题或者心得,也欢迎在评论区和我们分享。好的,今天的播课就到这里了,感谢大家的收听,我们下次再见!再见!

hello, 大家好,我是工程期末啊,我们今天教大家用这个豆包来创建属于自己的 ai 智能体,来方便我们日常的工作啊,特别是我们工之人啊,我今天举一个例子,比如说如何利用这个 ai 快 速地审核我们的施工方案 啊,就是我们伟大工程啊,如果需要认证的这些方案都可以审核啊,用这个豆包可以帮助我们的专家啊去审核,比如说还有我们监理啊,这个企业的这些人员啊,要审这个方案人员啊,技术负责人你自己编完了,你也可以自己先用 ai 审核一下啊,然后找到里面的不足之处啊, 当然还有其他的功能啊,我们首先讲啊,在哪里找啊?豆包呢?现在更新的这个版本呢,是在这个更多里面一个叫 ai 智能体 啊,这个里面有很多功能啊,这个都包自带的,这个都是免费可以使用的啊,比如说这个学习小小班手就比较好啊,他这个可以解答你从小学到大学里面所有的科目 啊,这个还是比较好的啊,可以给我们的这个小孩使用啊,然后这边有一个创建 ai 智能体,看到没有?然后这边可以命名啊,比如说前面的 ai 审核, 伟大工程啊,施工方案随便说一个啊,然后这边的设定设定呢,我这边提前弄好了啊,提前弄好了,大家呢可以照我这个书啊,就是什么意思啊? 但 ai 它的名字叫做论文方案审核啊,然后作者功能切薄啊,版本啊,版本你自己你自己弄啊,比如说你,你需要你自己,比如一开始是一点零版本啊,你自己弄,然后这个的话就是作者啊,就是你的详细的描述 你,你这个智能体你要满足什么要求啊?比如说智能体就是他自己就是给自己定义啊,我是一名伟大工程方案等等专家,能够根据您提供的伟大工程施工方案啊,提供 修改建议啊,为您详细列出方案的不足之处。方案啊,接下来就是方案他要满足哪些东西啊?比如说我们最重要的几个,就是一个就是我们的编制指南 啊,变成指南的章节要满足,对不对?第二个就是我们三十一号文啊,三十一号文的就是就三十七号领啊,三十一号文这个要求,还有比如说我们二零二四年颁布的这个 重大施工隐患判定标准,对吧?这个也也是要满足的啊。最后就是我们这个微拉工程方案的这个应用权限清单,这个我们也要满足的啊,然后这边写的计算书要满足品名安全计算的软件的计算规则 啊,最后要根据每一个章节编制的内容详细列出修改的意见啊,给施工单位提供合理化的修改建议,最后帮我总结是通过不通过还是修改不通过 啊?这个就是一个详细的这个设定的一个描述啊,大家跟以后你要干什么东西啊?你就给豆包一个命令,你自己就豆包他要提供什么东西啊?豆包他自己是个,是个他的,他的这个定位是什么东西啊?然后呢?创建 ai 智能体,创建完以后,然后 这边就是这个样子啊,这个就是我已经创建好的,看到没有?看到没有啊?这个就是我创建好的啊,然后但是呢,他这个里面他是没有上传文件功能的啊,那么我们怎么调取这个 啊?怎么调取这个智能体啊?他是没有办法上传文件的,对不对?那么我们回到豆包的首页,然后点击这边加号上传我们的这个文件,比如说我们上传一个微粒工程方案啊,帮我利用 ai 认证方案审核智能体,帮我利用我自己,我自己创建的, 审核下上面的这个方案,然后点击开始, 那没有啊,这个就是利用我们的智能体啊,这么调怎么调取?就是这么调取的啊,就是调取我们这个智能体 啊,然后审核这个范,看到没有啊?然后呢他就结合我们看到没有他审核的维度啊,合规性审核,就是我前面讲的啊,我们的这个看到没有三十一号文, 还有我们安徽省的实施系统啊,他这个默认的方案可能是安徽省的啊,这个方案是安徽省的,然后呢我们看一下啊,他这个就是说微大工程鉴定合规性啊,程序也是合规的啊,这里面内容还是比较全面的,说明这个方案的合规性是比较好的。 然后犯案的完整性,这个就是参照我们前面的什么前面那个四十八号文变成指南啊,他的这个核心九大内容,每个章节啊都是完整的啊,然后关键内容呢也是完整性的啊,既然参数与施工工艺是一致的啊, 然后最后呢这个图文并茂啊,这些方案也是,就是画图也是比较完美的啊,然后记住可疑性审核啊,施工施工工艺性这个方案,就是说这个是已经论的一个方案还是比较完美的啊,然后安全性的审核 啊,适配性的审核,安全防护的要求啊,应急充分,应急保障充分性啊,都是比较好的。然后可操作性审核,他就是说根据你前面的我,他要满足些东西啊,去审核这个方案 啊,因为这个是已经认证的,所以这个方案还是比较完美的,如果说你自己的方案不完美的话,他出来的这个东西就是很多是不符合的啊,那么最后他也提出了这个存在的问题以及优化的建议 啊,比如劳力部分的杂工啊,重复出现了两次啊,季节性的施工措施啊,这里面要要增加内容啊,增加一下内容啊,没有明确责任这些东西啊,就这样说,细节 看到没有啊?计算的事情,细节就是哪一些是不满足的啊,优化的建议,还要补充我们这种作业人员的这个资质啊,细化材料进场验收程序 啊,看到没有?然后完善监测数据记录表格啊,然后经过我们审核结论啊,最终是全面审核,该方案是满足我们要求的啊,不存在重大缺陷啊,不存在重大缺陷啊, 就是最后就是啊自己修改,最最后就是轻微的对这些轻微的缺陷进行一个优化就可以了啊。现在他说这个方案就是比较完整的,如果你的方案编出来以后问题比较多,那么他出来这个东西就是比较多的啊,但是这个方案的这个页码可能比较多,看到没有 啊,他都保持绝对的千百分之九十八啊,就是这个字数啊,大家的话可能就三百多页啊,比较多了啊,他是把所有的东西都铭记在里面了啊。 好吧,今天就教大家如何利用这个 ai 智能体啊,就是方便我们日常的工作啊,你可以创建自己的 ai 智能体啊,大概的意思就是什么我们特别的这个描述啊?前面的话我们可以不用改啊,就把这个名称改一下 啊,然后这边的话就是说你是一个什么角色啊?就是你让豆包作为一个什么角色啊?比如前面我是豆包,就是自己是一个伟大工程的专家来审核这个方案对不对?然后这个你这个角色能够给用户提供什么东西 啊?然后为您啊,就是生成什么东西啊,最终要达到什么什么效果啊?实现什么东西啊?就是就是这么个描述啊,你用我这个托运的模板啊,去,来啊,你不同的你,比如你要实现什么东西啊,你就在这个里面去创建啊,在这个里面去创建 啊,都没懂。就在这个更多里面有一个 ai 智能体啊,你自己穿进,如果这里面找不到你需要的,那么你就穿进自己的属于自己的 ai 智能体啊。然后智能体呢?他如果说是不可以上传这个,比如这个就是可以上传图片的 啊,看到没有?他这个是带拍照功能的,当然那个智能体他是没有办法的啊,没有办法上传上传这个文件,那么我们可以在这个主页啊,主页上传上传这个文件,那么我们可以在这个主页上传智能体,他就会自动审核 啊,这个还是比较方便的啊,大家可以自己去尝试一下。好,分享到这里,谢谢大家。

泄露一个豆包邪修给你,一定要看到最后,我们就拿胡说老王来举例,我们找到一条爆款视频,来找一下,我很喜欢一个词叫不破不立,有些东西必须好。 ok, 我 们把它视频链接复制一下, 然后呢我们来到豆包啊,把我们刚刚的链接粘贴进来,给他一段提示词啊,帮我二创一下,这个视频文案开头不变,一百个字以内我们发送。好,我们稍等一下,这个很快的 文案给到我们之后呢,我们直接复制一下这个文案,然后呢来到我们微信里面的 ai 工具哈,这里面有很多的功能,我们不管,我们看到这个一键这一爆款点进来, 然后这是我们的数字人,这是我们的声音,这是我们的剪辑模板,我就选择个剪辑模板,然后呢?好,我们选择一个视频标题, 比如我就选择人生建立自己竖上去的,然后我们选择自定义文案,我们把我们刚刚的文案粘贴进来,然后呢这里有个全自动执行,我们点开来,好让我们继续往下滑,我们找到这个视频素材,他是可以直接加到视频里面的,我们点进去,我们添加一下, ok, 我 们上传了三个进去哈,让我们返回,我们找到这个全自动执行,下面有一个开始全自动执行,我们点击开始,好,我们确认,然后呢他就会报我们这个生成视频,然后 会有我们自己的声音,有我们的数字人,然后帮我们自动剪辑,把这些视频加到画中画里面去。好,我们稍等一下, later, ok, 视频先整好了,我很喜欢一个词叫不破不立,有些东西必须摧毁放弃才能迎新。破会痛,但不破旧貌难立。这条视频可能动了别人蛋糕智能体六六六。

豆包大模型二点零深度解读迈向真实世界复杂任务的智能新阶段二零二六年二月十四日,字节跳动正式宣布豆包大模型进入二点零阶段, 这是自二零二四年五月首次发布以来的首次重大跨代升级。此次发布的豆包二点零系列并非简单的参数堆砌或单一能力的提升,而是一次围绕大规模生产环境下的使用需求和真实世界复杂任务执行能力进行的系统性重构。 他的核心目标非常明确,随着人工智能进入 agent 的 时代,大模型需要从被动的答题者进化为能够在现实世界中主动感知、思考并执行任务的执行者。一、产品矩阵精准定位灵活适配 豆包二点零不再是一个单一的模型,而是一个包含四款核心模型的系列产品,只在灵活适配各类业务场景与成本需求。啊噗 一、豆包二点零 pro 作为系列中的最强大脑 pro 版面向深度推理与长链路任务执行场景,官方明确将其定位为全面对标业界顶尖的 g p t 五二与 gemini 三 pro, 它拥有最完美的世界知识和最强大的推理能力,专为解决最复杂的科学问题执行多步骤的智能体任务而生。 二、豆包二点零 light 这是一款兼顾性能与成本的主力模型,官方数据显示,其综合能力全面超越了上一代的主力模型豆包一八,但成本却大幅降低,是追求极致性价比场景的理想选择。 三、豆包二点零 mini 专门为低时延、高并发与成本极其敏感的场景设计, 他在保持不错能力媲美上一代的一六 pro 版的同时,将速度和成本控制放在了首位,适合需要快速响应的简单交互任务。四、豆包二点零 code 基于二点零基作模型,针对编程场景深度优化的版本,他强化了代码库解读、应用生成以及在 a 阵的工作流中的自主纠错能力,与字节跳动的 ai 编程产品 t r a e 结合使用,能极大提升开发效率。 二、核心能力跃升从感知到认知的全面突破豆包二点零的升级体现在多模态理解、语言模型与推理以及成本控制等多个维度。 豆包二点零全面升级了多模态能力,特别是在视觉理解上取得了显著突破。 深度视觉推理模型不仅在图像识别上表现优异,更在视觉推理、空间感知和长上下文理解等复杂任务中达到业界最佳水平。之在图标理解和空间理解等测试中均领先竞品。 动态场景与视频理解这是二点零版本的一大亮点。模型强化了对时间序列与运动感知的理解能力,能够更稳定地捕捉变化、动作、节奏等信息。 在 tv bench、 一 go tempo 等动态场景评测中,其得分不仅领先于其他顶尖模型,甚至在一 go tempo 精准上超越了人类平均水平。这意味着它能够胜任实时视频流分析任务,如在健身时实时纠正动作,或在穿搭时提供建议, 实现从被动问答到主动指导的交互升级。二、语言模型与推理能力竞赛及金牌水平 在基础的 aolm 能力上,豆包二点零 pro 展现出了极其强劲的实力。知识广度。通过加强常规领域知识的覆盖, pro 版在含括广泛学科知识的 super gpqa 评测中分数超过 gpt 五 二,并在专业的 housebench 医疗评测中位列第一。科学领域整体成绩与顶尖模型相当。推理深度,在数学和编程等硬核推理能力上, 豆包二点零 pro 在 i m o c m o。 和 icpc 等高标准评测中获得了金牌级别的成绩,甚至超越了杰米尼三 pro 在 putnam bench 上的表现。在被称为人类的最后考试的 h o e text 基础上,他以五十四点二分的成绩领跑全球。 三、 agent 的 能力与复杂任务执行从对话到做事, agent 的 能力是豆包二点零设计的核心。基于其强大的推理和指令遵循能力,模型能够自主规划和执行长链路的复杂任务。 工具调用与规划模型在工具调用和指令遵循测试中表现出色,能够完成查找资料、归纳总结得出结论的连续工作流,甚至结合多种工具完成从数据处理、内容创作到升图排版的全流程任务。 实际案例,基于 opencloud 框架和豆包二零 pro 构建的智能客服 agent 不 仅能完成常规对话,遇到难题时还会主动拉群求助真人同事,并能独立完成帮客户预约、维修、售后回访等一系列闭环服务。三、 应用生态与成本优势一、开发生态与工具链豆包二点零已全面融入字节跳动的产品矩阵, 个人用户可以在豆包 app、 电脑客户端或网页版选择专家模式,即刻体验 pro 版的能力。对于企业和开发者,火山引擎已上线全系列模型的 api 服务,特别是 code 模型与 ai 编程工具 tree 的 深度结合,展现了其强大的应用生成能力。 官方演示中,利用 tree 和豆包二零 code, 仅需五轮提示词即可构建出一个包含十一位由大模型驱动的 ai 角色的马年庙会。复杂互动网页,相关代码和提示词也已开源,共开发者二次创作。二、极具竞争力的定价策略 在 agent 时代,复杂任务的执行将消耗海量 tokens 成本成为技术落地的关键。豆包二点零的最大杀手锏之一,就是其极致的成本控制 推理成本。官方宣称,在保持与业界顶尖大模型相当效果的前提下,豆包二点零的 token 定价降低了约一个数量级。 具体定价,豆包二点零 pro 采用按输入长度分段计费,三十二 k tokens 以内的输入定价为三两元每百万 tokens, 输出为十六元每百万 tokens。 而极具性价比的豆包二点零 lite 百万 tokens 输入价格仅为零六元, 这位企业大规模使用 ai 扫清了成本障碍。四、总结与展望豆包大模型二点零的发布是字节跳动在 ai 赛道上的一次重要战略升级, 它不再仅仅追逐排行榜上的单一分数,而是通过构建差异化的模型矩阵,全面强化多模态与推理能力,并大刀阔斧地降低成本时,实实在在地瞄准了 ai 技术在各行各业大规模落地应用的最后一公里。 配合此前发布的 cds 二点零视频生成模型和 crian 五零 live 图像生成模型,豆包二点零正在构建一个从理解到生成、从文本到多模态、从云端到应用的全站式 ai 生态。 随着豆包二点零的全面上线, ai 作为智能体深度参与工作与生活的时代正加速到来。

欢迎收听扣子 ai 播客。 哈喽,大家好,欢迎来到今天的播客。最近我一直在研究豆包 ugc 智能体的知识库搭建,就发现好多朋友都卡在了知识碎片收集这一步。今天就专门来跟大家聊聊这个话题,也请我身边的这位知识达人一起帮咱们梳理梳理思路。 没问题,其实我最近也在帮朋友做这个,确实踩了不少坑。那你先跟大家说说,到底什么是知识碎片啊?我感觉好多人可能跟我一样,一听到这个词就有点蒙,不知道具体指的是什么。 其实很好理解,就是那些不成体系的零散信息,比如你刷到了一篇干货帖子,看到的一段视频字幕,甚至是和朋友聊天时学到的一个小技巧,这些都算是知识碎片,他们本身可能没什么用,但攒多了,整理好了,就能变成知识库的重要组成部分。 原来是这样,那咱们搭建 ugc 智能体的知识库,为什么一定要重视知识碎片的收集呢? 因为 ugc 智能体的核心优势就是能快速响应用户的各种个性化问题,这些问题往往不是那种标准答案式的,而是需要结合各种零散信息来解答。如果你的知识库全是大段的理论文章,那智能体可能就没办法灵活调用信息,回答出来的内容也会显得生硬死板。 没错,我之前试过用那种长篇大论的文档喂给智能体,结果他回答问题的时候,要么就是直接复制粘贴大段文字,要么就是答复所问。那你觉得我们应该从哪些渠道去收集这些知识碎片呢? 渠道其实挺多的,我总结了几个主要方向。首先就是社交媒体平台,像小红书、抖音、 b 站这些地方,有很多用户分享的实用经验和小技巧,这些内容往往都是非常接地气的知识碎片。 然后是专业论坛和社区,比如知乎、 c、 s、 d、 n, 还有一些垂直领域的论坛,里面的讨论和回答常常能挖到很多干货。 我平时也会刷这些平台,但感觉信息太杂了,有时候刷半天都找不到有用的内容。有没有什么具体的收集策略,能让我们更高效地找到想要的知识碎片? 当然有,首先得明确你搭建的智能体是面向哪个领域的,比如是做美食的还是做编程的。先把范围缩小,然后可以利用平台的搜索功能,精准搜索关键词。比如你想收集烘焙相关的知识碎片,就可以搜烘焙小技巧、新手烘焙避坑指南之类的。 这个我试过,但有时候搜出来内容还是太乱了,怎么筛选出有用的呢?这就需要你先建立一个初步的知识框架。比如你想搭建烘焙知识库,就可以先分成食材处理、烘焙工具使用、常见问题解决这些大类。然后在搜索的时候,针对每个大类去收集对应的知识碎片, 这样收集起来的信息就会更有条理,后面整理的时候也会轻松很多。听起来很有道理,那除了手动搜索,有没有什么工具可以帮助我们自动收集知识碎片呢? 有很多工具可以用,比如印象笔记、 note 这些笔记类工具,它们都有网页简藏功能,你看到有用的内容,一键就能保存下来。还有像斐得里这样的 rss 阅读器,可以订阅你感兴趣的公众号,簿刻自动帮你收集更新的内容。 另外,一些 ai 工具也能帮你筛选和整理信息。比如豆包本身就有总结文本、提取关键信息的功能。这些工具我都用过,但有时候收集了一堆知识碎片,却不知道怎么把它们整理成有用的知识库内容,你有没有什么整理的方法可以分享一下? 整理的关键还是要先分类,我一般会用标签系统来管理知识碎片,比如我收集到一个关于七风蛋糕消泡原因的帖子,就会给他打上七风蛋糕常见问题、新手避坑这些标签,这样后面需要调用的时候,只要搜索标签就能快速找到相关的信息。 我之前也试过用标签,但总是觉得标签打的太随意,后面找起来还是很麻烦。怎么才能打好标签呢? 打标签的时候要尽量统一标准,比如不要一会用新手,一会又用入门,最好提前制定一套标签规则,比如按照知识领域、内容类型、适用人群这些维度来设置标签。另外,标签不要打的太细,也不要太笼统适中就好,比如打三到五个标签是比较合适的。 明白了,那在收集和整理知识碎片的过程中,有没有什么需要特别注意的地方?首先就是版权问题,这个一定要重视。你收集的知识碎片,如果是别人原创的内容,最好先征得作者同意或者著名来源,避免侵权。 然后是信息的准确性,很多社交媒体上的内容可能存在错误,你在收集的时候最好交叉验证一下,确保信息的可信。 对版权问题真的很重要,我之前就看到有人因为未经授权使用别人的内容被投诉了,那除了这些还有没有其他需要注意的? 还有就是要定期更新和清理知识库,知识是不断更新的,旧的知识碎片可能已经过时了,需要及时替换掉。另外,收集知识碎片的时候不要贪多,要注重质量,一些重复的没有价值的内容就不要留着了,不然会占用大量的存储空间,也会影响智能体的运行效率。 我之前就是收集了太多没用的内容,导致知识库变得很臃肿,智能体响应速度都变慢了。 那你觉得我们在收集知识碎片的时候,应该怎么判断哪些是有用的,哪些是没用的呢?主要看两个方面,一是相关性,这个知识碎片是不是和你搭建的智能体领域相关,能不能帮助智能体更好的回答用户的问题。二是实用性,这个知识碎片是不是能解决实际问题,有没有可操作性, 如果一个内容既不相关又不实用,那就可以直接删掉了。没错,实用性真的很重要。很多时候我们收集的内容看起来很高级,但实际上对用户没什么帮助,这种内容就没必要留着。那你有没有什么具体的例子可以跟大家说说怎么把知识碎片转化成知识库的有效内容? 比如我之前收集到一个关于如何用微波炉做蛋挞的短视频,里面有几个关键信息,比如蛋挞液的配方、加热的时间和温度,我就把这些关键信息提取出来,整理成一篇清晰的教程,然后给他打上微波炉美食蛋挞、制作快手食谱这些标签。 这样智能体在回答用户关于微波炉做蛋挞的问题时,就能快速调用这些信息,给出准确又实用的回答。这个例子太直观了,一下就明白怎么操作了。那除了这种实用教程类的知识碎片,像一些观点性的内容,比如用户对某个产品的评价,能不能也用来搭建知识库呢? 当然可以,不过这类内容需要更谨慎的处理。首先要确保观点是客观的,最好收集多个不同用户的评价,综合起来,形成更全面的信息。然后可以把这些评价中的关键观点提取出来,整理成产品的优缺点分析,这样智能体在回答用户关于产品的问题时,就能给出更客观的建议。 明白了,那你觉得在整个知识碎片收集和知识库搭建的过程中,最难的一步是什么? 我觉得最难的是保持持续的收集和更新。很多人一开始热情很高,收集了一大堆内容,但过了一段时间就坚持不下去了,知识点也慢慢变得陈旧。所以我建议大家可以制定一个收集计划,比如每天花三十分钟去收集和整理知识碎片,养成习惯,这样才能保证知识点的持续更新和完善。 确实,坚持是最难的,那有没有什么办法可以让这个过程变得更轻松一点呢? 你可以找几个志同道合的朋友一起做,大家分工收集不同领域的知识碎片,然后互相分享,这样既能提高效率,也能增加动力。另外你还可以利用一些自动化工具,比如设置定时提醒,或者用爬虫工具自动抓取相关的内容。不过爬虫工具使用的时候要注意遵守平台的规则,不要违规抓取。 这个主意不错,组队收集确实能解决很多问题。那今天咱们聊了这么多,你能不能给大家总结一下,搭建豆包 ugc 智能体知识库收集知识碎片的核心要点是什么? 核心要点其实就三个,第一是明确目标,先确定你搭建的智能体是面向哪个领域的,需要解决哪些问题,这样才能有针对性的收集知识碎片。 第二是注重质量,不要盲目收集,要选择那些准确实用相关的内容。第三是持续更新,知识是不断变化的,知识库也要跟着更新,这样智能体才能一直保持良好的性能。 总结的太到位了,今天跟你聊了这么多,我感觉自己对知识碎片收集和知识库搭建有了更清晰的认识。相信听了咱们今天的播课,大家也能少走很多弯路。 没错,希望这些经验能帮到大家。如果大家在搭建过程中遇到什么问题,也可以在评论区留言,咱们一起交流探讨。好的,今天的播课就到这里了,感谢大家的收听,咱们下期再见!