粉丝1.2万获赞20.6万


情况真的是这样吗? 因为会出现这样的情况,只能说你被知识库骗惨了。实际上,知识库技术的出现,它本质是为了给大语言模型去建立一套可验证、可追溯和可更新的知识体系,这是什么意思呢?我们都知道现在市面上的大模型, 他都需要海量的数据去对他进行训练,但是这些数据他是有时效性的。举个例子,当我们询问 dipstick r e 你的训练数据截止到什么时候,他就会明确的告诉你他的截止数据到二零二四年七月,但是今年已经是二零二五年了呀,那从二零二四到二二零二五,今年这些数据该怎么办呢?那总要 解决,对不对?这是原因之一啊。另外啊,当我们在训练这些数据的时候,我们可以让这个大模型成为一个全才,但是绝对不是一个专才。因为在训练的时候,我们并不会去标注特定领域的学习知识, 这就意味着他什么都懂,但是什么都不精通。虽然这个比喻可能不是特别恰当,但是现实就是,比如说你要去和他讨论医疗和法律专业的这种专业性问题,他往往是没有办法深入下去。所以为了解决这些问题,知识库技术的出现提供了解决办法。 我们通过给大元模型搭载一个外部知识库,当大元模型接收到我们的问题之后,他一方面可以去查他曾经数据训练出来的这些知识, 同时他还可以去查我们外展的这个数据库,然后结合起来回答你的问题。这样一来,他就可以在一定程度上弥补缺失的信息。但还是有可能有人会问, 那既然他都已经去查知识库了,他为什么还是只看这几篇文章呢?别着急,这个地方他其实就涉及到了大元模型和知识库之间的协作机制了。其实现在的大部分大元模型,他都存在一定的技术限制, 比如说上下文他是有限制的,比如说检索的时候,算法的精度是有限制的,比如说我们的硬件能力对他是有约束的。所以对于目前的大元模型来说,当我们给他挂载知识库的时候,然后你又要求他把整个知识库全部学习完,还要消化理解,然后还要回答你, 这不太难为他了吗?想象一下,这就好比一个大学生,他要去写生物方面的毕业论文,他没学过呀?那他首先会干嘛?去图书馆借书对吧?但是图书馆的生物方面的书有很多很多本,他看的完吗?明显不可能啊,对不对?所以他一定只会借与他论文相关的那几本书 回去作为学习和参考。所以大语言模型调用知识库的方式其实也是这样的,他不会把所有的知识库里面内容全部看完,然后来回答,并且回答成你想象中的答案。 同样,他也会和大学生一样,他去知识库里面是去做搜索和匹配,然后把匹配度最高的内容调出来,然后再回答。你 最理解为什么大语言模型他只看了几篇文章了吗?其实 ai 都是有他自己的运作规律的,现阶段的 ai 在一定程度上说,他其实是一个无所不能的助手,因为他什么都懂,但是他们的语言体系和我们人类的自然语言是不一样的。想要让他成为一个得力的智能助手,前提得让他明白我们的意图, 他必须要接受到明确有效的指令,否则一定答非所问。最前沿的技术其实已经慢慢在解决大原模型和人类之间的交流的问题了,他们对我们的自然语言的理解 能力也在逐渐提高。但是你想要让他听话,实践指哪打哪这个效果,那么还是要解决我们的根本问题,也就是解决思维方式的问题。 ai 其实没有办法一下子听懂你要做什么, 但是他可以完美的执行你给他规定好的每一步具体的步骤。所以本期视频拍摄将用一个非常具体的例子,一起来探讨思维方式如何决定 ai 使用的上限。那么我们就开始吧。 回到我们最开始的例子,我现在有很多份报告,然后全部导入知识库。接着我给 ai 说,请帮我把他们分类整理总结结果会怎样?很明显,就和视频开头一样,你不会获得想要的结果。 让我们换一种思考方式。首先我们来分解一下我们的问题,我们想要的是什么?我们想要的是分类和总结报告。那 按什么样的标准来分类和总结呢?比如在这里,我希望让他帮我去总结所有公司在环境治理方面的举措。那我们修改下表述, 但是这样的要求 ai 能完成吗?答案仍然是不可能,因为报告的整体长度已经超过了 ai 的上下文限制。以 dixicr 一为例,这是他告诉我他的限制是多少, 所以我们需要继续分解。有没有可能让任务切分的再小一点呢?哎,我们算算字数,好像只总结一下公司可以,那我们再试一下,在 cherry studio 中,让他只总结一家公司的信息。 哎,这次很完美,那所以一家一家的总结好像就解决了呀?等一等,我们的目标好像并不是让我一家一家的用手去总结呀,否则我用 ai 干嘛?这样肯定不行,所以我们很 还需要继续分解。那我们来想一想,既然看一家没问题,那让 ai 重复来做很多次不就好了吗?那么让我们来整理一下任务要求, 任务一,让大模型整理一家公司在环境保护方面的措施,然后保存在一个文件里。 任务二,让大模型重复做很多次,每一次把内容续写在这个文件里。哎,这样好像解决了,是不是?但是新的问题似乎又出现了。没错, cherry studio 可以完美的完成任务一,但是任务二咋整啊? cherry studio 搞不定呢? 那他搞不定,我就换一个工具来搞了。实际上啊,要解决任务二有非常多种方式,比如我可以让 ai 去写一段程序,我也可以使用现在比较流行的 ai 智能体的方式来解决。在这一期视频当中,拍摄选择的是前种方式, 我选择了用 winser 这样一个 ai 编程软件,帮我写了一个非常小型的程序。当然其他方式因为时间有限,不在本期视频当中去讨论,让我们来看一下啊。在这里,我们只需要配置好微机流动的 api, 我上传文件,文件上传以后填写关键词,然后 点击处理等待就可以了。等待的过程中拍摄有几点要说明一下。第一,归机流动的 api 是有速率的限制的,演示过程中能处理的最大值是十篇文章, 但如果你有特殊的需求,可以向硅机流动去购买加速包,就是有点贵。另外,考虑到 pdf 的格式各有千秋, ai 的识别不是很好,所以我采用了现在比较流行的方式,将 pdf 转为 mop down 格式。所以我选择使用清华大学研发的 minor u 跟模型来进行转换,这个模型非常牛,大家可以 官网免费使用。好,最后我们一起看看结果。这一次拍摄大概处理了十篇文章,用了二十分钟左右,可以说效率已经非常高了。哎,不错,已经完美的获得了我想要的结果。 最后一步,让 cherry studio 来总结这个文件吧,你看这一下是不是就更完美了?程序和原码我已经打包好了,在评论区评论或者私信我就可以获取下载链接。 看到这里有人可能会说,拍摄我不懂编程啊,哎,巧了,其实我也不懂编程,但我懂怎么让 ai 帮我编程啊。这里让大家看一下我的 winser 提出的软件开发要求,看到没,这个要求实际上也就是我在前面进行思维分解的过程。 其实拍摄身边有很多人都在抱怨说 ai 不好用,不智能,总是答非所问。没错,在最开始我其实也这样抱怨过,但是仔细想一想,到底是 ai 不好用还是我们自己不好用, 所以 ai 是一把双刃剑,用好了效率爆棚,用不好拖你后腿。真正需要训练和改变的其实是我们的思维方式,也就是解决问题的思考过程,只有这样,我们才能更好的让 ai 为我所用。 好了,本期视频到这里就结束了,如果你喜欢我的视频,请记得点赞、评论、收藏、关注,我是潘 sir, 和你一起探索有趣的世界,我们下一个视频见。