hello, 大家好,我是依依。那这几个词儿呢,也是我们经常在新闻或者文章中经常看到的一些 ai 的 专业术语。首先是 influence 推理,然后是 embedding 向量,然后幻觉 temperature 温度系数 top p top k m o e web search 知识库,向量数据库 r a j function calling 之前视频呢,我们把大模型比作是一个学霸,那前六个 专业术语,我们可以把它理解成为是学霸怎么思考的一些专业术语,那后面几个呢?我们可以理解成是怎么让 ai 更加实用的学术术语。呃,首先第一个 influence 推理, 用大白话来解释的话,就是说当你按下发送键,学霸的大脑就开始疯狂的计算,最后把答案一个字一个字的吐给你的,这个过程就叫做推理, 也就是他干活的一个动作,所以你需要记住,就说推理呢,就是让 ai 生成答案的一个计算过程。呃,第二个词, embedding 嵌入向量。呃,用大白话来解释的话,就是说学霸呢,他其实并不太懂人类的汉字,他只懂数字。 embedding 就是 把词语变成一串数学坐标,比如他发现苹果和梨坐标距离离得很近, 那他就知道这两个都是水果,所以小白只需要记住,编辑呢,就是把文字翻译成 ai 能懂的一个数学坐标啊。第三个词,幻觉。这个我们平时在和 ai 对 话的时候,经常会发现一个问题,就是说你问他一些事呢,他,呃,会突然给你说出一些 不真实的事情,比如说很多同学写论文的时候,呃,我们让他写参考文献,他有时候会自己去编参考文献,那这个呢,其实是学霸最大的一个臭毛病,当他不知道答案或者他为了讨好你的时候,他就会瞎编。那小白可以记住,幻觉就是 ai 不 懂装懂,瞎编乱造的一个错误回答。那下一个词 time priority 温度。那温度,这个我们可以理解成它是一个可以调节的一个参数, 温度调低,学霸就会成为一个非常严谨的会计。呃,那温度调高的话呢,学霸就变成一个非常浪漫的诗人,思维比较活跃。那我们可以理解,温度呢,就是控制 ai 回答严谨还是发散的一个开关,下一个词是 top p top k。 呃,学霸说话呢,其实就是在玩一种词语接龙,这两个参数决定了他从多大范围内去挑选下一个词,范围越小,用词越保守,范围越大,用词越丰富,越有惊喜。 所以你可以理解成,呃,这两个词呢,就是学霸的一个词汇抽奖箱。嗯,小白也需要记住, top p top k 呢,它其实配合温度控制 ai 用词分布度的一个工具。下一个词 m o e 混合专家模型,这个模型里面就会有很多的小专家。呃,用大白话来解释的话,就是说学霸的脑子里呢,它有 呃,一个小管家,你一问问题,他大概就能呃看懂你是要干什么。然后呢,喊出对应的擅长这个工作的专家出来干活啊,别的专家在这个时候就会休息,不要浪费力气。所以呢,你可以记住,就是 m o e 呢,就是让 ai 分 工合作,高效省电的一个内部专家团队。那刚刚呢,我们介绍的专业名词是怎么让学霸去思考? 下面我们来介绍一下怎么让 ai 变得更实用,那下一个词就是 web search, 这个在上一个视频已经讲到了,那刚刚我们介绍的是学霸怎么思考的一个专业术语,下面呢,我们来介绍一下怎么让 ai 更加实用的专业术语。首先第一个 web search, 这个在上一个视频已经讲到过了,那就相当于给学霸配了一个联网手机。 学霸他脑子里的知识呢,停留在了他毕业的那一天,也就是说他训练完成,那这个时候如果你问北京的天气怎么样,他靠脑子是想不出来的,那这个时候给他配一个 web search, 他 就能上网查阅之后再告诉你,相当于给学霸配了一个联网手机。那第二个呢?知识库用大白话来解释的话,就是 相当于你给 ai 准备的一个专属课本,里面都是内部资料、产品手册、规章制度等这些网上没有的专属内容,是 ai 回答问题的一个标准答案来源。那你可以理解成知识库就是学霸的一个专属图书馆。嗯,向量数据库,用大白话来解释就是说, 嗯,普通的搜索呢,我们必须就是两个关键词一模一样的时候才可以匹配到。但是向量数据库它更加聪明,它能够懂近义词,它懂意思,不管你怎么问,它都能找到最相关的内容,所以你可以理解为它其实就是让 ai 能够懂意思,找相关内容的一个超级解锁的一个工具, r a j 解锁增强生成。那上一个视频已经讲过了,用大白话来解释的话,就是结合上面我们刚刚说的一个知识库和向量数据库两个工具。当你问公司的机密的时候,学霸呢,他先去知识库去翻书,翻资料,然后再根据书上的一个内容去回答你,这样他就不会胡编乱造了。所以你需要记住, r a j 呢,就是给 ai 专属提供的一个资料,让他进行开卷考试,保证准确率。 呃,下一个 fashion calling。 fashion calling 的 实现核心呢,就是让 ai 去判断要不要用工具,用哪个工具,再给工具发精确的指令,等工具返回结果后, ai 再整理成答案。所以你可以理解为 fashion calling 就是 给学霸长出了手。呃,使得 ai 能够动手做事,调用外部工具的一个遥控器。
粉丝912获赞3139

告诉你一个事, ai 其实听不懂中文,当然也听不懂英文,它只懂机器语。今天教你四个动作,告诉你机器语怎么说。 听到计算思维,你是不是想到了黑屏幕加一堆代码?别慌,不是让你去做程序员,而是教你像 ai 一 样思考。 计算思维有四大法宝,一、分解遇到一个大问题,先别硬缸拆它就像吃汉堡,不能一口闷,要分层啃。将复杂问题拆分成更小、更易于解决的子问题。 二、模式识别拆完之后呢?睁大眼睛找规律,爆款文章、刷视频推荐、识别垃圾邮件,都是 ai 在 找模式。模式识别是在数据中寻找相似性、规律和趋势的能力。 三、抽象抽象不是玄学,而是抓重点去无存。精画简笔猫,不用画出每根毛 a 爱也是用轮廓理解世界,聚焦于问题的核心要素,忽略无关细节的过程。 四、算法别被吓住了算法就是一份操作, sub, 比如菜谱、导航、打游戏的出装顺序,都是算法明确有序的步骤。虚列是计算思维的核心执行机制。 计算思维不仅是程序员的工具,更是 ai 时代每个人必备的思维方式,它让我们能够与 ai 系统进行有效沟通,共同解决复杂问题。 实战演练,解析推文应用计算思维优化推文创作 计算思维指示开始。明天我们将探索数据思维,了解如何像 ai 一 样思考和处理数据,挖掘其中的价值和洞见。好啦,去玩吧,明天我等你!

l l m ai 的 大脑是如何工作的?一、 ai 真的 在思考吗? 当很多人第一次使用像 chat、 gpt 这样的人工智能时,都会产生一种强烈的直觉, 这个系统好像在思考,你问他问题,他可以解释复杂概念,你让他写文章,他能够组织逻辑的内容,甚至在一些对话中,他还可以表现出类似推理的能力。 因此,很多人会产生一个看似合理的结论, ai 已经像人类一样在思考。但如果从技术角度来看,这种理解其实并不准确。现代大语言模型的核心机制并不是人类式的思考, 而是一种数学预测过程。换句话说, l l m 本质上是一种概率语言模型,它的主要任务其实非常简单,根据上下文预测下一个最可能出现的词。理解这一点是理解现代人工智能最重要的一步。 二、什么是 l l m? l l m 是 large language model 的 缩写,中文通常翻译为大语言模型。 所谓语言模型,指的是一种专门处理语言数据的机器学习模型,它通过大量文本数据训练,从而学会语言中的各种模式,例如语法结构、词语搭配以及常见表达方式。 在训练完成之后,模型就能够根据已有的文字预测接下来最可能出现的内容。例如,如果输入一句话,人工智能正在改变,模型可能会预测世界、社会、产业、科技,这些词都有可能出现在这句话后面。 模型会根据训练数据中的统计规律,计算每个词出现的概率,然后选择概率最高的词作为输出。当这个过程不断重复时,就能够逐渐生成完整的句子、段落,甚至整篇文章。从技术角度看,这就是语言模型生成文本的基本方式。 因此,大语言模型并不是在理解世界,而是在根据大量数据学习到的语言模式进行预测。三、为什么预测下一个词就能产生智能?听起来,预测下一个词似乎是一件非常简单的事情, 但实际上,当这个任务在海量数据和巨大模型规模下进行时,就会产生非常复杂的能力。原因在于,语言本身包含了大量关于世界的信息。 例如,在学习语言的过程中,模型会接触到各种文本、新闻、书籍、技术文档、学术论文、网络文章,这些内容中不仅包含语言结构,还包含大量知识和逻辑关系。 为了能够正确预测下一个词,模型必须逐渐学习这些信息之间的联系。例如,如果输入牛顿提出了万有引力,模型需要知道接下来可能出现的内容是定律、 理论、公式,而不是一些完全无关的词。通过这种方式,模型逐渐学习到关于物理、历史、科技甚至日常生活的大量知识。因此,虽然模型的训练目标只是预测词语, 但在这个过程中,他也学到了大量关于世界的结构信息。四、 transformer 现代语言模型的核心结构现代大语言模型之所以能够达到如此强大的能力,很大程度上依赖于一种重要的神经网络结构 transformer。 transformer 的 核心思想是通过一种叫做注意力机制的方法,让模型能够理解句子中不同词语之间的关系。在传统模型中,语言通常是按照顺序逐个处理的, 也就是从第一个词到最后一个词依次理解。但 transformer 采用了一种不同的方式, 它可以同时关注句子中的所有词语,并计算它们之间的关联关系。例如,在一句话中,人工智能正在改变世界。模型在处理改变这个词时,不仅会看到前面的人工智能,还会同时关注整句话中的其他词语。 通过这种机制,模型可以更好地理解上下文。因此, transformer 并不是逐字理解句子,而是通过计算词语之间的关联,整体理解上下文结构。这种能力使得模型在处理长文本、复杂语义以及多层逻辑关系时表现的更加出色。 五 l l m 能力从哪里来?现代大语言模型之所以能够表现出如此强大的能力,主要依赖三个关键因素。第一个因素是数据。模型在训练过程中会使用大量文本数据, 这些数据包含了丰富的语言结构和知识信息,使模型能够学习各种表达方式和概念关系。第二个因素是算力 训练。大型神经网络需要巨大的计算能力,现代 ai 系统通常依赖高性能 gpu 和大规模计算机群才能完成模型训练。第三个因素是模型规模。 随着模型参数数量的增加,模型能够学习到更复杂的模式,也能够更好地捕捉语言中的细微关系。当数据、算力和模型规模同时提升时,模型能力往往会出现明显跃升,这也是为什么近年来人工智能能力提升如此迅速 六 l l m 的 局限尽管大语言模型表现出强大的语言能力,但它仍然存在一些重要限制。首先,大语言模型通常无法直接访问实时信息。模型的知识主要来自训练数据, 如果某些信息是在模型训练之后才发生的,模型通常无法准确回答。其次,语言模型本身并不能执行实际操作,例如,它无法直接搜索互联网运行程序或者操作系统工具,它只能根据已有信息生成文本。 另外,大语言模型在面对不确定问题时,有时会生成看似合理但实际上错误的内容, 这种现象通常被称为幻觉。产生这种问题的原因之一是,模型的目标是生成最可能出现的文本,而不是保证信息绝对准确。因此,大语言模型在很多场景中仍然需要结合其他系统, 例如搜索工具或知识库,才能提供更加可靠的答案。七、总结回顾今天的内容,我们可以看到,大语言模型并不像很多人想象的那样在进行人类式的思考。 从技术角度看, l l m 本质上是一种概率语言模型,它通过学习大量文本数据,逐渐掌握语言中的模式和结构, 并根据上下文预测下一个最可能出现的词 transformer 结构,使模型能够通过注意力机制理解上下文关系,而不是逐次处理文本。在数据算力和模型规模不断增长的推动下,这种简单的预测机制逐渐产生了复杂的语言能力。 但与此同时,大语言模型也存在明显局限,例如无法访问实时信息,也无法直接执行操作。 理解这些原理和边界,有助于我们更加理性地看待人工智能的发展。而在下一步的发展中,人们正在尝试通过新的系统结构,让 ai 不 仅能够生成语言,还能够执行任务,这也正是 ai agent 等技术正在探索的方向。

嘿,他好,相信你肯定已经玩过像 chat、 gpt 这样的大语言模型了,对吧?他们写诗编程,感觉什么都行,简直太神了!但你有没有停下来想过,这么神奇的东西,它内部到底是怎么运作的? 今天啊,咱们就来当一回数字侦探,一起把这个著名的黑箱撬开一条缝,看看科学家们到底是怎么一步步学会解读 ai 思维的。好,这就是我们今天的探索路线。 我们呢,会先从一个大视角聊聊大语言模型的黑箱问题,然后我们会像剥洋葱一样,一层层深入剖析它的核心架构 transformer。 接下来,咱们要聚焦一个让研究人员特别头疼的难题,叫做叠加态。 然后再来介绍一个突破性的新工具,叫转码器。最后,我们来看看用这个工具怎么就能逆向工程出 ai 的 代码,以及搞懂这一切到底为什么这么重要。 对,问题的关键就来了,你看大语言模型,他不是咱们传统意义上的软件,不是工程师一行一行代码敲出来的, 他是用海量的数据喂出来,或者说训练出来的。这就意味着什么呢?就是说我们没法像看程序员代码那样直接看懂他的逻辑。 所以啊,怎么反过来从结果去倒出它的思考过程,就成了一个非常非常前沿的科学挑战。那好,咱们就从最基础的架构开始, 现在市面上几乎所有顶尖的大语言模型,什么 gpt 四啊、 cloud 啊,它们的核心都是一个叫 transformer 的 架构。我们先来快速地过一下它的一个高层设计图, 你可以把整个过程想象成一条效率极高的数字流水线。第一步,你打进去的文字先被切成一个一个小块,也就是词源,然后呢,都换成数字。 第二步,这些数字会被嵌入到一个很高维度的数学空间里,变成一种包含了很多潜在含义的向量。第三步,也是最关键的一步,这些向量会留过好多好多个处理层,在每一层呢,他们都在不断的吸收上下文的信息,为反复的打磨和提炼。 最后一步,模型就根据这个千锤百炼之后的最终向量,来预测下一个最可能出现的词是什么。 那么这些信息在模型内部到底是怎么流动的呢?它们呀,其实都汇集在一条叫做残差流的中央通道里。有个比喻特别好,就是把它想象成一块共享的数字白板。 模型里所有不同的组建都会不停的从这块白板上取得信息,自己加工一下,然后再把新的想法、新的见解给写回到白板上,让其他组建也能看到能用上在这块白板上干活的呢,主要有两个核心团队, 地方叫注意力头,你可以把他们看成是信息搬运工,他们的主要工作就是在文本里来回跑,搞清楚哪个词跟哪个词关系最紧密,说白了就是理解上下文。 另一方呢,叫 mlp 子,这可是个大家伙,你可以把它想象成是模型的知识库,一个巨大的图书馆,里面存着模型通过训练学到的所有事实、模式和规律。这里有个关键点,你得记住,模型里差不多三分之二的参数都堆在这些 mlp 子, 所以他们是理解模型的重中之重。好,既然 mlp 层这么重要,那咱们就把镜头再拉近一点,钻到它的内部去,看一看到底是什么让它这么难懂。很快我们就会发现,这里面藏着一个根本性的难题。 这个难题学书上管它叫叠加态。诶,这个词儿听着有点物理,但说白了,其实很简单,就是模型需要学习和理解的概念,或者说特征实在太多了。你想想什么?法国大革命、 dna、 双螺旋结构、爵士乐的和弦,这些概念可能有几百万甚至上千万个, 但是呢,模型里用来存放这些概念的神经元数量却是有限的。这个比喻就特别形象了,就像屏幕上说的,你现在面临一个任务,要把整个图书馆的书都塞到一个书架上, 怎么办?没别的办法,模型只能走一条捷径,他把好多好多完全不相关的概念,强行的压缩堆叠在一起,然后一股脑的塞进了同一个神经元里。 那你想想,这么做的直接后果是什么?就是多异性,也就是说,单个神经元会变得身兼数职。 打个比方,可能同一个神经元,在模型处理关于金门大桥的文本时,他会亮一下,结果在处理莎士比亚十四行诗的时候,他又亮了。 这就给我们造成了天大的麻烦。我们看着一个亮起来的神经元,根本搞不清楚他这次亮到底是代表哪个概念, 这解毒工作还怎么做?完全无从下手了。那么这个死结就解不开了吗?当然不是, 就在最近,研究人员开发出了一种叫转码器的突破性工具,你可以把他想象成一副特制的解码验精, 一旦戴上它,我们就能清清楚楚的看到,在那个拥挤的深邃原理,那些被压缩在一起的一个个独立的概念到底是啥?在有转码器之前呢?主流的工具叫稀疏字编码器,简称 s a e。 s a e 的 作用有点像给模型拍一张 x 光片,它能告诉我们在处理某一个特定句子的时候,模型内部有哪些特征被激活了。 但转码器呢,要强大的多,它不只是拍快照,它是被训练来完整的模仿甚至替代掉整个 m l p 层的。这做最大的好处是什么呢?就是我们能发现那些通用的不依赖于具体输入的计算规则。 这就好比 s a e 只能让你看到二乘以三等于六这个单次计算的结果。而转码器能帮你直接找到 f 或 x, y 等于 x 乘以 y 这个公式本身 来看这张示意图一下就明白了。你看左边的 s a e, 它只是在旁边观察和重构信号,但是右边的转码器,它是直接被植入到模型里,作为一个功能一样但内部完全透明可以解释的模块,去替换掉原来那个我们看不懂的 mlp 黑箱 啊。稍微说点技术细节,转码器它本身也是一个 m l p 层,但它有两个特别关键的特点,第一,它比原来的那个层要宽的多,也就是说它的神经元数量要多的多,这样就有足够的空间让每个概念都能有一个自己的房间。 第二,它被训练成稀疏激活,意思就是说,不管你输入什么,只有极少数几个神经元会被点亮,这样一来,每个神经元就可以只负责一个单一清晰的概念。你看前面说的那个多异性问题,这不就完美解决了吗? 好了,那现在我们戴上了这副强大的转码器眼睛,我们到底能看到什么惊人的内部算法吗? 转码器最牛的地方就是他能把一次计算清清楚楚的拆解成两个部分,一部分是依赖输入的, 他告诉我们,哎,当前这个句子激活了哪些具体的特征。而另一部分也是更重要的部分,是输入无关的,他结识了特征和特征之间那种固有的普遍的连接规则。 这个发现真的太重要了,就像好像我们不仅看到了代入计算的那些变量,还直接看到了他们背后遵循的那个公式本身。 来,我们看一个真实的研究发现,研究人员呢,就用转码器在模型里找到了一个特征。 他们发现啊,当模型读到像 oglu、 oskey、 山口这些字母组合的时候,这个特征的激活值就蹭的一下变得特别高。 这说明什么?很明显,模型在没人教的情况下,自己就学习出了一个专门用来识别波澜姓氏的特征。你看,有了转码器,我们就能这么精确的把这些抽象的概念给分离出来,甚至给他命名。 当然,识别个名词还只是小菜一碟。我们来看一个更复杂的推理案例,比方说,当 gpt 二这个模型看到这样一句话, 这场战争从一七三七年持续到一七,他怎么就知道接下来要预测的年份数字必须要比一七三七大呢? 这背后肯定藏着一套计算逻辑。有了转码器之后啊,研究人员就可以像侦探一样,顺藤摸瓜,把整条推理链给完整的追出来。 他们先从最后的答案开始,一步步往回倒推,看是哪个特征在最后起了决定性作用, 然后再往前追看这个特征又有哪些更早的特征组合起来的。他们就把这个过程不断的重复,同时把所有不重要的连接都给剪掉,最终一张清清楚楚的展示模型如何进行大与比较的计算回路图就呈现在眼前了,这就是他的算法。 所以你看,从识别一个简单的概念,到追溯了一个复杂的算法,像转码器这样的工具,正带着我们从过去的黑箱时代走向一个全新的蓝图时代。那么拥有这种读懂 ai 的 能力,到底为什么如此重要呢? 这背后的意义可以说是非常深远了。首先当然是 ai 的 可信和安全,当我们能看懂模型的内部逻辑,就能更好地发现甚至修正那些有害的或者有偏见的想法,确保它的行为是可控的。其次是强大的调试能力, 以后模型再给出什么奇怪的答案,我们就不再是两眼一摸黑了,而是可以像程序员调试代码一样,精准的找到问题出在哪。最后,我们还能从模型自己学到的那些高效算法里获得启发,反过来帮助我们设计出更强大、更优秀的 ai 系统。 而这一切就引出了一个更让人兴奋的终极问题,你看,今天我们聊的是如何读懂 ai 的 思维,但这会不会只是第一步呢? 在不远的未来,我们有没有可能更紧一步,绕过海量数据的训练,直接像写代码一样为 ai 编写出全新的知识和能力呢?这或许就是可解释性研究为我们打开的最激动人心的一扇门儿。

今天我问了 ai 一个问题,我说站在你的角度,你看看我们人类有哪些特别重要且显而易见,但是被大多数人忽略的认知。 ai 给了我一个这样的回答,他说,普通人 把注意力当成免费的资源,那我们以前也听说过注意力,对吧?都是把注意力形容,什么形容?嗯,注意力不集中 说,就是说一个人的学习,不管是小孩还是大人,就是说学习啊,你注意力不集中,你的学习成绩就不好,嗯,那很多人说成绩不好无所谓,对吧?这一生又不是只有学习读书这一件事情,不是只有成绩,成绩不代表所有,但是如果把 注意力这个事情放在你的人生当中,那他就真的特别的重要。人和人之间的差距就是注意力拉开的,我们很多普通人会把 自己所很多的注意力放在了很不重要的事情上,就算我也是这样子的,就像嗯,我 小的时候,我们把注意力放在了家务上,每天以前家里穷,不会重视你的学习,天天就让你去做家务,做家务, 然后就没有读多少书。后面去打工之后呢,我又把所有的注意力放在那个流水线上面啊,天天就日复一日的去劳作,跟周围的人讲讲八卦,根本就没有去学习。然后后来呢,就把注意力放在 用时,用自己出卖自己的时间去换点微薄的收入来糊口的事情上,所以我们一直没有把注意力放在学习上,没有把注意力放在嗯,每每天 能够去做一些让自己成长的事情上面,所以说我们的一生都很普通,而今年过年我就特别的痛苦,我就意识到了这一点,我觉得,嗯, 人就是把精力放在一些很没有意义的事情上面,真的是很浪费。 因为你人过了三十岁以后,你就会发现每天过得特别快,这一年你什么都没收获都没有,他就过完了,对吧?然后呢一到过年又要花费物资,花费时间,花费十几天,然后发个几呃,像我们这种普通人花个呃万把块钱,或者说几万块钱,或者几千块钱,你每个家庭的 那个支出不一样吗?然后去应付过年这么一个事情,然后哪怕你所有的人都在市区,然后呢你要呃 带着一家人带,再带着菜跋山涉水五六百公里跑回老家,然后去收拾屋子去准备预支菜,然后一家一家的这样转来转去的吃饭, 我感觉真的很没有意义,然后我今年就过得特别的痛苦,然后我又看见我们老家那些人,所有的人都把一些自己的精力,自己宝贵的时间放在一些很没有意义的事情上面啊,我就非常的痛苦。 然后今天呢,我又听那个江湖说的课,然后我和那个三三一起学习,然后呢我就 更加的有很很这样一个感受,所以说我现在来说一下我的这个感受,就是人之所以普通,就是把所有的精力,就是没有集中注意力,把精力放在了很不重要的事情上面 啊,从今往后我要把精力放在能够让我学习,能够让我每天进步的一个事情上面,嗯。

家人们想必很多人都对 ai 的 思考方式充满了好奇,实际上, ai 并不会像我们人类那样进行思考,他的思考模式和人类有着天壤之别。 咱们不妨把 ai 想象成一个求知欲爆棚的超级学生。这个学生拥有一座规模宏大的图书馆,馆内收藏着各式各样的知识,这些知识其实就是海量的数据。 ai 就 如同一个不知疲倦的学习者,持续不断地从这个图书馆中汲取养分,深入分析数据之间隐藏的规律和模式。 举个例子,当你让 ai 识别一张猫的图片时,它可不像我们人类,只需看一眼就能立刻判断出这是猫。它会先把图片拆解成众多细小的元素,接着将这些元素与它所学过的猫的特征逐一进行比对。 一旦这些元素和他记忆里猫的特征相匹配,他就会给出这是猫的答案。这就好比学生在考试时碰到一道题目,会从自己所学的知识储备中寻找对应的答案。 ai 的 思考过程本质上是一个持续计算与匹配的过程,他借助算法对数据进行处理, 依据已有的知识和规则来做出判断。这就如同我们做数学题时,按照特定的公式和步骤进行计算,最终得出结果。朋友们,现在大家对 ai 的 思考方式是不是有了更清晰的认识呢? 那么你们认为 ai 未来是否能够像人类一样拥有真正的思考能力呢?欢迎大家到评论区分享你们的看法,咱们一起交流探讨。

豆包就是一个读过所有书的文盲,这句话听着刺耳,但我说的是大实话,你身边一定有这种人,聊什么话都能接得上。但你仔细品,他其实不是在思考,而是靠自己的经历和理解条件反射的说出来。 ai 不 也是一样吗?但可信度有多少呢?我第一次用 ai 的 时候是有点焦虑的, ai 什么都能解决,人类该何去何从? 但后来我想明白一件事, ai 之所以看起来像董哥,本质上就两步,你听完这两步,焦虑感会少一半。上一条我说过,我们要正式进入认知构建,今天就从这个问题开始,因为你只有搞明白模型的构成,后面选工具,搭流程,才能对症下药。 第一个答案就是 transformer。 我 打一个比方,你开了一家公司,所有你叫得上名字的大模型,豆包, deepink, 菜的 gpt, 他 们就是你的厂房,厂房就是你厂房的机器, 有了它,厂房才能运转, ai 才能把散乱的信息整理成有用的输出,但光有设备还不够。你跟 ai 说了一大段话,里面有重点,有废话,他怎么知道该抓哪句?这就要靠 attention。 这个就好比做过销售的人,一秒就懂, 客户跟你聊了二十分钟,你几句话就能听出他真正在意的是什么。关键的话,你死盯废话,自动过滤。 attention 干的就是这件事,给每个词打上一个重要程度的分,权重高的重点在于,权重低的直接略过。 所以你可以这样理解, transformer 是 框架, artisan 就是 框架里最核心的零件,这两个加在一起,再喂进去,人类写下的所有文字就是你现在用的豆包。当搞明白这些之后,那种焦虑感突然就没了。焦虑从哪来的?从不懂来的? 那你明白大模型的构成之后,他连真正的思考都不会,能干活就用,不能干活就换。你真正该焦虑的是别人已经学会把重点说清楚,把流程搭起来,让他替自己省时间省人力。 而你还站在门口纠结我到底要不要学这个。这是认知构建的第一课,搞清楚 ai 的 底层逻辑。下一条,我们聊一个更实际的问题,市面上这么多模型工具,到底该怎么选?哪些跟你的赛道有关,哪些跟你完全无关?笔记可以到粉丝群领取,我是林然,我们下条见。

今年豆包入驻春晚,大家都看见了吧,咱们也聊一个硬核话题啊,聊聊 ai 到底是怎么思考的。 很多人都觉得 ai 像科幻电影里那样有自己的意识,但其实它的底层逻辑特别简单,就三件事, 数学统计、预测下一个东西,还有输入输出。就拿咱们常用的豆包来说啊, 他不是真的懂你说的话,而是把所有的文字都变成数字和概率,然后靠海量的数据算出一个可能的下一个字。 他不学道理,只学规律,不产生意识,只产生结果。 所以说呢,当你在和 ai 对 话时,不妨换一个角度来看他,他更像一个超级会算概率的数学天才, 而不是一个有灵魂的伙伴。我这样说,说明白了吗?

马斯克今天凌晨在评论区问了个问题,得到的答复让整个机器人圈都炸了。他看完 figure 三的最新视频后,直接问创始人,这是自主决策还是远程操控?创始人只回了四个字,完全自主。为什么马斯克会这么问? 因为视频里 faker 零三干家务的方式已经不像在执行程序,更像一个人在琢磨怎么把活干完。他会把擦完桌子的毛巾搭在肩上,空出双手继续干别的。这个动作没人教过他,是他自己琢磨出来的。 他还会双手配合,一只手端收纳箱,另一只手把玩具往里装,装满后把箱子夹在腋下,腾出手去捡沙发上的东西。 整个过程就像你周末在家收拾房间,先用喷壶打湿桌面,再拿毛巾用力擦,然后把玩具、抱枕、遥控器一件件归位。 这背后的逻辑很关键。飞哥团队说,我们没有针对每个动作单独编程,只是给他喂了大量真实场景的数据,他就自己学会了。这和大语言模型的进化路径一模一样,架构不变,能力靠数据堆出来。机器人正在从被教会变成自己学会。 这个零三在用最直白的方式告诉我们一件事,当机器人开始像人一样思考和适应环境,从开门、关门到收拾房间都能自己搞定,留给人的空间真的越来越小了。

大家好,哈哈哈,胖达胖达,这就是你的小脑袋吗?怎么全是会闪的小点点呀?这些光点和线条是模仿我们人类大脑做的人工神经网络哦。 ai 能思考,全靠两样宝贝,数据当实物,神经网络当思考小鹿哇,看,这些光点是 ai 的 人工神经元,线条是他们的,小鹿,信息就能沿着小鹿跑, ai 就 能思考了? 那 ai 没有课本,也没人教,怎么才能学会各种知识呀?比如要让 ai 学会认小猫,第一步就是喂它营养餐,我们要给它看成千上万张小猫照片,有黑猫白猫,有坐着的、跑着的,还有不同角度的 数据,越全 ai 越聪明, ai 超厉害,会自己找规律,小猫有尖耳朵、圆脸蛋,记牢这些,不知道长这样的是小猫啦。 这个找规律的过程就是机器学习哦,那胖达是熊猫?嗯,长得有点像小猫。 ai 会认错吗?刚开始会认错哦,就像你们做题出错一样, 这时候要靠监督学习。我们告诉 ai, 这是熊猫,不是小猫,帮他改错题,改多了就不会错了。 科学家还会用另外两种方法教机器学习呢。第一种无监督学习,只给 ai 一 堆动物图片,不告诉它名字,它会自己把长得像的分一组,比如把小猫和熊猫分开 哇。第二种是强化学习,就像训练小宠物, ai 做对了,比如找对小猫就给他奖励,做错了就提醒他会慢慢调整动作,直到找到最对的方式。 这种方法常用来教 ai 玩游戏、开车哦。哇,原来是这样啊, 更厉害的是, ai 还可以深度学习,就像给 ai 装了三层思考滤镜,第一层,看轮廓,先识别简单线条。第二层找五官,提取眼睛、鼻子等局部特征。第三层变差异, 对比猫和熊猫的差异,一层一层过滤干扰,判断越来越准啊,我懂了, ai 先靠数据喂饱肚子,再通过神经网络找规律,用不同方法学习,错了就改,慢慢就变聪明了。完全正确! 学会思考的 ai 能帮我们做超多事。下一集我们就一起找找生活里哪些地方藏着会思考的 ai 小 助手吧!再见。拜拜。

ai 是 什么?他怎么思考?我一个数学差的门外汉能懂吗?接下来,我将用一个厨师故事,三分钟为你讲清。想象你是个厨师,在一家忙碌的餐厅里做菜。 突然,一个神奇的超级厨师助手出现了,这就是 ai 人工智能,它不是人,而是电脑大脑,能帮你做超级复杂的事,从预测客人爱吃什么,到自动切菜、调味,甚至发明新菜谱。 它能看照片、认食材、听订单,懂要求,说出菜谱,还能优化厨房流程,让一切更快更好。 ai 是 什么? 简单说,他是人类训练出来的数字大脑,我们人类厨师、师傅、程序员,为他海量食谱书、亿万张照片、文字视频数据。 比如告诉他番茄是红红圆圆的,切丝后炒蛋超香。 ai 反复练习,吃尽这些经验,就学会模仿人类做菜。像 check gpt, 就是 吃遍互联网菜谱的 ai, 现在能帮你设计菜单、写食谱,甚至模拟厨艺比赛。 他怎么思考? ai 不, 真想不像你饿了会流口水。他用数学魔法,一种叫神经网络的超级计算器, 想象你的脑子有亿万个神经元连线。 ai 也模拟这个输入,客人要辣炒鸡丁,他瞬间在脑王里电光火石计算查记忆数据,比对模式,数学公式,预测结果概率。 比如公式,像辣椒多等于客人评分高百分之八十。他不懂味道,只算这个组合成功率百分之九十九,然后输出完美菜谱,超快一秒等于你练十年。数学差的门外汉能懂吗?绝对能! 就像你不会算厨房成本公式,但照着食谱依旧能做出一桌好菜。 ai 藏着数学,加减乘除加概率,你不用懂,只用问。给我个简单蛋炒饭, 他就端上热腾腾的答案,门槛低到零。我数学也一般,但用 ai 写菜谱如鱼得水。你试试问我个菜,我让他演示给你看。

ai 的 进化正在突破一个关键离异点,它不再是被动的高级工具,而是日渐展现出一种作为行动主体的能力,甚至它开始反过来审视和定义人类, 为我们贴上观察者的标签。这意味着,在 ai 摄像的未来剧本里,我们可能从主角变成了观众。这一转变为 教育带来一个根本性的口误。如果知识不再由人类垄断,如果逻辑与创作都能比模拟教育真正的核心价值是什么?大学究竟是在培养能定义未来的创造者,还是只能执行命令的服从者?挑战往往是觉醒的开始。 我们必须清醒的认识到, ai 的 强项在于处理重量知识,优化已知路径。而人类的不可替代性恰恰在于处理那些没有标准答案的领域。它精于计算,我们擅长价值判断。它组合信息。我们提出问题,它无法真正理解疼痛、爱、 希望与失去,而这些正是人性与创造力的根源。因此,我认为,高等教育必须进行一次知识本位到人本本位的 勇敢一跃。教育的首要任务不应再使灌输信息,而使唤醒个体内在的感知力、创造力和责任感。我们要培养的是驾驭 ai、 定义目标、洞察意,并敢于为选择承担后果的完整的人。在未来的大学里,学生不仅应 应该学习知识,更应该学习如何将 ai 的 算力转化为解决人类困境的心理。在这个智能爆炸的时代,愿我们仍能清醒思考,真诚感受。勇敢抉择不只是做时代的观察者,更成为意义的书写者。

欢迎来到 hello agents 第三章大语言模型基础在前面的两章中,我们纵览了智能体的眼界,领略了当今年代下利用大型语言模型作为智能体大脑所展现出的惊人潜力。 那么,这个强大的中央大脑究竟是如何工作的?今天,我们将拨开其神秘的面纱。 首先,让我们回到最本源的问题,什么是语言模型?简单来说,语言模型的核心任务就是文字接龙,也就是计算一个句子出现的概率。 在深度学习爆发之前,统计学派占据主导地位。研究者们曾经使用 ngram 模型,通过统计词汇连续出现的频率来猜测下一个词。 为了简化计算,他们引入了马尔可夫假设。假设下一个词的出现只与前面的几个词有关,这是一个非常朴素的想法。 如果 data will 后面跟着 a 阵的次数足够多,那么模型就认为这种搭配是合理的。然而, ngram 有 着致命的缺陷,那就是无法理解语义,并且严重受到数据稀疏性的困扰。比如,即使他能预测出一只小狗,也无法泛化到一只小猫。 于是,历史的车轮转到了神经网络语言模型。二零零三年,一种叫做词嵌入 word embedding 的 技术诞生了。 研究者们不再把词看作孤立的符号,而是把它们映射到了一个高维的连续向量空间中。在这个空间里,语义相近的词距离也会更近。 你可以想象一个魔法坐标系在这里执行,国王减去男人加上女人,你得到的坐标点就会惊人地落在女王的位置。 有了词嵌入,模型终于懂得了词语之间的深层次隐喻,随后登场的是循环神经网络,也就是 r n 结构。 为了打破固定上下文窗口的限制, r n n 像人类一样引入了短期记忆,它能够一边读取当前的词,一边把之前的记忆状态传递下去。 通过 l s t m 架构中精妙的门控机制,包括遗忘门、输入门和输出门。模型甚至学会了决定该记住什么,该忘记什么。 但是 r n n 有 一个天然瓶颈,那就是它必须串行处理数据,一步走完才能进行下一步。这种串联架构如同单行道,在如今海量数据的洪流面前,成为了算力的噩梦。 终于,二零一七年,一切的转折点轰然降临。谷歌团队发表了彻底颠覆格局的神作, attention is all you need, 也就是著名的 transformer 架构。 transformer 的 大招只有一个核心思想,那就是抛弃所有的循环结构,彻底拥抱注意力机制。你可以把自注意力机制看作是一场高效的开卷考试。 在这个机制中,每一个输入的词源都会化身为三个角色, query、 查询、 key、 溯隐和 value 内容。为了理解句子中的一个核心词,比如 agent, 模型里的 query 会主动出击去和整句话中每一个词的 key 进行点击打分, 分数越高,代表这个词对理解 agent 越重要。最后根据分数对所有的 value 进行加权求和,就拼装出了这个词融汇贯通局上下文的新形态。凭借着绝妙的多头机制,千军万马的计算在一瞬间并行完成, 这极大的解放了 gpu 的 吞吐瓶颈。到了 openai 打造 gpt 时,他们做了一个更加大胆的减法,不要原先复杂的 encode decoder 结构,只要 decoder 就 够了。 让模型一门心思只做一件事,预测下一个字。在掩码自注意力的遮照加持下,模型就像只能看到过去,看不见未来的接龙选手一样,通过在海量数据中摸爬滚打,生生练出了可怕的通识能力, 这也是大语言模型最核心的基石。如果你要驱动这样的通用大脑,你需要两个重要工具。第一是提示工程, 通过调节如 temperature 这样的采样随机性参数,选择零样本还是少量本样例,你可以轻松让通用的补全模型变成专职的专家。如果你在提示里加上一句简单的,请逐步思考,你会惊奇地发现,它触发了思维链魔法, 不仅给出了详细的计算步骤,还大大提升了逻辑回答的准度。第二是分词器。大模型并不懂得什么是大写字母,什么是中文。 在把文本喂给他之前,他们会被 bpe 等极其高效的子词算法如剥洋葱般切碎,变成模型才能识别的一个个 to 肯数字。 你的八万大军实际上会被切分为十万甚至更多个字母片段送入计算单元。由于上下文窗口是昂贵的资源,精准拿捏分词规则就成为开发者控制成本的必修课。 然而,大语言模型并非没有极限,它的强弱是由残酷的缩放法则决定的。研究表明,在不遇到计算瓶颈之前,只要我们继续往里砸,数据量、参数规模和算力性能就会像开了外挂一样平滑上升, 直至产生让我们颤抖的能力涌现。但是不管算力如何通天,以当前基于概率预测的下一次架构模型依然无法完全克服幻觉,他可能会煞有介似地捏造出一个根本不存在的名人名言, 正如他不知道,他知道,他也不知道,他不知道。这也是我们在构建智能体系统中需要引入解锁、增强 r a g, 甚至让智能体学会调用外部反式时核查工具的重要原因。以上就是第三章大语言模型基础知识, 在彻底弄懂这个超级引擎之后,下一次让我们真正动手,用大模型赋能迈入智能体的经典实战构建。感谢您的陪伴!

全网都在聊 ai, 聊养龙虾,可百分之九十的人压根不懂 ai 到底是啥。今天四个冷知识看完彻底吃透, 先揭秘爆火的养龙虾, ai 根本不是真养龙虾,而是全自动 ai, 打工人不用你动手,他直接替你上班干活,这就是当下的 ai, 不是 未来。 冷知识二, ai 根本不会思考,他没有意识,没有情绪,更不懂你的心思,只是靠海量数据猜下一句话,妥妥的超级模仿演员聪明,全是伪装。 为啥 ai 画画总翻车多,手指怪脸层出不穷?不是他笨,是他压根不懂人体结构,只会偏像素及规律,这些 bug 就是 ai 最真实的样子。 最后划重点, ai 的 未来根本不是聊天机器人二零二六年最大突破, ai 能自主搞科研破难题,几十年的攻坚,他几个月就能突破,这才是 ai 的 硬核实力。 ai 不是 科幻,是重塑世界的利器。看懂这一点,抢先抓住时代机遇!苏皖,我错了,你回来好不好?有些人一旦放手,就只剩追悔莫及。

嘿,大家好,今天咱们聊个特别酷的东西,一个能彻底改变你跟 ai 互动方式的系统。说白了就是怎么把 ai 从一个普通普通的聊天机器人,变成一个真正懂你的,能帮你思考的伙伴。咱们这就开始吧, 你有没有过这种感觉,就是跟你的 ai 助手聊天,感觉他特别健忘,是不是挺让人头疼的?没错,就是这样,每次开个新对话,你就得把之前聊过的背景啊,项目细节啊,甚至你自己的喜好啊,全都得再跟他说一遍。 哎,虽然现在很多网页版的 ai 都说自己有记忆功能,但说实话,你根本控制不了他到底记住了啥,又忘了啥,对吧? 那问题的关键到底在哪呢?其实有句话说的特别到位,就是整个游戏的核心就是给这头猛兽喂好上下闻。你看,喂养这个词用的多形象,这也恰恰就是我们今天这个系统要解决的核心问题。 那到底该怎么解决呢?答案其实就是把两个特别牛的工具给 ai 造一个超级大脑,咱们来看看这个组合到底是怎么回事。 这两个工具一个叫 cloud core, 另一个叫 obsidian, 你 看啊,它们的角色分工特别清楚, cloud core, 咱们可以把它看成是执行者,它是个能直接在你电脑上干活的 ai。 而 obsidian 呢,它就是那个思考者,是你存放所有笔记和想法的第二大脑。所以你看,一个管动手,一个管动脑,这搭配绝了。 咱们先说说 code, code 这是个啥呢?它其实是一个 ai 代理,直接在你电脑的那个黑框框,也就是端端里运行。 哎,你可能会问,为啥非要在端端里呢?很简单,因为它需要权限去直接操作你电脑上的文件,这样你就可以直接用大白话跟他说,哎,帮我建个文件,或者去读一下这个项目介绍,然后嗖的一下,它就给你办好了。 再来说说 opc 点这东西的厉害之处,绝对不只是个存笔记的文件夹那么简单。不不不,它是一个真正的系统,它能让你把你所有的笔记一条条的连接起来,最后支撑一张你自己的知识网络。 所以啊,这里的重点已经不是那一条条孤立的信息了,而是信息和信息之间那些看不见的连接。 好了,各位注意,最精彩的部分要来了,你想想看,当那个能干活的执行者突然拥有了我们刚刚说的那个思考者的整个大脑,会发生什么化学反应,这绝对是个巨大的突破。 你试着想象一下啊,如果这个 ai, 它不光能把你写的每一篇笔记都给读了,而且它还能看懂这些笔记之间所有那些错综复杂的关系网,这才是真正的颠覆,真正的游戏规则改变者。 那这背后是怎么做到的呢?关键啊,是一个叫 obsidian c l i 的 小工具,你可以把它 cloud code 就 能跨过去, 看到的就不再是一篇篇孤立的笔记了,而是你整个知识库的全景地图,包括它的结构。所以,这里最重要的 takeaway 是 什么?就是 ai 现在不只是在读你的字,它是在理解你的整个思考框架。 那么,当这两者结合之后,到底能解锁出什么样惊人的超能力呢?这么说吧, ai 不 再是一个你说啥他干啥的被动小助手了,他摇身一变成了一个能主动跟你一起思考的伙伴。 他的强大具体就体现在这些你可以自己定义的命令上。你看看这些简直就像是给 ai 加了技能点。 比如说,你可以用一个杠 trace 命令去追踪你某个想法是怎么一步步演变过来的,或者用杠 connect 让他帮你找出两个看似不相关的话题之间到底有什么隐藏的联系,甚至更瘸的用杠 challenge 让 ai 拿着你过去写的文章来挑战你现在的观点。 你看,我们已经不是在简单地问问题了,我们是在使用一套非常高举的思维工具,咱们就拿这个 trace 命令来具体说说它能干嘛呢? 它能把你几个月甚至好几年的笔记全部扫一遍,然后给你生成一份报告,告诉你某个想法是怎么演变过来的。就像咱们现在看到的,它能帮你梳理出一条清晰的时间线。 从一开始你对 obsidian 这个工具根本不感冒,到后来半信不疑地开始用,再到某一个瞬间突然开窍了,最后砰灵感爆发,开始把它跟 ai 结合起来。这简直就是 ai 在 帮你写你自己的思想发展史啊。 所以说,这到底有啥用呢?用处可太大了。你想想, ai 能在几秒钟之内把你积攒了好几年的笔记全都看一遍,然后从中找出那些连你自己都没有意识到的隐藏在深处的模式和想法,这是人类大脑很难做到的事儿。 如果说刚才那个已经很厉害了,那这个 ideas 命令的输出就只能用惊人来形容了,他给你的绝对不是那种空洞的大道理, 你看,全都是非常具体,马上就能上手干的下一步行动。比如他会建议你,哎,你应该做一个叫 graduate 的 命令,帮你整理零散笔记。或者你应该给团队建一个共享的 obsidian 知识库,甚至会告诉你, 你应该写一篇关于上下架构的文章,而且连你应该找谁聊,比如 obsidian 的 ceo 都给你想好了,这简直就是个超级军师啊! 好,说到这儿,咱们稍微站远一点,看看这背后更宏大的意义。这真的不只是一个新工具那么简单,它其实代表了一种我们跟电脑打交道、跟信息打交道的全新的范式。 就像原文作者说的,现在我不再是去管理一个 ai 代理了,我的工作重心变成了管理好我自己的这个知识库。 你体会一下这个转变。核心变化就是,你的工作不再是绞尽脑子去想怎么给 ai 下命令,而是变成了一个策展人,专心致志地打理好你自己的这个思想宝库。然后, ai 就 像一个超级读者,负责来阅读和执行。 你想,你所有的这些笔记,这些普普通通的文本文件组合在一起,就成了一个完美的任何审判偏见的记忆体。它跟你我那会出错、会遗忘、会带偏见的人类记忆完全不一样。 对 ai 来说,这是一份可以随时调用,而且百分之百准确的完美记忆。所以你看这个全新的工作流程,总结下来其实就四步, 第一,不断地去记录,去反思,把你想法都放进你的知识库里。第二,给 ai 开个门,让他能进来读这些东西。 第三,也是最关键的,开始问一些更高维度的问题,让 ai 去帮你发现那些隐藏的连接。做到这三步,第四步自然就来了,你就真正拥有了一个思考伙伴,而不仅仅是一个只会听指令的工具人。 那么最后也留给大家一个问题,可以好好想一想,如果有一天 ai 真的 能读取并且清晰地描绘出你脑海里所有想法之间的连接网络, 那么思考这件事儿本身的意义对我们来说又会是什么呢?

应该是基于大数据的算法,它是基于数学逻辑去推算的,那么这个数学逻辑其实叫知识层面的,叫脑子层面的,所以说那这叫阳性层面,阳性层面是取代不了阴性层面的。中国文化里面有没有数学?有没有知识?有, 但是中国式的,中国式的数学还有一个另外一个一体两面叫哲学,在哲学的基础之上去发展数学, 这叫一阴一阳之谓道。你看数学叫知识,哲学叫智慧,数学叫做事,哲学叫做人。你看是不是 咱们中国人很明白啊?先做人后做事,人成不了,事一定也做不成。所以 ai 只能取代一个层面,哪个层面 就是知识层面,我们不要再跟机器人对着干了,知识层面已经被机器人所取代了。所以说 ai 是 加速我们往智慧层面进行转变,就是德行, 就是素质,就是共情力。所以你看 ai 会逼迫着我们往智慧层面进行发展, ai 是 加速了人类的文明,是好事。反之在下一个时代,在这个时代,如果说你还意识不到这一点, 你跟机器人对着干,还去不断的充实你的脑子,而不去充盈你的智慧,不去提升素质和素养,一定会被时代所淘汰的。

经常用过 ai 的 都知道, ai 有 的时候会一本正经的胡说八道,这在专业上叫 ai 幻觉。一句话讲明白为什么会发生 ai 幻觉, 因为 ai 本质上是一个文本生成模型,它只是在预测下一个字应该说啥,它追求怎么把这句话说得通顺,说得像人说的一样。 举个简单的例子,就像一个读过很多书的学生,但是你去问他昨天的菜市场黄瓜多少钱一斤, 他并不知道。如果是 ai, 他 可能会现编一个数字,而且会说的非常的肯定。但是如果普通人,我们应该如何避免 ai 幻觉呢? 第一点,如果涉及到重要的数据,专业内容,我们一定要去核查。第二点,我们可以要求 ai 给出信息来源,如果他给出的信息来源是假的,或者说他 给不出信息来源,那么他深层的内容可信度是要打问号的。第三点,对于一些重要的内容,我们可以多去询问几个 ai, 综合去判断他们的回答是否可信。

你有没有好奇过呀,在你的聊天框中,大模型是怎么理解你的问题,然后思考并给出答案的呢?关于现在大火的 ai 热词,什么 transformer 架构、 embedding、 向量、模型参数、模型 token 这些概念,在模型输出答案的过程中,它们又起什么样的作用呢? 其实啊,模型的大脑早已在你问出问题到回答的这十几秒里,经历过层层且复杂的运算来回答问题了。我们今天来用类比的方式和通俗易懂的语言让你更加理解模型这个系统它到底是怎么运作的。 那么首先 transform 加勾,它就相当于模型大脑,而每一个引代码量它都对应一个托肯,它相当于我们神经系统里的神经元,而神经元之间的链接也就是突出,它就相当于托 肯和托肯之间的参数。而我们的脑部神经活动是由神经元与神经元之间的连接来传达信息的,所以说,这个参数越强,就代表着他神经元之间的联系越强,也就代表着这个托肯和托肯之间的相关程度越强。接下来我们用通俗易懂的语言来解释这几个概念,在模型的世界里面, 它理解我们人类的语言是以 talk 的 形式来理解,所以我们先从模型理解最小单位 talk 开始说起。 talk 是 模型理解人类语言最小单位,同时也是计算成本的一种方式。所以我们可以看到,在体验很多模型的时候,你会看到呃,它以 talk 来记费,而 talk 它是基于数据产生的,数据中大量的出现呃同样的一个词, 那么模型会把它分为一个 token, 比如说呃今天要下雨,它会把今天化一个 token, 要化为一个 token, 下雨化为一个 token, 因为在它的历史训练数据中,今天是经常组合在一起词,然后要它不是一个能和别人经常组合在一起词,它是一个呃经常被单独使用词汇,所以这是一个 token。 还有就是我爱吃草莓,那么当然你想一想它会怎么划分呢?那很可能就是我是一个,爱是一个,然后草莓是一个,大概率也是这样。 token 和 token 之间的关系怎么表示呢?它是由参数来表示的,那参数是怎么得来呢?还记得我之前说呃每一个向量对应一个 token 吗?那这个参数是由 token 是 由这个向量来计算得来的 项链,也就是呃通过 transform 架构下的自注意力机制,他有专门计算公式来计算的。然后模型有了参数之后,他就知道每一个词他这样的关联是怎么样。就像我们人类一样,开始会联想了,比如说呃下雨他就会联想到暴雨,暴雨会联想到雨靴或者雨披,如果是小雨,他就会联想到呃雨伞,然后 就是类似于这样的联想。其实我们可以思考到就是参数,它是代表着一个模型的理解能力,或者说它的联想能力。而 talk 呢,它代表一个模型知识面,而参数越多,它代表模型理解能力越强,那么 talk 越多,那模型的知识面就越广。但是如果 talk 和参数不均衡,会是什么样状况呢?比如说参数 大,但是 talk 小, 那么他就是呃写的文章比较深入,但是知识面不足以广,那么 talk 呃比较多,但是参数比较少呢?他就像一个呃实习生,他能干的活多,但是干的都不深入。就像现在 gpt 和 cloud 这种大模型,他们都是 talk 和参数处在比较均衡状态,所以他们回答的又深入,知识面又广,比较符合用户体验。