你给龙虾装 skill 其实也是这样,装了十个,七个躺在那里只用那三个,剩下的那七个可能堆在了你根本不知道的一个文件里 啊。 tools 文件和 skill 到底有什么关系?你可以这样理解, skill 是 你下载的一个 app, tools 就是 这个 app 的 说明书,这工具叫什么?怎么用?配置是什么?每一次启动,每一次启动,龙虾都会把这个 tools 文件读一遍,所以说你 skill 装的越多,这个 内存就会变得越厚,堆太多了之后会怎么样?文件越长, toki 消耗的就越多。因为龙虾每次启动都要把 toki 文件从头到尾的读一遍,一天只要启动个几次, toki 就 变我的钱。 你如果要想学会控制你的 toki 用量, toki 文件里面的内容精简是必然的。正确的做法是什么呢?就是不用的扔掉,装过一个 skill, 后来不用了,把它的配置删掉,别留着占地方。就是工具在精不在 多,希望你能明白。好吧,现在去让龙虾帮你叫取出来吐槽一遍,看看你有没有舍不得扔的东西。
粉丝255获赞2121

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

上一期视频反响非常好,有很多朋友在一起讨论和分享,这里也欢迎你的加入。搭建非常简单,需要一个云服务器和域名,搭建指令如下,也可以让 ai 来完成吹,有一个远程连接功能,连接之后直接跟他说帮我部署 gethub 上的 new api 项目, 还有 cloud toad 和 id 也可以。提示词大致如下,在各位好友和一位 up 主的帮助下,了解到偷更中转还需要养号池,这里大概率就需要购买邮箱,需要注册机,在我们的服 务器里面还需要一个反弹。这里也是 tiktok 上开源的项目,步骤如下,非常期待大家的加入。

同样输出一句话,我是中国人,不同的 ai 花的 token 居然不一样,今天我们实操一波,来看看 token 究竟是什么?来,我们直接上网看。 ok, 那 我们现在看一下,同样输入一句话,我是中国人,不同的大模型输出是什么样的?先来看一下 gbt 五输入这句话 啊,可以显示,看到这里显示了三个不同的高亮色块,每个色块就指的是一个 token 词源啊,所以这里是一共有三个 token。 好,其实呢,输入计算机的时候,托肯是会转换成为 id 的, 像这样,每个托肯对应的是一个唯一的数字 id, 这些数字 id 还需要进行矩阵转置,变成高维度的向量坐标,最终再输入到大模型进行处理。 可以同样看到,如果是 gpt 四的话啊,同样一句话,我是中国人,他输出的托肯数是四个的,那么 gpt 五其实还是针对这些中文词组做了一定的优化。 看一下国内的大模型,同样输入一句话,我是中国人,输出的 to k 数主要两个,因为我们国内的大模型可能相对于一二或者词语的分割来讲,是对国外要更优一些的,所以输出的 to k 数会更少,也就要看一个有意思的。我们看一下火山这边, 像图片照样也能通过图片的长宽,然后再除以一个固定值,也可以算出图片消耗的 to k, 图片消耗的 to k 量其实会更大, 所以我们用一些图形或者视频处理的大模型的时候,整整体的费用是会更高的。好了,那我们的演示就到这里结束了,所以我们为什么要关注 tok 呢?因为现在我们用的大模型 api 都是按 tok 计费的, toker 越少,同样的对话花费就越少, ai 一 次性能技术的内容就更多,所所以选对模型能省不少。当然,其实 toker 的 费用也跟模型本身的参数量成正相关。 toker 计算器的链接我已经放在评论区,大家可以试一下,输入你最常用的句子,看看需要用多少个 toker。

大家好,今天大家给大家带来佳马仕加 open cloud 的 一个本地话故事,让大家实现本地脱贫自由,不用再为脱贫去烦恼担心。那么话不多说,我们开始, 首先我们需要下载这个欧拉玛,它呢它是一个开源的大魔性本地运行和管理工具,我们需要下用两种方式,我们下 windows 吧,有时候可以直接在抛物线里面去粘贴这个密令 完了,或者是直接直接下载这个下载一个一叉一的安装包,稍等吧,耐心等待,有一点八 g b, ok, 我 们已经下载好了,然后我们来进行一个安装,双击安装, 然后 yes 哦, ok, 出现这个界面就代表已经下载好了,然后呢你看看了没卖掉,这里是思考的一个模式, no 中高。然后这边呢是一个模型的选择,哎,比如说,哎,已经有看健马仕一四 b, 一 二 b, 那 么还有二十六 b, 那 么这个模型怎么选择呢?大家可以看一下谷歌的他们的一个要求,像健马仕推理内存要求有像一一健马仕一二 b, 一 四 b, 三十一 b, 二十六 b, 他们所需要的啊, gpu 跟 tpu 内存的一个需求,大家是根据自己的一个硬件情况去下载,那 bf 呢?就是原生的,这是压缩后的跟量化后的一个版本, 嗯,大家我呢这次硬件要求我就下佳木斯 e 四 b 的 版本比较好呢,可以直接点这里下载,他会他,他就会自己给你去下载,下载好了你会自己使用。 或者呢还有一种办法,比如像我们点 mod 这,然后呢加码是,嗯,所有 mod, 那 你会看出来的出来很多,那么我们选这个版本,那么这边一四 b it q 量化版本, 这呢就是一个压缩后的版本,他呢对内存的需求小一点,但是他的性能损失可能只有百分之五或者是百分之十,损失会非常小的,我们可以像这样直接执行, 直接执行这个它会自动去拉取本地模型,这模型大概本地有九点六几,所以大家嗯一定要注意设置存放路径,模型路径,那么可以在这里设置 载体,这里看着模型和 v 型,大家可以在这里去设置, 我们已经下载完了,等它验证, 验证好了就代表我们的模型已经下载好了,我们就只需要去配置 open cloud 就 ok 了,可以看到我们已经下载好了,而且它已经验证成功了,然后这边已经在进行一个思考了,这就是 要么是逆四 b 杠 i t q 四 k m 版本的,这是这是量化压缩后的一个版本,不管他,我们来现在来进行 open club, open club 之前已经大家应该也已经部署过了吧, 就没有部署的,大家可以去看一下我之前的视频,这边就不重复部署了。那么我们怎么配置进去呢?我们只需要运行这条命令,他呢是会重新让你去配置一个新的 小龙虾配置咱们稍等,比如说上 get 位让选 logo, 然后呢我们这边只配幕的,只配幕的,所以我们不需要额外的设置,是直接的幕的 默认,我们选择欧拉玛,这个欧拉玛看到没有,我们去光标移到这里回车,回车,然后呢?被谁而这个默认回车,然后大家一定要选 logo, 因为我们是模型,在本地一定要选 logo, ok, 然后 logo ok, 看到没有,我们这边就出来了。我们的模型也像欧拉玛杰姆斯 b, ok, 我 们呢 空格选中回车,然后这已经配置好了,因为其他的东西我们不需要配置,我们只需要新增模型,所以我们直接长停留, ok, 就 回车好了,我们再再启动我们的 get 位网关,所以提一百个意外 start, 一个 get, 一个 start, 然后等它启动就好了,哎,不好意思,打错了,好的,等待我们网关启动。 启动好之后,我们就可以使用我们本地的佳马仕模型了,可以看到这里它已经开始变更了, ok, 等它正常启动之后,呃,我们就能在我们的外部设置界面去跟小佳马仕去。大家之前 大家可能有的有的没有,小龙虾想体验也是一样的,比如说像大家可以打开这个下载好的饿了么 app 点一叉一,他就会去运行,比如说你像说中文那啥模型他会告诉你,然后呢我会问他一些逻辑方面的问题, 然后他会用热度去比较,然后包括问他一些更稍微复杂点逻辑博弈问的问题,他都会去 回答的。就目实测下来就说他的推理还有处理能力也是很 ok 的, 那么他也是支持你去上传图片给他的,比如说你看这个,我给他图片,他这也会去分析的, 所以说你的意见足够的话,那么本地步数也是一个比较好的办法。嗯,好的,那我们这本期到此结束。

大家好,我是你们的科普达人,今天咱们来聊聊个人开发者怎么低成本入门 tocan 生产。很多朋友可能觉得 ai 模型部署门槛高,成本贵,其实只要配置得当,咱们普通人也能玩转。先说说硬件怎么选, 如果预算在一万五以内,想先试试水,那 rtx 四零九零 d 或者四零九零显卡是首选。二十四 gb 或十三 b 的 模型,搭配 i 五或 r 五的 cpu、 三十二 gb 内存, e t b 的 nvme 固态硬盘,再加上一千瓦的电源和一套散热好的机箱,总价大概一万一到一万六就能稳定运行。模型 托肯吞吐量能到每秒两百到五百个,日常测试和小流量使用完全够了。要是预算能到两到四万,想搞小批量生产,那就可以考虑上双卡四零九零 b, 或者直接上 a 一 零零,内存加到六十四 gb, 这样吞吐量能到每秒八百到两千个,接下小 b 客户的需求也没问题。硬件搞定了,软件和模型怎么选呢?模型方面,七 b 规模的 q 文二七 b instruct 或者 lama 三七 b 就 很适合入门,显存占用小,延迟低, 聊天、写文案、生成代码都在行。十三 b 的 模型像 q d r 杠一三 b instruct, 复杂推理和行业知识库的应用效果更好。这里有个小技巧,优先用 i n t 四量画板,显存占用能降百分之七十五, 速度还能提升两到三倍,效果几乎没损失,性价比超高。推理框架推荐 v l l m 开源免费,吞吐量比原声 pie torch 高十倍以上,个人开发者首选。部署工具方面, fast api 或 flask 用来封装 api 接口, prometheus 和 grafana 监控性能, e l k stack 记录日记这些都是免费又好用的工具。大家最关心的成本问题来了,按三年折旧算,入门级硬件每月折旧大概四百一十七元。电费方面,单卡四零九零币,满载运行 每月电费差不多一百九十四元,总成本约六百一十一元。按每天产出两千五百九十二万 token 算,单位 token 成本约零点零零零零二三六元,也就是二点三六分。每千 token 对 比 openai 的 gpt 三点五 turbo, 成本只有它的四分之一,价格优势很明显,想快速上手, 一天内就能跑通,先装 uber 二二点零四 lts 系统,然后安装 cuda 十二点一 cuda n, 再装 python 三点一零和 vl l m。 接着用命令启动模型服务, 最后用 qiro 测试一下生成 token, 看看返回结果里的 usage 词段,统计 token 数就搞定了。最后给大家几个进阶优化建议,用 v l l m 的 批量请求功能提升吞吐量,尝试模型蒸馏,降低显存占用和延,使用 radis 做请求队列应对高流量 在整个数据库记录用户 token 消耗,实现自动计费。这样一套下来,你的 token 生产系统就既高效又经济了。怎么样,是不是觉得个人搞 token 生产没那么难?你最想先用这个系统来生成什么内容呢?评论区告诉我吧!

普通人怎么在托管代理这个项目中分一杯羹?最近呢网上对托管代理这个项目真的讨论的太火了,但是还是有很多人不知道托管到底是什么东西,它是怎么做的?它里面的利润和风险点到底在哪里? 那今天这个视频就给大家仔细的盘一下这个项目。首先就是托管代理到底是什么托管的意思呢?就是词源,你可以理解成我们使用 ai 模型的一些燃料。托管代理呢就相当于 api 的 一个中转,就是把大厂或者其他渠道来的这样的一个接口, 泡一层壳在自己的网站上,然后他就给别人去用,就比如说切的 gbt, 如果你在国内想去使用的话,你是用不了的,所以就有人把国外的 gbt 的 这个接口 接到国内的网站上,给国内的用户去用,这样的话它又形成了一个 api 的 中转,也就是 token 的 代理。那说的再简单一点,你在海外买到了一款特别稀缺的饮料,然后这个饮料呢,国内的人想喝,但他买不到,你到国外买了一桶, 买回来之后去做一些封装,封装好了之后单独的按平去出售,那这一套流程就叫 a p i 的 中转,或者说是托管代理。接下来讲一下它的利润和风险点,它的利润你应该都清楚,按照自己定价或者溢价的这个逻辑去做一个分配。 我重点呢去讲一下它的风险,如果你是普通人,你想做这个项目,你其实很难去接触它后端的一个研发或者说是监管的,那就很有可能会出现以下这种情况, 第一个是挂羊头卖狗肉,就你明面上你说你卖的是 gbt 的 api, 结果你用的是 deepsafe, 对 吧?你用一些提示词告诉这个模型,说它就是 gbt, 你 用 gbt 的 价格去卖,那中间的差价就差了不止七倍。我甚至见过用那个 vivo 模型当 c 单十二模型去售卖的, vivo 的 话一条也就不到一毛或两毛, c 单十二的话一条要十五块, 它中间的这个差价真的是巨大的,但是这个的话它就不合规了。第二个点的话,就是通过一些技术手段,包括爬虫,包括逆向这一些,通过批量去注册一些新账号,因为很多大厂对新账号它是有一些 积分的激励或者说相应的政策的。那它就通过薅这种政策的羊毛,搞了一个相当于账号池,然后把这个池子里面的所有的 a p i 或者说功能对外出售。简单点来说就是把别人的赠品 薅完,薅完了之后再按照我们的网站一个一个的去卖给别人。这种方式呢,确实很取巧,但是它一般不太稳定。你想一下,如果你是大厂, 你发现你的福利被别人这么去薅羊毛,你肯定会有一些相应的反制措施,所以这些 api 的 话,它很难长久,但是确实价格特别低。所以投肯代理或者说 api 中哪件事情呢?它其实不算一个新的名词, 大家要谨慎的去分辨。因为前两个星期呢,我们一直在给企业去做一些定制 skill 的 一些开发,也没有花太多的时间和精力在这个 token 代理上面,后续我们也会去布局 token 代理这块的业务,先给大家试试水。

为什么说大圆模型处理的是 token 而不是文字?为什么大圆模型都有一部叫做 embedding? 我 还听说 rug 中也有一个 embedding, 它们两个是一回事吗?今天我们就聊聊 token 和 embedding。 在和大语言模型聊天的时候,我们都是直接输入文字的,但是实际上,现在基本所有的 ai 模型却要先通过一个叫做 tokenizer 的 东西把文字转化成 token。 而所谓 token 呢,其实就是一个一个代表字词的编号。 那为什么要进行这一步呢?直接处理文字不好吗?原因很简单,为了提高效率,因为在电脑之中,文字都是一个字母一个字母存储的,比如说 apple 计算机存储的并不是 apple 这个词,而是 a、 p、 p、 l、 e 五个离散的字母。 如果用离散的字母来训练模型,那就先要求模型从 a、 p、 p、 l、 e 这五个字母中识别出它是苹果, 然后再用苹果这个概念进行下一步处理。不是说不行,但在算力有限的情况下,这样做效率太低了。所以说,人们就给大模型做了一个词典, 用数字来代表单词,比如说数字一就代表 apple, 数字二就代表 banana, 三代表 pear, 而一、二、三这些数字就是所谓的 token。 当然了, token 和单词也不是一一严格对应的, 有时候一个单词可能会被拆分成多个 token, 比如说 oldest 这个单词就可能被拆分成一个代表 old 的 token 和一个代表最高级 e、 s、 t 的 token。 这样做的好处是可以帮助大模型认识一些没有见过的词,比如说 goodest 这个词本身是不存在的,但是却可以被拆解成 good 和 e s t, 大 模型也就理解了。这样一来,大模型处理的就不是单独的字母了,而是一二三这些代表某些单词或者单词片段的数字, 于是效率就高多了。而这些把文字转化成一二三四,又把一二三四转化回文字的程序就叫做 tokenizer。 现在比较常见的 tokenizer cool 有 open ai 的 tiktok 和谷歌的 word piece 等等等等。这些 tokenizer 的 内部实现原理都不尽相同,比如说 tiktok 使用的算法叫做 bpe, word piece 使用的算法就叫做 word piece, 但是它们的功能其实都是一样的,就是把字词转化成数字。一个 tokenizer 认识所有的 token 数量,叫做词表大小 vocab size。 tiktok 库中最小的词表,也就是 gpt 二的词表,只认识五万零二百五十七个 token。 因为词表太小,所以多数中文都是一个字对应一个 token, 甚至有些不常见的字要好几个 token 才能表示,很少会像英文那样直接把一个单词映射成一个 token。 这样一来,中文的处理效率自然就变得很低了,这也是 gpt 二对中文支持不好的原因之一。 而对中文支持更好的 gpt 四 o 不 仅模型本身变大了,它的 tiktok 词汇表也增大到了二十万,基本囊括了所有的中文单词,从根本上增加了中文的处理效率。 这里注意一下,转化 token 的 过程属于数据的预处理,这个过程本身并不是大模型的一部分,训练大模型的时候, token neither 本身是固定不变的。 好了,现在我们有了 tokenizer, 就 可以把任何文字转化成数字,并放入大模型进行计算了。 而大模型本身则可以近似的被看成一个超级复杂的连续函数。 token 就是 函数的输入,而函数的输出也就是大模型的回复。对大模型生成回复的完整流程感兴趣的同学可以参考这期视频, 从更加宏观的角度介绍 transformer 和大语言模型是如何工作的连接,我会放到视频简介之中。我们回到主题,这里的关键点是大模型是一个连续的函数,连续这个特性天然就决定了,如果输入的数值离得很近, 那输出的数值通常也会离得很近。还是因为算力有限,所以我们希望在有限的计算资源下,利用这个特点来增加训练的效率。比如说老王爱吃苹果,老王爱吃 apple, 老王爱吃 lingo, 它们都是同一个意思,所以我们期望模型输出的内容应该也是差不多的。老王爱吃,都是相同的文字,所以 token 肯定也是相同的。那么如果说苹果、 apple、 linggo 对 应的 token 本身也很相近的话, 那根据函数的连续性,模型天生就会输出比较相似的内容。如果我们能够利用这个特点,在训练的时候就可以省下不少的算力。 但是 token 本身只是一个数字,也就是一个维度,我们在设计 tokenizer 的 时候,当然可以让苹果、 apple、 linggo 对 应的 token 离得比较近。那香蕉呢? 它和苹果并不是一个东西,但又都是水果,又都是中文,似乎应该离中文的苹果是比较接近的。那香蕉和 apple 呢?它们既不是同一个东西,又不是同一种语言, 似乎应该离得又比较远。但是香蕉离 apple 远了,离苹果也就远了。可以看到,只使用一个数字,我们根本没有办法表达这种既近又远的关系。那么解决方法是什么呢? 既然一个数不行,那我们就多用几个数呗。于是,人们也不管 token 到底是多少了,他们把 token 又做了一次转化,变成了一个多维的向量。 项链中的每个数字都代表了 token 的 某些特征,比如说第一个数代表语言,第二个数代表形状,第三个数代表颜色,第四个数代表类别等等等等。于是,苹果可能就是中文加圆的,加红的、加水果一一一一。 日文因为和中文比较接近,零勾可能就是二一一一。 apple 则是三一一一。而香蕉呢,就是中文加长的,加黄的,加水果,一二二一。 这样一来,我们就可以很容易地表达出香蕉、苹果、 apple 这些既近又远的关系了。而这个把 token 转化成一串数字的过程,就叫做 embedding。 在 g p d 二 x l 模型之中, embedding 后的向量包含了一千六百个数字,而 deep seek r 一 更是高达了七千一百六十八个数字。 至于 jimmy 三和 gpt 五这些顶尖的模型,它们虽然没有公布架构,但猜测它们的 embedding 长度应该已经上万了。维度越高,代表模型看世界的角度也就越细腻。一千六百个维度,就是从一千六百个不同的方面去描述一个词。 enabiding 中数字的多少,通常被称为 d model 或者 n embed。 所以 tokenizer 是 把用户文字转化成数字,也就是 token, 而 embedding 是 把 token 转化成像量。这两个东西的功能虽然看起来是比较相似的,但它们有一个本质上的不同。当人们设计 tokenizer 的 时候, 我们可以写程序统计单词的频率,甚至麻烦一点手工设计也未尝不可。但是 embedding 就 不一样了, embedding 后的向量包含了几千几万个维度,然后还要为每一个 token 合理地分配这些维度对应的数字, 这显然不是一个手工可以完成的任务。没错, embedding 模块是训练出来的, embedding 本身就是大圆模型的一部分,我们以 transformer 模型的基础架构为例, embedding 就是 图中的这一部分。 再说一遍, embedding 本身就是大语言模型的一部分,那么既然 embedding 是 训练出来的, embedding 向量中每个数字代表的意义也就不是人工设计的了。每个数字的含义人类暂时还没有办法解释, 甚至就连是不是一个数字代表一个特征,还是多个数字组合起来代表一个特征,人类也都还没有弄清楚。 训练的时候,模型会自动识别出如何划分特征,并且为每一个 token 自动分配特征对应的数字。我们不知道这些数字背后代表着什么,我们唯一知道的就是这么做效果还不错,我想这也是 ai 的 魅力之一吧。 好了,说的这么玄乎,那么 embedding 到底是如何实现的呢?这里我们假设词汇表的大小 o cap size 是 五万零二百五十七,而 embedding 的 维度呢,是一千六百。那我们就先把每一个 token 都写成一个长度是五千零二百五十七的向量, 向量中几乎所有的数字都是零,只有 token 对 应的那个数字是一。这种编码的方式叫做 onehot 编码, 于是 token 本身就变成了一个向量,而 embedding 的 实线就是一个最最普通的限性变化层 linear, 它的输入是五万零二百五十七位向量,也就是经过 onehot 编码后的 token, 它的输出是一千零六百位向量,也就是 token embedding 后的结果。对腺性层 linear 不 太了解的同学,这里只要知道腺性层是最最普通的神经网络的基本结构就好了,它没有任何的特殊之处, 想要深入了解细节的同学则可以参考我这一期的视频连接,我会放到视频简介之中。虽然在工程上, embedding 的 实现可能并不是简单的腺性层, 比如说还可以通过查表或者稀疏矩阵来实现,不过这些都属于优化的范畴了,它们本质上的数学原理是一样的。 最后一个问题, embedding 之后,原本是一个数字的 token 变成了一千六百个数字的向量模型,自己理解起来是方便了,但是人类却理解不了了, 所以大多数大模型在最后会增加另外一个向量。这其实就相当于 embedding 层的逆操作, 比如说 transformer, 中间这一大坨东西,处理的都是 embedding 本身,最后输出的还是 embedding, 而最后的这个现象层则是把输出的 embedding 转化回人类方便理解的 token。 对 ai 比较了解的朋友听到这里可能就要掀桌子了,老王老王,你说的这些都不对,我学过 raag, raag 里的 embedding 明明是把一整段话转化成一个向量, 不是像你这样一个 token 一个 token 的 转化的。没错,你说的没错, rug 的 embedding 和大语言模型的 embedding 确实是不一样的。 rug embedding 的 作用是把一整段话转化成一个概括大意的向量,而大语言模型 embedding 的 作用是把 token 中内涵的特征打散成一个向量, 但是它们二者之间其实又是有关系的。你还记得 transformer 模型的最后一步做的是什么吗? 通过一个限性层把模型输出的 embedding 转化回方便人类理解的 token, 而这个没有经过转化的模型输出的 embedding, 它基本就是 rug 的 embedding 了, 而刚刚我们介绍的 token embedding 则在模型最下边的位置。但是这里我要特别澄清一句,并不是说我们训练一次模型就能同时得到 token embedding 和 rug embedding。 oken, embedding 是 训练大语言模型的一部分,而想得到 rug embedding 则是要单独训练的,只是它们二者的模型结构大致相同。 当然了,就和大语言模型最后把 embedding 转化为 token 一 样, rug embedding 的 模型最后一般也还会做一些后续的处理,比如说词化什么的。 最后还有一点小区别,和大语言模型不同, rag 的 tension 结构一般不会进行 mask, 也就是所谓的 encode only 架构,或者说 burt 模型。 如果对它们的细节感兴趣的同学,依然还是可以参考这一期视频。当然了,上面其实都是一些小修小补,它们二者最大的不同来自于训练方式的不同。 在训练大语言模型的时候,我们期望的输出是文字接龙游戏中的下一个 token, 所以 在训练的时候,我们提供的是文字接龙的素材。 输入老王训练模型输出爱输入老王爱训练模型输出吃输入老王爱吃训练模型输出苹果。 而在训练 rug embedding 的 时候,我们的目的就不是文字接龙了,而是概括文字的含义,所以训练的素材就变成了一对一对的文本片段。假如我想训练老王爱吃苹果的 embedding, 我 们就应该输入老王爱吃苹果本身 和另外一个和老王爱吃苹果意思相关的句子,比如说小王爱吃香蕉,由于这两个句子都是描述某人爱吃什么的片段,所以我们在训练的时候就应该让模型输出的 embedding 差距足够的小, 在这里,小王爱吃香蕉也被叫做正样本。而假如输入变成了老王爱吃苹果和老李找到了女朋友,考虑到老王既不是老李,老王也不可能找到女朋友, 所以这两段文字可以说是毫无关联,所以我们在训练的时候就应该让模型输出的 embedding 差距足够的大。在这里,老李找到了女朋友也被叫做负样本,而这种训练方式被叫做 contrastive learning 对 比学习。 于是,明明是同一种架构,换了一套训练方式,就得到了完全不一样的功能。 正像我们每个人的底层架构其实都是一样的,但正因为不同的经历,才有了此刻正在屏幕前学习 ai 底层原理的你,也有了躲在屏幕后面看着你们流言鼓励而偷笑的我, 亦或是那个在世界的某个角落,正在为生活而努力的他。这些截然不同的人生轨迹,训练出了世界上独一无二的我们。如果你坚持看到了这里,那大概我们的训练都挺好的。 这里是程序员老王,很高兴在万维的向量空间中与你产生交集,我们下期再见。本期视频的文字版已经上传到了知识星球里面,除了视频的内容之外,我每周还会定期更新原创的 ai 和 python 文章。非常感谢你能看到这里。

欢迎来到 ai 的 底层世界,当你与 chat、 gpt 或 cloud 对 话时,屏幕下方常会闪过一行小字,本次消耗了多少 token? 你 是否好奇过,为什么 ai 不 按字数计费,而要发明 token 这个奇怪的单位?今天,我们将拆解 ai 的 思维,看看它是如何读懂人类语言的。 首先,我们需要打破一个幻觉, ai 并不真的认识文字。在我们眼中,今天天气很好,是一句充满阳光的话语。但在 ai 的 处理器里,它只是一串冰冷的数字序列, 文字只是人类为了理解而披上的外衣。 ai 处理语言的第一步是切碎,这个过程叫 tokenization 模型会将句子拆解成最小的羽翼单位。比如今天天气很好,可能会被切成。今天天气很好,这些被切出来的碎片就是 token, 它是 ai 认知的最小颗粒度。 切碎之后,每个 token 都会领到一张身份证,也就是数字 id。 比如天气对应的可能是五八三一,很好,对应的是九二七。 通过这种映射,感性的文字彻底变成了理性的数字。一句话就这样变成了一串数字 id 系列。但仅仅有编号是不够的, ai 还需要理解词与词之间的关系,于是数字 id 会被进一步转化为向量。想象一个拥有几千个维度的巨大空间,每个词都在其中有一个精确的坐标。 猫和狗的坐标离得很近,因为它们都是宠物,而猫和手机则相距甚远。这就是 ai 理解语义的方式。 有了坐标, ai 就 可以开始思考了。大语言模型的核心逻辑其实非常简单。接龙,当你输入今天很模型会计算所有可能出现的下一个 token 的 概率,好的概率是百分之八十五,冷是百分之十。 ai 会选择概率最高的那一个,接在后面循环往复,直到生成完整的回答。 然而, ai 的 记忆是有极限的,这就是上下文窗口,它就像一个滑动的取景框,只能同时处理一定数量的 token。 一 旦对话太长,最早的信息就会被挤出窗口,导致 ai 出现断片或逻辑混乱。 这也是为什么窗口越大,模型就越昂贵。你可能会发现,中文对话有时比英文更贵,这是因为中英文的拆分效率不同, 英文单词通常对应一到两个 token, 而复杂的汉字或词组往往会被拆得更碎。经验告诉我们,一千个 token 能写七百五十个英文单词,但只能写不到五百个汉字。 为什么要按 token 收费呢?因为每一个 token 的 生成背后都是数以亿次的矩阵运算, token 越多,算力消耗就呈平方级增长。 你付出的每一分钱,本质上都是在为这些庞大的数学计算买单。总结来说,我们看到的是文字, ai 看到的是 token、 数字与概率。 ai 并不真正理解我们的情感,它只是通过极致的计算预测出最合理的下一个词。理解了 token, 你 就理解了 ai 认知的边界。

今天的这期内容呢,给大家出一个 openclaw, 也就是小龙虾的详细安装攻略,以及如何实现 token 自由的教程。是的,你的小龙虾终于可以实现 token 自由了。一个开源的项目解决了这件事,用 openclaw 让人最抓狂的一件事就是你的 token 用完了。哎呀,上班当牛马赚钱,钱拿来了又得充 token, 然后整个工作流又容易卡住。你正在让它处理一个任务呢,处理到一半提示,哎呀,超出限制了,又得重来。今天的这个工具呢,能彻底解决这件事,叫 clepsy api, github 上它已经斩获了两万多个 star。 它能做什么呢?你订阅了哪个模型的会员,它就能帮你把那个会员的使用权限直接转成 api 给 openclaw 使用。 你不再需要单独买 api key 了,不需要按 token 来计费。多个账号呢,可以同时挂上去一个,到了限额自动切下一个,而且还可以手动调换。我的 openclaw 现在可以直接接入 gpt。 五点四 kimi two 千问三 tips, 想用哪个,用哪个 工具的安装和配置流程呢?我整理成了三张图给大家放到最后啊,第一张图是环境要求和安装,第二张图呢,是授权和 key 的 配置。第三张图呢,是 openclaw 的 json 配置文件。对着图一步一步来,小笨蛋也会好。配置完之后呢, openclaw 能做什么?很多人以为它只是能实现你的一些远程操作,它能替你掌管你的电脑,或者说给你写一点代码。 实际上啊,它能接管的东西非常非常多,它能把会议记录整理成行动。它能把会议记录直接整理成行动清单,把客户邮件处理成标准化的跟进模板,把一份长稿输出成适配不同平台的多个版本。 通过 m c p 的 协议,它还能直连飞书、 github、 slack 这些工具。现在还可以直连微信了,它不只是给你一个建议,它是能直接帮你操作你的电脑, token 呢,也不再是平静之后,你才会真正开始让它替你跑通自己的流程。 完整的配置文件我已经整理好,连同常见的踩坑记录也一起打包了。评论区留言小龙虾给大家分享一下。

最近很多人都在说 ai 开销太大了,头坑太贵了,真的吗?我们换个角度聊一下呢?我最近花了大概五百美金的头坑,开发了一套文档写作系统。你可能会说,写文档随便哪个 ai 一 句话的事情,你花五百美金,你傻吗? 但是我这套系统不是帮你写个文档那么简单,它可以多端同步管理我的所有文件,接入了我的自建知识库,有一套完整的多账号体系,而且支持多人协助头脑风暴,还有我自定义的多种工作模式, 一键切换就能产出完全不同的方案内容。你告诉我,市面上哪家 ai 能做到这种程度的定制化,还能随时按照我的想法迭代更新?没有, 因为这不是一个通用产品,这是一个完全按照我的工作流量身打造的系统,开发周期有多长?一周 甚至很多功能细节是我拿着手机在聊天框里完成迭代的。五百美金,大概三千多块钱人民币,这笔钱你能在市场上干点什么呢?你能请到两位技术大佬,一位前端,一位后端,帮你从零开始开发部署到云端,还是说能够保证七乘以二十四小时的运行呢? 比如说三千块、三万块钱,你都不一定搞得定这个事情。所以你看,五百美金的头壳,买到的不是五百美金的文字输出,买到的是一个完整的可持续运行、可以迭代的生产线系统。这笔账怎么算都不亏。 那什么才叫贵呢?如果啊,我,我是说如果你的龙虾背后挂载的是 cloud 四点六 opus, 然后你用他问今天天气怎么样,打开网易云音乐,放首歌,或者搜搜附近有什么好吃的,那才是真的贵。头啃从来不贵,用错地方才叫贵。

刚装上 openclaw, 建议先做这几步,让你的龙虾更听话,还能省下一大笔 token。 先切到飞书官方插件,让小龙虾能干更多活,直接丢链接给他,自己就能装好。接着开启三个设置, 流逝回复、耗时、状态展示,不用等它全输出完才知道结果。就跟平时我们跟 ai 聊天一样,能实时看着它干活。再打开两个隐藏功能, 思考过程和工具调用,万一他跑偏了,能看清他怎么想的,才知道怎么纠正。最实用的是这四条快捷指令,属于内置的不消耗 token stop, 小 龙虾卡死时强制停止,不然 token 一 直在烧 status。 看看上下纹多长了,判断要不要压缩,并且搭配 compact 主动压缩对话记录, 整托肯又不丢关键信息,牛!开启全新对话,不受之前内容干扰。如果觉得有帮助,可以分享给身边也在刚养虾的朋友。

你以为 ai 中的 token 长这样或者长这样,其实它们长这样?全网爆火的 token 到底是个啥?网上杂乱的信息让人头大, 但如果你打开豆包,将这问题直接丢给他,他解锁后会用简洁的回答告诉你, token 本质上就是数字系统中最小的、可被统一识别、可被计算的标准化单元。同时还细心的将 ai 中的 token 和区块链账号登录中的 token 进行了区分。 这时你才明白,原来计算机世界中信息的处理都是离散的。而 token 本质上就是一个可用于计算的最小单元,当你在输入框中敲几个汉字,将它们送入模型时,就会被一个叫做分词器的东西拆分成 token 这样的最小单元。 然而新的疑问又随之出现,这个可用于计算的最小单元本身到底是以何种形式存在的?它是一串数字 id 还是一段项链?如果是数字的话,又是如何参与计算的呢? 带着巨大的疑问,你再次向豆包追问,得到的答案就是, token 在 不同的阶段是以不同的形式存在的, 你输入的文字刚被分词器处理完时,它们就是一串确定的数字,和词典的词一一对应。但是当这些 token 输入模型时,其存在形式变成了这样一串福典数组向量,而 ai 内部所有的计算都是以这样的向量形式进行的。 然而你灵机一动,现在的 ai 不 仅可以处理文字,还能识别语音或者图像等多模态数据。比如你现在可以随便拍一张图片发给豆包, 它就能很精准的识别图片中的内容。那么像这种多模态的信息,其 token 也是以向量形式存在的吗? 图片所生成的 token 和文本所形成的 token 又有啥不同呢?从豆包的回答结果可以了解到,原来不同模态数据所生成的 token 在 形式上同样是一串相同维度的项链,但是其生成方式以及项链的属性却存在很多不同。 比如文本 token 是 由固定大小的词表映射而来,映射出的 token 固定且高度离散,而图像 token 却没有固定值,而且在语义上是连续的。最后,如果要用一句话总结 token 的 本质到底是个啥,那就是一个被映射成同维度点数向量的最小建模单元。

hello, 大家好,从今天开始,我会用最直白最接地气的话,带大家从零搞懂人工智能、 ai 工具,还有那些听不懂的 ai 黑话。很多人刚接触 ai, 不 管是用叉、 gpt、 豆包,还是 ai 绘画、 ai 写作,都会看到一个词, token。 很多人第一反应就是,这是不是虚拟货币,跟我用 ai 有 啥关系? 为什么 ai 收费都按 token 算?今天这一期就是咱们 ai 入门的第一课,把 token 彻底讲明白。首先先说清楚, ai 里的 token 和加密货币完全没关系,完全是两码事。 token 简单说就是 ai 能看懂的最小语言单位。我们眼里是字、是 词、是句子,在 ai 眼里都会被拆成一个。一个 token, 英文大概一个单词是一个 token, 中文大概一两个字就是一个 token, 标点符号也算你给 ai 发一句话, ai 先把它切成 token, 再理解你的意思,然后再用 token 拼出回答给 你。可以理解成 token 就是 ai 和人交流的文字货币。你发消息要发 token, ai 回你也要发 token, 知道这个对我们普通人有什么用。 第一,很多免费 ai 有 限制,本质就是限制你每天能用多少 token。 第二,付费 ai 都是按 token 计费,懂 token 就 能省着用,少花钱。第三, token 有 上限,问太长 ai 会答不完,会截断,懂 token 比提问才更高效。第 四,这是学 ai 最基础的概念,后面讲提示词、大模型、 ai 原理全都绕不开它。很多人觉得 ai 很 高深,其实就是被这些基础概念卡住了, 把 token 搞懂,你就已经跨过小来门槛了。之后我会持续更新,从 ai 基础知识到工具实操,再到提示词技巧,全程零基础, 不讲废话,只讲能用的上的干货。如果你听懂了,觉得有用,点赞关注一下,下期我教你怎么算 token, 怎么写提示词更省 token, 让 ai 更听话!有什么想问的打在评论区,以后我会详细跟大家一一讲解,下期再见!

说这个 open curl 烧 tokyo 的 问题,咱们找到了非常具有性价比的方案,结果视频发出去之后,好多人在评论区里说这个方案很贵, 有两个说我还没有在意啊,结果说的人有好多,我就认真的看了一下啊,结果发现问题在哪呢?我们工作人员把这个单位啊设置成了倒了符号,其实它只是一个计量单位啊,并不是倒了。所以说 这么多优质的大模型,在你预期价位的基础上,你觉得还差不多的情况下,我还能再除以七,这就叫性价比。

给 ai 发连续重复的文字,比如哈哈哈,六六六这种 token 会变少吗?其实从严格意义上来说, token 不 会变少的。比如说你发八个六和发二十个六,对大模型来说,它的理解的意义不一样的,它可能需要把十个六分成六六六,和另外的七个六六六 其实是不一样的,包括哈哈哈,也是因为他不知道你到底是几个哈,想要表示什么意思。如果说他托克会变少的话,我给他发十个,哈哈,我问他是几个,哈哈,他是不是就识别不出来了呢?所以说这个地方是不会变少的。 我把 ai 本地部署后还会消耗 tok 吗?本地部署以后其实还会消耗 tok 的, 因为刚刚我讲过, tok 只是个低廉单位。那为什么说本地部署以后不费钱呢?是因为你本地部署以后算力是由你自己的电脑提供的,那它不需要去买 tok。 但是 tok 的 使用和消耗是实打实存在的,只 不过这个 token 不 花钱。大小写不同的。同一个单词算同一个 token 吗?这两个其实不会算做同一个 token 的, 因为有些单词,尤其是英文单词,它大小写会有一些不一样的意思。理解大模型需要正确的理解你词语的含义,需要分大小写、 缩写和完整的拼写, token 会一样多吗?这个地方要看大模型的厂商它们的词表或者词库 有没有收录这个单词。比如说可能我们常见的 ai, g、 d、 p、 u、 r、 l 这些单词是大模型已经收录过的,那其实缩写和完整拼写它 们消耗的托管是一样多的,有些单词的缩写是 ai 没有收录的,或者说还没有来得及收录的,比如什么 y y d s, 比如说 divx d s, 那 其实它的托管和完整的拼写来说是不一样的。 ai 到底是怎么分词的呀? 其实它就是通过词表词库来进行分词,它其实涉及到了 n l、 p 自然语言处理,它是会把一个句子拆分成多个词, 或者叫多个托肯,然后为给大模型进行理解。这样的好处在于大模型不会因为一个字的变化或者一个字的错误去理 片意思。比如说我问他今天天气很好,他其实会拆成今天一个天气,一个很好,那其实就非常方便理解了。但是如果说他一个字一个字区分的话,今天天气很好, 在这种情况下他理解会出现偏差,并且消耗的算力会更多。所以说大模型在输入输出之前都会进行一轮分词。

你有没有想过,你每次跟 ai 说一句话,背后其实是中国西北的风和太阳在给你打工?今天这期视频,一口气把 token 这件事跟你讲清楚。先说最核心的问题, token 到底是什么?今年两会,官方给他定义了中文名叫磁源。 用一句话解释, token 就是 ai 处理信息的最小单位,就像用电按度计量,用 ai 就 按 token 计量。打个比方,你去菜市场买菜,摊主不会把整筐菜一起称重卖给你,而是一颗一颗分开卖。 ai 处理语言也是一样的逻辑,他不会直接读懂你说的一整句话,而是先把它拆碎,拆成一个个最小的雨衣颗粒,每一个颗粒就是一个抽肯。 举个具体的例子,你让 ai 帮你写一封请假条,他会先把你的指令拆解成写请假条今天这样的小单位,然后调动背后的算力、解锁、匹配相关知识, 最后把这些零散的 token 重新拼成一封完整的请假条发回你的屏幕。整个过程,从拆解到输出,每一步都在消耗 token。 就 像打电话按分钟收费用, ai 就是 按 token 收费。那 token 消耗的是什么?答案是算力,而算力消耗的是电力。 你在屏幕前敲下那句话的同时,宁夏、内蒙古的数据中心里,成千上万颗 gpu 开始高速运转,完成 token 的 拆解、解锁、匹配和重组,几秒内把结果送回你的手机。 这些 gpu 是 典型的高耗能设备,满负荷跑起来,一刻都不停的在烧电。所以说 token 本质上就是电力的数字化形态, 你每调用一次 ai, 就是 在消耗一点点电力,只不过这个电烧在了数据中心里,而不是你家的插座上。 搞懂了这个,再来说说为什么 token 是 中国真正意义上的电力出口。中国是全球第一发电大国,一年发电量超过九万亿度, 风电、光伏装剂量连续多年全球第一。但问题是,电太多了,用不完,只能眼睁睁看着绿电白白浪费,也就是常说的弃风弃光。那为什么不卖到国外?因为电没法装船运输,就像手里攥着全球最大的金矿,金子太重,搬不出去,只能堆在院子里。但 token 不 一样, token 走的是光线。 当一个美国程序员调用中国 ai 的 接口,数据中心 gpu 开始轰鸣,烧的是中国西北不到两毛钱一度的绿电, 结果一秒送回他的屏幕。全程没有集装箱,没有货轮,没有关税,中国电力的价值就这样通过 token 完成了跨境交付。而这件事,正在以肉眼可见的速度发生。 根据 openroute 平台数据,今年二月,中国模型的 token 调用量首次超过美国,占该平台前十名的百分之五十一以上。更关键的是,这个平台将近一半的用户都来自美国。为什么? 因为中国西北的绿电成本极低,直接拉低了模型定价,同等性能下,比硅谷的便宜十倍以上。据摩根大通预测, 从二零二五年到二零三零年,中国 tucker 消耗量将实现三百七十倍的增长。过去我们靠汗水换外汇,出口的是衣服、家电、电动车,现在我们开始出口。算力本身, ai 的 尽头拼算力,算力的底层,拼的终究是电力。

如果我现在问你, ai 和大模型的区别是什么? token 是 怎么拆分的? skill、 m c, p、 prompt, 这三者的区别又是什么?你能答得上来吗? 大家好,我是布鲁,近期跟不少小伙伴交流的时候,发现大家对于 ai 的 很多概念还是比较模糊,所以今天起我决定开一个 ai 扫盲系列,把那些晦涩难懂的技术词拆解成大白话,帮大家有点道面的履行 ai 相关的底层原理。 我相信无论你是小白,还是资深的 ai 玩家,看完这个系列的视频后,未来在关于 ai 的 探讨中,你都能做到言之有物,直击核心。 那本期也就是第一期视频的内容,我将分为以下四个部分,第一部分, ai、 agilm。 这些概念到底怎么区分?第二部分,大模型的原理是什么?它是怎么理解人类语言的?第三部分,拓根的概念为什么都在说拓根贵?第四部分,大模型参数决定了什么? 那我们话不多说,直接开始。首先,什么是 ai? ai 的 全称叫 artificial intelligence, 也就是人工智能,原本是计算机科学的一个分支,目的是为了创造能够做人做的事情,比如说推理、学习、感知等。 但是放到二零二六年的今天, ai 则泛指人工智能相关的领域。接着是 ml 机器学习,全称 machine learning, 是 ai 的 一个子集,可以理解为用数据不断地去训练出一个模型,让机器去学习这些数据中的规律。 然后是 dl 深度学习,全称 deep learning, 它呢又是机器学习的一个子集,利用多层神经网络进行处理,可以理解为参考了人类的大脑,但是本质上还是数学的运算。 最后是我们熟知的 l m 大 模型,其实应该叫大语言模型,全称 large language models, 它是深入学习在参数、规模和数据量上极端的眼镜产物。打个比方, ai 人工智能可以理解为建筑学,主要是研究如何造房子供人类使用。 ml 机器学习可以理解为现代工程建筑不再靠人工一块一块的垒砖,而是开始使用立学公式和标准模块来进行设计。 d l 深入学习可以理解为现在的钢筋混凝土结构,一种特定的承受能力极强的建筑技术,没有它就造不出真正的超高层。大模型则可以理解为迪拜塔利用钢筋混凝土技术,通过投入极大的资源和参数,建成了高度密集、功能复杂的标志性单体建筑。 所以说,迪拜塔哪怕再雄伟,也不能代表整个建筑学。如果说我们把这四个领域看做层层嵌套的圆圈的话,那 nlp 就是 横穿这些圆圈的长方形。 nlp 全称 natural language processing。 自然语言处理是人工智能和语言学领域的分支学科,它是研究如何让计算机读懂人类语言,也就是将人的自然语言转换为计算机可以阅读的指令。 那讲完了 ai, 我 们再来看两个和 ai 相关的近两年最火的概念, ai gc 和 agi。 ai gc 简单来说就是 ai 生成内容包括但不限于文本生成、图像生成、音频生成、视频生成等,又叫生成式 ai。 目前我们仍然停留在这个阶段。没错,哪怕是在二零二六年的今天,各大模型厂商卷参数各种 agc 满天飞的当下,我们还处在 ai gc, 只不过 ai 的 质量越来越高了。 另一个就是硅谷大佬们天天提起的 agi 通用人工智能,拥有广泛的智能和通用学习能力,能够像人类一样思考、学习,甚至能够在任何领域超越人类,听起来有点科幻。 大模型在二二年底由 open ai 迎来了爆发,而它底层的 transformer 架构却是在二零一七年谷歌的一篇名叫 attention as all you need 的 论文中提出来的。关于这个架构,我这边不做展开,除非你需要做大模型开发,不然你根本用不到它。 那大模型的原理是什么?本质上来说,大模型是一个庞大的数学函数,他不理解你说的话,他只是在做一件事,根据你给的前文,预测下一个最可能出现的词,不断的循环,直到给出所有答案。 比如你向大模型提问奔驰人生三这部电影怎么样?这时候他预测的下一个词,概率最高的就是把非常加进去,再预测下一个词的,把的加进去,再预测下一个词,把刺激再加进去,直到出现结束,符号,一句话就生成完了。这个机制叫自回归。 所以你现在用的 g, p, t, gemini、 deepsea, 本质上全是在做同一件事,反复地预测下一个词。它们的区别只在于训练数据、模型规模和背后厂商的调教方式不同。这是 l a m 最重要的一个认知,它不是在思考,而是在计算概率。 既然大模型本质上是一个数学函数,那这里就产生了一个矛盾,数学函数只认识数字,它并不认识非持人生这些汉字。 那么它是如何把我们说的话变成数字进行计算,又是如何把计算结果变回文字的呢?这里就涉及到了大模型处理信息的基本单位, token。 很多人以为 token 就是 字或者词,这是错的。 token 是 模型处理文字的最小单位,它是按照频率压缩出来的语音片段,不等于一个字,也不等于一个词。 那它具体怎么拆呢?模型有一个叫 token 的 翻译机制,它会把文字切成若干个 token 的 工作原理是什么? 你可以简单理解为 tokenizer, 也是一个模型,专门被训练成使用相似度来做分词的。中文的规律,大概约一点五到两个汉字等于一个 token, 英文大约四个字母等于一个 token。 人工智能这四个字可能只是两个 token。 那你为什么要了解 tok 呢?两个原因,第一, tok 决定了 ai 能记住多少内容。每个模型都有一个上下文窗口,本质就是 tok 的 上限。你和 ai 聊着聊着,他突然失忆了,忘了前面说了什么。这不是 bug, 是 上下文窗口满了,最早的内容被强制删掉了。 第二,无论是走量的 api, 还是现在很火的 cookie plan 套餐,本质上都是按 token 来计算的,输入多少 token 加输出多少 token, 这就是你的账单。当你发一段很长的背景资料给模型, token 的 消耗往往会高于你的预期。 既然模型是按概率预测下一个词,那么当有多个词的概率差不多时,他该听谁的呢? 这时候就需要用到 temperature 和 topp 这两个控制模型性格的参数,如果你用的是 api 或者高级的设置就会遇到。 先说 temperature 温度值,它控制的是模型的创造力,数学上它是一个分母。温度值越低,不同词之间的概率差距就会被放大,模型就会变得保守,每次生成的结果基本就一样。温度值越高,差距被压缩,低概率的词也有机会被选中,模型就会变得多样,但也更容易乱说。 简单来说,调低温度让 ai 更稳,调高温度让 ai 更有创意。在桌拖屁,他是温度值的搭档,专门负责过滤。他从概率最高的词开始往下累加,累加到设定的比例就关门,把剩下的低概率的词全部排除掉,然后在留下的词里面进行采样。 使用的建议其实就两句话,写代码算数学用 d temperature 和 d 的 top p, 要的就是稳定准确的唯一答案。写故事,做头脑风暴。调高这两个参数,要的就是创意性和随机性。 ok, 以上就是本期的所有内容,今天我们讲了 ai 的 基础知识,大模型的工作原理,拓展的概念以及大模型的相关参数。目前这个扫盲系列我打算出七到八期帮大家来讲透 ai, 如果觉得对你有帮助的话,希望能给个关注加三连,那我们就下一期视频再见!

大模型都不会装,为什么不跟 d t 学,难道是怕 d t 坑你吗?首先让我们打开网站 l m studio, 点 ai, 找到 download for windows 按钮,点击下载下载安装后打开 l m s t u d i o 软件,可以看到它是这样的一个界面, 我们找到左侧第四个按钮, model search, 点击打开模型列表,最上面的推荐模型是可以在我们显卡上运行的模型,这个右侧显示绿色的提示就是告诉我们这个模型可以在我们的机器上运行,灰色则是需要卸载,可能会有些慢, 我们找一个我们可以运行的模型进行点击下载,等待下载完成。 在右上角有一个下载图标,点击以后可以查看下载进度,这里面包含模型和需要用到的依赖软件。下载完成后,我们点击左侧的第三个图标 my models, 可以 看到我们已经下载好的模型。 我们对模型进行一些简单的微调,不配置用默认参数也是可以的。 这个上下文长度如果显卡允许,尽量设置为二零零零零,这样方便下龙虾的上下文,防止超长导致内容中断。 点击软件左侧的第二个按钮, developer, 打开软件 open ip 接口配置界面,点蓝色 load model 按钮,选择我们刚才下载的模型,它会自动载入, 载入完成后,点击 server settings 按钮, server port 设置为一二三四,其他按照我们的设置勾选即可。点击 top 的 右侧的按钮,启动 api 服务, 点击 info 按钮,查看模型基本信息,可以看到模型的 api 端点地址和模型的 id, 方便我们用来进行 open ip 接口的配置。加油哦家人们!