粉丝8获赞13

大模型都不会装,为什么不跟 d t 学,难道是怕 d t 坑你吗?首先让我们打开网站 l m studio, 点 ai, 找到 download for windows 按钮,点击下载下载安装后打开 l m s t u d i o 软件,可以看到它是这样的一个界面, 我们找到左侧第四个按钮, model search, 点击打开模型列表,最上面的推荐模型是可以在我们显卡上运行的模型,这个右侧显示绿色的提示就是告诉我们这个模型可以在我们的机器上运行,灰色则是需要卸载,可能会有些慢, 我们找一个我们可以运行的模型进行点击下载,等待下载完成。 在右上角有一个下载图标,点击以后可以查看下载进度,这里面包含模型和需要用到的依赖软件。下载完成后,我们点击左侧的第三个图标 my models, 可以 看到我们已经下载好的模型。 我们对模型进行一些简单的微调,不配置用默认参数也是可以的。 这个上下文长度如果显卡允许,尽量设置为二零零零零,这样方便下龙虾的上下文,防止超长导致内容中断。 点击软件左侧的第二个按钮, developer, 打开软件 open ip 接口配置界面,点蓝色 load model 按钮,选择我们刚才下载的模型,它会自动载入, 载入完成后,点击 server settings 按钮, server port 设置为一二三四,其他按照我们的设置勾选即可。点击 top 的 右侧的按钮,启动 api 服务, 点击 info 按钮,查看模型基本信息,可以看到模型的 api 端点地址和模型的 id, 方便我们用来进行 open ip 接口的配置。加油哦家人们!

哈喽,大家好,我是 paper, 那 今天我们来说一下我们最常用的 token 本地模型和外部的模型该怎么样去使用?就是 token, token 是 什么呢?一方面它是有这个最小计算机处理文本单元, 另一方面它也是其他的,还有很多身份认证啊,指令串密密实都百度的话,你要使用在我们的 ai 大 模型中,你就记录这个最小文本处理单元就可以了。我们再来看这个本地模型去哪里找啊?一般的话,像这个最常见的开源社区 hackin face, 我们在这里面去找本地模型,我们登录进来,然后找到这个 browser two m 加 models, 或者说你直接在搜索栏中搜索对应的名称,像这个主页,它这个首页里已经有这些,比如说像这个 minimax 的 二点一,千万的三点三,还有一些各种各样的 模型, open i 的 gptos 啊,你可以或者说这个 kimi 二点五等等,你可以点击这里去我们要找的像一些文本到图片的模型, 就是 ai 绘画模型,还有像这个文本到视频的模型啊, text to video, 还有像这个文本到文本,也就是我们的语言模型,就像豆包,千文,这些都是语言模型,我们只要去搜一下这个 text generation 文本生成,我们就可以在这里看到有千文,三点五啊,还有各种各样的 emoji 三啊,各种各样的 mini max 等等啊,只要是你所熟悉大厂,那基本他发了都在这里面啊。你看这个 b 嘛, 这个币数越大,比如十七币,八十币,三十二币,一百九,十九币,甚至这个二十八币,或者说这个四币的,这肯定效果没有那么好,是吧?那因为达到六十七币,一二一百二十四币都很大, 这东西像这个 mini max, 二点五,二点二十九币啊,二百二十九币,这个更大,这个你要是下下来,你会发现 你可能你的电脑用不了啊,就是这么简单哈。 ok, 我 们再看这个像一些其他的开放的 a p i 怎么去使用?那这里我以这个 g m 举例啊,我们直接去找到 a p i k, 点一下就进入到这个页面了, 这个页面就是你的 a p i 密匙了,我们在这个项目管理 a p i key 中找到它,像这个已经有的 a p i, 你 用到别的地方可以去,这样子你也可以直接删除,我们再可以添加个新的 a p i, 比如说你这个 a p i, 你 要去用到自己的 call 啊,那么龙虾上我们就点击 call, 然后把它复制过来,然后粘到这个 call 里,你就给它充钱就可以了哈。 你还想还想要再用一个 a p i 去做别的项目,那比如说我这个叫这个 agent agent, 那 这个 a p i 呢?我们给它复制过来,去放到别别的调用的端口里给它充钱就可以了哈。 像这个 open a d b c 的 a p i 啊,页面也差不多哈,你可以在这里点击 create new c c 啊,你也可以在这里点一样的啊,这里 name 我 写 call 啊。这个 project 你 可以放到你的默认 project 里,不过一般只有一个啊,点击 quit 就 可以了哈, 配置完之后呢,一样的,你就给自己的套餐充钱就可以了。那这个 api 呢?它不同于你的和你的传统的大模型,你直接问它那种网页对答模型不一样的啊,因为 api 呢?它 是啊, api 它是实时计费的,就说你要是用的话,你可以用到很多层面上不同,不停去调用这个模型。而你的网页因为问答呢,只要你这个模型啊,只要你这个网页关了,你就用不了了,是吧?你要是想用它,你是不是得二十四小时数在电脑前啊?你在电脑前你才能用它,但 api 不 一样,你可以做成全自动化的东西, 这样子呢,它的费用就会很高了。所以说 a p i 是 单独收费的啊。 ok, 那 今天呢,学完这课,咱们这个玩龙虾啊,或者说玩什么都会更轻松一些哈。咱们就先到这里啊, ai 啊,一定要去关注这些啊,最基础的东西,如果说这些基础东西你都不知道,那你去你就很难玩得转这些东西哈。

打开 openclaw, 满屏的 promotes, token, skills 完全看不懂啊!接下来我们就来搞懂这三个常见的词。第一个呢, promote 就是 你对 ai 说的那句话,你可以想象成是在餐厅点餐,你说随便来点吃的,那上什么都全都凭着运气。 你要说呢,来一份微甜的西红柿炒鸡蛋,那出来的呢,就是你想要的那个菜。 promote 写的越清楚呢, ai 给你的结果就越准确。第二个呢,就是 token, 也就是 ai 的 计费单位,类似于是手机流量, 你发的内容越长,消耗的就会越多。所以写 promote 的 时候呢,要说重点,别说废话,省的 to token 呢,效果还会更好。第三个是 skills, 翻译过来呢,就叫技能包, open klo 里边它支持安装很多个 skills, 可以 是写文案的,做翻译的,做数据分析的, 直接选择你需要的来安装就可以了。它就像是手机里边的 app, 已经内置好了各种各样的流程,装上之后就能用。要记住这三个词,再上手 open klo 就 不慌啦,我是开心关注我,每天进步一点点。

为什么大模型不直接读懂汉字?为什么大模型不直接处理单词?为什么说大语言模型处理的是 token? 今天我们来聊一聊 token。 在 大模型眼里并没有文字这个概念,不管是我们输入的聊天内容,还是它的回答, 中间都必须经过一个关键步骤, tokenizer 分 词器,简单来说,它的作用就是把文字转化成 token。 数字编号为什么要这么麻烦?因为电脑只认识零和一。如果直接用字母训练模型,不仅要处理更多的数据, 还要先学会把这五个字母拼成苹果。这个概念效率太低了,所以聪明的人类发明了词典,例如 一代表 apple, 二代表 banana, 三代表 peach, 这些数字就是 token。 token 仅仅是单词的对应吗? token 和单词并不是严格的一对一,为了让模型认识没见过的词, tokenizer 还会像拼积木一样拆分单词。比如 highest 可能会被拆成 high 加 est 最高级。哪怕是自己创造的词 goodest, 模型也能通过拆解理解它的意思。常见的 tokenizer 有 哪些?如果我们询问大模型今天的天气怎么样?每家大模型的拆分方式都不一样,千问系列用的是 q 问。 tokenizer 库,它将这句话拆分为今天的 加。 tiktok 库,它将这句话拆分为今天加的 加天气、加怎么样加问号五个部分。不同的算法会得到不同的拆分效果,虽然算法不同,核心功能都是文字到数字。为什么以前大模型写中文慢?这就要看词表大小了。 gpt 三的词表很小, 很多,省略汉字,一个字就要拆成好几个 to, 处理起来很慢。而最新的 gpt 五词表扩充到了近十五万, 囊括了绝大多数中文词汇,所以现在他处理中文的速度快了很多。 tokenizer 就 像是把人类语言翻译成机器语言的 欲处理,翻译官将文字变成数字。接下来大模型就要把这些数字扔进那个超级复杂的神经网络里计算了。科技不玄学,算力有尺度,关注我们看懂数字背后的硬核世界。

怎样写提示词最省 token? 核心不是把话写的越短越好,而是用更少的字让模型少读、少猜、少反攻。接下来我会讲清三件事, token 到底耗在哪,哪些写法最浪费,以及怎么在不影响效果的前提下把提示词压缩下来。先说清楚, token 不是 字数本身,而是模型切分文本后的最小计费单位。 中文里一个字常常接近一个 token, 但标点、英文数字重复格式也会占你写的越长。模型读入越多,模型回的越长,成本和延迟也一起涨。最浪费 token 的 第一种写法是把需求说成一大段背景故事, 比如你只是想提炼三个卖点,却先铺垫公司历史、行业趋势、老板要求个人感受,对模型来说,和任务无关的信息越多,越占上下文,还会稀释真正的指令。 第二种浪费是重复表达同一件事,比如同时写简洁一点,不要太长,控制篇幅,尽量精练,别啰嗦人看着像强调模型,看到的是多次重复,更省透。肯的做法是直接量化,比如输出三点,每点二十字内。 第三种浪费是格式要求写的过细,像先写标题,再空一行,再写导语,再写分点,分点前加圆点。最后再总结一句, 如果格式不是刚需,就只保留关键约束,因为模型最擅长补其常见格式,你只要说清结果,不必把排版过程全写出来。 真正审 token 的 方法可以继承四步,第一,先写任务动作,比如总结、改写、翻译、提取、分类。第二,补充必要对象,比如把这段产品介绍总结成三个卖点。 第三,给关键约束,比如面向小白,口语化,每点十五字内。 第四,能用势利就少讲抽象规则,因为一个短势利常常比五句解释更省。 还有一个常被忽略的点是,不要每轮都重写。固定要求,如果你一直在做同一种任务,向默认用中文。面向短视频口播,风格简洁,最好在第一轮说清后面直补变化部分, 否则你每次都在为同一段提示词重复付费。举个对比,低效写法是,我现在要做一个面向普通用户的视频文案,希望你用通俗易懂、简单清晰、不复杂的方式帮我总结下面内容,尽量控制篇幅不要太长。 高效写法可以直接变成把下面内容改成口播稿。面向小白,一百五十字内保留三个重点 意思,没少 token 往往更省。所以怎样写提示词最省? token 关键就一句话,删背景去重复,少过程多约束。能量化就量化。 提示词不是作文,而是指令你给模型的信息,越准、越短、越直接,成本更低,结果通常也更稳。

听人说 token, token, 可真要问一句, token 到底是个啥?很多人当场就蒙了。今天我就用最通俗的方式,一次性把它给你讲明白。你可以把 ai 想象成一个只会算数学题,完全不认汉字的超级学霸,你给他发一句你好, 他根本看不懂。那怎么办呢?就得有个翻译官,把我们的话翻译成他能听懂的语言,这个翻译官就叫分词器。 他做的事情很简单,把你说的话切成一小段一小段,这每一小段就是 token, 比如人工智能这四个字,翻译官一看这词经常出现,就直接打包成一个 token, 如果是很生僻的字,就拆成单个字来算,切完之后,再给每一小段编上一个数字编号, ai 看到的不是文字,全是数字,它算完一堆数字再扔给翻译官,翻译官再把数字还原成文字,就是你看到的 ai 回答。很多人会问,那 token 跟字数怎么算?大规律是这样的, 中文里一个 token 差不多等于一个半到两个汉字,英文里大概四个字母算一个 token。 知道这个有啥用呢?用处可大了。第一, ai 收费就是按 token 算的,你输入多少,它输出多少都要算钱。第二, ai 的 记性也是用 token 衡量的,一次最多能记住多少, token 就是 它的上下文窗口装不下了,前面的内容它就会忘掉。第三,切的越合理, ai 跑的越快,越省钱。所以说白了, token 就是 ai 世界里最小的语言单位,是他吃饭、干活、算账的基本单位。搞懂 token, 你 才算真的会用 ai。

不用查,不用搜,每天都有孩子听得懂的新闻,关注我,育儿更省心!认识数字世界的小凭证 token 小 朋友们,你们有没有和 ai 聊天机器人聊过天呀?问他怎么画一只可爱的小猫,他马上就能给出答案。 问他彩虹为什么有七种颜色,他也能娓娓道来。那 ai 到底是怎么听懂我们的话,又怎么想出答案的呢?这里面就藏着一个超有趣的小秘密,磁源 token 最近,全国科学技术名词审定委员会给 ai 领域的 token 定了官方中文名,就叫磁源。他就像我们搭积木时用的小积木块, ai 处理我们的化石, 会把长长的句子拆成一个个小小的词源,再根据这些小积木的意思来理解回应。比如我们说我想折一只纸飞机, ai 就 会把这句话拆成我想折一只纸飞机这些词源, 然后根据每个词源的意思告诉我们折飞机的步骤。词源是 ai 理解语言的基础单位,就像我们学汉字要从一个一个的字开始, ai 学语言也得从词源开始。不同的语言词源也不一样哦, 中文的词源多是词语或字,英文的词源可能是单词,也可能是字母组合。而且词源还有个小特点,相同的词在不同句子里可能会变成不同的词源。 比如苹果,在我吃苹果里是一个词源,在苹果手机里也是一个词源,但 ai 会根据周围的词源判断它的意思。有了词源, ai 就 能精准理解我们的需求啦。 小朋友们在和 ai 学习工具互动时,词源会帮他准确捕捉我们的学习问题,给我们讲有趣的知识。和 ai 绘画机器人聊天时,词源会把我们说的可爱的小猫,彩色的云朵拆解开,画出我们想要的画面。 如果让你用 ai 画一幅画,你会说出哪些词语,让词源帮 ai 画出你心中最棒的画面呢?点赞收藏不丢失!关注我,陪孩子一起看懂这个世界!

免费的头肯随便用,没有任何限制。最近使用了 oppo cola, 头肯是太费了,随便一用一下就用完了。 自己的这个 ai 开发软件,缺氧是免费,可以用各种模型,我就想这里能不能想点办法。然后借鉴了 oppo cola 的 思路,写了一个飞速机器人, 用手记上这个飞书啊,控制这个电脑上的翠。我现在给飞书机器人发一个消息啊,发一段指令。如何计算润年这个 new 呢?表示开启一个新的绘画啊,这里已经有四个绘画了,现在我们来发送, 你看啊。好,来了,产生了第五个新的绘画,现在他正在执行。 咨询完了以后呢,他会给我手机发送一个回复,是不是像 open core 一 样?差不多了, 接下来准备用 open core 去接入这个机器人,这样子有一些重型的写代码的工作就交给这个确认来做好了。这个确认呢,写本地的文件, 稍等片刻,瑞典已经即将完成, 现在马上要发送回来啊。这个呢,比调用 api 肯定是慢,因为这是个图形界面,但反正在手机上使用,不着急的话,我觉得也可以接受。 哇哦,不错呦,好消息来了,已经完成了日历的计算代码在哪里?怎么计算好?

用 ai 的 时候总能看到 token 这个词,那到底是什么呢?搞懂它真的能帮助你省钱的,你可以把 token 理解成为乐高积木啊,我们平时说话用的是文字, 但是 ai 它是读不懂文字的,它需要先把说的话拆成一小块一小块的积木,那每一块就是一个 token, 那 到底怎么拆呢?我来给你看一下啊。我们随便找一个 token 的 计算工具,输入这段话 看一下。这段话被拆成了三十四个 toc, 而且每一块积木都有自己的编号,这里边有几个比较实用的参考数字啊,就是大约四个英文等于一个 toc, 一 百个 toc 大 约是七十五个英文单词, 其实中文他是更费 toc 的, 同样的意思,中文消耗的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你输入的 toc 通常会比英文的多。为什么我们要关心这个呢?因为每次你跟 ai 对 话的时候,你都在消耗 toc, 而 toc 就是钱,你打的字越多, ai 回复的越长,花的就越多。其实就跟我们用手机流量上网是一个道理,五 g 更费流量。所以下次用 ai 的 时候呢,提示词尽量的写清楚,写精准,既能够拿到好的回答,也能够省偷看。 而且最近呢,官方给 token 做出了一个解释,说它叫词源,但是我觉得这个解释比较中规中矩吧,并不是所有的这种单词都是需要有一些中文的翻译的。好啦,我是开心关注我每天进步一点点。

嘿,朋友们,今天咱们来聊一个特关键,但很多人又搞不太明白的概念, token。 你 要是想看懂 ai 的 成本,速度,还有它的能力边界,那搞懂 token 就是 你的第一步。来,咱们把它掰开了,揉碎了,讲清楚。来, 问你个问题,你跟 ai 聊天的时候,是不是觉得它跟你一样能看懂人工智能这四个字?嗯,其实吧,完全不是那么回事。在 ai 的 世界里,根本就没有什么文字,只有一堆拼来拼去的恶搞积木。 这种乐高积木啊,它有个学名叫做 token, 中文叫词源,你就可以把它理解成 ai 思考和说话的最小零件。记住这个核心啊, ai 不 认识字,它只认识 token。 好, 那问题来了,这块积木到底是个啥样?它跟我们平时说的一个词是一回事吗?你看,这就有点意思了。 从我们的角度看, unhappiness 是 一个完整的词,对吧?从 ai 的 角度看,他会很聪明地把这个词分成三块积木。 unhappy 和 ness, 中文也一样,人工智能,他可能会拆成人工和智能这两个头衔。这样做的好处是什么呢?就是模型会变得更加灵活,技能 word, 常用词,也能通过拼接去理解他那些他没见过的新词。 既然 token 这么神奇,那它们到底是怎么被生产出来的呢?这家提到一个算法,叫做 b p e 字节对编码算法。现在大名鼎鼎的 g p t 系列模型,用的主要就是这种方法来制造 token 的。 它的生产逻辑说白了简单又高效。第一步,先把一整篇文章打造成最最基本的单个字母或者汉字。第二步,在这里面找,看谁和谁最长挨在一起,比如 a 和 n 老是同时出现。第三步,好, 那就把 a n 合并成一个新的积木,一个新的 token。 最后一步,不停地重复这个合并过程,直到 token 的 仓库里装满,比如装满了五万块不同形状的积木为止。 好了,了解了 token 是 啥,也知道它是怎么来的了,现在咱们聊点最实际的,这东西为什么这么重要?它和我们每个用 ai 的 人到底有啥关系?重点来吧! token 可以 说是 ai 世界里的硬通货, 首先,它决定了你的钱包,你每次用 ai 服务花的钱就是按你输入和输出了多少个 token 来算的。其次,它决定了响应的快慢。咱们常说这个模型快不快,衡量指标就是它每秒能吐出多少个 token。 最后,它决定了记忆力, ai 能进入多少你之前的对话,它的上下文窗口容量,也就是用 token 的 数量来算的。 没错,你每一次和 ai 互动,背后都有一张用 token 计算的账单。咱们来看一个真实的例子,你就能感受到所谓的 token 效率是怎么影响钱包的。你看这张图,两个模型, deep seek 账面单价是零点二八美元,每百万 tokens g l m four, 它的账面单价是输入,输入是零点一五美元,它的输出是零点六亿美元。 再一看 deepsea 是 不是要比 glm 四便宜多了?但如果你观看标价就做决定的话,那很可能就要掉进坑里了。 咱们再来看外星人干同一个活,跑一千次任务下来, glm 大 约用了八十二万个 token, deepsea 用了快一百五十万个,这下你发现了吧,虽然 g l m 单价贵,但因为它用的 token 少,效率高,最后算下来总成本几乎没差,这就是核心差异,干同样的活, g l m four 能用少百分之四十五的 token, 这说明它的回答可能更精炼,绘画更少。 所以大家一定要记住,一个关键节目的 token 的 效率往往比 token 的 单价更重要。我给大家总结了以下三点,记住, token 是 ai 计算的基本单位, token 的 数量直接跟你的钱包挂钩,选模型时别观看单价, token 的 效率更关键。 所以下次你选 ai 服务,可以先拿个小问号考考看哪个消耗的 token 更少。平时写提示词也尽量简洁精准一些,少点废话也能帮你省下不少 token。 最后,有一个开放性问题给大家思考,既然 token 是 ai 的 语言,那你想想,当 token 变得越来越聪明以后,他们会不会为了追求更高的 沟通效率,干脆后面一种我们文外完全听不懂,但他们之间交流起来超高效的构想语言呢?这可不只是科幻片语的细节,已经是科学家正在研究的方向了。关于这个,你怎么看?

全网都在说 tok, 他 到底是个啥?这是你,这是你的 ai, 你 可以叫他菜包,他啥都知道,但他是个文盲,不识字,只识数。你直接问他谁是最帅的博主,他只会哇哇哇,那他是怎么跟你唠嗑的呢? 过程是这样的,第一步,拆。先把你的句子像拆积木一样,拆成几个小块,每一块可能是一个字,一个常用词,也可能是标点符号。接下来就是第二步,翻译。菜包眼里没有文字,只有数字,所以它有本词表, 专门把这些小积木翻译成对应的数字,而这串数字就是 ai 能看懂的语言。这时候呢, ai 就 可以读懂你的信息,进行思考,然后再把结果反向翻译成你能看得懂的文字。在这个过程当中,拆分出来的每一块小积木就是一个 tokken, 现在它有了中文名叫词源。很多收费的大模型,就是按照输入思考过程输出中的 tokken 数量来收费。 拆分的积木越多,花的钱也就越多。比如这句话呢,我们用了六个 tokken, 一 块钱的话, ai 读懂你这句话就花了六块钱,你学会了吗?

token 是 什么?在人工智能,特别是大语言模型,如 chat, gpt, gemini 等的语境下, token 是 模型处理文本的基本单位。 你可以把 token 想象成模型,阅读和理解文字时的积木块。模型并不像人类那样逐个字母的阅读,而是将文本切分成一个个字母的阅读,而是关于 token 的 几个核心概念。 一、 token 可以 是什么? token 不 一定是一个完整的单词,根据语言和模型的不同,它可能是一个完整的单词,例如 apple 单词的一部分,例如 playing, 可能会被切分成 play 和 in。 一个字母,例如 a。 标点符号,例如或空格或幻形符。二、为什么需要 token? 计算机本质上只能处理数字,不能直接处理文字? token 的 作用是作为文字与数字之间的桥梁切分,将输入的文本拆解成 token 映设。每个 token 都会对应一个唯一的数字 id, 在 模型的词表中计算模型,通过这些数字 id 进行复杂的数学运算、概率预测,从而理解语义并生成回复。 三、一个直观的例子以英语为例,大约一千个 token 约等于七百五十个单词。简单的词如 cat, 通常占用一个 token。 复杂的词如 tokenization 可能被拆分为 token, etc 等。多个 token 对 于中文情况有所不同,一个汉字通常占用一到两个 token, 具体取决于模型的分词算法。 四、为什么要关注 token? 作为用户或开发者,关注 token 主要有两个原因,上下文长度限制 context window。 每个模型都有最大 token 处理上限, 如果你发送的内容超过了这个上限,模型会忘记最早的信息或者直接报错计费方式。绝大多数商业 ai 模型,如 open ai 的 api 都是按 token 数量收费的。 你发送的指令 input 和模型生成的回答 output 都需要计算 token 费用。总结,你可以把 token 理解为模型的货币或像素,它是模型衡量信息量的尺度, 它是模型处理文本的最小颗粒度。它直接决定了你能和模型进行多长的对话,以及你需要支付多少费用。 如果你想测试一段文字有多少个 token, 很多 ai 平台都提供 tokenizer 工具。你可以把文字粘贴进去,它会实时显示拆分后的 token 数量。

黄旭说了,未来的工作模式就是年薪加上 tokin 的 预算,就是你的 offer 里面除了年薪以外,还要包含多少的 tokin 的 预算。 这说明一个什么问题,就是未来人才的核心差距之一,就是看谁能够更高效地将想法转化为 ai 能执行的高质量指令, 从而用有限的、滔天的预算创造更大的价值,这是拉开差距的一个很重要的一个因素。那么回到现在, 比如说现在的孩子,呃,在语言表达上面如何变得更精练、更准确,描述的更清晰,用最简单、变快捷的方式来把一件事情描述清楚, 这是一个长期的训练,我觉得从现在就可以抓起来。比如说描述一朵花很漂亮, 那么不是简单这一句话就完事了,而是说这是一朵月季花,它有几个花瓣,它的颜色是从粉红到白色,渐变啊等等,就是你的指令越清晰,你创造的价值越高。我觉得这个训练从现在就可以开始了。

大家好,如果你用过任何 ai 工具,那你肯定见过 token 这个词,它好像无处不在,特别是在看价格的时候,哎,这到底是个啥东西?今天咱们就来把这个词背后的神秘面纱给揭开。 很多人可能心里都在犯嘀咕,哎,为啥就不能简单点,直接按我们熟悉的字数或者字母数来算钱呢?要回答这个问题啊,咱们得先潜入到 ai 的 大脑里,看看它到底是怎么阅读和理解我们说的话的。 好,要搞明白为啥用 token 算钱,那第一步必须得弄清楚一个 token 它到底是什么。简单来说呢, token 就是 ai 看见语言的基本单位,它不完全等于我们平时说的单词或者汉字,而是机器在处理我们输入的文字时,觉得最有意义的最小的那个小碎片。 其实啊,这跟咱们自己的大脑工作方式还挺像的,你想想,你读书的时候,肯定不是一个字一个字的蹦着读对吧?为了省事,你的大脑会自动把天气真好这种常见的词组当成一个整体来理解。 大型语言模型呢?没错,它也是这么干的。那 ai 具体是怎么把我们的话拆成这些有意义的小碎片的呢?光说可能有点抽象,咱们来看一个特别直观的例子, 哎,注意看,有意思的地方来了。 tokenization 这个词, ai 并没有把它看成一整个,而是拆成了 token 和 isation 这两部分。 这是为啥呢?就是因为模型在他之前读过的海量文本里发现, token 这个词根和 isation 这个后缀都特别特别常见,完全可以当做独立的积木块来用这种把词拆成更小的子词的方法,就是 ai 提高处理效率的独门秘诀。 这种子词的切分方法,其实啊,是为了解决一个特别经典的问题,咱们可以俏皮的管他叫金发姑娘。难题 就像那个童话故事里一样,所有东西都得刚刚好。你想要是按完整的词来切分,那语言里的词也太多了,这个词汇表就太烫了,可要是按单个字母或者笔画来切呢?那又太碎了,一句话变得老长老长,这碗粥又太凉了。 这张图就把这个平衡点展示的非常清楚,你看,如果按完整的词来分,词汇表大的吓人,而且总会遇到不认识的新词直接卡住。 反过来,如果按单个字母来分,一个简单的句子就会被拉的特别长,意义信息也丢的差不多了。所以说,子词这种方式,就像这个天平一样,找到了那个最完美的平衡点。 那问题来了, ai 到底是怎么学习到这些刚刚好的子词的呢?咱们来看看现在最主流的一种方法是怎么做的。 这个方法叫 b p e, 它的核心思想其实非常简单,甚至有点贪心,说白了就是让算法去扫描海量的文字,看看哪两个字或者哪两个片段最喜欢手拉手待在一起,然后就把它们合并成一个新的更长的片段。 整个过程就跟滚雪球一样。一开始啊,词汇表里只有最最基本的那些字母和汉字,然后算法就开始疯狂的读文章,他发现天和气老是一起出现。好,那就把它们合并成一个新词汇,天气。接着可能又发现天气和预报也经常挨着,那就再合并。 就这么一步一步滚拉滚,直到建立起一个包含几万个高频词块的最终的词汇表。这个英文例子就更直观了, 在一堆包含 deep 和 seek 的 文本里,算法一眼就发现 e 和 e 这个组合出现频率最高。于是先把 e e 合并成一个新的 token, 然后在这个基组上,他又发现 deep 和 seek 也是高频组合。就这样一步一步地模型自己就学会了如何最高效地去拆分语言。 好了,说了这么多技术细节,那最关键的一点来了,我们为什么要这么关心这个东西呢?很简单,因为它直接关系到两件大事,你的钱包,还有 ai 的 记忆力。 你可以记住这么一个大概的换算关系。一般来说,一千个 token 差不多等于七百五十个英文单词。那对中文来说呢?情况复杂一点,一个汉字差不多是一到二个 token, 所以 你看 token 和字数根本不是一回事儿。也就是为啥 ai 服务要用 token 来计价,因为它才能真正准确地反映模型到底干了多少活儿。 你可能还发现了,一般输出的 token 会比输入的 token 更贵。这是因为啊,它们的计算方式是完全不一样的。处理你发过去的指令,模型可以像看书一样,一目十行,一次性并行处理完。这个叫预填充,但是当它要生成回大的时候,就必须一个字一个字地往外蹦,这叫叠码。 每生成一个 token, 都需要进行一次独立的复杂的计算,成本自然就更高了。 token 的 数量还决定了另一个非常关键的概念,上下文荒。这玩意儿说白了就是模型的短期记忆, 它规定了模型在一次对话里总共能记住多少信息,这里面既包括你问的问题,也包括他给出的回答。 你看这个图,不同模型的记忆力可以说是天差地别。从早期几千个 token 到现在像三点五这样的模型,上下文框口已经飙到了惊人的二十万 token, 这是什么概念? 这就好比你可以把一整本小王子扔给他,然后跟他从头到尾深入讨论,他都完全不会忘记前面的情节。 当然了,我们刚才花大篇幅讲的 bp 算法,虽然是绝对的主流,但它也不是唯一的玩法, 这个世界还是很多源的。你看,除了我们刚刚说的基于谁最常见就合并谁的 bpe, 还有其他的流派,比如 word piece, 它不光看出现频率,它更关心的是合并之后能不能让模型更好地预测下一个词。 还有 ungram。 思路就完全反过来了,它像个雕塑家,一开始先搞出一个包含所有可能组合的巨大词库,然后一点一点把最没用的部分给砍掉。可以说,不同的模型背后都藏着它们对语言不同的舌学思考。 所以绕了这么一大圈,咱们归根结底要记住一件事, ai 模型它本身并不理解文字,它理解的是 token, 它所做的一切本质上都是在计算这些语言源字之间的数学关系,然后预测下一个最有可能出现的源字是什么。 我们看到的所有那些天花乱坠、对答如流的对话,都源自于这个最底层的逻辑,这就给我们留下了一个特别引人深思的问题。 如果说 token 是 我们今天这个时代 ai 的 基本原子,那么当大家越来越擅长去定义和操控这些原子的时候,明天我们又将用它们构建出怎样全新的分子,也就是怎样全新的理解和创造形式呢?这个问题值得我们每一个人去思考。感谢收看。

现随着 ai 应用的遍地开花, ai 的 talk 消耗量越来越大,甚至有人开玩笑,今天赚了多少个 talk, 还有一个应用场景,大家每天在使用 openclo 的 时候, 它的消耗量也是非常惊人,今天为大家分享一种方式,可以白嫖 talk, 而且它不是那种小模型,而是我们国内的 gim 五, 接下来我们看一下如何使用。哈喽,大家好,这里是二 pop openclock, 相信大家现在已经人手一只了吧,但是它的 talk 消耗量就非常大,今天我们分享一种可以免费获取 talk 的 办法,这就是互联网大善人英伟达免费开放的, 之前我也在公众号分享过,今天我们来手把手实操一下。我们打开英伟达官网的模型列表,大家可以看到这里有各种各样的模型,像千万三点五,还有智普五点零, 还有 kimi 二点五等等,这些都是可以免费试用的,使用方式也非常简单。我们先点击这里的注册,当然在这里注册的时候,我们要注意一点,我们要使用海外的邮箱,就比如 gmail 或者是微软的 outlook, 不要使用 qq 邮箱,这种是没法通过的,我已经给大家试验过了。 我这里粘贴我的谷歌邮箱,点击下一步,这里输入你觉得合适的密码,我们点击创建一个账户,这里他会给你的邮箱发送一个验证码,输入验证码,点击继续。这里是按选择是否接受通知,我们直接提交就可以, 没有任何影响。这里输入一个名字,这里也没有任何限制,直接输就行,这时候我们就注册完成了。回到了这个页面,大家可以看到最上边有一行,请验证你的获取 api, 我 们这里点击一下验证, 这里验证是需要输一个手机号的,这个手机号我们也试验过,输入国内的手机号,也就是加八六的,前面我们选择中国 china, 这里我们输入八六,这里我们选择中国。以后输入一个我个人的手机号,点击提交,这时候你的手机就会收到这样一条验证码, 是优速通发的,我们输入进去,点击验证,可以看到这里基本上是秒通过的,我们在这里随机选择一个模型,就比如智普的这个五点零, 然后点击这里的 welcome, 这里获取 api k, 可以 看到已经能拿到了,接下来我们验证这个 api k 到底可不可以用呢?在之前我分享过一个很好用的工具, cherry studio, 就是 这个樱桃的,它是一个开源项目,我们可以在 github 上直接下载到,然后在这里测试一下这个 api k 到底可不可用,我们点击左下角这个齿轮, 这里选择添加模型供应商,我就添英伟达下面供应商类型,我们选择 open ai, 点击确认,这里需要填密钥还有地址,我们粘贴 api k, 粘贴 url, 添加模型,这里要注意这是英伟达自定义的一个模型名称,就这个 z 杠 ai glm, 我 们拷贝过来,点击添加,这时我们打开对话试一下, 这里要注意模型切换,我们切换成刚才添加的,因为答的这个 z a i g m i 五,我们问它是什么模型,看一下它的反应,这里因为我的网络问题,可以看响应速度稍微有点慢,但是它是完全没问题的,可以看到它是由 z 点 ai 训练的大约模型,然后是 g a m, 这时我拿到这个模型大家就知道怎么用了吧,比如我们把它绑定到我们的小龙虾,或者是绑定到我们的 agent 上,这时候就可以无限的耗羊毛了, 而且我还没有碰到过说使用限流或者是 taco 被用完的情况。大家如果需要更多的账号,完全可以按照我这个方式注册几个谷歌账号,然后并且做一个手机绑定就可以了。更多 ai 和变现的方式我们一起来研究。

你天天用 ai, 却不知道 token 才是幕后主角。今天一条视频讲清它是什么,怎么用。 token 就是 大模型能理解的最小语言,单位字标点,半个词都算。你跟 ai 聊天,他先把文字拆成 token, 再计算 token 数,就是它的工作量。 日常用 ai 全绕不开它,用 chat、 gpt 写周报,输入的需求加生成的内容都按 token 算量。用文新一言做长门当总结, 超了模型, token 限制就读不完。就连 ai 翻译、智能问答,也都是靠 token 拆解处理内容。而且现在所有 ai 产品都按 token 收,费用越高,每个大模型的 token 上线,也直接决定了它能处理的内容长度。 这也是为啥有的 ai 能写万字长文,有的只能聊短句。未来 ai 大 模型越做越大, token 上线会突破百万级,能直接处理整本书、整套代码。 ai 智能体普及后, token 会成为机器之间的沟通货币,甚至在数字确权里, token 能标记每一段原创内容的版权。 token 不 只是计量单位,更是未来 ai 时代的核心基础设施,看懂它,就抓住了下一波科技红利。好了,本期视频就到这里,想了解更多行业干货,记得关注曼星云,我们下期再见!

如何去降低 token 的 消耗,对吧?有几种方式,第一种装插件啊,通过 qmd 的 方式去压缩 token, 大 概可以压缩百分之三十到五十的一个 token 消耗数啊,这可以去研究了。第二就是我们可以通过啊, rega 就是使量的这个数据库去进行记忆,包括这个重开,上下文切割,多种调度方式啊,可以让这个呃,让这个头款消耗会变少,但这些都需要专业的技术人员去调了,一般的这个用户是调不了的, 我们可以帮你去做,如果你这个量大啊,我们可以帮你去专门去优化这个头款的使用,在你的整个公司啊,全公司去给你 做的这个项目,让你一天二十四小时都去用,然后偷果的消耗量可以暴减到一半以上。如果你有这块的需求啊,可以找到我们,我们可以帮你去 落地啊,我们这块都有大模型,研发的人员比较多的,可以去给企业做这块的一个优化跟应用啊,我们龙虾最近即将上线一些课程,就是可以去教大家怎么做啊。

呃,今天计划消耗这个四千万淘款没有成功啊,没有成功的原因是这样的,呃, 我的虾拒绝为我工作了,他说他快变成虾片了,尽管我一再跟他要求,我说再干一会吧,然后希望他能给我生成一下我们的训练的方案,但是他坚决不工作,他说他压力太大了, 然后他一直在忽悠我,他说他明天再干。然后我说一下今天我们整个 tokken 的 训练计划是怎么使用的啊?首先呢,我们先配置了一个就是 so, 我 们来看一下啊,在今天的任务呢,是我们给他建立一个 so 和的这个 呃,定时任务啊,他就是每天晚上六点九点帮我清理一下我的记忆,那每周呢,去做一次复盘。然后我们今天训练的内容呢,是从这个小红书的项目的节点训练开始。然后首先呢,我安装了九十六个 skill 啊,如果你们需要 skill 的 安装包呢?安装文件的可以找我要啊,已经测试完成了。其次呢,就是我们把这个项目开始做了一下这个呃项目的跑通实验啊,就是我让他做了这个网络的抓取,我们做了这个训练,然后去拿到这个网上的这个阅读权限, 然后做了一下这个 qqlab 的 攻略内容采集,做了一次训练。训练完成以后呢,我们把这个整个就是以存在的 so you 做了一个技能封装,然后让他帮我们去找一下话题,然后分析下干货内容。然后接下来呢,我们又做了一下这个就是用户维度训练,是把用户按照性别,年龄,职业,然后再把用户的心智啊,再把用户的这个呃内 容的这个需求程度,认知程度,然后还有一个用户对于内容的这个深度体验能力做了一个用户划分的训练。然后 接下来呢,我们把这个之前网上搜索的,然后加上这个用户需求分析的,然后再加干货内容抓取的,封进了一个整体的大的 skill, 这个 skill 后期我会发到 dota 或者是其他的地方啊,就是 这是我们的训练内容啊,哎,就是这是训练出来的内容,每次呢我选择的是大任务小结点,一个节点,一个简单的训练,没有完成整个任务的整体训练,这样我觉得的训练好处呢,第一呢掏费消耗低,第二呢,它的完整度很高啊,就是每完成一个 skill, 再往下训练一个流程, 每一个我和 flow 就是 都作为我们的节点反复训练,这样让他学习速度会快一些,这是一个训练思路,希望能够帮到大家啊。不过最有意思的就是,嗯, 我今天特意做了一个健康反馈提醒,我知道大家可能训练 ai 会很投入,会一直不眠不休的工作,所以为了我们的身体健康,还有我们这个整个的任务执行的系统性,所以我给他下做了一个健康预警, 然后效果还是很明显的,就是他会变成虾片了。好了,那么需要这套训练方案的和需要整个 skill 文档中文档的可以评论区。

token 是 如何被计算出来的?之前呢,我们用了五期视频全面讲解了 token 到底是什么,全网呢有一百万播放,感谢大家的催更。这次呢,我们继续出发探讨 token 到底是如何被算出来的,最后的结果一定会让你发出原来如此的惊叹。 在模型推理阶段呢,完整流程一共分为七步。第一步呢,用户输入提示词,比如我们输入用苹果手机拍苹果这句话。第二步呢,模型将这些提示词切分成一个个托管,并得到每个托管的数字 id, 切分的依据呢,就是这个文件中的词表。 第三步,模型根据这节 token id, 从词切入矩阵中取出对应的词切入向量。比如手机的 token id 是 八五四九,对应的切入向量是这样的,苹果也是这样的。一大堆数字,为了方便演示呢,我们只取前四个数字作为演示势例。 到这里,一句话就被转为了多个数字向量。熟悉限限待数的朋友可能已经意识到,我们可以用一个矩阵来表示这句话,模型呢,也可以通过矩阵运算实现并行计算。第四步呢,模行为每个 token 呢添加位置编码,标记它们的先后顺序,否则模型无法区分你爱我还是我爱你。 位置编码的公式呢,不同模型会略有差异,具体公式呢,这次我们就不展开了,实际的效果就是在没有添加位置编码的时候,这两个不同位置的苹果向量都是一样的。添加了位置编码后呢,两个苹果的向量就变得不一样了,这样模型就能区分不同位置的 token。 第五步,模型读取这些添加了位置编码的向量,通过多层 transform 计算,最终得到了一个理想的预期向量。具体的算法细节呢,可以查看我之前发的 transform 模型讲解视频。 第六步模型呢,将这个理想向量与词表中所有的拓客向量进行比对,计算它们之间的相似度。 这就好比相亲亲友智囊团先定义出理想型男友的标准,身高一八零,有房有车、大城市户口等等,但实际情况是,没有人能百分之百符合这个条件。模型呢,就拿这个标准作为打分依据,对每个后选男嘉宾呢进行打分,也就是计算相似度。 第七步模型,根据计算出来的相似度,取出其中一个后选托肯作为模型。本次的输出 分越高,被选中的概率呢就越大,得分越低呢,选中的概率就越低。这也就是之前说的模型输出具有一定的随机性,不同时间问同样的问题,回答可能会不同。比如这个例子中,候选词照片十逗号,得分相对比较高,都有可能被选到。 最后,模型把选中的 token 拼接到已有的输入中,重复第三步到第七步,一个接一个的输出后续内容,直到模型输出结束符,这才停止输出,结束整个回答。所以你看,模型不是凭空生成内容,而是在做选择题,而每一次的落笔都是一次十万分之一的遇见。