粉丝2780获赞1.1万

大模型的 token 到底是什么? token 是 大模型处理文本语言时划定的基本单元,如 deep、 seek、 gpt 这样的大模型都有一个分词器,分词器会把一段文字分解成一个个小块,每一个小块就是一个 token。 token 可能是一个字、两个字或者三个字,也可能是一个字母、几个字母或者一个标点符号。不同的大模型使用的分词器不一样,所以同样的一段话,在不同的大模型里分解出来的 token 可能就会不一样。 大模型生成文字的时候,也是一个一个 toc 生成的,看起来就像是打字一样。那为什么要这样去划分 toc, 而不是一个字一个字的去划分呢?简单来说是为了节省钻力。 当我们看到一些比较生僻的字时,要想一下才能认出,但是作为词组出现的时候,瞬间就能认出。大模型也是一样的,不到万不得已不会去拆分那些使用频率高的词组,所以就有了分词器。 不同的分词器分词的方法和结果当然就不一样,分词越合理,大模型理解的就轻松,消耗的算力就越少。 分词器怎么去分词的?大致介绍一下其中一种方法。分词器在训练语料中统计大量文字之后,发现了其中的一些规律。比如苹果,这两个字经常是一起出现的,于是便给它打包成一个 top, 分 配一个编号保存起来。 又比如鸡,这个字经常会跟其他字进行组合,于是把鸡作为一个 token 保存起来。经过大量统计和收集,分词器就会得到一个庞大的 token 表,包含了几乎所有我们日常见到的字词、符号或者字母等。 大模型只需要面对 token 编号,由分词器来完成编号和文字之间的相互转换,大幅提升了大模型的工作效率。 通俗来说,我们可以把 token 看成是大模型的一块块积木。大模型理解和生成文字是靠计算 token 之间的关系来推算下一个 token 最可能是什么。这就是为什么几乎所有大模型公司都是按 token 的 数量进行收费, token 的 数量背后意味着计算量。 另外,除了人工智能,其他领域也会出现 token 这个词,要注意它们之间并没有关联,只是恰巧都叫 token 而已。

这是一个专门为大模型输入优化明显处节省透坑的模型编码方式。它结合了 emoji 的 表格布局,用最少的透坑表达同样完整的结构化数据,能轻松节省百分之三十到百分之六十透坑,同时保持可读性焊高解析准确率,而且还能无损转换回正。往下看,你会看到大量真实视力对比完整的格式规范概数。 它多语言实现,支持 type script、 python、 go 等,官方提供 c l i 工具和 type script sdk, 支持快速编码、解码和验证,并附带规范文档,帮助你快速上手,简直是 ai 开发者的必备神器。