粉丝9获赞101


你有没有想过,用不同语言和 ai 对 话,背后的 talkin 成本天差地别?以 xrogic 的 cloud 为例,表达相同语义,中文 talkin 费用是英文的一点六五倍,这笔额外支出被称作分 词税。近日,研究员 alan colmas sacky 将经典论文苦涩的教训译成九种语言,输入六大模型,分词器彻底揭开了记费黑。 club 上印记与 tokken 消费是英文的三点一一倍,缅甸傣文更被刻以十五倍抛离税。这并非语言本身的问题,同样一段中文, timi 仅消耗英文的零点八一倍, tokken 同意谦问零点八五倍, deepsea 零点八七倍,谷歌 jimmy 几乎持平零点九八倍, open ai 也才一点一五倍。国产模型不仅免了中文税,效率反超英文,直接推翻了中文天生被 tokken 的 说法。而且分词税的代价还远不止多出 百分之六十五,就意味着你花钱买的上下文窗口就要直接打六折。比如 cloud 飙升的三十万字容量,中文用户实际能输入的内容还不到二十万。更讽刺的是,今年四月份 cloud office 四点七上线,官方轻描淡写的一句,新分子 器可能多耗百分之三十五套餐,就让英文用户的使用成本却暴涨百分之一百二十四到百分之一百六十三。二百美元的 max 套餐,只要两小时就能轻松烧完。而中文用户这次反而 幸免,因为我们的分词税早已封顶,再无上涨余地。这让人想起三十年前的短信,英文一条一百六十字母,中文只能发七十个。每一代技术基础设施的红利,总是率先流向开发者的母语 b p e 算法、公开词表和训练数据全由厂商制定, timi 能做到零点八一 倍,可 loft 却做成一点六五倍。不是技术不行,而是国外厂商的傲慢与偏见,让他们从没把非英语用户放在心上。