00:00 / 01:30
连播
清屏
智能
倍速
点赞54
00:00 / 00:59
连播
清屏
智能
倍速
点赞8
今天我们来聊一个非常有意思的现象。最近OpenRouter公布了最新一周的模型调用量排行榜,这个榜单可以说是全球AI应用真实需求的晴雨表。你们猜怎么着?排名前五的模型里,中国团队开发的占了四席。MiniMax的M2.5以1790亿token的调用量高居榜首,Kimi K2.5以1400亿紧随其后,DeepSeek V3.2和GLM-5也稳稳占据第四和第五的位置。夹在中间第三名的,是谷歌的Gemini 3 Flash Preview。 这个画面挺震撼的。要知道,OpenRouter是全球最大的大模型路由平台之一,连接着世界各地的开发者。这些数字背后,是全球开发者用真金白银投票的结果。为什么中国的开源模型和高性价比模型能在全球范围内形成这样的统治力?这背后其实藏着一个更深层的经济逻辑,我把它叫做"token出口"——这可能是中国外贸的一种全新形态。 我们先看看这些模型为什么能赢。MiniMax M2.5是2月12号刚发布的,这是一个专门为编程和智能体场景设计的模型。在编程能力测试SWE-Bench上,跟Anthropic最贵的Claude Opus 4.6几乎持平,但价格只有对方的二十分之一。DeepSeek V3.2的定价更激进,输入一百万token只要0.26美元,输出0.38美元。Kimi K2.5虽然价格稍高,但它提供了256K的超长上下文窗口,在多模态和复杂任务处理上有独特优势。这些模型的共同特点是什么?极致的性价比。它们不是简单的"便宜货",而是在核心能力上追平甚至超越国际顶尖水平的同时,把价格打到了地板价。 这就引出了那个核心问题:为什么是中国团队能做到这一点?答案藏在我们的产业链里。 你们想想,大模型推理需要什么?需要算力,需要芯片,需要电力。中国有什么?我们有全球最具成本优势的数据中心基础设施,有相对低廉但高质量的电力供应,有从芯片设计到模型优化的全栈工程能力。过去我们出口衣服、出口家电、出口电子产品,那是实物商品的出口。现在,我们把廉价的电力和算力,通过大模型这个"加工机器",转化成高附加值的智能服务,也就是token,然后出口给全世界的开发者。 这完全是一种新型的服务贸易。传统出口是物理产品的流动,token出口是智能服务的流动。 #token调用量 #token #AI出海 #智谱 #minimax
00:00 / 04:23
连播
清屏
智能
倍速
点赞126
00:00 / 02:23
连播
清屏
智能
倍速
点赞180
00:00 / 01:36
连播
清屏
智能
倍速
点赞1
00:00 / 01:38
连播
清屏
智能
倍速
点赞15
00:00 / 01:39
连播
清屏
智能
倍速
点赞1
00:00 / 05:46
连播
清屏
智能
倍速
点赞0
00:00 / 02:37
连播
清屏
智能
倍速
点赞1104
00:00 / 01:54
连播
清屏
智能
倍速
点赞26
博弈1周前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞546
00:00 / 02:51
连播
清屏
智能
倍速
点赞27
00:00 / 01:00
连播
清屏
智能
倍速
点赞110