使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化

minimax2.5硬件配置要求

544
116
237
98
举报
发布时间:2026-02-27 10:43
博弈
博弈

粉丝4453获赞8508

相关视频

  • MiniMax发布M2.5模型,声称可媲美Claude Op
    01:38
    查看AI文稿
  • 程序员下班接私活,已经彻底离不开AI了 #minimax #minmax25#程序员 #软件开发 #AI
    02:09
    查看AI文稿
  • MiniMax M2.5本地部署和实测,附测试输出和结果。 MiniMax 2.5出来有一阵了,和GLM 5不同的是,MiniMax 2.5的参数量没有增加,还是在2000亿左右。这是的本地部署成为了可能。在128GB内存下,可以最大部署一个Q3量化的版本。这个视频带你看看在Q3量化下的本地部署表现。
#minimax #ai干货分享 #ai大模型测评 #ai零基础入门教程 #普通人学ai
    01:04
    查看AI文稿
  • 超简单的OpenClaw部署教程 EXE文件一键安装!OpenClaw + MiniMax29 元最强 API  实测:全自动闭环,三分钟跑通全流程!#openclaw #AI #人工智能 #龙虾机器人 #lobsterAI
    03:50
    查看AI文稿
  • 一天一个王炸!国产AI春节前集体“亮剑”,这波配合太默契 MiniMax M2.5、智谱GLM-5接连发布,推理速度飙到100 TPS!前产品经理带你由表及里:核心是“稀疏注意力机制”,用自行车的能耗跑出超跑的速度。这就是国产AI的“抱团进化”。春节前这波攻势,对面慌不慌?🇨🇳🚀
    00:49
    查看AI文稿
  • 【Clawdbot/Openclaw】Windows安装指南 教程文档请参考:
WSL安装教程:
github - spoto-team/openclaw-wsl-guide 
国内LLM服务商API url替换指南:
github - spoto-team/openclaw-minimax-guide 
#人工智能 #AI #OpenClaw #Clawdbot #Agent
    26:45
    查看AI文稿
  • 离谱!Minimax 2.5 更新,Deepseek V4 离谱!Minimax 2.5 更新,Deepseek V4 将至,Seedance 2.0 多镜头 AI 也太顶了!#随变ai随便玩 #走进杨紫的花园世界 #织梦森林 #datatool.vip功能 #电脑技巧
    09:26
    查看AI文稿
  • 使用NVIDIA的Ampere平台的A800服务器布署最新的Minimax2.5模型,尝试了全量模型,量化的gguf模型,最后选择了fp16和int4混合精度的版本,接入openclaw效果不错。#minimax #glm5 #openclaw #AI #大模型
    01:04
    查看AI文稿
  • 啊?一个月一个版本? MiniMax-M2.5 实测! 昨天刚说完国产大模型进入了每月迭代的节奏, 今天测试就来了! 给大家带来 MiniMax-M2.5 的编程、Agent、长上下文能力全面测试! 
这次总计消耗大约 4000 万 token, 跑完了指令遵循、物理仿真、长文本召回和 Agent 外卖骑手等整套测试. 
测试重点:
指令遵循(洛希极限): 部分遵循率 80%, 完全正确率 65.9%;
大象牙膏与鞭炮测试: 物理细节明显提升, 尤其 4 substep 迭代后几乎看不到穿模;
长文本召回: 均值 96.7%+, 但出现无参考也有 50.1% 正确率的异常, 本次分数仅作参考;
Agent 测试: 总分 599, 较 M2.1 提升 42.8%, 每公里利润提升 36.5%, 准时率从 48.4% 提升到 69.6%. 
另外还有一个很惊喜的点: MiniMax-M2.5 输出速度可以稳定在 100 token/s, 配合 10B 激活参数, 在追求吞吐和响应速度的 Agent 场景里优势非常明显. 另外API并发给得也很高 
一句话评价: 这版 MiniMax-M2.5 是"性价比+实用性"都在线的升级版, 值得重点关注.  
(P.S. 本次评测使用的是内测API)
    05:06
    啊?一个月一个版本? MiniMax-M2.5 实测! 昨天刚说完国产大模型进入了每月迭代的节奏, 今天测试就来了! 给大家带来 MiniMax-M2.5 的编程、Agent、长上下文能力全面测试!
    这次总计消耗大约 4000 万 token, 跑完了指令遵循、物理仿真、长文本召回和 Agent 外卖骑手等整套测试.
    测试重点:
    指令遵循(洛希极限): 部分遵循率 80%, 完全正确率 65.9%;
    大象牙膏与鞭炮测试: 物理细节明显提升, 尤其 4 substep 迭代后几乎看不到穿模;
    长文本召回: 均值 96.7%+, 但出现无参考也有 50.1% 正确率的异常, 本次分数仅作参考;
    Agent 测试: 总分 599, 较 M2.1 提升 42.8%, 每公里利润提升 36.5%, 准时率从 48.4% 提升到 69.6%.
    另外还有一个很惊喜的点: MiniMax-M2.5 输出速度可以稳定在 100 token/s, 配合 10B 激活参数, 在追求吞吐和响应速度的 Agent 场景里优势非常明显. 另外API并发给得也很高
    一句话评价: 这版 MiniMax-M2.5 是"性价比+实用性"都在线的升级版, 值得重点关注.
    (P.S. 本次评测使用的是内测API)
    查看AI文稿
  • 如何便宜的使用openclaw #openclaw #minimax2.5#kimi2.5 #api
    01:30
    查看AI文稿
  • MiniMax凭什么冲到全球大模型估值前排?这家AI新贵的崛起速度惊人,但高光时刻之后,业绩兑现和风险考验才刚刚开始。#MiniMax #AI大模型 #科技投资 #资产配置 #美股
    06:56
    查看AI文稿
  • 2026年2月1900元diy电脑装机 别再乱配电脑了!这套配置闭眼抄作业!#硬件 #diy电脑 #别再乱配电脑 #装机 #二手电脑
    01:09
    查看AI文稿