00:00 / 00:10
连播
清屏
智能
倍速
点赞411
博弈3周前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞595
MiniMax推出免费云端OpenClaw MiniMax推出免费云端OpenClaw:快速构建24小时在线个人助手 MiniMax近日推出免费的MaxClaw服务,这是一款基于MiniMax 2.5模型的云端OpenClaw,用户无需购买昂贵的Mac mini或云服务器,即可拥有24小时在线的个人AI助手。 OpenClaw是一款本地优先、开源的AI智能体框架,其核心突破在于让AI从“只会对话”升级为“能动手执行系统操作”。该框架具备七大核心优势: 真实任务执行能力:可直接操作电脑完成文件整理、邮件发送、数据爬取等任务,绕过GUI直接调用系统底层权限 本地优先与隐私保护:所有数据、记忆和执行日志完全存储在本地,不经过第三方云端 自然语言驱动:用户无需编程,用日常口语即可指挥AI完成任务 持久记忆功能:本地存储用户习惯和偏好,支持长上下文理解 多Agent并行处理:可同时运行多个智能体,最高节省60%的token消耗 跨工具协同:无缝对接各类办公软件、云服务和API 开源生态:代码完全开放,支持自定义开发和安全审计 体验方法十分简便:进入MiniMax选择MaxClaw,按照指引完成飞书应用配置即可。用户只需在飞书中与机器人对话,发送“我想连接飞书”等指令,即可开启自动化体验。 这项服务目前免费提供,标志着个人AI助手正朝着更加实用、易用的方向发展,让普通用户也能低成本享受自动化服务带来的便利。
00:00 / 06:09
连播
清屏
智能
倍速
点赞21
00:00 / 11:34
连播
清屏
智能
倍速
点赞33
00:00 / 03:38
连播
清屏
智能
倍速
点赞82