00:00 / 01:08
连播
清屏
智能
倍速
点赞1721
博弈2周前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞568
00:00 / 02:37
连播
清屏
智能
倍速
点赞1371
20秒部署AI助手!MaxClaw零成本一键制作AI短剧! #MaxClaw #AI智能体 #零成本部署 #AI短剧 #云端助手 一、MaxClaw 核心特点:零成本部署与丰富内置工具 1. 产品定位:MiniMax公司发布的云端AI助手,基于开源框架OpenClaw实现,20秒即可完成云端集成部署。 2. 集成能力:支持连接飞书、钉钉等即时通讯渠道,通过对话完成任务。 3. 内置工具:图片理解、视频理解、网页搜索、图片生成等丰富功能,无需外部接口,降低使用门槛。 4. 存储与记忆:提供50G云存储空间,支持长期记忆和跨端协作。 二、专家系统与使用体验 1. 专家应用:平台内置近万个专家,本质是提前优化好的提示词技能,覆盖股票分析、PPT制作、热点追踪、公众号推文、AI短剧生成等场景。 2. 案例展示: - 股票分析专家:自动规划任务,获取财务数据、公司分析、估值,生成深度行业报告。 - PPT制作:快速生成结构完整、视觉效果不错的PPT。 - 热点追踪:搜索事件并整理摘要。 - 公众号推文:生成推文并配图,支持一键发送。 - AI短剧生成:从剧本立意、分镜设计、人物场景生成到24个分镜视频合成,产出2分钟短剧(虽存在字幕不对口型、AI痕迹等问题,但流程完整跑通)。 3. 用户自定义:行业专家可创建自己的专家并发布获得收益。 三、计费方式与未来展望 1. 积分计费:不再按token计费,改为个人积分制。新用户登录送1000积分,充值30元得5000积分。实测制作一个AI短剧消耗近4000积分,使用成本较高。 2. 对比本地部署:云端集成简化配置,但积分消耗可能比本地调用token更费钱;本地有资源(如Mac mini)可优化成本。 3. 发展趋势:AI智能体让用户只需提供创意,其余由AI完成。未来各大厂商可能推出类似智能体实验室,降低AI应用门槛。
00:00 / 02:18
连播
清屏
智能
倍速
点赞19
00:00 / 01:38
连播
清屏
智能
倍速
点赞2544