博弈6天前
测试千问新模型,Qwen3.5-122B-A10B,使用4卡22G单卡的2080ti即可运行Qwen3.5-122B-A10B-Q4_K_M.gguf 量化版,上下文设置为256K ,每卡占用约21G显存,模型大小为70G,总显存占用约为83G左右,在0上下文的情况下,首句话速度为34token/s,使用opencode在vscode进行编程测试,首上下文约1.2K,首句话速度为32token/s,当上下文为2万时,速度为32token/s,当上下文为5万时,速度为21token/s 运行命令:CUDA_VISIBLE_DEVICES=0,1,2,3 ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 262144 --flash-attn on --batch-size 4096 --ubatch-size 2048 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 0.6 --top-p 0.95 --top-k 20 -m /home/boyiu/models/GGUF/Qwen3.5/Q4_K_M/Qwen3.5-122B-A10B-Q4_K_M.gguf --jinja --chat-template-file /home/boyiu/models/jinja/Qwen3.5-Qwen3.5-122B-A10B-Q5_K_M/chat_template.jinja 由于GGUF量化版在llama.cpp运行时,会出现"System message must be at the beginning"(系统消息必须在开头)的错误问题,需要下载原.jinja发送给大模型,修改为,模板允许系统消息不在开头,单独使用--jinja即可正常回复 编码能力弱于minimax2.5的IQ3_XXS量化版,但是指令遵循能力比较强,但是由于太强,会重复遵循指令,修改代码的逻辑跟不上,主力编码模型还得是minimax,下视频测Qwen3.5-35B-A3B#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞151
博弈1周前
使用6张2080ti显卡,每卡22G显存,使用llama.cpp运行MiniMax-M2.5-UD-IQ3_XXS.gguf量化版大模型,大模型为87G大小,130K上下文占用每卡约19G显存,通过vscode远程ssh代码服务器上的opencode进行程序编写时,使用命令CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 CUDA_SCALE_LAUNCH_QUEUES=8x ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 2048 --ubatch-size 512 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 1.0 --top-p 0.95 --top-k 40 --jinja --chat-template-file /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/chat_template.jinja -m /home/boyiu/models/GGUF/MiniMax-M2.5-GGUF/UD-IQ3_XXS/MiniMax-M2.5-UD-IQ3_XXS.gguf,最大化发挥显卡性能,大模型智商最高,极致压榨显卡性能,在0上下文的情况下,首句话速度可达43token/s,首次上下文占用约为13K,首句回复速度为27token/s,当上下文占用为20K时,速度降为22token/s,当上下文占用50%左右时,速度降为11token/s,速度比minimax2.1略有提升,可增加更多上下文,但会牺牲token速度,财经资讯分析程序已建立基础功能,可实时获取最新资讯,并进行api调用分析,从获取最新资讯,到分析结果不到3分钟,完全适用现有策略,后面将增加新闻源获取途径,增加个股独立新闻分析功能#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞553
00:00 / 03:15
连播
清屏
智能
倍速
点赞10
00:00 / 00:31
连播
清屏
智能
倍速
点赞7