00:00 / 00:26
连播
清屏
智能
倍速
点赞223
00:00 / 01:19
连播
清屏
智能
倍速
点赞12
00:00 / 00:41
连播
清屏
智能
倍速
点赞333
00:00 / 00:32
连播
清屏
智能
倍速
点赞38
00:00 / 01:00
连播
清屏
智能
倍速
点赞232
00:00 / 00:39
连播
清屏
智能
倍速
点赞90
00:00 / 00:28
连播
清屏
智能
倍速
点赞35
00:00 / 01:12
连播
清屏
智能
倍速
点赞4
博弈4天前
测试千问新模型,Qwen3.5-122B-A10B,使用4卡22G单卡的2080ti即可运行Qwen3.5-122B-A10B-Q4_K_M.gguf 量化版,上下文设置为256K ,每卡占用约21G显存,模型大小为70G,总显存占用约为83G左右,在0上下文的情况下,首句话速度为34token/s,使用opencode在vscode进行编程测试,首上下文约1.2K,首句话速度为32token/s,当上下文为2万时,速度为32token/s,当上下文为5万时,速度为21token/s 运行命令:CUDA_VISIBLE_DEVICES=0,1,2,3 ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 262144 --flash-attn on --batch-size 4096 --ubatch-size 2048 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 0.6 --top-p 0.95 --top-k 20 -m /home/boyiu/models/GGUF/Qwen3.5/Q4_K_M/Qwen3.5-122B-A10B-Q4_K_M.gguf --jinja --chat-template-file /home/boyiu/models/jinja/Qwen3.5-Qwen3.5-122B-A10B-Q5_K_M/chat_template.jinja 由于GGUF量化版在llama.cpp运行时,会出现"System message must be at the beginning"(系统消息必须在开头)的错误问题,需要下载原.jinja发送给大模型,修改为,模板允许系统消息不在开头,单独使用--jinja即可正常回复 编码能力弱于minimax2.5的IQ3_XXS量化版,但是指令遵循能力比较强,但是由于太强,会重复遵循指令,修改代码的逻辑跟不上,主力编码模型还得是minimax,下视频测Qwen3.5-35B-A3B#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞139