00:00 / 01:32
连播
清屏
智能
倍速
点赞30
00:00 / 00:53
连播
清屏
智能
倍速
点赞339
博弈3天前
测试千问新模型,Qwen3.5-122B-A10B,使用4卡22G单卡的2080ti即可运行Qwen3.5-122B-A10B-Q4_K_M.gguf 量化版,上下文设置为256K ,每卡占用约21G显存,模型大小为70G,总显存占用约为83G左右,在0上下文的情况下,首句话速度为34token/s,使用opencode在vscode进行编程测试,首上下文约1.2K,首句话速度为32token/s,当上下文为2万时,速度为32token/s,当上下文为5万时,速度为21token/s 运行命令:CUDA_VISIBLE_DEVICES=0,1,2,3 ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 262144 --flash-attn on --batch-size 4096 --ubatch-size 2048 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 0.6 --top-p 0.95 --top-k 20 -m /home/boyiu/models/GGUF/Qwen3.5/Q4_K_M/Qwen3.5-122B-A10B-Q4_K_M.gguf --jinja --chat-template-file /home/boyiu/models/jinja/Qwen3.5-Qwen3.5-122B-A10B-Q5_K_M/chat_template.jinja 由于GGUF量化版在llama.cpp运行时,会出现"System message must be at the beginning"(系统消息必须在开头)的错误问题,需要下载原.jinja发送给大模型,修改为,模板允许系统消息不在开头,单独使用--jinja即可正常回复 编码能力弱于minimax2.5的IQ3_XXS量化版,但是指令遵循能力比较强,但是由于太强,会重复遵循指令,修改代码的逻辑跟不上,主力编码模型还得是minimax,下视频测Qwen3.5-35B-A3B#大模型 #量化
00:00 / 00:29
连播
清屏
智能
倍速
点赞131
阿里在春节全新开源大模型Qwen3.5! 阿里在春节全新开源大模型Qwen3.5! Qwen3.5-Plus拥有3970亿总参数,但激活参数仅170亿,性能超越了上一代万亿级模型。得益于创新的极致稀疏MoE架构,其推理效率大幅提升,最大吞吐量可达19倍,而API调用成本低至每百万Token 0.8元,性价比极高。 此次升级的核心是从“语言模型”进化为“原生多模态大模型”。与市面上常见的“拼装”方案不同,Qwen3.5从预训练第一天起,就让文本、图像、视频等多模态数据在同一架构下进行深度融合学习,使其具备了像人一样的跨模态直觉理解力。实测中,它能将手绘草图直接生成可用的网页代码,也能精准理解复杂图片中的物体、模糊文字并进行综合推理。 模型的技术突破在于四大核心创新:混合注意力机制提升了长文本处理效率;原生多Token预测使响应速度接近“秒回”;系统级训练稳定性优化(如获得NeurIPS 2025最佳论文奖的注意力门控机制)确保了大规模训练的稳定。这些技术共同实现了“以小博大”,在保持顶尖性能的同时,让部署成本大幅降低,变得更加“好用、实用、用得起”。 此外,Qwen3.5具备强大的智能体(Agent)能力,可作为视觉智能体自主操作手机与电脑完成任务,并与OpenClaw等工具集成,实现自动化流程。总体而言,Qwen3.5不仅再次刷新了开源模型的能力天花板,更将行业竞争的重点从单纯比拼参数规模,引向了追求极致效率与实用性的新阶段。
00:00 / 05:12
连播
清屏
智能
倍速
点赞35
00:00 / 01:27
连播
清屏
智能
倍速
点赞3
00:00 / 12:53
连播
清屏
智能
倍速
点赞14
00:00 / 00:50
连播
清屏
智能
倍速
点赞10
00:00 / 08:57
连播
清屏
智能
倍速
点赞8
00:00 / 00:27
连播
清屏
智能
倍速
点赞42
00:00 / 00:12
连播
清屏
智能
倍速
点赞2