00:00 / 02:32
连播
清屏
智能
倍速
点赞10
00:00 / 04:53
连播
清屏
智能
倍速
点赞2
00:00 / 02:00
连播
清屏
智能
倍速
点赞2657
00:00 / 05:03
连播
清屏
智能
倍速
点赞66
00:00 / 00:38
连播
清屏
智能
倍速
点赞139
Tony沈哲1周前
本地 AI 推理平台 第十三期 Vol.13|OpenClaw 接入本地推理:Qwen3.5-27B 实测 这一期测试一个比较有意思的组合: OpenClaw + 本地 AI 推理平台 + Qwen3.5-27B 模型。 我将 OpenClaw 接入到我正在开发的 本地 AI 推理平台, 让 OpenClaw 使用本地模型作为 推理后端。 本次使用的模型是: Qwen3.5-27B-Claude-4.6-Opus-Distilled(MLX 4bit) 这是一个基于 Qwen3.5-27B 的模型,并蒸馏了 Claude Opus 风格行为, 同时使用 MLX 框架 + 4bit 量化进行本地推理优化。 需要说明的是: 这个模型 并不是真正的 Claude, 而是一个 Claude 风格的蒸馏模型。 在这一期视频中主要演示: 1️⃣ OpenClaw 接入本地推理平台 通过接口让 OpenClaw 使用 本地 AI 推理平台作为推理后端: OpenClaw ↓ 本地 AI 推理平台 ↓ Qwen3.5-27B Claude Distilled 这样 OpenClaw 就可以使用 本地模型进行推理。 2️⃣ Qwen3.5-27B Claude Distilled 简单实测 通过几个简单示例测试模型能力: 代码生成能力 概念解释能力 实际使用体验 例如: 生成 OpenCV C++ 直方图匹配算法 解释 Transformer 为什么可以处理长文本 这一期主要展示的是: 如何让 OpenClaw 接入本地模型推理能力, 并测试 Qwen3.5-27B Claude Distilled 的实际效果。 如果你对 本地 AI 推理、Agent 架构、或 AI 系统开发感兴趣, 欢迎关注这个系列。 我会持续记录 本地 AI 推理平台的开发过程与实验。 #OpenClaw #抖音养虾人俱乐部 #Qwen #本地大模型
00:00 / 10:49
连播
清屏
智能
倍速
点赞30
00:00 / 01:49
连播
清屏
智能
倍速
点赞13
博弈2周前
使用22G单卡的2080ti,2卡即可运行Qwen3.5-35B-A3B-Q8_0.gguf量化版,上下文设置130K ,每卡占约20G显存,模型大小35G,总显存占用40G左右,在0上下文情况下,首句话速度70token/s,使用opencode在vscode进行编程测试,首上下文1.3K,首句话速度66token/s,当上下文2万时,速度62token/s,当上下文5万时,速度52token/s,当上下文50%,7万时,速度45token/s 运行命令:CUDA_VISIBLE_DEVICES=4,5 ~/llama.cpp/build/bin/llama-server --port 8000 --host 0.0.0.0 --n-gpu-layers -1 --parallel 1 --ctx-size 130000 --flash-attn on --batch-size 4096 --ubatch-size 2048 --cont-batching --no-mmap --mlock --split-mode layer --cache-type-k q8_0 --cache-type-v q8_0 --temp 0.6 --top-p 0.95 --top-k 20 -m /home/boyiu/models/GGUF/Qwen3.5/Qwen3.5-35B-A3B-Q8_0.gguf --jinja --chat-template-file /home/boyiu/models/jinja/Qwen3.5-35B-A3B-Q8_0/chat_template.jinja 由于GGUF量化版在llama.cpp运行时,会出现"System message must be at the beginning"(系统消息必须在开头)的错误问题,需要下载原.jinja发送给大模型,修改为,模板允许系统消息不在开头,单独使用--jinja即可正常回复,与Qwen3.5-122B-A10B同样问题 编码能力与Qwen3.5-122B-A10B相当,由于速度快,能力并不弱,所以完胜A10B,但是在编码指令遵循,逻辑方面还差点意思,在60G以下模型体积下,这款模型应该没有对手,性价比超高,期待deepseek v4版本发布后进行测评#大模型 #量化
00:00 / 00:31
连播
清屏
智能
倍速
点赞906
Karminski1月前
Qwen3.5实测!来看贺岁档大模型的实力! 贺岁档大模型来啦! Qwen3.5 这次支持了文本、图片、视频多模态输入, 本次准备了全新的后端能力测试! 以及照例带来前端能力、Agent、长上下文能力的全面测试! 来看本次新增的后端编程测试 vector DB Bench: 要求大模型从零实现一个高性能向量数据库, 只给提示词不给实现方案, 配合 coding agent 自动写代码、编译、跑分. 结果 Qwen3.5 直接甩出王炸 —— QPS 1405, 是 Kimi-K2.5 的 4.8 倍, GLM-5 的 25 倍! 关键在于它不仅用了 IVF 倒排索引 + AVX512F 指令集, 还在有限轮次内自主探索出了最优聚类参数 (K=2048, nprobe=30), 每次查询只需扫描约 15000 条数据, 而 Kimi-K2.5 的参数配比要扫描 75000 条, 正好解释了近 5 倍的性能差距. 这波调参堪称神之一手. 前端编程也有进步: 大象牙膏测试终于能正确建模三角烧瓶, 鞭炮连锁爆炸的粒子光影效果不错, 支持多模态后甚至可以对着网站录屏直接克隆. 但空间理解仍是短板, 陀飞轮机芯测试中齿轮设计暴露了差距. 指令遵循: 洛希极限测试中的指令遵循达到 85.9% (Gemini-3.0-Pro 为 90.6%), 主要扣分在未遵循加速曲线公式. Agent 能力: 硅基骑手测试得分 668.43, 仅次于 GLM-5 的 738.69, 也侧面解释了为什么后端编程 Agent 表现这么强. 长文本召回: 256K 上下文召回 99.1%, 但不给原文时四选一蒙对率高达 75.6%, 结果完全不置信. 总结: Qwen3.5 最亮眼的是后端编程能力, 同样的 IVF 算法靠调参拉开 5 倍差距, Agent 能力同样在线. 不过本次测试还发现了点小问题, 输出偶尔不太稳定, 会漏掉 markdown 语法或把答案输出到 thinking 标签里, 这点要注意, 目前我已经反馈给官方了. 这份新年礼物, 大家觉得怎么样? #Qwen #千问大模型 #Qwen35 #阿里千问 #通义实验室
00:00 / 07:00
连播
清屏
智能
倍速
点赞56