00:00 / 02:12
连播
清屏
智能
倍速
点赞15
00:00 / 01:03
连播
清屏
智能
倍速
点赞5
Karminski2周前
Kimi-K2.6 前端/后端/Agent编程能力实测! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli
00:00 / 09:03
连播
清屏
智能
倍速
点赞2014
Kimi K2.6开源:Agent天花板 月之暗面刚开源了Kimi K2.6,这次升级的核心不是"更聪明",是"更能干" 总参数1T,激活32B,MoE架构,上下文256K,还原生支持图片和视频输入 但最牛的一条,是Agent能力 K2.6能同时调度300个子Agent,协同执行4000步复杂任务 一个大任务拆成几百条并行子任务,文档、网站、表格一口气全部搞定 这个能力在开源世界目前没有对手 BrowseComp Agent Swarm测试,K2.6打了86.3,GPT-5.4只有78.4 差了快8个点,AI榜单里这算相当大的差距 编程能力也不含糊,Terminal-Bench 2.0打了66.7,比GPT-5.4和Claude Opus 4.6都高一点 有个实战案例,K2.6用Zig语言在Mac上从零写了一个推理引擎 花了12小时,经过4000多次工具调用,把吞吐量从15 tokens/s优化到193 tokens/s,比LM Studio还快20% 另一个案例更猛,自主重构了一个8年老的金融撮合引擎,改了4000行代码,吞吐直接提升185% 跟K2.5比,这次进步幅度非常大 MCPMark从29.5飙到55.9,近乎翻倍,APEX-Agents翻了2.4倍 说明月之暗面在Agent工具调用上做了非常多针对性的优化 部署这块也有好消息,KTransformers支持CPU和GPU异构推理,8张L20加一颗Intel CPU就能跑起来 更绝的是,LoRA微调只要2张4090就够了,训练吞吐44.55 tokens/s 对中小团队来说,这个门槛已经可以接受了 缺点也要说,纯推理任务上K2.6还落后GPT-5.4和Gemini,视觉理解也有差距,1T参数全量部署成本依然不低 商用还要注意Modified MIT License的许可条款 如果你在做AI Agent相关的产品,K2.6值得认真评估一下
00:00 / 02:29
连播
清屏
智能
倍速
点赞55
00:00 / 03:46
连播
清屏
智能
倍速
点赞45