Karminski1周前
Qwen3.5实测!来看贺岁档大模型的实力! 贺岁档大模型来啦! Qwen3.5 这次支持了文本、图片、视频多模态输入, 本次准备了全新的后端能力测试! 以及照例带来前端能力、Agent、长上下文能力的全面测试! 来看本次新增的后端编程测试 vector DB Bench: 要求大模型从零实现一个高性能向量数据库, 只给提示词不给实现方案, 配合 coding agent 自动写代码、编译、跑分. 结果 Qwen3.5 直接甩出王炸 —— QPS 1405, 是 Kimi-K2.5 的 4.8 倍, GLM-5 的 25 倍! 关键在于它不仅用了 IVF 倒排索引 + AVX512F 指令集, 还在有限轮次内自主探索出了最优聚类参数 (K=2048, nprobe=30), 每次查询只需扫描约 15000 条数据, 而 Kimi-K2.5 的参数配比要扫描 75000 条, 正好解释了近 5 倍的性能差距. 这波调参堪称神之一手. 前端编程也有进步: 大象牙膏测试终于能正确建模三角烧瓶, 鞭炮连锁爆炸的粒子光影效果不错, 支持多模态后甚至可以对着网站录屏直接克隆. 但空间理解仍是短板, 陀飞轮机芯测试中齿轮设计暴露了差距. 指令遵循: 洛希极限测试中的指令遵循达到 85.9% (Gemini-3.0-Pro 为 90.6%), 主要扣分在未遵循加速曲线公式. Agent 能力: 硅基骑手测试得分 668.43, 仅次于 GLM-5 的 738.69, 也侧面解释了为什么后端编程 Agent 表现这么强. 长文本召回: 256K 上下文召回 99.1%, 但不给原文时四选一蒙对率高达 75.6%, 结果完全不置信. 总结: Qwen3.5 最亮眼的是后端编程能力, 同样的 IVF 算法靠调参拉开 5 倍差距, Agent 能力同样在线. 不过本次测试还发现了点小问题, 输出偶尔不太稳定, 会漏掉 markdown 语法或把答案输出到 thinking 标签里, 这点要注意, 目前我已经反馈给官方了. 这份新年礼物, 大家觉得怎么样? #Qwen #千问大模型 #Qwen35 #阿里千问 #通义实验室
00:00 / 07:00
连播
清屏
智能
倍速
点赞52
00:00 / 03:53
连播
清屏
智能
倍速
点赞129
AI随风6月前
GPT5+Cursor编程能力测试,结果如何? gpt5终于发布了,在编程能力上有巨大提升,我们来简单测试gpt5的前端生成能力,对比claude 4 sonnet以及 qwen3-coder。 提示词: 我想开发一个小程序,核心功能需求文档,现在需要输出高保真的原型图,请通过以下方式帮我完成所有界面的原型设计,并确保这些原型界面可以直接用于开发: 1、用户体验分析:先分析这个 App 的主要功能和用户需求,确定核心交互逻辑。 2、产品界面规划:作为产品经理,定义关键界面,确保信息架构合理。 3、高保真 UI 设计:作为 UI 设计师,设计贴近真实 iOS/Android 设计规范的界面,使用现代化的 UI 元素,使其具有良好的视觉体验。 4、HTML 原型实现:使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他开源 UI 组件)让界面更加精美、接近真实的 App 设计。拆分代码文件,保持结构清晰: 5、每个界面应作为独立的 HTML 文件存放,例如 home.html、profile.html、settings.html 等。 - index.html 作为主入口,不直接写入所有界面的 HTML 代码,而是使用 iframe 的方式嵌入这些 HTML 片段,并将所有页面直接平铺展示在 index 页面中,而不是跳转链接。 - 真实感增强: - 界面尺寸应模拟 iPhone 15 Pro,并让界面圆角化,使其更像真实的手机界面。 - 使用真实的 UI 图片,而非占位符图片(可从 Unsplash、Pexels、Apple 官方 UI 资源中选择)。 - 添加顶部状态栏(模拟 iOS 状态栏),并包含 App 导航栏(类似 iOS 底部 Tab Bar)。 请按照以上要求生成完整的 HTML 代码,并确保其可用于实际开发。 #GPT5 #AI编程 #Cursor
00:00 / 07:22
连播
清屏
智能
倍速
点赞155
00:00 / 23:42
连播
清屏
智能
倍速
点赞106
00:00 / 01:40
连播
清屏
智能
倍速
点赞24