粉丝2.1万获赞7.7万

阿里通一千万团队发布困三 maxing king 新版本,号称数学竞赛满分,逻辑推理无敌。为了体验他的能力,我给他找了两个对手, clog opus 四点五和谷歌的 jammin 三 pro。 先说结论,再写代码。搞工程方面, cloud ops 四点五写的操作系统逻辑最严密,写的三 d 游戏体验也是最好的。切门奈表现中规中矩。 queen 三 max 在 这里遗憾垫底,特别是在写三 d 游戏时,能感觉到它在空间想象力和复杂库的调用上 距离 cloud 还有明显的差距。在随后的纯逻辑陷阱和数学推导测试中, queen 三 max thinking 的 thinking 模式,面对那些极易诱导 ai 犯错的逻辑坑,他全部完美避开。 推理过程十分详细。来看,第一个操作系统模拟器测试系统架构与状态管理规定。它还原一个 win 十一的 ui 风格,并且要在系统里预装五个应用程序,规定程序的类型,一个互动游戏,一个可适化工具,一个系统应用, 剩下两个由它自由发挥,写出一个优雅、高性能、完整、可直接运行的操作系统。第一个弹珠游戏 结算时点击 ok, 它会一直陷入循环。数据可视化,输入数据,生成图标,看系统设置颜色,主题背景图片、桌面壁纸, 右下角也显示了时间,还有一个记事本程序,一个时钟。程序左下角的图标也都是正常的,可以正常点击。每次点击图标会创建新的页面, 当我们创建页面太多时,点击关闭按钮或最小化按钮都会失效,系统会卡住下一个。我们来看 jammer 那 写的操作系统,它写了一个星际重力的小游戏, 放大全屏,功能正常,数据可塑化。系统设置包含深色模式和极简背景,还有一个终端,但是我们鼠标点击它是无效的。看一下合成器 功能正常可以使用,右下角也显示了日期和时间,但主页面的图标点击没有任何反应。最后我们来看 cloudy 写的操作系统,写了一个粒子引力的小游戏, 数据可视化,可以随机填充,这个效果最好。音乐合成器支持按键点击, 点击设置可以更换壁纸和深色模式,还有终端可以输入命令, 它的下方的图标不会重复打开,就不会遇到千问三 max 那 种卡死的情况。 可以说 club 在 整个测试中效果最好。第二项,让 ai 用 a c r 引擎写一个简易的三 d。 第一人称射击游戏 要求要创建简单的地板和几面墙作为掩体。玩家第一人称视角可以移动跳跃,用一个简单的方块代表枪左键发射子弹,敌人会向玩家移动,被子弹击中后敌人消失。 这个侧重于三 d 数学计算测试模型的视觉化、编程能力和几何逻辑。 ai 必须构建一个 x y z 坐标系连续事件处理,考验代码的连贯性。我们先运行 cl 写的脚本, cloud 写出来的敌人是有寻路逻辑的,而且发射后子弹还有爆炸特效,但它并没有写出墙体和地面。下一个 jammy 三写的三 d 游戏,它完全没有寻路逻辑,敌人不向我们靠近,反而远离, 但地面和墙体效果不错,而且人物并不会穿模,跳跃也是正常,可以站到物体上,鼠标左键发射子弹,完全没有发射子弹的效果。 运行千问三 max 写的脚本时,直接出现了报错,我们将报错复制发给千问三 max, 它分析错误原理,然后重写代码,我们再次运行看一下效果。人物寻路逻辑存在,但是人物会穿模, 敌人会从我们模型直接穿过去,然后把我们围在一起看三个敌人已经重合,左键有发射的动画。 coin 三 maxing king 的 强项是边想边查边写代码验证。我们问他一个逻辑算法题,你有一个三升的水桶和一个五升的水桶,都没有刻度,水源是无限的。如何精准地量出四升的水?请列出每一步的操作步骤。 步骤没有问题,答案正确。我们再问一个逻辑陷阱题,三条毛巾晾干需要一个小时,那么九条毛巾在天气和光照条件完全一样的前提下,需要几个小时晾干。 它准确识别出了问题中的陷阱。回答正确,我们提问一个哲学思考问题,小明压力太大,连续喝酒死了,那杀死小明的是酒精还是过去?模型澄清事实,死因,急性酒精中毒。然后多维度解析分析了凶手, 探讨背后的哲学与逻理维度,最后提出总结,酒精不是凶手,而是绝望的再体,从自身朋友、社会寻找真正的凶手。后面 ai 还给出了心理援助热线。 快按。三 max thinking 是 一个闭圆的超大规模推理模型,拥有 et 加参数和二六二 k 上下文窗口,主打深度推理能力,但目前不支持本地部署。 训练数据三十六万亿 tokens 是 亏本二点五的两倍,适合处理超长文本或复杂任务,具备多语言推理和生成能力,覆盖超过一百种语言和方言, 在智能体编程、常识推理、数学与科学任务等场景表现优异,尤其适合需要深度思考的复杂任务。 特色功能可在 thinking 模式和非 thinking 模式间无缝切换,用户可控制推理深度自适应工具调用。在推理过程中,模型会主动判断这个问题算不准,需要写一段拍森代码来验证,或者这个知识点太新,需要联网搜索 测试时扩展 tts。 宽三 max thinking 采用经验累积的多轮策略,在第一轮思考后,如果发现不确定,会进行自我反思,提取上一轮的经验教训,再进行下一轮推理。 这两张图表都来自千问官方发的博客。从第一张数据表可以看出,宽三 max thinking 在 知识广度、复杂指令遵循以及工具使用上 已经具备局部领先 gpt 五点二和 gemina 三 pro 的 硬实力。第二张图直观揭示开启 tts 后模型在科研难题、高难度编程和开放式搜索上表现的提升。在官方报告中,昆纳三 max thinking 的 主要对标对象是 gpt 五点二 thinking、 cloud 四点五 opus 和 jameson。 三 pro 官方博课于二零二六年一月二十五日正式发布,宣告困三 max thinking 从实验性质转为正式旗舰产品转为正式旗舰产品,开发时需指定模型 id 为困三杠 max 杠,二零二六年一月二十三日 才能体验到最新的自适应工具调用和 tts 能力。在阿里云平台,模型共享一百万 token 的 免费额度, 如果你是一个程序员,需要 ai 帮你写复杂的项目架构, web 应用 cloud 仍是首选,它的工程能力目前独一档。如果你需要解决复杂的数学题, 做深度的数据分析或者处理逻辑推理任务,困三 max thinking 是 一个不错的选择。希望本期视频对您有所帮助,想看更多测评或最新资讯,欢迎评论区留言,我们下期视频再见!

别人推荐工具是收了钱的,我今天推荐的六个,全是我自己每天在用的。第一个, cloud code, 这绝对是生产力,天花板,剪视频、写代码、收集资料、装软件,一句话全搞定。我 现在基本所有工作都交给他了,接近自主编程的体验,每天离不开第二个,闪电。说语音转文字的天花板,速度快,功能强,能接各种 a p i, 还能本地部署,跟 ai 对 话时说话比打字效率高太多了。想要免费的智普 ai 输入法, 语音转文字不花钱,速度也挺快,日常够用了。第三个,通易千问会议纪要,开会开着它就行,自动识别多人对话,还能总结要点,区分发言人,关键是完全免费,良心!第四个, notebook l m, 酷狗家的学习神器,传个文档上去,它能帮你出 ppt、 出播客、出视频、出思维导图,学生认证,还能免费用十五个月,全家桶价值三百美元。最后 remotion, 你 正在看的这个视频就是用它做的。用代码写视频, ai 帮你剪辑、配音、加特效,视频制作进入 ai 时代,太香了,六个工具都是我亲测好用的!关注大古,下期见!




最近爆火的智能体 motbot, 名字还没被大家记熟,又又又更名为 openclock。 与其追逐快速的版本迭代,不如来看看这份更亲民成熟的桌面智能体平替方案。 阿里发布首个桌面智能体工具 quadwork, 它的目标简单直接,输入一句话就能指挥它调用电脑软件干活。网友调侃这是打工人之光,测评博主直呼太香了,夸他深沉。 ppt 逻辑清晰,处理 excel 又快又准,还能把图文一键转成视频脚本。 最关键的是,它让 ai 从云端落到本地,直接操作本地文件,兼顾了速度与隐私安全。阿里此时出手,正踩在 ai 智能体的全球风口上。国外的 open ai、 antropic 都在发力,特别是 cloud coork, 但每月不菲的会员费依然劝退了不少人。 阿里的 codework 此时亮相,无疑为国内用户提供了一个更接地气的选择。这得益于阿里在 ai 编程上的积累,其编程工具曾将开发效率提升百分之六十五,如今,这能力正从开发者延伸至所有普通用户。 从行业趋势来看, ai 正从聊天时代大步迈入行动时代。竞争的关键不再是聊天能力,而是理解人类意图并安全执行任务的本事。本地化隐私、安全、开箱即用, 将成为桌面智能体的核心胜负手。阿里 codework 的 发布,标志国产 ai 应用向真办式提效率的深水区挺进。未来的电脑里,或许真会多一位得力的数字同事,这场桌面效率革命才刚刚开始。那么问题来了,这样一个能替你干活的 ai 助理,月付多少钱?你愿意买单?

二零二六年这才刚开始呢, ai 的 牌桌就已经开始洗牌了。就在今天呢,阿里悄咪咪的发了个大正式,发布了千万的最新旗舰推理模型千万三 max thinking, 在 多个核心评测上直接超过了 g p t 五点二, cloud office 四点五,还有 gemini 三 pro。 注意啊,不是接近,不是差不多,是超过科学知识评测, g p q a demo 全球第一科学推理 i m o answer bench 全球第一代码编程 live code bench 全球第一。这次模型总参数量超过了一万亿,预训练数据三十六万亿的 tokens, 这个体量呢,放在全球范围呢,那绝对是第一梯队,但光靠堆参数是不够的,关键是它的推理机制呢,也做了创新。千文这次用一种叫做测试式扩展的新机制,他不是简单的多想几遍,而是会对自己之前的推理结果呢做经验提炼,想一轮总结一轮,再想一轮, 每一轮呢,都站在上一轮的肩膀上,这样相同的计算量下呢,就能得到更聪明的答案,而且它的幻觉问题也大幅的改善了,这是之前国产模型被吐槽最多的地方,动不动就会一本正经的胡说八道,这次据说在这方面呢也下了大功夫。 今天还有一个消息啊, deepsea 团队开源了 deepsea oc 二模型,采用了创新的 deepsea code v two 方法,让 ai 能够根据图像的含义动态重排图像的各个部分,更接近于人类的视觉编码逻辑。 在具体实践上呢, deepsea 团队在论文中写道,采用了千万二零点五币来实力化这一架构,所以啊,千万大模型不仅是直接面向用户的产品,也正逐渐成为 ai 产业中技术基础设施直接支持模型厂商、合作伙伴,还有开发者进行二次创新。 千万最新的推理模型呢,现在已经免费开放了, pc 端网页端呢,就能直接使用, app 呢也即将接入,想试试国产最强推理模型是什么水平呢?现在就可以去体验了。

今天教你如何使用 opcode 切换两个大模型,一个是 glm 四点七,一个是国产的千万大模型, opcode 提供的模型供应商有这些,你可以选择你需要的大模型进行切换。首先打开终端,输入这行指令, 可以看到我当前的大模型是 glm 四点七。最下面是让你选择是本地部署还是远程部署,我这里选择本地部署。 紧接着就是让你选择配置的区域,这里选择模型配置。再接下来就是进入到了模型列表界面,这也提供了很多的模型供应商, 因为我已经配置了 g m 四点七,所以我这里选择千问来进行配置。每一个模型后面都有写是进行授权登录,还是说通过年提 api 进行登录。 我们选中千问后回车,然后确认一下,会弹出一个浏览器的网页,我们点击一下授权的确认按钮, 认证成功后就可以回到命令行界面进行下一步的操作。在这个模型列表一页,他默认其实已经把纤维模型给选中了,我们可以往下滑找到纤维模型,确认一下是不是选中状态,也可以直接按回车进行到下一步。我这里已经看到纤维模型已经被选中了,我直接回车进行到下一步。 这个时候千万模型其实已经配置好了,我们点击键盘上的 esc 退出界面,然后再重新输入刚才的命令,确认一下是不是当前模型变成了千万模型。 我们输入键盘的 esc 退出后输入这个命令,打开浏览器界面,我们点击右下角的按钮,创建一个新的绘画,然后输入一个问题,你是哪个大模型?他的回复是同意千万模型。到此,整个切换模型的步骤就完成了,接下来我要切回到 g l m 四点七, 然后演示一下如何黏贴 api k。 前面步骤和刚才的千万大模型都是一样的,只不过是模型授权的方式不一样, 刚才是通过浏览器登录授权,现在是需要去对应的模型官方获取 api k 之后粘贴进来,选择 glm 四,点击这个模型之后,回车之后它会提示我要去黏贴 api k, 一 般都是登录官网找到 api k 管理页面,然后黏贴一下 api k, 身后的步骤和刚才千万模型的配置一样,我们直接回车就配置完成了。输入这个命令之后,我们可以看到当前的模型已经变成了 g l m 四点七。入这个命令之后,我们打开浏览器网页,在绘画窗口输入你是哪个大模型, 这个时候已经切换到 g l m 四点七了,整个过程就是这样,有需要的小伙伴快去试一试吧,这里是 ai 共生格,我们下期见。