大家好,最近呢阿里呢发布了千万的新的版本啊,千万三点六 plus, 他 据上一次的三点五 plus 其实时间并不很长,这个迭代速度是非常快的,那这个模型据说在编程能力上有很大的提升,所以呢我就准备了四个场景来测试一下他这个前端的编程能力啊。我们来看一下他这个介绍啊, 这边也是特别强调了在智能体的编程能力,无论是前端网页开发还是复杂代码的这个仓库级问题解析上,已经树立了一个业绩的标杆。 然后的话,他这边参数的话,我们可以看这几个编程相关的参数,都是跟 opus 四点五是非常接近的,而且是超过了国内的其他模型啊。 然后的话,他这个上下文是具有一百万这个上下文窗口,而且是多模态的,也就说可以识别图片啊,语音啊,视频之类的这种输入,所以从整体上看,在编程能力上比三点五 plus 是 有显著的提升。然后呢,我们来看一下他实际的测试效果, 那这边测试呢,我用的开发工具是这个阿里的 code, 然后它这边已经内置这个千万三点六 plus。 那 测试流程我们是还是先按照先做 plan 做计划,然后再执行,那对同一个需求呢?我们的对话不会超过五人,也就说有什么问题,五次对话之后如果没解决,我们就放弃了。 那以下的这个四个测试场景呢,是基于我个人的一个想法啊,并不代表权威,所以结果的话也是代表我自己个人。那么也受限于可能抠的这个工具的啊,这个限制啊,也并不代表说已经发挥了这个模型的全部的能力。那首先第一个是一个前端的测试,那这个测试是做一个这样的三人斗地主的小游戏, 那这个测试目的呢?是第一是看一下他写这个前端的逻辑的能力,会不会把这个斗地主这个规则给写错了。那第二就看一下他对这个斗地主这个游戏的界面设计的是不是很美观 啊?我们来看一下实际的效果,那这个就是他做出来的效果,然后我们可以看一下,那这界面上看是还不错,那我们随便点一点啊,那我们三带两张吧, ok, 呃,这个对家出牌我们是看不到的,所以这个体现在还是有点,我们是乱出啊,比如说我们可以 三个带两个不一样的牌看看啊,也能出出去,那说明它这个逻辑上是有问题的,那我们就啊不看了。那第二个呢,是做一个这种桌面软件,适配这种 mac 和 windows 的 一个 ai 编程工具, 然后的话可以打开这个 cloud code 或者 code s 这种终端命令啊。然后呢,我给了它一张图片来做参考,因为它是一个多模态的嘛,可以识别图片,那这边右边是,呃工作目录,那中间是我们的终端命令,行, 右边是这样 get 的 变更。那我们在使用 coco 的 编码来说,经常要开多个窗口,如果你使用系统默认的话,那开启起来是非常麻烦的,所以说市面上有一些这样的工具啊,来做这种事情,那我是简化了很多功能,让他来去做这个,看一下能不能做的出来,但是很遗憾是他这边经过我多次对话之后,仍然是启动不起来, 那后面启动起来也是一个黑屏,看不到任何东西,所以我就放弃了。那第三个呢?就做一个这种外卖点单的这种 app 啊, 那这个 app 的 话是包含了这种前端,也就是我们的这个 app 端,那也包含了一个后端,就是用 python 写的这个服务端,加上了这个 my circle, 那 主要的功能就是你可以登录,可以看菜单列表,然后可以加减,购物车呢,可以下单啊,我们来看一下它实际效果。 ok, 这边是它的登录界面,输入手机号,输入一个模拟的这个验证码,我们可以登录看一下,好进来了。呃,我觉得这个界面很一般啊。这个界面, 呃,这个也是加不了,购物车这个筛选,这个也加不了,这个也看不了,所以它这个这个还是有 bug 的 啊,这个还是有 bug, 测试不全,测试不全 我们也不管了。那最后一个呢,就是用 java 来做一个这样的优惠券与结算的这个系统啊。然后的话,这边的话是需要有做这种优惠叠加,因为如果你满足多种优惠的话,需要叠加,但有些优惠是不能叠加的。有一个这样复杂的计算逻辑, 那这边呢是要考虑边界,比如说冲突啊,顺序问题啊,先算哪个优惠啊?然后还要写单项测试来测这个关键的用力啊,我们看一下他输出的这个 java 的 代码啊,然后我也看了一下 啊,目前来说是非常不错的,他考虑了很多种情况啊,比如说他的分类满不满足,这个是在其他的这个啊,模型跑出来的例子里面啊,只有 jpt 系列考虑到了,就是这个,比如说你这个商品的这个分类是不参与活动的呢,是要把它过滤掉的, 但是很多模型其实都没考虑到,但是他考虑到了,所以说在在这个这,在这一方面我觉得他是有进步的。然后他这边测试用力也测试了 啊,所以说这个场景我觉得是 ok 的。 所以总的来看啊,就是千万三零六 plus 在 前端逻辑上我觉得是 a 加,因为刚刚试了,就是有一些很简单的这个游戏规则,它都不太行,而这边的话 u i 上面我觉得还行吧, s 吧,然后这个全站的话就是很一般, 那 java 的 话表现的不错,所以呢,整个总结下来优点就是它有一兆的上下文,但是扣的这个工具提供是两百个上下文,所以我还没有体现到整个一兆放开是什么样子的。 然后在这个复杂的 java 过程中,考虑的场景比较多,也是比较全,所以说在这方面是表现不错的。那缺点就是修复 bug 的 能力比较欠缺,也是容易兜兜转转,除非人为干预给出解决方向。 就比如说我们做的这个桌面软件,其实我已经给了他很多这种提示啊,但是还是没有把这个问题解决了。那第二个就是前端设计的能力欠缺啊, 就是它的这个 ui 展示方面还是不如,比如说 mini max 出的这个还不如这个。呃,小米的这个 vr, 上次做的这个斗地主的这个界面是非常不错的,总的来说是一款非常不错的模型,但是 整体的编码能力我觉得是不如这个 cloud opus, 然后也落于我们国内的其他家的这个最新的版本的这个模型啊,比如智普五点一啊, mini max 二点七啊,我觉得这个可能在我这些测试场景里面都比它们弱一些, 那可能就是我换一个编程工具,或者说我的提示词更加丰富一点,那可能效果会更好,这个就需要大家自己去测试了。 但是我觉得是一个啊,千万也算是向这个编程这方面已经在发力了,就是他们会提供更多编程方面的模型的这个进化,也希望他们就是能够做的更好。 ok, 本期视频就到这,希望这个视频对你有所帮助,祝你生活愉快。
粉丝3.2万获赞13.0万

今天,阿里发布千问新一代大语言模型千问三点六 plus。 千问三点六 plus 拥有原声多模态理解和推理能力,整体性能大幅增强。在多个权威评测中,千问成为当下最接近全球最强编程模型 cloud 系列的国产模型, 具备更强的指令遵循、文本和物体识别能力,在实际场景中展现出更强的可用性与稳定性。先问三点六 plus 支持一百万词源的上下文窗口,并集中对 open cloud 系列 agent 框架优化提升,专注解决更长城、更复杂的真实任务 编程能力。在前端网页开发、仓库级复杂任务等实测场景中,千问三点六 plus 可自主拆解、测试、修复错误,直至任务完成。 目前,用户可在官网、阿里云百链平台进行体验,千问 app、 悟空 coder 等阿里 ai 应用和平台也将于近期接入。

四月二号,阿里放了一个大招,千万三点六 plus 直接刷新了全球纪录。二号当天,阿里发布了国产最强编程模型千万三点六 plus, 编程能力直接冲上中国第一,全球第二。当晚模型上线,欧芬瑞特儿调用量直接炸了,激增百分之七百一, 单日调用量突破一点四万亿,打破了平台全球记录。官方说这是有史以来最强劲的新模型表现。 最骚的是什么?全球开发者开始用氛围编程,就一句话,让千万盛城网站游戏小程序一次制出,效果惊艳!国产模型这次是真的支棱起来了。

一个国产模型编程跑分干翻了 cloud, 推理速度还快三倍,价格只要十分之一。两天前,阿里偷偷发了个东西,叫 quan 三六 plus, 说白了就是千万的新版本。但这次不一样,它在编程能力上直接捅到了世界第一梯队。先说最狠的一个数字, s w e bunch, 这是全世界公认最难的编程测试,测的是 ai 能不能像真正的程序员一样去修 bug。 矿三六 plus 拿了百分之七十八点八什么概念? cloud opus 四点五也就这个水平,而上一代千问,连影子都看不到。注意,这不是一个几千亿参数的怪兽。 阿里用了限性注意力加稀疏专家混合架构,说白了就是不是每道题都派全部人上,而是每道题纸条最擅长的那批专家。结果用更小的参数量打赢了二到三倍体量的对手,以小胜大,而且推理速度是 cloud ops 的 三倍。 同样一个编程任务, cloud 还在想,千万已经写完了。铁子们,回想一下半年前你用国产模型写代码是什么体验?写个函数还行,稍微复杂一点就开始瞎编, 让它改 bug, 它能给你造出三个新 bug, 跨文件写作?别想了,它连上下文都记不住。所以大家都在用 cloud。 用 gpt, 不是 崇洋媚外,是国产模型编程确实不行。但这次千万三点六做了一件事,彻底改变了游戏规则,它不只是写代码,更准了,它变成了一个真正的编程 agent。 自主智能体。 什么意思?以前的模型是你问一句,他答一句,现在困。三六 plus 能自己规划任务,拆解步骤,写代码跑测试,发现问题自己改,整个流程,他一个人闭环,阿里管这叫计划执行、测试、优化、四步循环。 有人拿他实测一句话,让他做个 minecraft, 结果他不光做了基本的方块世界,还自己加了洞穴系统,矿石生成、岩浆交互、血条扣减,这些全是他自己想到要做的。没人提过他的上下文窗口是一百万 token, 一 百万是什么概念?大概七十五万字。你可以把一整个项目的代码、 所有文件、测试文档、提交记录,一股脑全塞进去,他全部能看到。以前的模型是盲人摸象,只看到一个文件,现在昆三六 plus 是 上帝视角,看到整个项目。还有一点,他专门针对 openclod code、 昆 code 这些 agent 的 框架做了优化。 说白了,你现在就能用你手上的工具直接接上这个模型干活。那对我们普通人来说呢?第一,编程门槛被拉低了, 你不需要会写代码,一句大白话,它就能帮你搓出一个完整的网页,一个小游戏,甚至一个数据分析工具。有人实测 一句,帮我做个虚拟宠物养成游戏,两分钟出来了一个带状态栏任务系统、金币商店的完整网页。一句做个塞尔达风格的雪山场景,直接渲染出带动态雪花的三 d 世界。第二,它便宜到离谱,百万投屏输入才零点五美元,输出三美元 cloud 呢,至少贵十倍, 千万 app 直接免费用。第三,它是国产的数据合规服务器,在国内中文理解更好,对企业来说,这三点就够了。总结一下,款三六 plus 这次不是又发了个模型那么简单, 它是国产 ai, 第一次在编程这个最硬核的赛道上,真正摸到了世界第一梯队的门槛。而且它不只是跑分好看,推理速度快三倍,价格低十倍,还能当自主智能体用。当然它也不是完美的, 在一些逻辑陷阱测试里,他还会过度推理硬套复杂解法,但瑕不掩瑜这个方向。对了,阿里已经预告了更强的困三点六, max 马上就来。

阿里刚发布的 qm 三点六 plus, 最离谱的是它的 api 定价直接把行业价格打到了 cloud 十二分之一,输入一百万 token 只要两块钱,输出十二块。但低价并不意味着低能, 这个模型原生支持文本、图片和视频的多模态输入,还给到了一百万的超长上下文窗口。它这次的核心强化方向是 agent coding, 也就是智能底编程能力。简单来说,它不再只是个聊天机器人,而是一个能调用工具自主执行复杂编程任务的生产力工具。 我们来看第一个视觉编程案例,只需要输入一张书包的产品图,要求生成一个面向中小学生的销售页面。模型首先会对图片进行视觉分析,精准提取出产品的主色调,并以此构建整个网页的视觉体系。 它不仅实现了响应式设计和交互动画,最关键的是它生成的 logo、 logo 以及详情页的小字说明在商业逻辑上是完全自洽的,没有出现那种 u i 很 漂亮但文案完全不搭的割裂感, 如果输入量增加,效果依然稳定。这次我们给他一个包含多张模特照片的文件夹,要求搭建一个具备高级审美的摄影师作品网站 模型,能够将多张图片的视觉特征进行整合,输出一套风格统一的响应式界面。在这种复杂的网页生成任务中,他展现出了极强的文案掌控力,所有的文字描述都符合预设的高级商业语境,真正做到了视觉美感与内容逻辑的高度统一。 除了编程,他的视觉理解能力也突破了。基础的文字识别在成都地铁线路图的测试中,我们要求他规划特定站点的最少换成方案 模型,在后台进行了长达一百二十八秒的深度思考,最终给出了正确答案。这个过程证明了他不是在简单的做 ocr 文字识别,而是能够结合视觉定位、路径解锁和方案比对,完成一次复杂的空间推理任务。 同样的能力也可以应用在数据分析上。当我们输入模型自身的 benchmark 数据图表,让他总结自己的优势,他能迅速将视觉上的图表信息转化为结构化的文字结论,这进一步验证了他在处理专业图表时的泛化能力。 接下来进入最核心的 agenc 智能体能力测试,我们要求他开发一个具备多模型接入、联网控制和风格模板解析功能的 ai 写作神器,且必须是单文件 html 形式。 在短短半小时内,模型通过五次快速迭代,最终交付了超过两千行的可运行代码。这种能够自主修正、快速迭代的开发模式,极大的提升了实际的工程效率。 对于更复杂的长城任务,它的表现同样出色。我们给他布置了一个混合任务,先联网调研张选机车品牌,然后生成一份五千次的 word 报告,最后再调用技能构建一个相关的知识网站。在整个过程中,模型累计调用了 websearch 和 python docx 等外部工具超过五十次, 最终产出的报告信息完整生成的网页在 ui 和内容质量上都完全符合预期,证明了它具备极强的复杂工具链串联能力。 综合这次实测结果, q n 三点六 plus 在 视觉图表解析、多模态网页、深层长文本理解以及复杂工具链调用这四个维度上都展现出了极高的可用性。 结合它极低的 api 定价,在当前阶段具有非常强的性价比优势。而且阿里官方已经承诺未来还会派员更小规模的模型版本,这让它的应用前景更加广阔。


大家好,我是瑞克老张。这两天科技圈出了很多大事,可能有不少呢,没有人太注意,阿里四天时间连发了三款大模型,每一款都在权威评测里拿到了同品类的头部成绩。这个不是普通的产品更新,这是一个信号。先说今天的主角,今天刚刚发布的千问三点六 plus, 这款模型直接拿下了国产最强编程模型的称号。什么意思?它的编程能力超过了它数量是自己两倍甚至三倍的国产竞品。像 g l m 五、 dm 二点五这些,在 s w beach 还有 terminal badge, 还有是 cloud evo 这些权威评测里, 千万三点六 plus 的 表现已经能跟全球顶尖的 cloud o plus 四点五掰掰手腕儿了。更厉害的是它的工程落地能力,它支持什么?代理式编程和氛围编程,说白了就是你用自然语言说一句话,它自己能拆解任务、规划路径,写代码、测试、修改,最后把整个项目交到你手上。 以前程序员写几个小时的活,现在一句话搞定。而且他支持高达一百万 tiktok 的 上下文窗口,整本的技术文档、大型代码库他都能装得下。这已经不是辅助公寓了,这是一个能独立干活的 ai 工程师。 再来看看另外两款模型,三月三十日,前本三点五欧迷你发布,一口气拿下了二百一十五项权威评测的优异成绩,这是全模态大模型的顶级选手。 四月一号,万象二点七 m h 发布,这是图像生成与编辑的统一模型,做到了千人千面惊鸿调色、人类偏好盲测,评分国内第一,你看懂这个节奏了吗? 多模态理解、文商图、编程能力,这三个领域,阿里全部都做到了领先,这不是巧合,这是系统性能力的集中释放。 前面的底子到底有多厚?对一个做基本面分析的人来说,通用实验室不是单点突破,而是多点布局,全面开花。我看到的不是一款产品的成功,而是一个技术体系的成熟。看来阿里新成立的 at h 事业群 真的开始发挥功效了,它的研发体系、人才储备、工程能力都已经全面升级,这才是真正的护城河。好,今天到这,我是瑞克老张,关注我,大家看中国科技的高度和温度,我们下见。拜拜!

国产 ai 又搞大动作了,直接打破国外编程模型垄断!四月二号,阿里刚发布 quan 三 six plus, 悟空就率先完成接入,这波速度直接拉满,堪称国产 ai 的 梦幻联动,程序员看完都狂喜!别以为这只是简单的功能更新,这波操作直接颠覆行业认 知。很多人不知道 quan free 六 plus, 可是现在国产编程天花板权威评测里,编程能力直接超越二到三倍参数量的同类模型,快追上全球最强的 cloud 系列了。 重点来了,悟空接入后直接开挂!以前 ai 编程只是辅助,现在直接升级成协作者,能自主写跨文件代码,跑测试、修 bug, 甚至能基于设计稿生成前端页面,一句话就能搞定程序员几天的活。更香的是性价比拉满,每百万 tokens 才两块钱,企业用起来成本直接腰斩。这波联动的核心不只是悟空变强,更是国产 ai 的 底气觉醒。别人还在依赖国外模型,物 空直接绑定国产最强编程模型,从企业研发到日常办公,全场景适配,还能联动,钉钉打通企业工作流。这不是简单的功能叠加,是国产 ai 从技术突破到场景落地的关键一步。未来,程序员的效率要被重新定义,国产编程 ai 的 时代真的来了!

q n 三点五昨晚发布了,但官方数据再漂亮,也不如社区实测的红黑榜靠谱。如果你有二十四 g 显存,无脑充三十五 b a 三 b, 它是这代的版本之子,代码和逻辑能力在这个量级基本没有对手。虽然每次推理只激活三十亿,参数速度飞快, 但记得他吃的是三十五 b 级别的,现存二十七 b 表现比较平庸,除非你的设备实在跑不动大的,否则不推荐吃鱼。 flash 版,它是处理百万字长文本的神器,本地跑太费劲,直接调 api 效果最好。 今天的视频不废话,直接把压箱里的推理参数、部署命令和调优经验喂给你,让你少走弯路,直接上手。 模型选好了,但如果参数设错,再强的模型也会变傻。先看最核心的深度推理场景,比如做数学难题或者逻辑推演,这时候必须开启千问三点五的思考模式。 注意,这里的 temperature 建议直接拉到一点零,这种高温设置能充分激发模型思维的多样化,同时配合一点五的存在惩罚,也就是 presence penalty, 这能有效解决模型在大规模推理时容易出现的复读机问题。但如果你是要写代码或者搞外部开发, 逻辑的严密性就比灵感更重要了。虽然同样是在思考模式下运行,但要把 temperature 降到零点六左右,降温是为了让模型输出更稳,少一些天马行空的幻觉。 top 维持在零点九五, 这样深层的代码逻辑会更连贯,能大幅提升代码的一次性通过率。再分享两个能让效果翻倍的小细节,第一是输出长度, 也就是 max tokens, 普通的活三十二 k 够了,但要是跑竞赛题目,建议直接拉到八十一 k 以上, 这多出来的空间不是给最终答案的,而是给模型留足打草稿的思考过程。第二是提示词技巧,做数学题一定要在末尾加一句,请逐步推理,并将最终答案写在框内。 要这层格式就明确要求只输出字母明确的指令边界,能让模型从猜你想干嘛变成精准执行。 最后必须划个重点,关于存在惩罚这个参数,虽然前面建议设为一点五,但你手动微调的时候千万别超过二点零。一旦设高了,模型会为了强行避开已经说过的词,开始强行凑数,甚至胡言乱语,整个逻辑会瞬间崩坏。 控制在零到二之间,这是千万三点五保持理性的最后安全区,模型调好了,怎么稳稳的跑起来?目前性能最强的是 s g l m 方案安装,别用慢悠悠的 pick 了,直接用 u v, 效率最高。 启动时一定要手动加上 razingpasta 这一行,这是千万三点五开启思考模式和工具调用的物理开关,漏掉它,模型就退化成普通版本了。 多卡用户记得根据显卡数量对齐 tv size 参数,确保算力全开。很多人一跑部署就炸显存,其实是因为忽略了那个默认二十六万长度的上下文设置。 如果你的显存没到八十 g 以上,千万别直接硬跑。建议手动把 context lens 压到幺二八 k 甚至更小,再配合 memfraction static 零点八这个参数,把静态显存死死锁住,这样能有效防止推理过程中显存突然飙升导致的崩溃, 让长文本处理变得真可用。如果你习惯用 lu l m 部署,这里也有个压榨显存的绝招。 再加上蓝宝石模型函数,虽然会暂时舍弃多模态视觉能力,但能为你换回巨大的文本处理空间,这在跑超长代码审计或者纯文字逻辑推理时是性价比最高的选择。确保带上 reasoning part, 让 v o l m 也能输出那串关键的思考过程。 如果你是通过 api 调用千文三点五,千万别在提示词里加斜杠 think 指令模型根本不吃这一套。正确的做法是,在 api 的 extra body 参数里,通过 chat template quicks 手动控制 enable thinking, 把这个布尔值设为 false, 模型就会跳过思考,直接给结果需要逻辑爆发时再开启,这是目前开发者最容易忽略的传餐细节。 要处理整本书或者超长文档,你就得开启千万的 r n 扩展,在 v l o l m 启动参数里追加这段,重写代码,把 max model line 拉到一百万以上。 这里有个独家经验,如果你的文档只有五十万字左右,把 factor 系数设为二点零的效果要比默认的四点零更精准。只有当文本真正接近百万级别时,才建议拉满到四点零。 想让模型看懂一两个小时的长视频,去修改模型文件夹里的视频预处理配置文件,找到 longest edge 这个参数, 把它改成这个九位数的特定值。这一步能让模型处理超过二十二万个视频 token, 无论是长篇分析还是监控复盘,理解深度都会产生质变。 最后总结一下,对于大多数本地用户,无脑充三十五 b 的 a 三 b 版本,只要你有一张二十四 g 显存的卡, 把它跑起来,温度拉到一点零,开启思考模式,这就是目前本地体验最好、逻辑最硬的中杯模型。上下文平时空在十二万左右,兼顾速度和显存,按这个配置跑,你就已经超越了百分之九十的普通玩家。

阿里刚刚发布了千万三点六 plus, 定位是当前国产编程能力最强的模型。根据官方公布的评测结果,在一些权威的编程测试里,它的表现已经超过了参数规模是它两三倍的其他国产模型,编程能力 已经接近了全球顶尖的 cloud 系列。这模型最大的亮点是它的智能体编程能力,它不再只是回答你的编程问题,而是能像一个真正的程序员助手在那干活。 如你给他一个前端网页开发的任务,或者一个复杂的代码库问题,他能自己拆解步骤、规划路径、写代码、测试修改,直到把活干完。另外,千问三点六 plus 是 一个原生多模态模型,这意味着他不仅能够理解文字,还能看懂 图片。比如你给他一张界面设计图或者一个截图,他就能理解你的意图,并生成相应的前端代码。这打通了从看界面到写代码的完整链路。在技术参数上,它支持高达一百万词源的超长上下文,能处理很长的文档和复杂的对话切分。三点六 plus 的 发布,标志着国产大模型在编程 这个实用的赛道上又往前迈进了一步。对于开发者来说,这是一个值得尝试的新工具,目前已经开放体验,感兴趣的朋友可以尝试一下。这小花推荐第五百一十七个神器已经同步到 ai 星空岛了,上岛解锁更多硬核 ai 工具!

大家好,我是 gavin。 最新消息,发布仅一天的千万新模型 quin 三六 plus 冲上全球知名大模型 a p i 调用平台 open router 的 日榜榜首。 open router 官方数据显示, quin 三六 plus 的 日掉用量突破一点四万亿 token, 打破了该平台的单日单模型掉用量的全球纪录。千万三点六整体性能较三点五进步显著, 并且涌现出极强的智能体编程能力。在系列编程能力权威评测中,千万三点六编程表现超越二倍乃至三倍参数量的 glm 五、 kimi k 二五等模型,成为当下编程能力最强的国产模型,接近全球最强编程模型。 cloud 系列。屏幕前的你怎么看?我们下期再见!

这个千万三点六 plus 模型真的是太好了,之前我这个龙虾用的是 kimi 模型,让它操作浏览器,进自动化操作的时候往往是不行的, 现在又接了这个千万三点六 plus, 我 这个龙虾可以操作浏览器了,用的是 playrite 这个工具,现在它开始自动化操作这个浏览器了,而且是操作的 age 浏览器。

速看今天两款国产大模型更新,一个是阿里的千问三点六 plus, 一个是智普的 glm 五 v turbo。 我 们先看千问,千问三点六 plus 这次重点很明确,主要提的是 coding、 agent 和工具调用这几个方向, 简单来说就是代码能力更强,任务连续性更好,工具也调的更顺。而且他这次默认就是一百万上下文,多模态能力也显著提高了,包括文档理解、视频推理还有视觉编程。再结合公开跑分来看,千问三点六 plus 在 自动化评测榜单里拿到了九十五分,表现很强。 再看智谱 glm 五 v tobo, 这次主打的不是普通多模态,而是视觉编程,他想做的事情也很直接,就是把图片、视频、设计稿、网页界面这些信息直接接近抠顶工作流,像设计稿转代码截图找 bug, 还有 gui agent 这类任务,都是他这次重点覆盖的场景。从公开斑旗 mark 来看,设计稿还原网页自主浏览,还有移动端界面操作,这些能力 表现都很亮眼。所以把今天这两条更新放在一起看,一个是在继续强化通用 agent 和代码执行,一个是在补视觉编程这条链路。如果你最近就在看 agent, coding 或者多模态,这两款都值得试一下。

大家好,我是歌舞,今天是 open club 的 系列课程的第三十九堂课,千万三点六 plus 免费试用。最近我刷到的这个消息啊,全是追马仕,他不愧是开元的王者, 今天一个偶然的机会,我看到千万三点六 plus 在 四月初,四月初在这个开元社区开元,他的性能本身也不差,但是跟追马士比的话,有一种寄生于和声量的感觉啊, 但好用是真的好用啊,不花钱也可以玩一会,我就演示一下如何在龙虾里面免费的使用这个前文三点六 plus, 看完咱们就能上手跟我一起来操作吧,给大家讲一下如何配置这个前文三点六 plus。 如果你对这个这个 改 openclaw 的 这样一个配置文件很熟的话,那你建议用这种方式啊,首先去找到这个 agent agent 这样一个根节点,把这个主力模型改成这个 openclaw 这个这个, 那第二的话,需要把这个模型把它配置到这里面去啊,也就是这个地方,这是第二处啊,你所有需要呃使用的模型啊,就是在这个龙虾里面 models 里面能搜索到的这个都是在这个地方,需要配配置过来,我可以给他演示一下,就是这个,就这个右边 models models, 哎,就你所有的模型都会在这个地方,哎,这是我所有的这个模型啊,这主机模型就是 j 码二二十六, j 码是二十六 b 的 这样一个,我现在把它改成了这样一个 open loop 的 这样一个三点六 plus 啊,那还有一个地方需要改的,你需要把这个这个 这个玩意配置到,你需要把这个东西配置过去,需要把它配置到 pro y 的 里面去,那就这一块是必不可少的,就 pro y 的是里面需要制定一个这样一个模型啊,这上面是我的这个 api key 啊,但是我到时候把它打打上吧。对, 这删除地方必须改啊,如果你觉得是改很麻烦的,其实还有一种方法,首先,首先你需要去在这个 open loop 申请一个 api key, 那 申请了 api key 以后,你那你需要在龙虾里面 config 去配置这样一个这个 open loop 可以 去配置模型。这里有一个叫 open loop, 把它粘过去 啊,你模型的话可以选择这个,看到吗?这个前文三,这个是六三点六 plus 是 free 的, 免费的,你就用它吧。对,然后看天有, 哎,这就好了,对吧?好了,以后的话我这边就,呃,应该是重启网关了,它其实自动的,应该重启网关,它没启动网关的话,你就 open call 啊, get away start 启动这个网关它应该就可以用了。 他说没有加载,没有加载,就这样的, 没加载,就这么着没换到。 openload, 大家多尝试啊,我把它切换到 openload 的 话,这个前文三点六 plus 应该就生效了。这堂课就分享着,你学会了吗?

今天再给准备养小龙虾的新手小白说一下这个小龙虾的坑啊,就是我们在很多自媒体账号上面看到的这个多 a 的 协调工作,或者说叫多电子员工协调工作。 那打个比方,假设我给他布置了一个任务,对吧?要去这个网站上面收集一些数据,分析一些图片,然后再把这些数据分析好,汇总好, 这个发给我。那么我给他理论上特别美好的设想,就是我给他配一个专门用于分析这个图片的这个电子员工,对吧?然后专门用于抓取数据的电子员工,专门用于分析的电子员工。在最后弄一个秘书电子员工,对吧?专门用于做报表汇总。 那你像我这边一共有八个 a 金的啊,这个设想是非常美好的,但实际应用起来是非常坑的。坑在什么地方?假设比如说这个 电子员工,他是主脑,他收到信息以后,他收到任务以后,开始发送分发给下面这几个电子员工,那么他在分发的过程当中会产生一个 top 的 消耗行为,那就浪费了,对吧? 那你像这个主脑分发给他,好浪费三十万、五十万的 top, 他 再去收集这个数据,花费了一百来万的 top, 甚至两百万的投坑,然后他再把这个数据返回给他,又花费一百万的投坑,这个是非常浪费的,非常浪费的。 你如果让他全部执行的话,让他自己执行这种简单任务的话,是根本不需要浪费那些投坑的。第二个是也是最重要的一个坑,就是信息的损耗, 我们人把这个任务布置给这个 ai, 他 会把这个任务理解一遍,精炼一遍,这已经产生了一个信息损耗行为,然后他再把这个精炼的任务再分发给下面的这几个电子员工, 这几个电子员工呢?他又会把这个命令再精练一遍,那相当于你最终出来的任务执行效果质量是非常差的。除非说你对他有强约束,或者说有强规则的框架,否则的话他的这个任务执行质量一定是变差的。 那么什么样的适合这个这种多电子员工协调工作呢?首先大型项目, 比如说你要编一个小程序,那么每个 ai 模型呢?他有各自的一个擅长和不擅长的,对吧? 呃,我们编小程序啊,前端可以用这个 kimi 杠 k 二点五,因为它是带这个多模态视觉识别能力的,它代码能力也尚可。那么后端数据库之类的,你就让 g m 杠五去弄这个东西,因为它是不带视觉识别的,但是它写代码的质量非常好,那么这两个你可以让它协同工作。 还有一些非常大型的项目,或者说非常那个专业的项目,比如说你需要审计,审计东西,对吧?报销审计这一块的,那你可以给他配一个什么?可以给他配一个这个 o c r 模型,对吧?这个作为一个专门的一个子员工, o c r 模型是专门用于识别这个照片文本这些东西的,就是你的发票啊,然后你的证件啊之类的,这个是专门用来识别这个的,你可以给他单独配一个这个啊,作为一个专门用的一个电子员工,其他的一般是用不上的啊。

刚登录 openroot 一 天的阿里千万三点六杠 plus 模型就直接炸穿了全球大模型的天花板。给大家说一下, openroot 是 全球最大的 ai 大 模型 api 聚合地,相当于大模型的全球竞技场,谁的掉用量高,就说明全球开发者越爱用越认可。 咱们国产的千万三点六杠 plus 刚上线一天,直接干到一点五七万亿头盆, 这可是 openroot 史上第一个单日处理量破一万亿 token 的 模型,上线当天就暴涨七倍,直接把第二名揭月星辰 step 三点五杠 flash 甩了快十倍。 什么谷歌、 jimmy、 cloud、 gpt 这些海外老牌大模型,全被它远远甩在身后,连前排都挤不进去。 oppo rota 官方都专门发文祝贺,说这是今年新上线模型里最强的单日表现,目前模型免费,大家快去试试吧!

就在一小时前,阿里正式发布了千问三点六 plus 模型。在智能体编程、前端页面设计以及复杂的代码设计领域,千问三点六 plus 都有了全方位的大幅能力跃升。模型默认支持一百万上下文窗口,多模态感知与推理能力得到了极大增强。 奔驰 mark 结果显示,模型除了在编程评分中稍逊色于 clod 四点五 opus 模型外,其余各项能力都已经全面比肩国际顶尖模型。使用千问三点六 plus, 你 可以一句话生成图文并茂的番茄炒蛋完整制作步骤,或是让模型帮你精确微调网站的商品展示效果, 亦或是让模型观看一段视频后直接生成数据推理和分析报告。最夸张的是,模型还可以帮你从长视频中找到精华部分,并自动生成新的短视频剪辑。 目前,用户可以通过阿里云百链平台购买 colin plan 来直接使用最新模型,其最便宜的版本为每月二十元人民币。