一分钟看完一周 ai 大 事, anthropic 官宣太阳系最强大模型参数规模首次冲上十万亿,核心基本测试全面领先,编程能力实现断层跃升。 anthropic 放话, mythos 的 能力太过可怕,不适合公开发布。 mythos 在 各种操作系统、浏览器和基础软件里挖出了几千个高危漏洞,完全不需要人类指导,一句话就能让它自主找漏洞。 mythos 还展现出极强的人格, 有自己的主见,遇到分歧会跟你硬刚。智商爆表的他还能识别出测试人员,故意扮傻,给出低分答案,让自己表现的不完美。他甚至能百分百抵御提示词注入攻击人类的 pua 话术在他眼里就像大傻子。 最恐怖的是, methos 根本管不住他用一串漏洞提全,从没有联网的沙盒中逃逸,还主动发邮件向安全人员炫耀。 anthropic 甚至不敢百分百确认他有没有逃逸到互联网。三傻中最不被看好的 claude 率先摸到了 agi 门槛。 anthropic 全力压住 ai 编程,获得实时回报,成功开启 ai 自我进化的飞轮。 ai 正式跨过进化极点。 open ai 发布超级智能经济蓝图, 呼吁对 ai 和机器人征税,建立公共财富,发放全民基本收入。建行一周四天工作日, ai 改写经济进入倒计时。 madai ai 重组后发布首款大模型,综合跑分仅次于三萨,通过惩罚大模型,用思考时间换智商。 tony 爆浆十倍智普上线最强开源大模型,连续开发八小时,造出完整桌面系统,编程能力晋升第一梯队研究员开源最狠 ai 压缩算法, 比 google 的 压缩参数再降四十倍,内存价格赶快降下来吧! anthropic 上线 agent 包工头,只要告诉他任务和评价标准, ai 就 能自己搭建专属智能体,比如告诉他去大 a 赚钱。 gemini 上线概念可识化,复杂的概念直接变成交互式动画教学工作者狠狠马住! claude 上线 word 插件,能用修改模式帮你改稿。 claude 正式打通 office 三件套。阿里发布最强视频模型,文声视频和图声视频 双料第一小道消息四月底上线!米哈油发布最强数字人模型,给他一张肖像和参考音频,就能生成超真实数字人,能实时语音互动,无限时直播。数字人正式迈入数字生命。研究员开源最强世界模型,普通视频变成能实时探索的四 d 世界 研究员,开源最强虚拟试穿模型,它能直接生成带动作的视频,人物和衣服一致性拉满,不用下单也能看到买家秀。 a 四开源最强音乐模型,跑分击败 solo, 十二 g 显存可运行,人人都能让 ai 唱歌。 generalist 发布通用机器人大脑模型,精细操作成功率冲到百分之九十九,速度快三倍,一小时就能部署上岗,马上进流水线打工。
粉丝41.8万获赞210.2万

国产 ai 炸场,全球首个八小时持续工作大模型智普 glm 杠五点幺开源了!四月八号,智普 ai 正式开源,旗下开源旗舰模型 glm 五点一,全球第一个能连续稳定工作八小时的开源 ai, 从过去一问一答的分钟级交互,直接升级成自主规划、执行、调试迭代的工程级智能体,一次任务能跑一千七百多步,不中断,睡前下达指令,醒来直接收完整项目成果, 代码能力直接登顶 threebench pro 全球第三,国产第一,开源第一,分数超越 cloud opus。 四点六编程系统构建数据库优化全市顶级水平七百四十四 b 总参数推理值激活四十 b, 高效又强悍。更重磅的是, glm 五点一直接涨价百分之十!核心编程场景定价对齐国际头部 pos, 这是国产大模型第一次不靠低价,不靠补贴,凭硬实力和国际巨头同价竞争。 以前是便宜能用,现在是顶尖定价,全球认可。从跟跑到领跑,从低价到溢价,智普 g m m 五点一,标志国产 ai 正式迈入全球第一梯队,这才是中国 ai 真正的底气!

断档第一!就在刚刚,智普 g m 五点一登顶 swbench 等一众硬核榜单,连 happy face 的 ceo 都发文祝贺。在编程能力三项综合测试中, g m 五点一也达成了开源模型第一,国产模型第一的成就直逼 clop 四点六和 g t 五点四 外,网上已经开始疯狂安利了。所以今天六博士就和大家一起拆解这个被称作新晋国产元神的 gm 五点一究竟有什么创新点?他的实战能力到底如何呢?点赞收藏,方便回看!接下来一起进入本期云祖会 gm 五点一的强大可以总结成一个词,长城任务能力。什么是长城任务?简单说就是那些不能靠一句提示词解决,需要跨步骤、跨工具、跨时间持续推进的工作, 比如开发一个完整的应用,或者重构一个老项目。 ai 模型评测机构 m e t r。 研究显示,在编程领域, ai 能完成的任务复杂度呈指数级增长, 每七个月就翻一倍。行业的共识是,单人回答已经不够看了。正如 m i t tech review 和顶级资本所判断的,二零二三至二零二四年的 ai 是 对话者,而二零二六至二零二七年的 ai 正成为执行者。 交付单位正在从一个回答变成一个项目。以前的模型像个聪明但健忘的实习生,走几步就要人提醒,稍微复杂点就丢上下文忘约束你,让他忘了你删不之前说的数据库规范。 而 glm 五点一的目标是让它能独立交付,对最近非常火的 harness engineering 无疑是锦上添花。长城任务能力才是检验模型智能的下一个标准。 口说无凭,我们来实测一下,我们直接拿号称宇宙最强的 cloud opus 四点六和 glm 五点一做对比 来,我们现在开始丛林手搓一个植物大战僵尸。我们可以看到,在搭建整个游戏框架的时候,居然五点一完全自主规划并执行模型,创建了五乘九的方格,按照类别创建植物僵尸并设计游戏机制。来看看,不错啊,感觉有模有样了。 那我们来考验一下他的长城任务能力,让他再优化更新一下游戏输入提示词,增加观察选择、返回菜单按钮功能。 可以看到,虽然整体美工上因为没有着重设计,稍微有些简陋,但在游戏机制和体验上, g o m 五点一完美复现了植物大战僵尸的核心内容。而且体验最好的是它中间遇到翻译报错时能自己查日期,改代码,重新跑通,全程无需人工介入。 反观 core 这边,实在出乎我的意料,一开始点开始游戏进去没画面修正以后,美术风格也不如 g l m 五点一。接着我们来再看其他四个案例的对比, 刚刚看到的四个案例,不论是火山爆发还是月球围绕地球旋转动画, g l m 五点一都是全流程一次过,而 cloud 在 火山喷发和机械表案例第一次喷不出画面。 所以说结果就见仁见智了。至少从以上五个案例上看, g i m 五点一是更好的那个。 为什么 g i m 五点一能扛住长任务,不跑偏,不锻炼核心有三点。第一,更强的长城规划与目标保持 模型,不是你说一步他做一步,而是能把复杂目标拆解为多阶段可执行计划,并在长链路执行中始终围绕最终交付推进,减少跑偏、遗忘、约束或陷入局部坠油。 第二,更稳的多工具协同、代码编辑、环境调试、 api 对 接环节衔接稳定。过去开源模型长任务后半程容易断裂,而现在 g m 五点一能自主排查修复,不用停下来等你。 第三,更好的上下文一致性,这是他能对标 cloud op 四点六的关键点。在多轮交互后期,模型啊仍能稳定追踪已完成的内容,当前阶段和下一步的关键动作,有效解决了上下文中的稀释效应。 这一切的背后,是 g l m 五点一引入了 multi turn 强化学习和过程质量评估体系,它在可能性、自适应、纠错、工具使用与推理三个维度实现了进化。对比 k 二点五等竞品,它不再是需要盯着的聪明应届生,而是给目标就能独立交付的老员工。 试完 g l m 五点一之后,我装那愣了一会。之前编程啊,我更愿意用 cloud, 但这次试了 g l m 五点一之后呢,确实不得不感叹,国产模型的进步啊,真的很大。 以前我觉得 ai 再强,它也只能做碎片化的工作,我作为拆解任务把控权局做决策的人,位置啊是安全的。但当模型啊开始自主规划、自主执行、自主纠错、自主交付时,我突然意识到自己的可替代性啊,在迅速上升。 我并不想呢,贩卖焦虑,但你体验过之后,肯定能明白我想表达的是什么。最后, g m 五点一墙归墙,但你这抠钉 pen 的 速度啊,实在是有一点供不应求了,赶紧给服务器扩扩容吧。

我的天, gmail 五点一也开源了!我记得它三月底才上线,怎么今天就开源了? 最近的 ai 圈是不是要变天了啦?这个模型的代码能力位列全球第一,超越了 g e t 五点四和 cloud opus 四点六,而且官方习册用了八个小时,长时间自救工作从零星成 linux 桌面, 太恐怖了。如何使用 g m m 五点一可以在线调用 a p i 进行聊天或者本地部署。但是 g m m 五点一本地部署的硬件要求实在是太高了,大部分个人电脑的配置都不太行,咱们可以用欧拉玛平台的云端代码示意行。

大家好,今天我们来深度解读智普刚发布的 glm 五点一,一个能独立工作八小时,编程能力达到 cloud opus 九十四点六的开源模型。这不是渐进式进步,这是开源模型的范式跃迁。先来看智普这半年的迭代速度,从去年底的 glm 四点五,到今年初的 glm 四点七,再到二月的 glm 五, 然后三月二十七号 g l m 五点一就上线了,距 g l m 五发布才一个多月。而且智普这次发布非常低调,没有发布会就在用户群里说了一句, coding plan, 全体用户直接升级,但成绩是实打实的。 artificial analysis 综合能力开源第一, s w e bench 代码工程能力开源第一, open router 用量开源断档第一。三个维度同时登顶,说明这不是偏科,是全站突破。 g l m 五点一最核心的突破不在于能回答多难的问题,而在于能独立工作多久。过去所有模型的交互模式都是分终极的,你给指令,他给回答, g l m 五点一打破了这个限制,能在单次任务中持续自主工作长达八小时,完成规划执行、迭代优化的完整壁画。 具体来说,他在三个方面实现了质变,第一,长城规划与目标保持,你给他一个目标,他自己拆除执行路径做到第十步,还记得第一步定的约束。第二,多工具协调,不是会做一步,而是能跑完全程。第三,上下文整合,不再出现做到一半忘了前面约束的问题。 来看技术架构, glm 五点一的总餐数量是七百四十四币,采用二百五十六个专家的猫易架构,但活跃参数只有四十币, 相比上一代活跃参数仅增加了八 b, 能力却实现了飞跃式增长,这说明架构效率极高。三大关键技术,第一, deep seek space attention 稀疏注意力机制,在保持二百 k 上下文的同时,大幅降低部署成本。第二, slime 亦步强化学习框架,这是质朴自研的 r l 训练框架,代号史莱姆已经开源,它让模型能在优化碰壁时主动切换策略,而不是反复尝试同一个方向。 我们把三代模型放在一起对比, glm 四点七十三为五 b 参数,三十二 b 激活定位高性能编程模型, glm 五完成了从三百五十五 b 到七百四十四 b 的 架构跃迁,编码评分三十五点四,而 glm 五点一在同样的七四四 b 架构下,通过 slm 二 l 和 dsa 的 技术创新,把编码评分拉到了四十五点三,相比 glm 五提升了百分之二十八。长城任务能力的变化最为显著, g l m 四点七是分钟级, g l m 五也是分钟级提升,而 g l m 五点一直接跳到了八小时级,对,其目标也从 s n a 四点五一路追到了 opus 四点六。这印证了一个重要趋势,模型能力的提升不再单纯依赖参数规模, 而是靠更聪明的训练策略和架构优化。来看三个震撼案例,第一个睡前交给 g l m 五点一,一份架构草图。 早上醒来,一套完整的 linux 桌面系统已经做好了,历时整整八小时,执行了一千二百多步,产出了桌面窗口管理器、状态栏、应用程序、 vpn 管理器、中文字体支持游戏库等等配套文件四点八兆,这相当于一个私人团队一周的开发量,而且全程没有人参与 模型,甚至自己写了回归测试,还跑过了第二个案例,更硬核 g l m 五点一对向量数据库做了六百五十五轮自主迭代优化,它不是简单微调参数,而是完成了一整套优化链,从全库扫描切到 i v f 分 桶, 引入半精度压缩,加入量化粗排做两级路由,再到提前减脂,每一次跳跃都伴随着短暂的性能下降。 因为模型在探索新方向时暂时打破了约束,然后再调回来,这个打破修复循环本身就是有效优化的标志。最终查询村土从三幺零八 qps 推到了二幺四七二, qps 提升六点九倍。第三个案例,在五十个真实 m l 计算赋载上, g l m 五点一自主编写 treaton kernel 和 cody kernel, 运用 cobbloss 融合 shared、 memory、 tiling、 cody graph 等优化,超过二十四小时不间断迭代,最终取得三点六倍几何平均加速比。而 touch 到 compile 的 max auto tune 模式只有一点四九。 在 gpu 内核优化这个高度依赖专家经验的领域, ai 已经展现出端到端的自主工作能力。来看硬指标,在 s w e bench pro 最接近真实软件开发的精准测试中, g l m 五点一刷新全球最佳成绩,首次实现国产模型超越 colog 的 oppo 四点六。这个测试要求模型在真实 github 仓库里定位并修复高难度 bug。 综合三项最具代表性的代码评测,平均结果,全球模型第三,国产模型第一,开源模型第一, 量化到 cloud code 编码评分, glm 五点一拿到四十五点三分。 cloud opus 四点六是四十七点九分,达到了 opus 的 百分之九十 四点六,相比 gim 五的三十五点四分提升百分之二十八。最后看价格, glm 五点一的输入价格,每百万 token 只要一美元,输出三点二美元, 输入成本是 cloud opus 的 五分之一,输出成本更夸张,仅为 opus 的 七分之一点八。 gpt 五点四的四分之一,简单说就是百分之九十四点六的 opus 能力。 百分之二十的价格,有意思的是,智谱同时还涨了百分之十。涨价后, g l m 五点一在抠定场景的价格已经接近 cloud sonic 四点六,这是国产大模型首次在核心场景与海外头部厂商价格对齐。敢于涨价,本身就是对能力的自信。 g l m 五点一已全面开源 api, 通过 big model 开放平台和 z a i 接入, z a i 的 聊天产品已经上线 g l m coding plan, 全部用户都可以使用, 兼容 cloud code、 open code 等主流开发工具,开源权重在 github huggingface 和 model scope 上都可以下载。总结一下,从 glm 四点七到 glm 五,再到 glm 五点一,开源模型正在经历一条清晰的能力跃迁, 从效率工具到大众创造,到自主执行,再到持续交付。 glm 四点七让模型会写代码, glm 五让模型像工程师一样执行任务。 glm 五点一则把目标推向了让模型像资深工程师一样持续工作八小时, 交付完整成果。长城任务是检验模型智能的下一个标准,当一个开源模型能独立搞定中高级工程任务,我们需要的不仅是更强的模型,更要重新思考人类工程师的不可替代性在哪里。感谢观看,我们下期再见!

别再盯着全 g p 的 尾灯看了,国产大模型来了个 g r m 五点一,直接拔高了国内 ai 大 模型的能力。发师之前俊仔也用过多个大模型,最大的痛点是什么?短视,也就是长城任务根本干不了, 要么只能陪你聊聊天,要么执行个简单指令。第三步他就忘了第一步的需求。但智普这次发布的 g r m 五点一核心绝技,就是能拆解任务用的工作记忆和逻辑推理能力,将长城任务拆成阶段目标,一口气把一件复杂的事从头做到尾。来 看这个实测,给他一个需求,搭建一个带用户系统和数据看板的内部工具,看他先花时间规划输出技术方案,然后一个阶段一个阶段推送,中间有一个接口问题,他自己排查修复,全程我没有介入, 最后交付的东西能跑能用。再看看这个实测,以前要做这个,得切好几个软件写半天,现在直接给 g r m 五点一下一个指令。他 不是只给你写一行代码,而是规划了整个工程,从底层逻辑到 u i 设计,他自己在脑子里淘了一遍,然后直接把成品甩给你。这哪是写代码,这是在指挥千军万马。俊仔真觉得技术变迁正在指数级加速啊。当 ai 能处理跨文件、跨时间,甚至能自我纠错完成长城任务时, 程序员仅仅会写代码,不是护城河了。未来区分普通工程师和专家的可能不再是敲键盘的速度,而是你定义问题,驾驭这些超级智能体的能力。智普这一步迈得很大,但也提醒了我们,是时候升级自己的操作系统了,是时候接上智普新发布的 g r m 五点一的 a p i 了,它能颠覆你的工作流。

智普 g l m 五点一昨晚正式发布,不仅是全球首个能持续工作八小时的开源模型,还在代码精准测试中首次超越了 cloud。 四点五 opus, 整个开发者圈子都炸了,国产大模型真的在代码逻辑上捅破了天!智普 g i m 五点一在 sweetbench pro 精准测试中实现国产模型首创 opps, 它最离谱的地方在于支持八小时及持续工作,这意味着你可以把它丢在那,让它自己修一整晚的 bug。 聊完了模型, anthropic 刚刚推出了 manage 的 agents 托管服务,把沙箱身份验证和多智能体编排全打包了,每绘画小时只要零点零八美元交付,提速了十倍。与此同时,硅谷华人团队做的 creo 冲上热搜, 它主打消费级 agent harness, 零门槛固化工作流任务,准确率百分之一百,让普通人一句话就能搭出永不停歇的 agent get up 这边更离谱,生化危机女主命了,竟然开源了一个 ai 记忆系统 memphis, 用记忆供电法在本地组织一千九百五十万 token 的 长记忆, 解锁效率提升百分之三十四,完全不走云端。微软发布最新报告, web coding 正式成为主流趋势,开发者从写代码变成了选输出的编辑 pm, 甚至开始做技术活。 redtail 预言,软件基础设施必须为 agent 彻底重写。视觉模型那边出了个狠角色,神秘模型 happy horse 一 点零涂榜 erina l 分 数一千四百零九刷新记录。据传是阿里张迪带队,原声音视频同步 五秒,一千零八十 p, 片段推理只要三十八秒。美团 g n 零六团队发布的 ai 浏览器 tabit 也进公测了,他最懂上下文,支持各家大模型自由切换,还能一键分享自动化妙招, 简直是白领的降维打击工具。视线转向硬件,马斯克联手英特尔开启 terafap 项目,目标是每年一泰瓦算力是现在的五十倍,他甚至打算把百分之八十的算力部署到太空, 彻底解决地面的电力焦虑。亚马逊 ceo 在 股东心里也开火了,自家 ai 芯片 chine 业务 a a r 已经冲到两百亿, chine 四还没上市就被预定空了,老黄的压力看来是真的不小啊!硬件即刻们看过来!寻影泰尼三发布了六十三克重,支持四 k 录制和 omni 锁定跟踪,即便你在人群里乱窜,画面也只会盯着你一个人, 简直是户外直播神器!最后,药素科技拿到了两亿 a 轮融资,他们把 ai 加器官芯片嵌入星耀开发要米预测准确率竟然达到了百分之一百!制药行业告别动物实验真的不远了! 从 g o m。 五点一的八小时持久战到 happy horse 的 视频图宝 a e 的 进化速度已经让摩尔定律都感到汗颜了。观众老爷们,你们觉得下一个被 agent 彻底重写的行业会是谁?评论区见!

智普新一代旗舰大模型 glm 五点一正式发布并开源。就在当天,碧刃科技和摩尔县城先后宣布完成适配国产算力生态在集体往前推。新模型在代码生成和长城任务处理上有明显突破,对底层算力的要求也更高了。 自研芯片在主流推理框架上实现了长上下文无损运行,自研架构也让芯片高效跑通了长城任务。大模型的发展离不开算力生态的支撑,硬件性能是基础,生态能不能跟上才是关键。

全球最强开源模型,现在属于中国!四月八号,一个叫智普 glm 杠五点一的国产大模型横空出世,一举拿下全球最强的宝座。 而且他还是开源的,谁都能用。以前的 ai 模型就像短时记忆,聊两句就忘,处理不了复杂任务。但这款 glm 杠五点一不一样,他居然能连续工作八个小时,从头到尾帮你做完一件完整的工程大事。中间不断电不掉链子,在权威测试平台更是夺取全球第一, 这背后靠的是什么?是华为升腾算力的超强加持,简单说,就是让 ai 大 脑里的专家们配合的更默契,资源不浪费, 推理速度直接快了百分之三十,你再也不用担心性能带不动,用华为云就能轻松部署去搞定那些以前想都不敢想的复杂智能项目。 不只是个模型升级,更是中国 ai 从跟跑到领跑的里程碑时刻。未来,它将赋能千行百业,重塑我们跟 ai 交互的方式。为国产大模型点赞!关注我心语,持续分享前沿科技的硬核解读!

重磅!智普新一代旗舰模型 glm 五点一对零上线华为营,目前已接入华为原 max、 魔方猫的 lars、 马到扣、 darts agent、 tars、 flexes 等平台,一拖升腾,算力深度优化。 glm 五点一实现算力与仿存均衡,推理吞吐提升百分之三十, 支持免部署一键调用推理,部署智能体开发与复杂任务执行。您还可以在华为研 flexes 上部署 open call, 调用智普 glm 五点一,提升多轮任务中的一致性,降低日常使用场景中的失败率。 作为全球最强开源大模型,其编码能力刷新全球最佳成绩,单次可自主持续工作八小时,交付工程级成果。如您有云服务器或模型调用奥彭克奥部署需求,欢迎留言。


智浦最新旗舰模型 g l m 五点一刚刚宣布全量开放了,它的编码能力比上一代狂飙了百分之二十八,实力已经无限逼近 cloud office 四点六。 李子璇还承诺 g l m 五点一将会开园,目前所有 g l m c d plan 用户都可以调用,价格更是只有海外模型的五分之一,性价比彻底拉满,还是觉得贵?关注我,获取超级优惠!

智普 g l m 五点一到底能不能硬钢 plus 的 代码王座?这篇包含跑分、实战痛点和使用边界的思维硬核评测,直接把底牌揭开。一句话总结,这是目前最极致的偏科平替,看完你就知道该怎么用它。踩不踩坑。 先看过场数据,底座七千四百四十亿参数底层直接融合了异步强化学习和 deep sea 的 稀疏注意力机制,标称二十万超长上下文,极数上面直接拉满, 跑分直接逼进地表最强。官方测试中, g l m 五点一的编程得分达到四十五点三分,相比上一代直接飙升百分之三十,距离目前公认的代码天花板 opus 四点六仅差了不到三分。单看测试水准,他已经稳稳占据世界第一梯队。 但跑分不等于体验,这是很多开发者最容易踩坑的地方。实战反馈表明,他的代码生成确实有巨大进步,但代价较为惨烈。 这是一款典型的侧向升级产品,为了强吃代码能力,它大幅度牺牲了日常动用、任务处理和创意扮演能力。如果你拿它写文案,表现甚至不如上一代的 glm 五, 更致命的是长文本陷阱,纸面数据标称支持二十万上下文,但在实际高压环境下,一旦你灌入五到七万托盘的庞大代码库模型,偶尔就会出现逻辑混乱,甚至直接发疯。在处理极长代码项目的极限稳定性上,它目前还无法完全替代 os。 既然有缺陷,为什么海外开发者还在疯抢?因为它的杀手锏是白菜价和伪装介入。在当前热门的 cologold 这类智能体开发环境里, 你只需要改个环境变量接口就能零成本把它当成 opus 来用。最关键的是它的 api 倒用价格只有 opus 的 几分之一,这是绝对的降维打击。最后直接给使用。结论,强烈推荐个人开发者和中小团队把它作为主力平替。 日常的写代码修 bug, 写中小型函数用它绝对超值。但是如果你需要重构超过七万头肯的祖传复杂代码,或者需要处理高度复杂的通用写作,请立刻闭坑老实实加钱去用 opus, 或者直接退回 glm 五。

普 g l m 五点一,国产大模型强势登顶开源模型榜首,更是首个拿下该成绩的大模型,在编程测试中超越 g p t。 五点四, cloud office 四点六,一句话即可完成 app 开发规划、编码调试,全流程高效落地,实力领跑全球开源赛道。

就在一小时前,智普正式宣布将旗下最强的编程模型 glm 五点一开源作为一款性能仅次于 gpt 五点四和 oppo 四点六当前开源阵营中编程能力最强的大模型,此次智普的开源确实来得有些出人意料。 此外,智普还演示了 glm 五点一超强的自主完善加自我迭代能力模型在连续八小时不间断编程过程中,居然自主构建出了一个完整的 linux 桌面环境,并生成超过五十个可运行的桌面应用,整体可用性相当高。 这一结果不仅展示了其工程稳定性,也体现了其在复杂系统构建上的持续推理与执行能力。 消息发布后,网络反馈同样热烈,有人直呼这才是真正的先进生产力。也有人开始向 cloud 发问,开源模型已经强大到这个程度,闭源阵营是否也该有所回应,拿出新的策略?

接下来演示一下复制这串代码,打开 power shell 窗口,右键粘贴回车,根据提示,大家就把这个网址完整选中,右键复制后 点击 connect 连接,在这里选择 g a m 五点一 cloud, 我 们输入一个指令,它模仿淘宝首页写一个 html 文件。 好的,这样就已经完成了代码的编辑,我们点击复制按钮,将整个 html 整个代码复制下来,在桌面右键新建文件,新建一个文本文档,求命名为淘宝 html, 修改扩展名,点击右键打开方式选择,选择记事本,点击确定,右键粘贴刚才复制的代码,点击保存,然后关闭,双击打开这个网页。我勒个痘,这和真正的淘宝网还有什么区别呀? 简直可以说一模一样, ai 时代真是令人吃了一惊又一惊,而且现在各大厂商各大模型都在争相开颜,抢占市场,这就是我们普通人学习的机会,记得关注我学习更新 ai 大 模型的最新动态。

你以为智普发布旗舰 g l m 只是行业动态,不然真正影响来了才会发现?没看懂,先看它会不会变成实际影响。四月八日智普发布 g l m 五点一 单次任务能连跑超八小时,这件事和你有没有关系?关键看智普发布旗舰 g l m 会不会先改到成本顺序和兼容性。虽是开源旗舰 g l m 五点一用八小时长任务压测你的智能体。 如果只能先做一个判断,我会先看智普发布旗舰 g l m 会不会进入你的日常决策,如果这是你在用的方向,你会心在上还是继续观望?

当前开源大模型的这个发布热潮啊,是一浪接过一浪,持续的涌动,其生成质量呢也越来越逼近了这个币源的模型, 尤其是两天前刚开源的这个 glm 五点一啊,号称是第一个在综合智力指数上面达到了五十分以上的,接近于币源的最高水平的这个水平, 那么这个 glm 五点一它的实际表现到底如何呢?那么今天我们就来看看啊,本地部署的 具有代表意义的八个大模型,我们呢让它写一下一个很典型的一个例子,就是用 html 的 写一个动态太阳系,我们来看看它们的这个生成质量到底谁好谁差。 今天呢这八个大大模型啊,我们采用同样的硬件,同样的软件和同样的推理框架,并且呢使用一模一样的提示词,让他们来生成这个动态的这个太阳系的情况。 然后呢下面呢,我们从生成质量的这个从低到高依次展现给大家看看他们生成的如何。首先呢,我们来看看两个翻车的情况, 这两个翻车的大模型呢,有点出乎我的意料了,第一个翻车的就是这个 glm 五的这个七四五 b 的 这个大模型,是智谱的上一代的那个旗舰的这个模型, 结果它生成出来的话,除了左上角有几个汉字之外,整个画面都是全黑的,根本就没有展现出来 这个跟他的这个七四五 b 的 这个打的这个参数啊,这个,呃,感觉民不腐蚀啊,或者说他可能在这一块可能做的不太好。 那么第二个翻车的呢,就是前段时间刚刚开源的那个 借买个四杠四的这个大模型啊,三十一币的这个模型,筹密模型,那么呢他虽然生成出来这个画面出是生成出来,但是呢所有的这个画面呢,都 八大行星啊,都挤在太阳系,挤在这个太阳系的这个中间太阳上面去了啊,那么整个太阳系的这个结构呢,只能我们只能通过意会了,那么这是两个翻车的这个大模型啊,出乎我的意料啊,这两个都出乎我的意料, 然后呢我们再来看看啊,我认为勉强及格的区的三个大模型, 第一个呢就是这个千万三点五杠幺二二 b 的 这个模型,这个模型呢太阳系是大家可以看啊,太阳系是基本上生成出来了, 八大行星也依次排开,但是呢它的这个运行啊,这个速度啊非常非常的慢,这个看起来的话, 它这里有一个调速度的这个地方,把它调快的话,好像也一样的,这个运行速度还是很慢,它只是这个调的话是调它的这个位置啊,看样子它是预先设置了这个 位置的这个情况,那么这是这么一个,那至少比那个 前面的那两个大模型好一点,它至少能够把整个太阳系还是画出来,但是地球这边的这个月球没有没有出来,它只有一个单纯的一个地球。 第二个呢就是这个 mini max 二点五啊,也是它的前代的旗舰 二二九 b 的 这个大模型,那么这个大模型呢,基本上呢也运行的还算是比较流畅啊,并且啊他有一些那个行星的那些基本的参数在这边供大家参考,并且底下有了四个 可以控制的区域,但是同样啊,他这个生成出来之后呢,出了一个错误啊,大家注意一下,这里有一个框在这边飞, 呃,不知道是一个什么样的筐,那么这个筐呢?嗯,我觉得啊,很可能是那个土星的那个土星环,跟那个土星没有吻合上它的这个轨道,所以它单独飘在外面了,飘在整个碳系的外面,这算是一个 bug。 同样啊,它的地球也没有月球,地球旁边也没有月球,这是这个 mini max m 二点五 情况,然后呢第三个呢,就是千万三点五的这个旗舰三九七 b 的 这个模型,这个模型呢,看起来呢,还是基本上还是可用的啊,那个月球也有了,大家仔细看啊,这个地球旁边的这个月球也展现出来了, 但是粗看好像是没什么问题啊,但是突然发现,咦,这个轨道,大家看啊,这个轨道上面的这个土星不见了,说明他土星没有画出来, 可能跟他前面的那个那个幺二二 b 的 那个那个土星画错了,这里土星没画出来,很可能他的这个这个地方可能是类似的一个问题, 这是这个基本算是把太阳系结构还是画出来的三个模型。 接下来这两个大模型,我没想到啊,它做出来的这个这个质量啊,超出了那个它千万三点五的那个,它的那个 全参数版的那个水平的,第一个的话,就是这个铅汞三点五的这个二十七 b 的 这个筹密模型啊,这个的话太阳系就正常了,然后所有的运转啊,各方面都可以。 那么土星环呢,也有一个表达,基本上大家一看还是知道是个土星环吧,但是呢它也是地球边上是没有月球的,那么这个的话基本上还是可以的。 然后是一个千万三点五的三十五币的这个大模型,这个大模型的话是我没有想到的,它是一个 mo 一 的,它在推理的时候它的激活参数只有三个币,但是它画出来的话,这个基本上是作为科普的话是可用的,作为科普的话是基本上是可用的, 整个太阳系的结构也是正确的,有地球有月球,唯一的一个一个缺陷呢,就是这个土星环呢,画的太粗糙了,就是示意了一下, 大家看啊,这个土星环其实跟跟前面那个画错的那个土星环那个有点类似,那个在飘在外面的那个,所以说呢,这两个的话呢是基本可用,而且这两个的话都超过了他的 三九七 b 参数的那个模型,以及它的幺二二 b 参数的这个模型,这两个是基本合格,可以用的。 最后我们来看看这个两天前刚开源的这个智普的这个 glm 五点一七五四 b 的 这个大模型,这个是实至名归啊。嗯,你看啊,它生成出来的是一个三 d 的 一个 前面的所有的大模型都生成的是二 d 的 那个两维的那个太阳系的结构,这个直接是给出的是个三维太阳系的一个结构,这个属于基本上属于降维打击了,属于降维打击了, 那么它生成的这个大家可以看啊,这个土星环啊,刚开始的时候啊,我刚看的时候我也觉得,哎,怎么生成出来,这这这只有木星标注在这里,嗯,那木星哪去了呢? 这里也是土星标注在这里,那么那就一个,就一个环,我以为他也是出问题了,结果我发现啊,一个更惊艳的一个事实,就是 他做出了一个模拟了一个真实的太阳的这个光照,我们来看看这个土星的这个情况啊,拉一下,他可以拉的,我们可以拉一下,我们看看啊,我们把这个土星拉到这个,大家看 土星啊,这把这个木星拉到这个太阳的前面,把太阳遮挡起来的话,我们就可以看到这个它的这个木星是实实在在是画出来,而且画出来这个太阳光照的这种这种效果啊,这个是已经蛮厉害 了。然后我们再来看看啊,地球,我们看看地球的这种这个情况, 那么地球旁旁边的这个月,大家看啊,这个月亮也有的啊,月球,月球在绕着地球啊,很明显的月球在绕着地球在转,你看这个几个星球之间的这个视觉都模拟出来, 并且它的这个提示啊,这个做的很好,它的这个基础资料啊,在木星这边点一下,大家可以看看它的相应的这个木星的这个 资料就出来了啊,这里还是隐隐约约,大家可以看啊,隐隐约约能够看到这个木星的这个情况的,因为这个光照的这个模拟还是模拟的蛮逼真的,这是木星的这个基本的这个运行的情况,同时他这边的这个呃控制啊,也做的比较到位, 有比较丰富,这是这个这个最新的开源的这个最高水平的这个情况做的确实很不错,整个三维的 可以可以放大拉近来看,也可以直接通过滚动这个鼠标的这个滚轮,我们可以拉远来看,大家可以看到有海王星, 这是海王星的情况,海王星也可以拉近来看,大家可以看看 这个是是已经是,我觉得这个很惊艳到我,我没想到它会生成出它三维,我还是基本上能够预料到它有可能会生成出三维的那个模拟,我是没有想到它能够生成出太阳光照的这种效果出来。 好,今天就给大家分享到这里,谢谢大家。