暴击闭源模型 claude4，最强开源代码模型来了！ #人工智能 #科技 #开源大模型 #waytoagi #AI编程

开源模型对比claude

258

14

123

16

举报

发布时间：2026-03-11 14:22

粉丝7.7万获赞85.4万

相关视频

04:46
GLM-5 实测：0中断！2.5小时手撸全栈应用! 开源模型最接近 Opus 的一集!#ai新星计划#青年创作者成长计划#GLM5 #国产模型
查看AI文稿
AI文稿
最近 openroot 上那个神秘的 pony 模型效果非常惊人，大家都在猜是谁？有人说是 cloud 的旗舰模型，也有人说是 deepsea v 四，今天算是破案了，就是智普的 glm 五。那之所以大家会把它错认成是 cloud 模型，主要是因为在实测中，它展示的长城规划和系统工程能力确实是打破了国产开源模型的天花板。以前我们测试模型呢，喜欢它一句话，生成网页好看但难以落地。而这次的 glm 五新模型对标的是 gbt 五点三、 codex 和 opus 四点六，主打的是解决复杂的工程难题。我呢有幸拿到了内测，并且呢使用它开源了一个前后端打通的项目。那废话不多说，带大家一块来看看它的能力。这次测试呢，我用的是 cloud code 加 glm 五，我的需求呢，是做一个创作者全能工作台，包括登录健全、数据持久化、后端业务逻辑，以及最容易出错的财务计算。这也是在测试他的一帧 take 能力，看他能不能读懂长文档，能不能在没有人干预的情况下自主规划开发路径。第一部分是项目骨架的搭建，他先是阅读理解了我的多篇需求文档，然后创建了一个任务列表来跟踪项目的进度。这部分开发呢，比较顺利，中间只出现了一次 prisma 版本不匹配的问题。紧接着在我测试注册功能的时候，数据库链接出了点小问题，就注册账户时出现错误， ai 排查之后找到了错误，是数据库路径的问题，并进行了修复，最终给出了项目的骨架。那这次再尝试登录，就成功进入了后台。骨架搭建完毕之后呢，我要求他继续进行下一步的开发，这一步呢，添加了灵感创建的功能，也就是数据库的增删改查，可以筛选规章以及由灵感转换为选择题。不过这次验收的时候呢，出现了新的问题，就是我创建完灵感之后，列表不显示，后端呢，也没有报错。这时候 g l m 主动添加了一个中间件来打印我的错误日期，也就是通过这个日期，他才发现是分页参数的类型不对，然后进行修复，功能就立刻闭环了。他遇到这种隐性的 bug 呢，没有瞎猜，没有胡编，而是打印了一个中间件去查真实的日历，那这个才是我们开发中需要的。那到了下一阶段的选择题模块，得益于卡奥德库德的优秀机制和 glm 五的超长上下文，理解能力非常丝滑，状态机逻辑一次跑通，由灵感转化为选择题的状态流转呢，没有再出现任何问题。新建的选择题呢，也能正常的与后端连通。接着是商单和财务的部分，这个其实我最担心的，因为之前一直没做，也就是因为他算不准，就是很多模型在这里会有逻辑幻觉。但 glm 五没有让我失望，这块表现的非常稳，他先是建立了客户库关联选择题，最重要的是税务计算，因为涉及到含税金额、未税金额，税率推算逻辑极其的严密，我认为他确实理解了其中的业务逻辑，没有逻辑幻觉。 m 四阶段呢，是在我们的工作台首页添加一个仪表盘，那为了让数据格式化呢，还在后端编写了聚合的统计接口，在前端呢展示了我们的收入统计，并且呢它还非常贴心的规划了一下设置页面，里边增加了收入配置和标签管理啊，这个是比较超出我预期的，因为它很详细，里边有返点，税前税后，非常严密。这个时候呢，就来到了最后一步，打包交付。对于 glm 来说，最复杂的部分已经完成了，所以这部分处理起来就像喝水一样简单。他为我这个工具呢，编辑了项目介绍文档，还创建了一个一键启动脚本。那现在的状态就是所有拿到我这个项目的人需要一行命令，前后端全自动跑起来，这个就是开源的交付标准。目前这个项目呢，已经上传到 gitup 上了，感兴趣的话可以去看看，检查一下代码质量。那最后我们来做个总结，整个项目呢，从零到一，总共耗时两个半小时，一捆十。在这期间呢，没有新开任何一个聊天窗口，全程就是在 cloud code 中与 glm 进行一个单程长对话。这种体验带给我的冲击感呢也比较强，像是一个可以协助有逻辑的系统架构师。如果你是一个开发者，或者平时尝试过自己开发项目，应该能明白两个半小时无断点的开发含金量有多高。但是呢，他的缺点也同样明显，就是他的思考速度实在是太慢了，也就是因为他思考时间变长了，所以导致新模型比旧模型消耗的头肯要多一倍，而且在高峰期的时候，算力好像有点紧张，期间有很多次呢，我都以为他卡住了，想要去购买他们的套餐，竟然还需要抢，难抢就不说了，他还涨价。不过对比 cloud 来说还是性价比高，非常非常多， cloud 桌面端送的五十美金额度，半个小时就就用完了。总之这个模型呢，有优点也有缺点，各位可以权衡一下。好了，以上就是本期视频的全部内容了，如果对你有所帮助，或者觉得视频做的还不错的话，欢迎给哥哥一箭三连。最后祝各位玩的愉快，我是段峰，我们下期再见！拜拜！
295神烦老狗
02:34
真猛！清华GLM-5开源全球第一，编程能力直逼claude#claude #aicoding #glm #vibecoding #人工智能
查看AI文稿
AI文稿
最近有网友问我，世界大模型第一股智普的 glm 五发布了，说它是全球最好用的开源模型，编程能力堪比 cloud，是真的吗？先说结论是真的，中国清华系智普最新的 glm 五模型已经在编程能力上比肩 cloud 了，全球开源模型中排名第一，虽然还有微小的差距，但是我们在快速的追赶中，我是杨乐多大白话讲 ai 这款 glm 五到底强在哪？用三点跟大家说清楚。第一点，开源模型世界领先。目前这款 glm 五在全球的开源排名中，编程能力排名第一，综合能力排名第四，也就是在全球范围内把代码公开，让大家免费使用的模型里面， g l m 的编程能力是最强的。第二点，代码能力逼近顶尖水平，目前编程全球最强的就是 cloud 模型，而 g l m 五在编程的使用体感上已经跟 cloud 相差无几了。第三点，他专门擅长处理复杂的任务逻辑，也就是一个不会代码的人，可以跟他进行多轮对话后生成一个复杂的产品，甚至不用写一行代码就可以实现。我们客观的看，差距确实还存在，但是你要知道，一年前我们的 ai 代码编程能力比全球顶尖水平差了十倍不止，而现在我们基本上跟他们近在咫尺了，并且 glm 还是一个开源的模型，开源的模型意味着全球的开发者都可以免费的使用它，并且在上面进行二次创作和修改。而 cloud 是闭源模型，只能通过付费调用它的 api 来进行使用，并且不能对其进行二次的修改和调整。做一个比喻啊， cloud 就像是高墙内的武林高手，没有人知道它是怎么实现的，他的武功不外传，你们只能看。而 glm 五呢，就像一个武林盟主把所有的武功秘籍全部都公开了，那你想想谁的影响力更大，谁会进步的更快呢？这就是中国 ai 的速度，中国至普系的 glm 一年时间走完了别人三到五年要走完的路，中国在不断的这，这背后就是中国的 ai 的硬实力，也是中国 ai 选择开元路线的再一次胜利。
252杨乐多讲AI
09:17
GLM5真实项目评测，开源界的Opus平替？ GLM5 到底能不能打？这期我用两道真实编程任务 + 一个生产级 Agent 项目，把它和 Claude Opus 4.6、GPT-5.3-Codex 放在一起做了一次三方横评。
三个模型拿到的是同一份 prompt、同一个项目代码，公平对比。
GLM-5 核心信息：
来自智谱 AI (Z.ai)，744B 参数 (40B 活跃)，MoE 架构
预训练数据 28.5T tokens，相比 GLM-4.7 大幅升级
定位：从 Vibe Coding 到 Agentic Engineering
完全开源，权重可下载（HuggingFace / ModelScope）
两道编程题分别考察：
跨项目认证体系迁移（Google/GitHub OAuth + 落地页）
终端 CLI 工具改造成 Web 聊天界面（Thinking + 工具调用 + SSE 流式输出）
除了编程，我还把 GLM-5 接入了自己一直在用的自媒体视频拆解 Agent，实测在真实生产链路里的表现。
#GLM5 #opus46 #ppio #ai新星计划 #抖音年味新知贺岁
查看AI文稿
AI文稿
这临近过年，我们的国产模型真的太猛了。前面我做过两期视频，用同样的 prom，同样的真实项目任务实测，对比了 cloud office 四点六， gpt 五点三、 codex mini max 二点五。那期视频做完之后，评论区就有人让我测试一下质朴新发布的模型 gom 五，咱也是加班加点的干出来了，而且据可靠消息，过两天还有 deepsea 微视版本的发布，到时候也给大家带来一期真实项目的一个编程实测。求一个一箭三连不过分吧？在这里要插播一下，当我准备去测 gm 五的时候，我去官网去订阅它的 cooling plan，直接受庆了，就我的套餐买不到。哇，那如果按 ipa 计费的，我目前也没有找到。他们可以用 insulate 的一个协议来测试 gm 五，所以我就用了 ppl 他们家的去测试，他们是非官方首发部署的 gm 五，一个开源模型的一个权重，那兼容安斯罗比的一个协议接到可拉扣的里面也非常方便，因为我之前的评测的话，都是用可拉扣的去做的嘛。所以说为了保证公平公正，我们也是用同样的工具方的编程任务去做实测。好，我们先去创建个 api k，这里我就写 gm 五确认，点击复制好，我们开始进入真实项目的一个编程实测环节，也是同样的 prompt。哈，那第一个任务的话，是把我们另外一个项目里面完整的一个用户认证体系，包括邮箱、谷歌认证登录、 github 登录迁移到我有一个新的图片生成 a 级的项目里面，同时让它去做一个落地页，需要考验它的一个代码理解能力，架构适配能力，一个工程规范。这个任务还算比较复杂，之前用 mini max m 二点五去测的时候，它花了三轮对话才完成的，那 op 四点六跟 gpt 五点三 colex 的话，它们一轮对话就完成了。那第二个任务的话是我本地有一个 skills agent，它是一个终端 ui 交互的，我们把它做成一个外部聊天页面，让它保留 syncing 工具，调用流逝输出。这个任务主要考验它全站开发，流势输出以及 u i u x 的一个交互能力。之前测试的话， off 四点六跟 g p d 五点三 codex 他们一人赢了一局，那下面我们就开始做 g o m 五的一个测试。这两个项目现在都是开启了一个沙杯进者的模式去探索已有的代码。那右边的话，它弹出来一个让我选择想用的框架以及 u i 主键库，我就按我一个常用的方式去选好，它提示已经成功了。好，我们打开了他给我们写的这个 y y，哈，他把这个 skills 是放在右边的，就展示我已有的一些项目，来测试一下它可用吗？好，我们开始让他去总结这篇文章，看一下他有没有去做到加载这个 skills，然后加载完了之后去执行一些脚本去做爬虫，然后再去做总结。可以看到这边他已经加载到这一个 skills 了，下面去执行一些命令总结出来了哈。整体的话完成度还可以的，就是他这个 ui 上稍微会差一点点，相较于那个 gbt 五点三 codex 的话，这个完成的没有 gbt 的好。左边这个窗口就是 cloud off 四点六写的，这个 ui 上确实会差一些。右边的话是 gbt 五点三 codex 写的，当时我是把票投给了他，那么同时去可以看一下刚刚那个任务，他们俩其实都没什么太大问题，不是特别难，后端也就 thinking，然后做工具调用，可以看到都是 ok 的，没有什么太大的问题。好，下面我们去看一下那一个纹身图 agent 用户认证体系那块它完成的怎么样了？可以看到它这个已经完成了哈，可以看到这个代码它已经写完了，我们先看它能不能一次性去启动，之前 mini max m 二点五这一块是没有做到一次性启动，我们先开新开一个窗口去测一下。好，我们可以看到 g m 五的话，它目前启动是没有什么问题啊，我们再看一下它实际的一个表现，我们看一下它整个 ui 表现哈， ui 还行，那我们看它的那个认证功能可不可以用。我们先试谷歌登录，谷歌登录的话，它这块放了一个小 bug 啊，它把那个毁掉的端口弄错了，我们改一下。好，我们继续。好吧，登录失败了，这边还是有些问题，你看到它登录的时候认证失败了，应该是数据库的表结构那块有点问题，从这么看的话， gbt 五点三 codex 跟 op 四点六还是要猛一些哈，就是它们没有这些问题。好，我们再来选择谷歌登录，刚让它修复了一下，好，他终于可以了。哎，有个问题，他登录成功之后没有回，没有进到我们的那个主页面，登录成功之后没有进到我们 agent 里面，这个算第二轮对话吧，看他第二轮对话能不能搞定好，我们点击登录选择谷歌，他还是没有修复成功，他还是要再刷新一下，看没有再刷新一下，进来再给他描述一下吧。现在还有个小问题，当我们认证之后，他先跳转了到首页，我再刷新页面，他才进到了 a 镜的里面。在他这是第三轮了，就证明他在这个方面其实跟 mini max m 二点五差不太多，他们俩再点登录。我靠，跟这个问题杠上了，他还是修复不了啊，还是有问题，你能不能好好深入去修改一下，去思考一下。这是我们第四次对话，让他去修改这一个小问题哈，这个表现呢，就有一点不是特别好了，我们再来，如果他再再进不去，我就不撤了，这个就默认他四轮吧。好，我放弃了。这个问题我不测了，他修他，我跟他一直对话，他修不了。我们之前测 gbt 五点三跟 colorof 四都是一轮。 ok，我们下面来看一下评分，整体的一个打分标准是第一个，我人为的去检测他们的一个功能完整性以及 ui 的一些情况。那代码架构，工程规范，我都是把他们所有的代码给到 gbt 五点三， codeof 四点六，让他们分别去 review，然后去打分。它现在结果是这样子的， off 四点六，在第一个项目用户认证里面，它是表现最好的，它在功能完整度以及 ui 落地上是表现的比较好，并且是一轮就完成任务了。但是它的代码架构跟工程规范会有一些小问题， gpt 五点三扣贷 x 的话，它的代码架构以及工程规范会比它好，而且是这四个模型里面最好的。那它的功能完整度呢？因为它漏了一个谷歌登录的一个前端，所以说这个评分稍微低一点，那它 ui 落地页的话也会稍差一些。上一期视频测试 mini max m 二点五这一边的话，他是花了三轮对话去完成了这个任务。那智普这边的话，刚刚你也看到了，其实四轮对话完下来之后，他还有一些小问题，所以说评分的话，他俩其实差不太多吧，我个人感觉哈，我们来看第二个，把这个 skills agent 做成一个外部 ui，那这个项目的话就是 gpt 五点三 codex，它在业务完成上逻辑错误控制以及 ui 代码质量工程实现都是最好的。那剩下这三个的话，大家表现的都差不多吧，大家有优势的地方也有他劣势的地方。好，下面我们开始进入 agent 的实测环节，把 gm 五模型接入到我这一个真实的一个 agent 的项目里面去，它是做自媒体视频拆解的，主要需要去看他的一个速度，拆解深度以及表达一个真实感。那整个 a 型的工作内容的话，就是先去下载视频，做音频提取，转文字，然后去做内容的结构化分析，爆款元素的提取，最终输出一个拆解报告。好，我们下面开始吧。好，右边也完了，我们来简单看一下哈，他们两边格式上会有一些差异。在拆解上我们看他这个结构拆解这块，他这个时间出其实是有问题的，他做的不对，因为我这个是十二分钟的，他是做了十四分钟到十五分钟，那 g m 五这边的话，它也有讲一个时间戳吧。啊对，你看它有二十分钟，还有三十到三十五分钟都来了，所以说我感觉它在整个 a 帧的表现里面不是特别好啊，它这个拆解的深度也不太够，我感觉相较于昨天我测那个 mini max m 二点五的话会稍微差一些。好，我们下面总结一下。把 gm 五接到这一个自媒体视频拆解的 a 帧里面，它的一个表现情况哈，整体上的话速度偏慢，就响应速度不算快，可能跟当前用户量大有关系，因为都知道它这个套餐都卖的受庆了。第二个的话，它的拆解深度的话相较于 mini max m 二点五会有一些稍稍不足。第三个的话，它的一个真实感稍微偏弱一些啊，这是整体的一个表现情况。好，下面我们进入整个的一个总结环节，在编程方面的话，一句话，在我的这一个测试项目里面， gbt 五点三 codex 表现最好，比 off 四点六会好一些。 glm 五跟 mini max 它们的体感接近，都是开源的嘛，并且它们的成本非常低，所以说对于一个高性价比的一些开发任务的话，我觉得这两模型都非常不错。好，这就是这一期视频的所有内容了，如果你觉得这期视频做的不错，一定记得给我一键三连哦。那下一期视频的话大概率是做 deepsea 微四，有可能是在过年那一天发布，我猜测哈，据可靠消息。好，那视频就到这里了，大家拜拜拜拜拜拜拜拜。
691程序员阿江-Relakkes
12:27
2026 A大模型新王不断？互联网巨头们将被颠覆？ Anthropic Claude Code/Agent火爆全球，智谱GLM-5紧跟发布、Coding+Agentic工程逼近Claude，成本1/7+开源MIT，势头正盛到让投资者怀疑：谷歌、阿里、字节这些巨头要被颠覆了？
别急！本期深度泼冷水：用“算力经济学+生态阳谋”告诉你，为什么双雄越强，大厂护城河反而越深——每年数千亿美金投入不是比模型，而是把AI基础设施化，初创公司在高端被陪练、低端被免费蒸馏降维。
Chapters章节 :
00:00 初创公司势头正盛
01:24 不是做不出，而是“付不起”
03:13 巨头的“双轨制”阳谋
05:14 数千亿美金的暴力
08:11 智能体的“生态墙”
10:04 数据养料
11:27 总结
【声明：投资前请三思】
-这里的分享是 Napo 的“私人笔记”，希望能给你提供思路，但绝对不是带单或投资建议。
-每一笔交易背后都有风险，视频里的逻辑可能随市场环境变化而失效。
-每个人都是自己财富的第一负责人。在您点击“买入”或“卖出”之前，请务必建立在独立思考的基础之上。
#谷歌 #gemini #Anthropic #智谱AI #通义千问
1914沙里拾金
18:12
OpenCode详细攻略，开源版Claude Code ，免费模型与神级插件。
OpenCode 是近期热度最高的AI编程工具。它的最大优势是有开箱即用的免费模型，通过简单配置，还能免费接入Gemini3 Pro，Claude 4.5 Opus等顶级编程模型。OpenCode 可以看作是一个开源版的Claude Code，几乎具备Claude Code一切功能。非常适合小白上手AI编程，可以随便造随便玩，可以用它练习 Agent Skills，MCP，Subagnet 等高级特性。本期视频是一个OpenCode的完整教程。
#AI #ai新星计划 #科技 #计算机 #编程
3.3万技术爬爬虾
06:08
一句话生成一个世界谷歌Genie3加速世界模型研发比起OpenAI开源的2个模型和Claude Opus 4.1的发布，谷歌DeepMind发布的Genie3世界模型更为突出，从利用20万小时的游戏数据开始训练，达到今天的水平用了不到2年时间，也是非常快了。#世界模型 #Genie3 #DeepMind #OpenAI
7.1万晓辉博士
06:38
最强开源大模型DeepSeek R1 0528性能评测与深度解读！DeepSeek R2模型前奏，权重已正式开源！比肩Claude 4，拥有强悍MCP性能！#deepseek #ai #大模型 #ai新星计划
240九天Hector
01:06
DeepSeek 在 GitHub 开源库意外曝光代号「MODEL1」全新模型，为 V4 版本全新架构基础。该模型编程能力超越 GPT、Claude 等全球顶级模型，延续极致性价比，单次生成成本仅对手几十分之一，靠算法创新绕过算力内卷。
此前 DeepSeek-R1 曾导致英伟达单日蒸发 6000 亿美元市值，如今 V4 即将发布，新一轮硬核 AI 技术竞赛正式拉开序幕！#deepseek #deepseekV4 #AI大模型 #人工智能 #国产大模型
查看AI文稿
AI文稿
近期， deep seek 在其开源推理加速库 flash m l a 的 get out 代码库中，意外曝光了代号为魔斗一的全新模型标识，引发华尔街的高度关注。这并非对现有 v 三点二模型的修补，而是一次全方位的架构重构，被广泛认为是即将发布的 deep seek v 四的技术基础。综合各方信息，将到来的新模型有望在多个维度实现跨越式提升，这正是引发业界紧张的核心。内部测试表明，其在编程任务上的表现已经超越了 ansopik、 the cloud 和 open ai 的 gpt 系列等顶级模型。更关键的是，它延续了 deep seek 标志性的极致性价比路线。有分析指出，其单次代码生成的成本可能仅为竞争对手的几十分之一，真正实现了用算法创新绕过单纯堆计算力的内卷。正因为此，华尔街感到了刺骨的含义。去年初， deep sec 二一的发布曾导致纳斯达克指数重挫，英伟达股价单日暴跌近百分之十七，市值瞬间蒸发约六千亿美元。过去半年，由于 deep sec 未有新品发布，其他 ai 公司获得了宝贵的融资和发展窗口期，但随着 vc 技术为核心的新一轮竞赛可能即将拉开序幕。
48李沛恩Nora_
12:46
🚀本以为只是个普通AI，直到我让GLM-4.6写了个iOS App！Claude Code新搭档GLM-4.6开源模型全方位实测！上下文提升至200K、静态编译语言能力大增
🚀🚀🚀视频简介：
这才是真正的Agentic Coding！GLM-4.6模型在Claude Code中的震撼表现：200K上下文，开发效率直接起飞
⚡️ 本期视频详细演示了全新发布的GLM-4.6开源大模型在Claude Code中的真实编程能力！
✨ 核心升级亮点：
上下文窗口从128K提升至200K
Agentic Coding能力显著增强
推理能力和Agent集成能力全面优化
🔥 10大维度深度测试：
✅ Vibe Coding - 国风生成艺术与SVG设计
✅ 2D游戏开发 - 史莱姆足球物理引擎
✅ 3D场景搭建 - Three.js模拟城市完整开发
✅ iOS原生开发 - SwiftUI+Swift Data待办应用
✅ AI智能体 - AutoGen多Agent工作流
✅ React应用 - Chakra UI英语学习平台
💡 测试结果：GLM-4.6在静态编译型语言、3D渲染、原生移动开发等方面表现很好，部分场景甚至可以替代昂贵的Claude 4.5模型！
🔥🔥🔥时间戳：
00:00 开场介绍 - GLM-4.6大模型发布及核心升级
00:50 环境配置 - Claude Code安装与GLM-4.6模型接入设置
02:00 Vibe Coding测试 - 国风生成艺术与SVG封面设计
03:19 2D游戏开发 - 史莱姆足球游戏物理引擎测试
04:17 3D场景搭建 - Three.js模拟城市完整开发演示
05:50 iOS原生开发 - SwiftUI待办事项应用实战
07:28 静态语言能力 - Swift Data框架与编译型语言测试
09:03 AI智能体开发 - AutoGen框架文档阅读与多Agent工作流
10:33 React应用开发 - Chakra UI英语学习应用完整实现
12:32 总结与笔记 - 综合测评结论与资源获取方式
#glm46 #glm #aigc #ai #ai编程
525AI超元域
15:06
🚀开源编程新王诞生，实测GLM-4.7 🚀开源编程新王诞生，对标Claude Sonnet 4.5？实测GLM-4.7：Coding和Agentic能力直逼Gemini 3和Claude 4.5
🚀🚀🚀视频简介：
⚡️ 本期视频详细演示了智谱AI最新发布的GLM-4.7开源大模型的全方位编程能力测试！
📊 模型亮点：358B参数MoE架构，MIT开源协议支持商业使用，在数学竞赛、代码能力、科学推理等多项基准测试中超越GPT-5.1和Claude Sonnet 4.5！
🎮 实测内容：
SVG太阳系动画生成（一句话搞定）
冒泡排序算法可视化动画
3D风格侏罗纪恐龙狩猎游戏
圆面积公式推导交互动画
根据网页自动生成PPT
Claude Code接入配置教程
Chrome DevTools MCP浏览器自动化
iOS原生背单词APP完整开发
💡 无论是前端开发、游戏制作还是iOS原生应用，GLM-4.7都展现出强大的编程实力！
🔥🔥🔥时间戳：
00:00 开场介绍 - GLM-4.7模型发布，358B参数MIT开源
00:53 基准测试 - 数学、代码、推理能力全面对比GPT-5.1和Claude Sonnet 4.5
01:59 测试计划 - 前端编程、工具调用、复杂推理三大维度
02:30 SVG动画测试 - 一句话生成太阳系八大行星公转动画
03:27 算法可视化 - 冒泡排序动画：指挥舰排列小行星
05:01 游戏开发测试 - 从零开发侏罗纪恐龙狩猎射击游戏
07:12 数学推导动画 - 圆面积公式推导可视化演示
08:52 PPT生成测试 - 根据网页链接自动生成完整PPT
09:53 Claude Code配置 - 三条命令接入GLM-4.7 API
11:09 浏览器自动化 - Chrome DevTools MCP实战博客改写
12:00 终极挑战 - iOS原生背单词APP完整开发
14:54 总结评价 - GLM-4.7编程能力综合评估
#ai #GLM47 #ai编程 #aigc #大模型
查看AI文稿
AI文稿
智普 ai 在今天凌晨发布了最新的开源大模型 glm 四点七，这是一款专注于编程还有智能体任务的大型 moe 模型。这款模型在核心编程， web coding，工具调用还有复杂推理等方面有了重大的提升。在 hackinface grm 四点七的模型页面可以看到它的参数是三百五十八币，而且它的开源证书是 mit，这意味着我们可以用于商业使用。而且我使用这款模型从零开发了一个侏罗纪射击游戏，玩家可以操控皮卡车，用皮卡车上的机枪对画面中出现了恐龙进行射击。而且我还在 cloud code 中使用这款模型开发了一款 ios 原声背单词的 app。下面我们可以看一下官方发布的 g l m 四点七的精准测试。在数学竞赛这一项， g l m 四点七以九十五点七的得分明显领先，甚至超过了 g p t。五点一。在代码能力方面， g l m。四点七超过了 deepsea 三点二以及 cloud 三点四点五。在科学推理方面， g l m 四点七也超过了 deepsea 三点二以及 cloudsea 四点五。在复杂推理方面， g l m 四点七领先于 deepsea 三点二以及 cloud 三的四点五。还有 g p d。五点一。在软件工程基础测试中， g l m 四点七超过了 deepsea 三点二，仅次于 g p d 五点一以及 cloud 三的四点五。在浏览器能力的基础测试中， g l m 四点七超过了 deepsea 三点二以及 g p t 五点一，而且明显领先于 cloud 三 n 的四点五。好！通过官方给出的多项计算测试，可以发现， g l m 四点七它的综合能力还是非常强的，在多项计算测试中甚至超过了 cloud 三 n 的四点五以及 g p t 五点一。好，本期视频我们将从多方面来测试 glm 四点七的编程能力、工具调用能力以及复杂推理能力。首先我们会在官方网页版中来测试这款模型的前端编程能力，然后会在 cloud code 中通过 api 来调用 glm 四点七模型。测试这款模型非常简单，海外用户可以直接访问 chat 点 z 点 ai 来使用这款模型，然后国内用户可以使用 big model 这个平台来使用 glm 四点七。好，下面我们先测试一下这款模型的 svg 生成能力，这里我用这一句提示词，让它用 svg 生成模拟太阳系的动画，这样可以测试这款模型的 svg 生成能力。我们直接在数框输入这一句提示词，然后直接发送。好，下面我们看一下他为我们生成的这一款模拟太阳系的动画，可以看到这个动画非常流畅，他精准的画出了太阳系这八大行星围绕太阳公转的这个动画效果。而且放大之后我们还可以看到这些行星的轨迹，我们还可以看到月亮在围绕地球转，然后这里是土星，他将土星的光环也画了出来，可以看到这个效果非常不错。我们只用了最简单的一句提示词，他就为我们生成了这款精美的太阳系八大行星围绕太阳公转的动画。好，这是我们测试的 glm 四点七 svg 生成能力。好，下面我们加大难度，我们让他用前端技术创建一个可以模拟冒泡算法的动画程序，要求画面中有十二颗大小不同、颜色各异的小行星以及一艘更大的指挥舰。小行星随机排列在一条水平线上，指挥舰使用冒泡算法对小行星进行排序，排序过程要通过画面可示画，小行星之间的交换应该有移动效果，画面风格简洁流畅，具有太空感。好，下面我们就看一下 g l m 四点七通过我们刚才查看的这个提示词生成的模拟冒泡排序的动画。好，下面我们就可以点击开始排序，查看一下效果。我们直接点击，点击之后就可以看到这里出现了这个指挥键，它会对下面的小行星进行交换，当他发现左侧的小行星更大之后，他就会对这两个小行星进行交换，让体积更小的小行星排列在最左侧。在这里我们还可以查看他正在排序的状态，这里会显示正在比较和正在交换，而且运行没有出现任何报错。成功实现了将这些小行星进行排序。像这道测试题看似简单，但它可以考察大模型的算法理解、前端技术选型与编程实践、动画交互设计以及视觉美学表达的跨领域整合能力。好，下面我们继续加大难度，这里我准备了一个让它来生成恐龙狩猎游戏的一个提示词，要求使用 h t m r 五 kamas 和 j s 创建一个三 d 风格的恐龙狩猎游戏。玩家能操控一辆有机枪的皮卡，在侏罗纪时代的环境中追逐恐龙，用鼠标进行瞄准，点击鼠标进行射击，皮卡车可以通过键盘进行控制，要求有原始森林、高大的植物形起伏，有岩石、河流、火山景观。这个提示词比较长，我会放在笔记中，大家可以拿来进行测试。像这个测试题可以综合考察大模型在三 d 图形渲染、游戏引擎架构设计、物理碰撞检测、 ai 行为系统、多模态交互、因视觉反馈整合以及大规模复杂代码组织能力等方面的系统性工程实践与创意表达能力。好，下面我们看一下他为我们实现了这个侏罗纪狩猎游戏的效果，然后我们点击这个开始按钮进行测试。点击开始之后，我们就看到了画面中出现的这个皮卡车，皮卡车上有这个机枪，我们可以用鼠标控制这个瞄准器进行瞄准，然后我们看到远方出现了这个恐龙，我们瞄准他进行射击。好，可以看到把这个恐龙击倒了，然后我们开近看一下，好，这里就出现了这个击倒的恐龙，间隔几秒他就消失了，因为把他击倒了，然后这里又出现了一个恐龙，我们继续射击，可以看到这个体型小一些的恐龙，打几枪他就会死掉，我们再测试一下。好，可以看到这种体型较大的恐龙，要打更多枪他才能死掉，这里还能看到这些小型的恐龙，小型恐龙打两三枪他就死掉了，这里还有一个小型恐龙，我们开枪之后这个恐龙还会逃跑，好，这样的话就把这个恐龙给消灭了，可以看到远处是这种雾气蒙蒙的感觉，好在这里我们还看到了一个非常高大的一个山脉，当游戏结束后，这里会显示我们的得分，下面我们还可以测试一下 g l m 四点七的数学能力，这里我们让它用 html 创建一个能够演示计算圆面积公式的推导过程，这里是提示词，这里就不再为大家读这个提示词了。像这个测试题可以综合考察大漠星对数学原理，包括极限思想，几何推导的深度理解，还有 canvas 图形与几何变换计算复杂多阶段动画编排与状态管理，还有教育可识化设计思维，以及将抽象数学能力转为直观交互体验的跨学科整合能力。好，下面我们看一下 grm 四点七为我们完成的这个计算圆面积的推导过程，然后我们直接点击这里的播放动画好，这里正在播放好，这里清晰的展示了这个推导过程。在参数设置这里我们还可以增加这个圆的切割的数量，在切割的数量这里我将它设置成了六十四，然后我们放大之后，可以看到它将这个圆切割成了六十四份，然后我们再点击播放动画好，可以看到这六十四份被分开了，然后组合成了近四的长方形，这里就是他的高，这里就是他的边长，这里就给出了圆面积的推导公式，在下面还有文字说明，包括切割原理，还有重排原理，还有极限思想，然后在这里还给出了这些公式。像这样我们就用 g l m 四点七为我们生成了计算圆面积的这种推导动画，哪怕我们完全不懂如何计算圆的面积，看了这个演示动画，我们也能非常形象的理解如何计算圆的面积。下面我们还可以测试一下用 grm 四点七来做 ppt，让它根据这个链接里关于 grm 四点七的模型介绍直接做成 ppt。也就是刚才我们查看了这个链接下的这个介绍，然后我们可以查看一下它生成的 ppt 的效果，这里是第一页 ppt，然后这里是 grm 四点七模型的介绍。第二页这里就是关于这款模型的介绍，在这里他给出了一个代码的截图，这一页就是核心特性，然后下面就是即准测试，这里还将即准测试的截图添加在了这里，然后这里是给出的即准测试中的具体数据，在下面这里还给出了这三大思考模式，然后这一页就是如何使用最后一页 ppt，就是 g l m 四点七的优势，可以看到它生成的这个 ppt 效果还是非常不错的，将这款模型的这些参数，还有能力，还有这些优势都在 ppt 中展现了出来。好，刚才我们是在 glm 四点七的官方网页版中测试了 glm 四点七的前端能力，下面我们还可以在 cloud code 中来调用这款模型进行更加复杂的编程测试。像海外用户可以通过 z 点 ai 这个平台来创建 apikey，然后国内用户可以通过 big model 这个平台来创建自己的 apikey。好，想在 cloud code 中使用 glm 非常简单，我们只需要打开终端命令行。 windows 用户打开 cmd，然后我们就可以使用这一条命令来设置一下 cloud code 的 base url，然后我们再执行这条命令，设置一下 api key，然后再执行这条命令，设置一下模型的 id，好，下面我们就可以输入 cloud 命令来启动 cloud。好，其中之后，这里我们就看到了模型 id 已经变成了 g l m 四点七的模型。下面我们可以在 cloud code 中测试一下这款模型的浏览器自动化能力。这里我们将使用谷歌官方提供的 chrome devtools mcp 来测试它的浏览器自动化能力。在官方仓库页面，我们这里可以找到在 cloud code 中的配置方式，我们只需要复制这一条命令，再回到 cloud code，我们先退出 cloud code，然后我们再粘贴这条添加 chrome devtools mcp 的命令，我们直接执行，然后我们再启动 cloud code，这里已经成功连接了 chrome devtools 这款 mcp，然后我们就可以在输入框输入一个浏览器自动化任务，让它去执行。我这里输入提示词，访问我的博客，点击进入前三篇博客，并提取博客内容。将提取到的三篇博客改写为 x post，然后我们直接运行好，可以看到这里他打开了浏览器。好，可以看到这里他成功点击了第一篇博客，然后又返回了首页，现在他又点击了第二篇博客，好，现在他又返回了首页，现在他又打开了第三篇博客，好，这里他成功输出了改写后的三篇 x post，然后我们可以查看一下，这里是根据第一篇博克改写的 x post，而且他还加入了 emoji 表情，这里还加入了标签。然后这里就是第二篇博克改写成的 x post，这里就是第三篇 x post，可以看到他对博克改写的相当不错，而且运行速度也是非常快的。下面我们再用一个难度非常大的中级测试题来测试一下 g m 四点七的复杂编程能力。这里让他开发一款 ios 原声背单词的 app，包括支持 ios 十七加 swift 五点九， swift ui， swift data，还有 swift charts，这里就是功能详情，包括首页显示的这些内容。然后就是背单词学习的具体功能，包括单词卡片可以正反面翻转，还有三 d 翻转动画。然后这里就是练习测试的功能，还有学习进度的功能以及设置的功能。像这个测试题可以综合考察大模型对 ios 原生开发全栈能力，还有复杂手势交互与动画系统设计，还有间隔重复算法，还有多模块应用架构组织，以及将教育产品设计理念转化为完整可交付项目的端到端产品开发能力。下面我们就可以完整地复制这个提示词，然后打开 xcode，用 xcode 促使化一个 ios 的项目。这里我们就成功促使化了这个空的 ios 项目。好，下面我们就可以用 cd 命令进入到刚才我们创建的这个项目的路径，然后我们再启动 cloud code。启动成功之后，我们先执行 edit 命令，让它生成 cloud md 文件，它就会读取刚才我们创建的这个空的项目里的这些结构，以便理解这个项目的这些内容。好，这里提示它已经创建了 cloud md 文件。好，下面我们可以按两下 shift 加 type 进入 play mode，也就是进入计划模式。然后我们将刚才查看的提示词完整的粘贴到输入框，然后直接发送，让他制定计划。好，可以看到这里，这是他生成的开发计划，然后这里我们直接允许他进行开发，可以看到这里开始进行开发，这里我们要稍等一下，在等待了大概十多分钟之后，他完成了开发，然后我又让他将 app 的显示语言改成了中文。下面我们就可以在 xcode 中运行一下，查看一下最终的效果，这里提示翻译成功，然后我们测试一下，我们可以用鼠标滑动这个卡片来切换单词，然后可以点击翻转来查看他的中文的解释，还可以点击已掌握，点击一掌握之后，这里就自动切换了单词，我们再点击它的中文的解释，再点击一掌握，然后这里又会切换单词，然后我们还可以继续滑动切换单词，然后这里会显示每日目标。在练习，这里我们可以点击进行练习，然后在进入这里我们可以点击进度来查看学习的进度。在这个标签页，它唯一没有实现的就是设置，然后我们可以在 cloud code 中让它继续加入设置功能，为了节省时间，这里就不再让它继续加入设置功能了。像我们这个要求非常复杂的原声 l s 背单词应用，它能为我们实现这些功能，证明 glm 四点七的编程能力还是非常强大的好。通过我们多方面的测试，可以发现 g l m 四点七它在编程方面的综合能力还是有了非常大的提升的。我们可以在 cloud code 中使用 g l m 四点七进行项目开发。
140AI超元域
13:14
Claude Code又封号？别折腾了这个开源方案省心多了被封号折腾够了之后，我找到了一个省心的替代方案
OpenCode + Oh My OpenCode + 接口AI。
功能差不多，但不用翻墙、不用担心封号、模型随便切。
⏱️ 时间戳：
00:00 被封号后的新选择
00:28 OpenCode是什么
00:32 OpenCode的独特优势
00:52 oh-my-opencode多Agent插件
01:12 OpenCode整体架构解析
01:50 多Agent多模型协作机制
02:21 为什么需要多个代理
03:25 安装OpenCode和插件
04:56 配置多模型和Agent
06:20 用接口AI解决封号问题
07:30 配置文件详解
08:46 实战演示多Agent协作
13:04 总结与推荐
#opencode #claudecode #接口AI #AI新星计划 #抖音年味新知贺岁
查看AI文稿
AI文稿
这是我被 cloud code 封的第三个号了，申诉也没有用，我现在已经准备放弃官方订阅了，不想折腾了。那 open code 一直很火，最近我也在开始用它了，尤其是 cloud off 四点六和 gpt 五点三 codex 出来之后，我现在是多个模型配合去干活。那发挥每个模型的优势，用四点六去做架构设计，用五点三 codex 去做代码执行，如果有前端的一个 ui 需求的话，再拿 gmail 三点零 pro 去做前端的一个 ui。那 opencode 到底是什么呢？用一句话，它其实就是一个开源版的 curlcode，功能上的话两者差不多，但 opencode 有一些独特的优势，就是它是一个任意模型，你可以支持多家厂商的，你也可以用国产的，你也可以用国外的模型都支持。第二点就是代码完全开源免费，这一点非常重要，你可以自己去改，自己去定制。同时代码开源之后，那开源社区的人就可以去围绕它做很多功能，毕竟人多力量大嘛。比如这个插件 opencode，这就是社区去搞的，现在已经三十 k star 了。这个插件其实是一套多 agent 多魔性去协助干活的一个插件，最近我体验下来也挺好用的。它这边准备了十个 agent，有主控 agent，有去专门干代码的，专门去探索代码的，也专门去做前端 ui 的，挺好用的。 open code 整个的架构的话，其实跟那个 cloud code 差不多，用户输入成有绘画管理嘛，然后有 agent，有 plan 就计划，那 kolco 的那边也有，那有 build 就是直接干活的嘛，还有些探索的，其实 kolco 的那边不是都有吗？以及你制定一些 agent 都有，那调度层这边就有些差别了。关于大模型的调度，因为 kolco 的那边他只支持 angelic 协议的嘛，那这边的话就是实现了一套支持其他各种供应商的整体的架构的话，其实有很多值得学习的地方，如果大家对 kolco 感兴趣了，可以去他官方原码仓库去拉下来去学一下，那个仓库现在已经一百多 k 了，特别火。那下面就是这个 oh my open code，这个是我们今天讲的重点，因为他这一套多 a 镜的多模型的一个机制，能让一个任务去拆解成各个阶段去开发，有复杂的用复杂的模型，简单的用简单的模型，这种才是一个理想状态下的一个写作的方式嘛。那它本质上就是我刚才说的，它就是一个插件，通过 open code 暴露的一些钩子去拦截这一个 ai 的一些行为，它的整个工作流程就是来一个用户输入之后，它去拦截 open code 的一些钩子，这时候去做一些增强上下文呀，或者去选择多 a 帧特有可能是多个模型去协助，最后返回结果整体的一个流程就是这样子的。那为什么需要多个代理？哈？他这边说的一个说法是专业的代理去做专业的事情，然后规划和执行分离，可以并行执行，按需去选模型，并且节省成本。那他现在这一个多代理的话，就像最近 cloud code 新出的那个 agent teams 一样，只不过 cloud code 它是很久很久之后才出的嘛，这个是老早就有了 omago code，那下面是它的一些 agent 的一个分工，这一个是它的一个主要 agent 是用了 cloud 的 off 四点六这个模型。还有一些规划师就是在规划方面以及编排方面，他用的卡尔的最顶尖的模型，那代码磁性这一块的话是用的是 gbt 五点三 codex，如果是一些比较轻量的任务，你可以用 gm 啊，或者 mini max 啊，以及其他都可以。那些前端这块的话，他用的 jimmy 三 plus 或者 pro，这样子的话就一个任务进来之后他由这个去规划，规划完了之后，他让 jimmy 五点三去做执行，然后发现有前端任务，他这个时候就用 jimmy。如果涉及到一些小修小改啊，比如说是一些国际化处理啊，多语言处理，这个时候它就完全可以用很低的那种模型去做这个事情嘛。这样的一个搭配其实我体验下来挺好的。好，下面我们就开始分别去安装 opencode 和 oemopencode 的这个插件。桌面端它现在也支持了，支持 macos、 windows、 linux，我体验下来的话，它有一些断流的情况，所以说我更推荐大家在使用 cio 版本，我们先来安装一下。好，它提示我们已经安装了，我们来进去看一下，我们先切到一个免费的模型，你上面搜一个 free 这些模型的免费，我就用 mini max m 二点一吧，我们输入一下测试一下，看它安装好没有。 ok，如果看到这步就证明你 open code 已经安装好了，这个时候我们就有安装那个插件，因为现在在 ai 时代，其实你安装东西都非常方便，尤其是它如果有文档，有开箱库的话，你看这一个插件哈，欧麦 opencode 的一个官方仓库里面直接就告诉你了，你直接用 qq 编辑的去装就行了，我就把这个复制一下，然后粘到刚刚我们开的这个 opencode 的里面，用免费的 mini max 让他给我们去装，那下面就是他会弹出来让你做一些选择，可以看到他让我们回答一些问题嘛，你有没有订阅 cloud code，有没有订阅 openai，有没有一些 jimmy 的一些 model，你就根据自己的情况去选择就行了。强烈建议你不要在 open code 里面去用 cloud 的模型，通过订阅的方式去用封号的概率非常高。那这边我就说都没有，待会我也给大家一个配置，直接就可以用了，你只需要去搞一个 api k 过来，你就可以直接把这些模型都用上了，这时候我们都说都没有就完事了，因为这个配置后期都可以去改的。可以看到我们把插件安装成功之后，下面的这一个 a 镜头就变了，变成了 omone code，它的那一套多 a 型的体系，可以看到它有好几个 a 型的体系可以去用，并且这个插件那还有个好处，它的兼容性做得比较好。它已经把 cloud code 那边你有的一些 skills， mcp，还有那些自定义的命令全部弄过来了，比如说 skills 可以看到我的那些 script 它全部弄过来了，这样非常好。也就是说你可以来回签嘛，你有时候你要回去 copy 到那边用也可以。现在我们开始配模型，你可以通过 connect 这个命令去连接你想要的一些模型，如果你有恰当的 gpt，里面就选恰当的 gpt，你有其他的你就选其他的。那我这边的话，平时会用 jimmy 三点零去写前端嘛 code，四点六去写架构和具体的一些代码，然后 gpt 五点三 codex 去做一些代码之星，以及解决一些疑难杂症。我喜欢用每一个模型擅长的能力哈，但是对大家来说的话，你如果像我一样去订阅三家的 ai 模型，其实你要花三分钱。我订阅的一百刀的 code code，然后今门来我订阅了两个号，一百四十刀， open ai 我订阅了二十刀，那加起来就是一百六十刀。并且哈，我们刚也说了，如果你用 code code 的去授权到这边 opencode 的去用的话，你封号的概率特别高。之前我还出了一期视频，专门去讲这个 curlcode 的大面积去封禁 opencode 的用户的一个事件，因为刚开始他是不管的，后面他发现这个 opencode 的日渐壮大之后，他就开始封禁了，你就不能授权到这里面用。所以如果你要在 opencode 里面去用 cloudof 四点六的一个模型，我建议大家去用中转站，通过按 api 去计费用多少就算多少。那我这边推荐一个我一直在用的中转站接口 i， opencode 的这边也已经支持了接口 i，也就官方支持了嘛。那前面几期视频我也推荐过，如果我要用到一些国外的模型，按 api 调用的话，我都用的是接口 i，挺稳定的。最关键的一点，你不需要模仿网络，而且是国内付款的一个方式。最近他们还专门针对海外的顶尖模型增加了一个套餐的方式，也就是说你可以用一份钱去用国外这些顶尖模型呢，目前有三个档位哈，可以按自己的一个需要去选择，相较于官方 api 按量计费的话，这一个套餐模式帮你省了百分之二十五的钱。好，下面我们先来去创建一个 api key，在这个地方新建，我就随便取一个，我们就取 opencode 的点击复制。这个时候我们回到 opencode 的这边附着 apk 之后，我们供应商选择接口，点 ai 敲击回车，把我们的 apk 输入下，然后保存，这时候你可以看到国内国外的模型都可以用，用一个 apk 你就解决了多模型的一个适配问题。好，下面我们来进行一些其他的配置。当你安装完 open code 以及欧曼 open code 插件之后，你会在你的工作目录下面点 config，下面有一个 open code 目录，这里面有两个节省的配置文件，一个是配置 open code 的一些模型的，另外一个是配置我们这一个多 a 帧的协助的时候，它具体用哪些模型。这边的话我给大家直接准备了现成的，你直接到我的一个开源仓库里面直接去复制就可以了。下面来我这一个开源仓库里面，直接把这两个配置可以复制一下，把它粘过去就完事了。好，我们把它覆盖一下保存，再把 omecode 的也复制一下回来点击复制。那这一块的话，你可以根据你自己的需要哈，因为 gpt 五点三这一个扣袋子模型的话，官方是没有出 api 的版本，那后续如果 open i 那边出了 api 版本接口， i 这边也会跟上，你就根据自己的需要嘛去看这块要不要注视这个内容，我们来复制一下。好，我们把它覆盖完了，覆盖完了之后，我们重启一下，你就可以看到 color 的 open 四点六已经可用了，就这几个 a 帧的，它配置的模型都可用了。那下面我们开始进入实战的一个环节，有了 o my open code 插件之后，我们看一下多 a 帧多模型协助的一个流程。我这边有一个纹身图的 a 帧，我希望让它去加一些功能，在这边加一些删除的动作，能把历史记录删除掉，同时在左下角做一些设置的动作，可以去更新你的一些头像啊，以及我们那些历史提示词，能支持去快速的复制展开开干，那提示词的话也比较简单，我们这边加一个 alterwork，让它去更深入的去工作，去分析。好，我们切到 opencode 这边，这个就是它的整个架构 agent，它用的是 off 四点六，那这个的话是干活的 agent，它用的 gpt 五点三，还有些其他的 agent，也就说它是多 agent 多模型去写作的一个流程。好，我们把提示词粘过来让它干活，这里提示 autowork 已经开启了，这个时候可以看到它开启了一个探索的沙背 a 技能吗？用的是很便宜的一个模型，这个过程就跟在 clockcode 的是一样的，这里又开了一个新的，可以看到它一直在开一些新的沙背 a 技能的任务去做探索。啊。好，这里又开启了一个计划的 task，也就是一个沙背 a 技能，我可以点进去看一下它在做什么，可以看到他就是把已有收集到的一些代码信息，整个代码空间来去做一轮分析，让这个 off 四点六做一个计划出来，这个时候他这一个主要的协调 a 技能在等，等他这个后台的这个计划任务完成完了之后，这个时候他再去协调其他的 a 技能去干活。可以看到它这一个经过几轮的一个探索之后哈它得到了一个突突像，那这个突突像的话，它根据后端、前端以及一些小需求拆成了很多突突像，这个时候它就开始去并行执行修改任务了，可以看到它这里又开启了几个 safari 的。有一个点要看的话是他的这个三倍镜，他开的时候，他其实这个时候是用的 jamal 三 plus 这个模型，也就说他认为这个任务其你根本就没必要用一个很高的模型去做这个事情，所以说他默认给你路由到了一个简单模型，它这种规划任务的方式就能把模型最大化的利用起来。复杂的任务用复杂的模型，简单的任务用简单的模型就很完美。可以看到它开始去执行 t 四跟 t 六这两个任务了，而且它依赖关系也找出来了。这个就像前两天发布的 cloud agent teams 的一个写作流程，只不过这个是老早就有了这个插件老早就有了这种多 a 的写作，最终被 cloud code 写到一个官方的库里面去了。然后他们那种通信机制就跟爱信的 tim 是很像。哎呀妈这个系统通知 coco 的，其实他很多方案是借鉴了社区的，因为社区搞出来之后，他觉得确实是 ok，可以的，那他就把它集成到 coco 的里面。所以这 coco 的从它诞生之后的很多功能迭代都参考了开元社区的一些做法，而且他的也在他的一些技术博克里面有，感谢一些开元社区的人提供了一些解决方案。就像你做产品一样，你产品迭代的过程中，你光靠产品经理去，有时候发觉不了用户的一些真实的需求，那真实的需求暴露出来之后，社区他就解决了，那你就可以去把一些已经解决的痛点的问题提升到自己的产品里面。可以看到这所有的凸凸像它全部完成了哈，包含三个任务，我们现在来看一下它整体的效果怎么样。首先是左侧的这个删除功能好，确认删除 ok，确认可以，并且弹窗也是正常的。其实我们看这个可以复制已有的提示词，可以复制折叠展开是 ok 的。下面就是这一个左下角的设置，可以去更新昵称跟头像这一些啊，可以看到他这边其实也做好了。好，我找一张图像试一下看可以吗？前面加一个我的名字吧，看可以吗？可以，已经保存了。可以的，这个看起来他做的挺好的，英文啊，英文设置也是 ok 的，多源设置也是 ok 的。整体这一次任务的话，他全部搞定了呀，就是虽然不是特别难的，但是他协调了多个 a 镜的去干活，而且都能交付的很完美，中间我没有做任何的介入，所以说这个工具啊，真的推荐大家去用一下这个多 a 镜的协助真的挺好用的，下面我来总结一下。使用 open code 再加那个插件， open code 再配合你用一个接口外的中转站，可以做到模型自由稳定，省心，你也不怕被封号。第二个的话是成本灵活，这就是今天所有的视频内容，如果你觉得这期视频对你有帮助的话，可以给我一件善良，谢谢大家。拜拜。拜拜。
1882程序员阿江-Relakkes
02:23
开源冠军模型！程序员AI编程新组合 #程序员 #编程 #GLM #ClaudeCode #科技
1.2万程序员三千
15:31
OpenCode 实测｜从零开发一个 AI 应用 OpenCode 是 Claude Code 的开源平替，不绑定供应商，几乎所有模型都能用。
这期我用 OpenCode 从零开发一个模特换装应用，完整走一遍：需求收集 → 原型设计 → 前端开发 → 后端改造 → 功能迭代，测试它和 Claude Code 的区别。
#AI新星计划 #skills #claude #AI编程 #OpenCode
查看AI文稿
AI文稿
open code 这个开源项目最近很多人都在聊，说是 cloud code 的平替功能呢，和 cloud code 也是一模一样的，所有模型都能用，但是对于我们普通人来说，我们要怎么用？网上评测我看了不少，但是我还没有看到有人用它完整的演示一遍开发流程，所以今天我来做这个事情。我会用一套平时我在 cloud code 上使用的开发流程，结合 open code 从零开始开发一个服装电商的模特换衣应用，带你走一遍完整的流程，顺便也测试一下它和 cloud code 到底有什么区别。那我们现在开始这套方法我之前已经分享过两次了，就是这一期和这一期。现在呢，我把它迭代到了三点零版本。整体流程是这样的，首先用毒蛇产品经理技能收集需求，他会通过追问来完善细节，然后生成产品文档。接着用 ui 提示词，设计师技能根据文档生成原形图的提示词，然后把提示词丢给 nano banana 生成原形图，再用 google ai studio builder 来开发前端，最后用全站开发工程师技能完成后端的开发和后续迭代。整个流程是由一个主控的项目规则文件 agent 点 md 来进行统一的调度。这个场景包含了需求收集、原型设计、前端开发、后端改造、功能迭代，基本囊括了日常开发的主要环节，所以用它来测试，基本可以很好地展示 opencode 的完整的开发流程。打开 opencode 官网，点进下载页面， opencode 有四种使用方式，在终端里使用，客户端使用、安装 ide 插件或者集成到 github 这类平台。我们今天讲的是第一种直接在终端里使用， mac 用户建议安装第一条命令， windows 用户建议用第二条。那我是 mac，所以复制第一条命令，按 command 加空格，输入 terminal，打开终端，把命令贴进去，回车直行，然后等待它安装完成就行了。这里可能会有一点慢，那就看你网速了。好， open code 我们已经安装完成了，接下来我知道很多新手看不惯终端的命令行，所以我们就在 cursor 里面启动 open code，应该会对你友好一些。打开 cursor，在 terminal 里输入 open code 启动，启动之后有个快捷键，你一定要记住 ctrl 加 p，按下去会列出所有的命令。大部分命令可以在之后慢慢熟悉，但有一个现在你就要知道，就是 a 键下面的 switch model 切换模型使用后你会发现有很多模型可以选，像 chatgbt，五点二， gmail 三 pro， mini max 这些都有，带有 free 标记的，是免费的。其他那些常用的模型需要你自己去配 api，想用别家的服务，可以按 ctrl 加 a 添加供应商那支持的还是挺多的。配置也很简单，比如你想用 google 的 api，那就选 google，然后把 gmail 的 api key 贴进去就可以了。接下来我们来开始配置，这个逻辑和 cloud code 是一样的， cloud code 的系统文件夹是点 cloud，那 open code 这边就是点 open code，然后这是我提前准备的技能文件， ctrl c 复制，回到 open code，在点 open code 的这个系统文件夹下， ctrl v 粘贴，这样就一次性导入成功了。一共三个技能，独设产品经理、 ui 提示词设计师，还有全站开发技能。接下来是导入项目规则，在 cloud code 里，顶层的项目规则文件叫 cloud 点 md，那我们这次用的是 open code，它的项目规则文件要写成 agents 点 md 文件名不同，但思路是一样的，都是顶层的项目规则。回到 open code，把点 open code 的这个文件夹收起来，然后 ctrl v 粘贴，这样项目规则就导入了。注意看 agents 点 md 这个文件和点 open code 这个文件是在同一层级的，这点跟 cloud code 不太一样。在 cloud code 里， cloud 点 md 是放在点 cloud 的这个系统文件夹里面的，这个很重要，放错的话顶层规则就不会被加载。再来看一下文件结构，这是整套开发流程用到的技能文件，是我平时开发应用和小工具时用到的，当时用的是 cloud code，所以 cloud 点 md 这个名字没改。不过没关系， open code 完全兼容，能自动识别好技能和项目规则我们都已经导入完成了，接下来我们来走一遍完整的开发流程，用 open code 来开发辅助电商用的模特换装应用，启动主 agent。这套开发流程分为几个阶段，每个阶段都有对应的指令输入 slash help， open code 会列出所有的指令，包含从需求收集、生成原型图、提示词到开发和本地运行的全过程。接下来我告诉他开发一个网页应用，帮助服装电商生成模特图，支持更换模特的姿势动作，调整服装的配色，还能更换新的搭配方案。声控模型用 gemma 三 pro image preview，也就是 nano banana pro。收到需求后，毒蛇产品经理的技能被自动调用了，然后开始针对需求进行追问，上来就说，别给我废话，让我选一个核心，那毒蛇味已经出来了， gbt 五点二骂起人来也是不留情面。我告诉他，目标用户是独立设计师，功能范围需要支持声图姿势调整、配色搭配和编辑功能。确认没问题后让他继续。那进入到第二轮追问，他问参考图是什么形态，这是个多选项。那我的设想是，上传的参考图可以是模特的人像照服装平铺图，或者是搭配平铺图，控制方式可以用 prompt 文字指令，也可以从姿势预选库里面进行挑选，同时还要支持配色面板调色。确认没问题的话我们继续。好。现在进入到第三轮的追问，问的是账号和付费模式，这个工具是我个人用的，所以不需要付费功能。那存储方面，现在是 mvp 阶段，主要是为了快速演示，暂时不考虑保存，先跳过确认没问题的话让他继续。好。接下来是第四轮的追问，人脸一致性怎么处理？我的想法是核心需求是保留参考模特的脸部特征，成片的标准是多选，一个是白底电商主图，一个是澎湃的质感效果。确认继续后，这个时候他已经收集到了足够的信息，开始直接编辑产品需求文档了。好！运行结束后，他帮我们创建了两个文件，产品需求文档， product spec，还有变更记录 product spec change log。先看产品需求文档，因为我们的需求比较简单，生图工具和布局交互也都比较常规，所以他没有问太多交互和布局的细节。那再看一下圈子 log，现在是项目的初试阶段，变更记录里也只有一条初试记录，接下来我们有两个选择，直接开始开发，或者根据产品需求文档去生成 ui 原形图的提示词。原形图提示词是可选的，但我觉得这一步能大大的提升最终效果。正好给大家演示一下输入指令 ui，让它使用 ui 提示词设计师技能，生成圆形图提示词好，完成了，提示词保存在了 ui prompt 这个文件里。那我们打开看一下，这就是生成的页面原形图。提示词用法也很简单，直接把提示词复制发给 nano banana pro，生成产品原型就可以。目前一共生成了三个页面，主页面、图片预览页面，还有报错页面。接下来我还要做一件事情，这套流程有两种用法，第一种呢，是生成好原型图后，直接把图发给他，让他在 open code 里面进行开发。那第二种呢，是用 google a s studio 里面的 build 来开发，本期我就会演示第二种，这种方法对新手或者是刚刚接触外部抠钉的人来说，更容易上手，效果也更好。我告诉他，你先别管 apikey 的事，我会用 google a s studio 开发前端，开发好了之后，我会把代码发给你，你再帮我改造成前后端分离的项目。他已经明白接下来要做什么，怎么配合我们，而且还直接给了建议，比如用 google a s studio 开发的话，回来时需要教给他哪些内容，或者开发好了之后让 open code 继续迭代，需要提供哪些信息和资料好。原型图我已经提前生成好了，现在这个页面是 google a s studio 模型，选的是 nano banana pro。我做的事情很简单，把刚才生成的三个页面的提示词完整的贴进去，顶部加一句话，帮我生成一个三宫格竖向排列的长图，这是一套电商模特试装的网页应用，然后他就开始帮我生成原形图了。那我们放大看一下，这三张图基本上是按照我们的需求文档里的布局和功能描述生成的，当然后面开发的时候， ai 会拿这个图作为参考，并不会完全的百分百复刻，所以这一点你要注意。为什么要用 ui 提示词来生成原形图？主要呢有几点核心考虑，第一是速度快，外部口令不需要一开始就追求完美，先把架构快速的搭起来，然后后面再慢慢的迭代 ui 和交互。第二呢是为了好看，如果你不给 ai 参考图，光靠文字描述让它开发出来的页面通常都很丑，不管你提示词写的多好，在我看来都丑的要命。所以用 nano banana pro 直接生成原形图设计其实很好，再结合我们这套方式，页面好看，功能呢也符合我们的产品需求，一箭双雕。这就是为什么我觉得这一步非常重要，想要给大家看一下。好，那原形图已经有了，接下来我们打开 google a s studio，先开发前端，我们先完整的复制一下 prods bike 里面的产品需求，然后回到 google a s studio builder 告诉他，让他帮我开发一个模特换装的应用，先把 products back 整个贴给他，然后把刚才生成的 nano banana pro 的原型图也贴上去。 ai 能力选择这边我们选择 nano banana powered app 和 generate images with nano banana pro，因为我们的应用需要生图能力，必须调用 nano banana 检查没问题，点击 build 开始。接下来它会自动读取文档和我们发过去的截图进行开发。所以我们稍微等待一下好，开发完成了。有几个注意事项，第一，记得右上角选择一下你的 gemna api key，否则无法使用 gemna 三 pro 或者是 nano banana pro 这些付费模型。第二，我们来看一下界面的还原度，那开发出来的界面和原型图已经有九层相似了，布局，色盘选择，模特姿势这些功能都有。好，我们来测试一下。先上传一张模特图，再上传一张 gucci 的最新的女装，一条红色的裙子，风格选择澎湃风格，输出四张模特姿势，选动态走路提示词就先空着，先不填，我们点击生成好，生成完成了。放大看看，模特的真实感几乎无可挑剔，澎湃的风格，无影墙，走路姿势，人物和衣服的还原度都很好。接下来看一下代码，点击 code，这就是他开发的所有的前端代码。把代码打包下载，然后找到刚刚我们下载的代码， ctrl c 复制，回到 open code， ctrl v 粘贴代码就导入了，然后告诉 open code 前端已经开发好了，代码放在了这个文件夹里，这个时候他会问原型图有没有，你需要提醒一下他前端已经开发好了，直接看代码就行。后端部分他建议用 node 加 express，但我决定选 next，点 j s 看看他怎么处理，确认没有问题，让他继续执行。等待开发的时候，顺便说一下，为什么我们要前后端分离。 google a s studio builder 开发出来的是存前端代码， api key 是直接写在前端里的，那这样部署上线 api 就会暴露，任何人都能看到。所以我们需要把 api 调用挪到后端，前端只负责界面和交互，而且后端除了负责调用 api 以外，我们后面迭代的时候，比如要加全线连数据库，或者是业务逻辑，这些也都需要放在后端的好开发完成了。不过它提醒我们，我们发给他的前端代码的基础是 vt，不是 next 点 gs，所以这一版它用了 express 做后段，因为这是最小的成本，最小的改造方案。但如果我们坚持要移到 next 点 gs，它也是可以帮我们执行的，那到这里项目基本就快速完成了。所以接下来我直接输入指令 slash run，让它在本地跑起来。 ok，我们可以看到项目它说启动了，但是显示的状态不正常，不过没关系，他说他可以帮我们定位和修复好。修复完成了，原来是三千，这个端口被我另一个项目占用了，那他帮我们改成了三零零一端口启动，如果你想随时停止，可以输入 slash stop，就会停掉后台的所有的服务。 ok，项目启动了，界面功能布局都保持了原样，没有什么问题。项目虽然跑下来了，但是我们不可能一步到位，所以接下来我们来测试一下迭代功能，我要给他加一个新的需求，我告诉他我想增加一个在页面上配置 api，并且进行校验的功能。那针对这个功能，他开始追问，首先问我 api 怎么保存，那我选择肯定是存在后端，然后问我校验的方式，这里我选择的是真校验，需要他发个请求，看看 api 能不能跑通，确认没有问题，开始开发。顺便说一下我使用的这套开发流程，产品经理和全站开发这两个技能会循环配合，每次新增或修改功能，主 a 阵的会先调用产品经理技能，进入到迭代模式，通过追问补充并且更新产品需求文档和更新日期，然后才调用全站开发技能去实现代码。这样做的好处是文档始终和代码保持同步，不管是日后自己回顾还是重新开窗口让 ai 接手，都能快速的了解项目的全貌。好，完成了，他说已经更新了产品需求文档和更新日期，那我们看一下更新的内容。产品需求文档这边第四十九行辅助功能下面插入了 gmail api 保存交换的需求。再看圈趣 log 这边新增的 v 一点一版本，内容是配置 api key 和交换功能。我们回到网页，应用，左下角已经出现了配置 api key 的功能，我把我申请的 gmail api key 贴进去， ok，交换成功，没有问题。好到这里，我们整个的开发流程差不多就走完了。最后我来聊聊我用下来的感受。先说优点，第一，模型自由度非常的高，这是 open code 的最大的优势。 cloud code 您只能用 cloud，对于使用其他的模型，它基本是严防死守。 open code 呢，你可以随便切换，想省钱就用免费的模型，想要效果更好就换 cloud 或者是 gbt 五点二，灵活很多。第二呢，是整体的体验和 cloud code 非常的接近，指令逻辑既能加载开发流程，基本和 cloud code 是同一个思路。如果你用过 cloud code，那上手 open code 几乎没有任何学习成本，不过缺点也是有的， open code 是开源项目，在使用 agent 或者 skill 的时候稳定性就会差一些，特别是多 agent 协助主 agent 调用 sub agent，或者是主 agent 调用 sub agent 在调用 skill 的时候，这类场景复杂的话， cloud code 的表现依然是最稳定的。但总的来说，如果你预算有限，或者是想尝试其他的模型， open code 目前是最接近 cloud code 的开源替代方案。而且说到底，工具本身作用其实有限，真正起到决定性作用的是你在用的那个模型，这才是最重要的。好，以上就是本期的全部内容，如果对你有所帮助，别忘了点赞以及加入废台俱乐部，这对我们频道真的非常重要，那我们下期见。
5118废才俱乐部Club
01:56
最适合小龙虾openclaw的模型排行榜 #大模型 #ai #claude
查看AI文稿
AI文稿
打死我也没想到， open curl 最适合的模型是这个，最近出来了一个小龙虾的评测精准， peter 也是为他点了个赞，他是专门用于评估小龙虾在一些实际的场景，到底他的效果怎么样，今天我们来看一下。首先他的评测任务里面有二十三个，然后基本上都是日常常见的一些任务，然后他就评估了非常多的，我们直接来看一下他的排行榜，打死你也猜不到。最适合的是这个 jimmy 三 flash 这个模型，它的准确度达到百分之九十五。然后第二个是这个 mini max m 二点一，但是 mini max m 二点五已经出来了，但是它没有评估。可以看到像这个 oppo 的四点六，四点五，还有 jimmy 三 pro 都排在后面，还有 kimi， kimi 也排在了第三位。最最重要的是这个 jammy 三 flash 排在了最前面，我不知道它是为什么，最最重要的它的成功率是最高的。还有其他的一些评测榜单，这个就不说了，因为它完全没有考虑成功率，它没有一个综合的榜单，我们直接看它的准确率。但是毫无疑问的，这个 jammy 三 flash 它的价格也是很便宜的，而且速度也是肯定是很快的。但是有没有 mini max 应该是比 mini max 要稍微快一点的，因为本身不光是模型的问题，还有一些服务器的问题。这个 jammy flash 肯定是更快的，而且它的准确度也高，成本也低，虽然还是没有这个 mini max 更低，因为它是有一个汇率差存在，所以说 mini max 会更便宜点。这个 kimi k 二点五也是真真是想不到。其实这个项目还可以拿来做一些什么？这个基本都是开源的，其实还可以拿来做一些模型的评估，评估了之后可以拿来做这种模型的路由，什么模型适合做什么样的任务，什么模型适合做什么样的任务，同时兼顾准确度的情况下，又兼顾了他的一个成本和速度，这个还是有的做的，有这样的，如果有这样的一个项目，他应该应用场景还是挺大的。
751jesse
04:11
OpenAI开源、Claude最强编程模型，谷歌世界生成器 #AI #openai开源 #claude #谷歌 #世界模型
203杨博士说AI
01:37
五款AI模型终极排名曝光！ Llama 4开源破局，Grok 4毒舌上帝眼，Claude 4.5凭啥登顶「灵魂伴侣」#Gemini #GPT #Claude #grok #豆包
查看AI文稿
AI文稿
从打破垄断到灵魂共鸣，五款顶级 ai 模型正重塑智能生态，各凭硬核实力占据赛道核心。第五名， lamafor 开远世界的普罗密修斯，他的伟大不在于性能的极致突破，而在于将自由还给使用者。作为唯一可本地下载、断网运行的顶级模型，他彻底规避数据泄露风险，无任何隐私后门。对企业与极客而言，他早已超越工具属性，成为真正私有的数字资产，让巨头垄断的智能神火会及每一个追光者。第四名， rockfor 硅谷的叛逆野兽厌倦了 ai 的话术套路与虚迎合， rock 四便是破局之选。依照推特海量实时数据流，他总能抢占信息先机，更早触达真相本质。直率犀利的表达风格，拒绝自我阉割的真实态度，在信息爆炸的时代，成为人们窥探世界本真的上帝之眼。第三名， g p t five point two 跌落神坛的六边行战士，昔日王者退居第三，非因自身实力衰竭，而是对手的强势崛起。他依旧稳坐多模态交互的巅峰宝座，听说读写话样样精通，坐拥最庞大的插件省态，即便在极致推理场景中稍显乏力，但论稳健性与容错率，他仍是无可替代的万能管家。第二名， gemini three pro 拥有无限极一的超级大脑，恐怖的上下文吞吐量是他的核心杀手锏，数千页财报能一次性吃透，十小时长视频可过目不忘。结合谷歌全家桶生态加持，他成为地表最强数据分析师的水滴。第一名， clodopus four point five ai 净化对终极艺术品当之无愧对皇冠明珠，它彻底破解了向人还是向机器的核心矛盾，写出的代码兼具顶级架构师的优雅与严谨，创作的文字饱含诗人般的细腻与深情。零幻觉、超强逻辑、极致同理心，让他摆脱了冰冷的问答机器定位，成为真正能与人类灵魂共鸣的合作伙伴。五款模型各有锋芒，你心中的最强 ai 是哪一个？
21火火讲
03:15
真openclaw和claude，deepseek都配置上了,没想到模型和模型之间差距如此之大，中美之战我们一定要戒骄戒躁呀#openclaw #deepseek #claude#人工智能 #超ai的学习搭子
查看AI文稿
AI文稿
那个命令根本不存在，机器人在骗你，看到了吗？现在是晚上两点多了，发现了很多很多不可思议的事情。小龙虾装好了啊，小龙虾，我用的是这个 deepsea 啊，用的是 deepsea 的模型，你们看啊，我说我把你权限全部打开了，你为什么？你为什么要去操作？我不要操作啊，你看我是让他什么在桌面弄一个快捷方式，弄了十几遍，你看，弄了十几遍啊，都没有办法，笨的就跟猪一样，我用可恶的啊，看我这要疯了啊，那不是和蠢货一样没什么区别？我该怎么办？他一瞬间就给我搞好了，看这条命令，百分之百确认可用。看一瞬间就给我搞好了，再看这里啊，这个是那个 dbic，他用那个 opencrow 给我发的一个指令，让我按照这个指令去做。我现在用的是 crowder，你看 crowder 怎么跟我说的，说停，不要再跟这个模型说话了，他在胡说，看到吗？根本完全不存在，这些指令根本完全不存在，知道吧？看到吗？现在赶快回去看吧，再看这里。我还是不相信，我说这些难道都不行吗？他说看到没，报错了，证明他是对的。那个命令根本不存在，机器人在骗你。看到了吗？我这是 grog 啊， deepsea 简直了。我用的是 deepsea 的 chat 模型啊，根本不行，我真的，今天晚上我搞完之后我很难过，我心里面很痛苦，你知道吗？国外的，国外的 crowd 他真的非常的专业，他基本上很少能给我搞出错的东西，但是国内的大模型天天胡扯八道，真的能胡扯就胡扯，胡扯八道，经过了一个晚上的调试啊，经过一个晚上，我信了，真的，我信了。我准备放弃那个 deepsea 的模型，用国外的，尽量用国外的。你看着你，他说的啊。说实话，今天聊了这么久，我需要告诉你， deepsea 加 open curl 做不到你想要的自动化控制电脑看到吧，但是可以做到的是什么？是用国外这个 curl 的 common usin，对吧？这个东西我心很痛苦，但是我准备试一试，然后先这样，好吧，然后我再用国外的加上那个 open curl，他说他跟我说我也相信能创造一个非常厉害的一个结果，因为 diaboc 的模型配上 open core，你只能聊天，但是如果配上另外的大模型，再配上 open core，他就能做非常非常多很牛逼的事情，很牛逼的事情。
172诸迪努力学AI
01:01
千问3 MAX登顶开源王座五项第一碾压全球国产模型再次扎堆突围颤抖吧Claude！#qwen #kimi #anthropic #claude #qwen3
1041Ryan
00:41
OpenAI开源模型，可商用，消费级显卡可跑！ #gptoss #openai #ai新星计划 #人工智能 #科技热点
1375赛博小凡
02:01
你可以在本地推理运行的最强模型！千问3.5 122B 实测！作为千问3.5家族（除397B之外）最大的开源模型，千问3.5 122B的性能果然是开源模型里的顶尖水平。荣登最强本地开源模型的宝座！跟着我快速的了解一下它的性能和具体能力吧～
#千问大模型 #大模型本地部署 #ai干货分享 #零基础学ai #人工智能未来
查看AI文稿
AI文稿
今天我们测试的是千问三点五一百二十二 b 的混合专家模型测试问题，大家可以自行暂停查看，或者到我的网站查看，直接上结果。这是我测试过目前最强的开源模型，没有之一，以八十一点四分的成绩超越满血 g l m 四点七、 mini max 二点一、 cloudsonnet 四点五以及 deep sec 三点二，但是此处肯定需要有，但是由于千万三点五是多模态模型，所以如果我们把上下文和多模态去掉的话，此时千万三点五就只有七十四点四分了，完全打不过各大满血大模型了，不过这个成绩仍然和 clodson 的四点五不相上下。如果我们只看代码智能体的能力的话，千万三点五则是调到了比较低的位置。在写代码方面，满写大模型的能力依然是不可撼动的，我们可以来快速的对比一下代码效果，这里就选 cloud opus 和 mini max 二点五作为对比，左中右分别是 cloud opus 四点六、千万三点五和 mini max 二点五，大家可以自行查看效果，或者到我的网站自己查看效果，或者也可以对比其他模型拍粉六边形小球测试则是比较拉题，胡骑自行车的 svg 动画也是非常的鬼畜。那千万三点五是如何可以和 cloudsonnet 四点五比肩的呢？那自然就是问答方面的能力了，创意、写作、数学和物理等纯问答的能力方面，开源模型甚至是小模型都有不俗的能力，且可以和大模型打得有来有回。总结一下，如果你想用千万三点五来日常写文案或者问答的话，那他完全可以胜任，但是来写代码的话， html 应该是不在话下，但是拍粉和其他的就比较捉急了。
52AI踩坑指南

热门推荐

热门分类