二月二十一日,智普发布 g l m 扣丁 plan 致歉信,公布处理方案。这次改版主要犯了三个错, 规则透明度不够。 g l m 五灰度节奏慢,老用户升级机制粗糙。 g l m 五发布后流量超预期,公司扩容没跟上,按 max pro lite 顺序逐步开。目前 max 全面开放, pro 开放,但高峰期可能限流。 light 节后非高峰期灰度开放。 针对受影响的 light 和 pro 用户,公司支持自主申请退款。智普此次致歉体现了对用户的重视,后续将优化服务流程。此次事件提醒企业在产品迭代时需更注重用户体验和沟通效率。 我们将持续关注智普后续的改进措施,为您带来最新资讯,感谢收看今天的科技资讯报道!
粉丝106获赞344


欢迎收看今日的 ai 晚报。腾讯云推出 coding plan, 集成了会员智谱、 kimi 及 minimax 等主流大模型,支持通过配置专属 a p i t 调用。 该套餐分为 lite 与 pro 两档,新用户首月特惠价分别为七点九元和三十九点九元。 openai 发布了 gpt 五点四的提示词工程指南。开发者现在可以利用 output 下划线 contract 标签严格约束输出结构, 通过 verification 下划线 loop 机制确保高风险操作的准确性,并配合 responses api 的 face 字段,防止任务中断。 研究人员发布论文揭露大语言模型筛斗 api 市场存在严重欺诈。审计发现近半数第三方中转服务存在偷梁换柱现象, 这种欺诈导致模型性能断崖式下降,研究建议立即停止使用此类服务。 飞叔近期宣布将免费版 api 调用额度即刻提升至每月一百万次,无需申请直接生效。同时已上线 opencloud 官方插件测试版,支持 agent 模拟用户身份、执行消息收发、日程管理及文档操作。 阿里巴巴在 dighub 开源了纯 javascript gui agent 项目,配置 agent 能让开发者通过自然语言直接控制 web 应用界面。感谢收看,我们下期再见!


智普于二月二十一日发布 g l m coding plan 致歉信,并公布处理和补偿方案。智普介绍, g l m 五发布后流量超出预期,公司扩容节奏没有跟上,不得已将 g l m 五按照 max pro lite 的 顺序逐步开放。 目前 max 用户已经全面开放, pro 用户虽已开放,但高峰期可能会因集群负债较高遇到限流, lite 用户将在节后非高峰期逐步灰度开放。针对受到影响的 lite 和 pro 用户,公司支持自主申请退款。

这个抠钉 play 疯了吧,一天只要几块钱?九亿次请求随便用,彻底解决 token 价格贵不够用的问题。 它按请求次数计费,每个月最多九万次请求,相当于十亿 token 的 调用量,价格却只有调用的一折左右。而且每个用户之间互相独立,不会因为高峰期降速,特别适合 ai 编程个人开发者, 支持豆包、 kimi、 智浦、 deepsea 等模型,还支持 cloud code、 cursor、 openclaw 等主流工具。操作也很简单,首先订阅 coding plan, 然后配置,以 openclaw 为例,执行这个命令就完成切换。余量在这里看, 每五小时刷新一次,目前周期内我已经用了百分之十六,再过一个半小时会自动从百分之零开始计,这模型量太管饱了。流程已整理好,需要的朋友留言分享。

今天做一下九个厂商的 coding plan 最新汇总,前五家没什么差别,放在一起讲, kimi、 mini max 质朴、讯飞各不相同。分开讲 阿里字节、腾讯、百度和无问星球套餐。 lite 版日常价格都是四十元每月, pro 版日常都是两百元每月。除了无问星球,请求量和请求限制都是完全相同的,有需要的拖动进度条到对应场上看表就可以了。 新用户注意,每天抢首充优惠的时间已经标记在视频右上方了。 无问津穷的限额少于四家云厂商, kimi 分 了四档,看个人需求。 mini max 分 了六档,看个人需求。 智普特别注意, glm 五调用是有倍率的,高峰时期是三倍,非高峰时期是两倍。 讯飞、星辰分了三档,第一个月是按 tokens 限制的,后续月是按请求次数限制的。 总之,用什么模型就买对应公司的 coding plan 就 行了。

这个阿里云百炼不行啊,几十块买回来用起来感觉非常差,我把它接到那个 cloud core 里面嘛,让他去帮我处理任务, 然后我把任务全部都计划好了,他做一下突然间停了,然后我叫他继续,然后没多久他又突然停了,而且是那种一点反馈都没有,突然就停了, 就好像断线了一样,就坐一坐又停,坐一坐又停,就不要叫他做完所有任务的,就一个小任务他都完成不了,但他不是一直都这样子, 他有时候是早上,有时候是中午,有时候晚上,就是不知道他什么时候才会这样子。然后我切换到代理的卡里面,一下子就完成了,所有任务都自己就完成了,就不用我说什么继续啊什么的。 现在智浦那边已经爆了,已经用不了了。想到那个百炼撑个一两天发现,哎,可能就是人多吧,哎,再给他一两个月时间吧。

随着 open core 的 爆火,调用大模型所花费的掏根数也随之水涨船高,如果你还在用 api king 的 方式,那么离破产可能只差几句话了,因此我做出了一个违背祖宗的决定,给大家带来国内四家平台 cookie plan 月套餐的对比。首先出场的就是我们的 mini max, 然后就是 g m l 智谱, 然后是火山引擎,最后就是我们的阿里百链平台。介绍完了这四家厂商,接下来就来介绍一下我们的规则说明。 我们仅以四家平台的月 coding plan 套餐作为对比,记住是月而不是季度或者是年。然后就推出我们的换算规则,换算规则就是一 p 等于十五次模型调用, p 就是 promote, 一 promote 就 相当于你使用 coding plan 套餐完成了一次完整的调用,而一次完整的调用在模型后台可能被切成了十几个任务, 有读取上下文,提出建议,修改建议,调用工具之类的就会非常的复杂。然后官方为了简化计费计算,就统一把这十几次连续的模型调用打包成了一次 promote。 然后我们再来介绍它的额度限制,它有第一种就是五个小时限制,一次额度就是你每五个小时达到了它的调用上限, 它就会限制你调用,然后直到这五个小时过去,然后它会再刷新额度,然后就可以再次使用,然后一个月就是这样一直重复。接下来就是周总额度限制,就是在五个小时的额度限制之上,你每次花费的 token 在 一周内累计不能超过它一周内的总额度上限。 然后就是月总额度,在周总额度限制的前提下,每家你每周所使用的额度不能超过一个月的总额度上限。如果你超过一个月总额度上限,那么你这个月就不能再用这个套餐了,因为它已经额度用满了。最后我再来提一下,我们的月是按每个月三十天来计算的。好了,接下来就介绍一下我们的第一家平台 mini max。 mini max 我 们看一下它是有六种套餐的,我们先来看最下面三种,从 star 每五个小时掉,我们的 promax 数也是逐渐长高的。 然后再看上面三种,有 plus 极速版到 ultra 极速版,它的价格也是这样递增的,然后它每五个小时可以调用的 oppo 的 次数也是在递增的, 但是它多了一个后缀就是极速版。极速版就是相对于下面三种套餐来说,它们模型的调用速度快了不少。然后我们总结了上面的价格和每五个小时的额度限制,我们就统计出了这样一个表格, 因为 mini max 只限制五小时额度,所以我们就通过一周大概等于三十三点六个五小时,推算出了它的周最大额度上限。然后我们再计算出一个月等于一百四十四五个小时,可以推算出它的月额度最大上限。 因此我们整理出了这张表格,然后就是它支持的模型定有 mini max 二点五、 mini max 二点一和 mini max 二。然后我们再来看第二家智普, g m l g m l 是 有三种套餐呢,只有 leader pro 和 max 版本。智普也是在国内 callenplan 套餐中它是最抢手的,每天早上十点钟刷新,你去看一看,其实很快货就会被抢空了,也不知道为什么,难道是饥饿营销吗?然后我们来继续往下看,相比于 mini max 的 每五个小时只限制一次额度,它增加了一层规则,那就是周额度上限。 既然有了周五的双线,因此我们可以算出每个月大概有个四点三个周,我们可以得出大致的月利润最大双线。然后我们再看它支持的模型,它 leader 套餐不支持 gm 幺五模型,然后其他所有套餐都支持 gm 幺五和 gm 幺四点七及其所有的历史文本模型。 接下来我们再来看第三家,也是我们的火山引擎,也就是豆包,它只有两种套餐, leader 和 pro 套餐。然后它跟前面两家比的话,不一样的就是 它不采用了 promote 来计数,它采用的是模型调用次数,但是在它的文档中也说明了它每一次调用也会花费大概十几二十多个不等的调用次数,所以我们也可以 理论上给它计算回来,这样就得出了每五个小时然后周额度和月额度的 promote 次数。然后可以看到它支持的模型是 豆包二点零, coder, 还有豆包 coder, 还有 g m 幺四点七,然后 d s c v 三点二,还有 kimi 二点五,支持的也是非常多。然后再看最后一个就是阿里一百链平台,它的套餐是和豆包其实一模一样的,然后它的收费标准还有额度上限都和豆包是完全一模一样的, 它两个不愧是相互对标的模型平台,搞的套餐都是一模一样的。然后再来看它支持的模型是千万三点五 plus kimi 二点五, g m 幺五 和 mini max 二点五,还有千万三, max 还有千万三, codenix 还有千万三, codenix 还建妙四点七,所以从模型的角度上来说,它还是略胜火山引擎一筹的。 我们介绍完了四个平台,我们再看下全平台的性价比对比。我们的性价比对比,采用它每个月理论上能调动的最大蓬勃的次数, 除上它的价格,我可以算出来多少 promote 美元,这样我可以计算出它理论上最大的性价比。然后我们可以看到,在这个排名中, mini max 家族可以说是遥遥领先,垄断了第一的位置,接下来就是我们 g m l 垄断了第二的位置,接下来就是豆包和火山引擎 并列第三名。好吧,这究其原因其实也很简单,因为 mini max 平台它只限制五个小时的调用额度, g m l 平台只限制一周的调用额度, 火山引擎和百联平台限制了一个月总额度,所以从理论上极限来计算,那么必然是限制越少,它理论上调用的次数就越高,所以 mini max 领先于 g m l, g m l 领先于火山引擎和百联平台。然后分析了极致性价比之后,我们再来看模型丰富度对比, mini max 中只有支持它的 mini max 的 三款模型,智普只支持它的 g g m l 家族, 然后火山引擎的话就支持豆包还有 deeptech gm, 它都支持。最牛的就是百炼平台了,它有八款模型,分别是千问系列,还有 kimi gm 幺五, gm 三七。 mini max 二点五,它可以说是把过年以来国产最好的四款模型都集齐了,也就是 我们的千问三点五、 plus kimi 二点五、 gm 幺五、 mini max 二点五,这可以说是过年以来最好的四款模型。 从模型丰富上对比,我们的百例平台有八款模型,我们的火山引擎只有五款,仙妙的话只有三款, 还有迷你 max 的 话也是只有三款。从模型丰富上对比,我们的百例平台遥遥领先。说完了模型丰富度和我们的性价比,接下来我们就推荐一下。推荐那当然是要为不同人群量身定制的,我们第一个就是为小白新入门的小白人群推荐, 每个月预算大概四五十块钱,我们就推荐他火山引擎和百联引擎的 live 套餐,他足够便宜,而且每个月有一万八千次的模型调用,也足够你入门了。 然后他的模型还很丰富,就可以支持你用多种模型,让你感受一下是不是新手小白,肯定都很想感受一下不同模型的效果到底怎么样,这是非常适合新手小白入门使用。接下来就是追求极致性价比的人群了,他每个月预算大概一百到一百五十元,我就推荐 mini max 的 max 套餐, 它的性价比最高,理论上来说是美元,可以调用三百六十三次 promote, 理论上每个月可以调用六十四点八万次大模型,所以它的价格也适中。然后性价比是最高的,就是最适合追求极致性价比的人群。 然后如果你如果是日常开发者,预算在一百五到两百元之内,那么推荐你用 g m l pro 或者火山引擎 pro。 g m l 的 理论上调用次数还有豆包的都是很多的,而且豆包上的模型也比较多,然后 g m l 五的编码能力也是非常强的,这样就推荐我们日常开发者使用。 如果你是,如果你是 vivac 的 重度依赖用户,那么就肯定是提高你的预算四百到九百了,那我们就推荐你用 mini max ultra speed 或者是 g m l max, 那么调用次数是有着最大的保障,同时还兼具着最最快速的响应速度,这样足够重度用户使用,不仅兼顾了量,而且还有速度,而且因为它有足够大的量和足够大的并发症,所以它还可以支持多团队使用,团队可 能买这样一个大套餐就够一个团队使用,但是接下来我们再看,如果你是一个疯狂的模型体验党,然后呢?预算大概在四百到两百元,那么肯定推荐你是百练的 excel 或者是 pro 套餐了,它有八款模型 可以供你选的,同时还有四款是国内最好的大模型,一站式可以体验多种 ai。 最后一种就是追求稳定额度的,他们就推荐火山引擎和百联引擎, 他们的每个月调用次数都有明确的上限,不像其他平台 promote 计算的模模糊糊,然后它还不会产生多余的额外花费,算是可预算可控场景,适合追求稳定额度的人群。这样一份 cookie plan 保姆级入门教程,你喜欢吗?

coding plan 是 啥?俗称虾粮,其实就是 token 的 套餐,因为龙虾在每一步都需要消耗 token 消耗量大,所以需要有套餐才不至于花费太高。目前很多厂商都推出了自己的 coding plan, 国内的主要有字节,阿里、腾讯、百度、智普、 mini max, kimi, 还有其他的一些公司,价格不一样,支持的模型也有区别,大家按需购买。那是不是大厂的云主机只能用自己的 coding plan 呢?不是,但如果你的云主机在部署的时候使用的是大厂提供的 open cloud 镜像,那么有的大厂的云主机只能配置自己家的 coding plan。 那 么遇到这种情况,如果你想用别人家的 coding plan, 就 需要我们自己去配置了。接下来我来演示整个配置过程。先说一下我的环境, 我用的是阿里云的清量服务器,然后呢,因为我没有其他的 coding plan, 所以 我还是用的阿里云的 coding plan, 你 们可以拿这个作为参考,其他的 coding plan 配置也是一样的。 咱先到 coding plan 的 界面,你也可以看到有一个套餐专属的 api key, 这个你把它复制下来你会用到。还有 base url 就 有两种,一种是支持 open ai 协议的,还有是支持 iso project 协议的,两种去任一种都可以优先,我们就选 open ai 的, 然后这个下面它是 coding plan 支持的模型,任选一个,把它的名字给 copy 下来,它这个名字就叫它的 model id。 好, 拿到这么几个信息之后,我们就可以去配置 coding plan 了。 来到云主机的管理台控制台,通常这个控制台呢,你看点开它的管理界面,它可以在 ui 上就直接配置,但是这里呢,你看到它不能配置其他厂家的 coding plan, 所以遇到这种情况呢,我们就需要跳入到这个系统里面去,登录到系统里面去,进入到远程连接登录, 先输入 opencloud config 命令, 进入到了 opencloud 的 一个配置的流程里面。首先选这个 getaway 的 配置 local, 这个直接默认就可以了。然后选择 model, 这里是配置模型的, 因为它原声支持很多模型,但是呢,我们用的是 code plan, 所以 我们直接选最下面,下面有一个叫做 customer provider 这个选项,选好之后,这个 api base url 就是 刚才我们复制的。把这个 url copy 进去, 好回车,接下来它需要 api key, 然后我们再把 api key 复制进去, 接下来他会问你是兼容哪一种模式协议,那么我们刚才使用的是 open ai 的, 所以我们就继续选择 open ai 的 这种兼容就可以了。 接下来 model id 就是 刚才我们选择其中一个模型的名字,一定要用复制好的这个 model id 填进去,不要填错了,这里我们直接填的是 kimi 连五, 好回车它就开始验证,看到验 refiification successful, 那 就通过了。好,后面有个 anonote id, 这里呢,因为我用的是阿里,所以就直接叫做百炼, 你也可以去根据你的 coding plan 里边看一下它的 endpoint id 是 啥。最后呢,是让你填写这个模型的别名,刚才我们是 kimi k 二点五,那我们这里的模型我随便取个名字就叫 kimi 二点五,当然你不填也是可以的,就空着也可以,然后这样模型就配置完成了。 continue 好, 最后把这个网关重新启动一遍。 open cloud restart getaway restart open cloud getaway restart。 好, 网关启动成功之后,我们可以先进入到 open cloud t u i 这个命令,进入到一个 t u i 的 界面,这个界面可以快速验证和它模型开始对话,跟龙虾开始对话, 问一下 hello, 看他是否有反馈。好,他回答我们了,那证明配置是成功的,那么你也可以看到,在这个右下角显示了是 k m 二点五, 那我们再问问他,是不是真的用了 k m 二点五这个模型。 哎,他反馈了,用的确实是 kimi 二点五。好了,这样的话呢,你的 coding plan 就 部署到云端了,那么接下来呢?因为 coding plan 里面支持好几种模型,那么我们如何把其他的模型也配置进去呢? 你可以看到啊,在一些 coding plan 里面的文档里面啊,它会告诉你配置这所有的模型,它会给你一个接收文件,你把这个接收文件啊全部给拷贝下来, 包括这个简短的说明啊,都可以一起考。然后把这一段全部丢给刚才这个模型,告诉他,你说请按照这个文本这段话,把这个所有的模型都配置进去。 好,接下来我们的龙虾就根据你提供的文档自己配置其他的模型, 这块要花点时间。当然了,这块除了在 tui 里面,你也可以在 web ui 里面,或者是你的飞书已经配好了,你甚至在飞书里面跟 openclaw 去对话,把这一段对话全部丢给它都好。最后配置完成,它自动重启了网关。 好,我们可以看到这个网关全部都已经更新了,配置也都更新了,我们再来跟他确认一下。先问一下, hello, 看他是不是有反馈。好,他有反馈,他并且告诉你,哎,我这些模型都已经配置成功了,那我们来尝试一下换一个模型,那么这里我们会换 mini max 二点五吧, 直接跟他说,请帮我们把模型更换为 mini max 二点五, 看它是否能更换过来。 诶,成功了?好,你再确认一下,看它是不是真的成功了。好,这里面右下角已经显示了它是用的 mini max 二点五。那我们再问问它是不是真的 啊?你现在用的什么模型?看它的反馈啊。他说,我现在用的就是 mini max 二点五。好,这次 coding plan 就 全部配置完成了,大家看看还有没有什么其他问题,欢迎在评论区交流。

好离谱啊,其一是主播发现智普上的抠 d max 根本用不完,于是主播就想用笨抠,半夜给我打工,就有了开头那一幕。主播这里使用的工具是趣趣,是一款 ai 变身工具, 我们这里给他配置模型的 a p i 和模型名 啊,这里又生成了。然后我们看一下这个啊,它打开了 就还是有点问题啊,虽然说这个这个像素什么都很好啊,但是这个这个猫感觉怪怪的。嗯 嗯,到时候写一个提示词的技能吧。然后这里看它生成这个视频,我们看一下 啊,目前是没有声音的,但这个做的其实还是很很高质量的,你看后面这些车啊,都是都是还还是可以的啊,分分辨率不清楚,然后我们之后再解决看下,这个 好离谱啊,哈哈哈,但是吧,呃,只能说只能说有点离谱, 哎,也也能用,对吧,像那种鬼一圣诞节的一样。 然后这个这个我们看一下啊,这种动 ai 动漫嘛,动漫可以,这种其实还可以,能接受啊,就让他生成这条视频做,做的不怎么好。 此时主播还在满心欢喜地觉得以后可以用这个 ai 工具, 主播这里发现余额没有变,我就以为是扣顶正常包含的,结果剪完视频才发现啊。

智普啊,发布了 glm 五点零,为了测试它的能力啊,我用它构建了一套可以无限运行的 ai 开发系统。我用这个系统运行了长达十个小时,从晚上十点到早上八点, ai 做了几十次 getmate 的 提交, 开发了一个 ai 漫剧生成工具,有前后端有数据库,可以用户注册和登录,还接入了大圆模型,图片生成模型,视频生成模型。通过这个视频,你会学到如何构建这样一个无限运行的 ai 开发系统,并了解到 glm 五点零的惊人开发能力。 整个过程我都只是输入简短的 prompt, 没有亲自阅读或修改任何一行代码。我一直在旁边玩着游戏,等他干活, 尤其是我视频最后会讲的,他把整个项目的所有模块联合起来,然后端到端的 bug 修复错误,非常的牛逼。他不只是单纯的写代码,他甚至自行在浏览器中验证每个功能的正确性,找出 bug, 然后自行在浏览器后端数据库第三方的 api 之间联合调试,找出问题,修复错误。 那赶紧进入正题啊,相信对你会有所启发。我使用的工具是 cloud code, 并且把模型切换为 g l m 五点零,具体方法可以看我之前这一条 g l m 四点七的视频。 那我们首先要搭建一套能无限运行的 ai 开发系统,说是系统,其实就是几个文件,做法非常简单,我把一篇来自 astonopy 的 神级文章发给 ai, 让他自己去学习,根据这篇文章做出这套系统 文章叫长时间运行智能体的有效调度编排框架。那过程中 ai 做出了一些操作预期的举动,他通过 m c p 打开浏览器, 通过这篇文章的页面找到一个配套的 get up 仓库,打开仓库的代码文件进行学习。而我事先都不知道这个代码仓库的存在,最终他创建出了这一些文件。 我解释一下最重要的几个,帮你理解一下这套系统的工作方式。 task 点 jc 文件,其实就是一个任务列表,每个任务都有它的描述,并且会标记是否已经完成。和我们人类工程师每天上班一样, ai 每次从这里面领取一个任务, 完成后就做一个标记,这样他的 ai 同事啊,就知道项目进展到哪里。 progress 点 txt 文件,每次 ai 完成任务啊,或者任务失败后,都会在里面留下工作日期,这也是为了给其他 ai 同事提供一些信息。 log 点 m d 文件,这里面全是提示词,用来指导 ai 根据固定的规范流程工作。和我们人类工程师的开发流程类似, 第一步,跑一个脚本,来初识化整个项目的环境。第二步,在 task 里面领一个任务。第三步,就开始开发。第四步,测试和验证。 第五步,更新 progress 和 task 文件。第六步,用 git 提交代码。那如果中间遇到困难,需要人工介入,它就要及时向人求助。那在以前一些长期运行能力不强的模型中啊, 这么长的开发流程,一旦工作上几十分钟,模型就会逐渐混乱,不再按照规定的流程工作,而如今完全没问题啊。视频后面我们会看到, glm 五点零,即使在长达一个小时的工作,提交了几十个 commit 后,仍然很好地遵循开发规范。 然后呢,我让他写一个脚本,用来无限时间的运行。这一套开发流程背后的原理很简单,就是把 cloud code 放到一个 while 循环里面,这样一来,人不在电脑旁边的时候没法手动 prompt, ai 就 可以执行这个脚本,让 ai 无限的工作。它之所以有效,有几个原因啊, 第一,我们这套流程每次只要给 ai 说一句,完成下一个任务,不需要更具体的指示, ai 就 能通过 task 和 progress 文件知道自己现在应该做什么。 第二,每个 task 都很小, g l m 五点零足够的强大,每一次 y l 循环里面,他只是领取一个很小的任务,并且严格的测试,成功率极高。第三,每完成一个任务,模型的上下文都会被清空,所以模型始终保持在最聪明的状态。 第四, g l m 五点零非常可控,严格按照工作规范执行,每次小任务都会进行 commit, 所以 即使出错,我们可以轻易地回滚到旧版本。 好,现在我们这套系统有了,接下来就要开发软件,我们先来设计一下它的功能和架构。这个软件的用途是一句话,生成长视频。我让 ai 把整个项目的开发需求拆成了三十一个任务,放到 task 文件里。 这是 ai 设计的软件,架构不复杂,但五脏俱全。再看一下 ai 画的业务流程图啊,帮助大家理解我们要开发的这个软件具体的功能。 首先,用户会创建一个项目,然后用大圆模型生成每一个分镜的文字描述,然后再用图片模型生成每个分镜的图片,再用视频模型生成。视频开发的流程比较长啊, ai 做了几十次提交,我就选几个精彩的给大家讲。 在 ai 做到第十九个任务的时候,为了测试 glm 五点零的能力呢,我产生了一个大胆的想法,我让他一口气做了一个多小时,完成了十一个任务,干完一个又一个,中间我没有任何干预, 给大家倍速感受一下效果。他一直在写代码,并且每次都遵循我们的开发规范,每个任务都完成,测试一个,一个任务,单独提交代码,拿一个具体的任务作为案例啊。他现在领取了任务三十,任务目标呢是实现响应式的布局,也就是让 u i 在 手机端和桌面端看起来不一样。 他现在正在修改代码,然后验证项目能 build 通过。然后他现在把浏览器的大小变成了手机屏幕大小。打开了我们的应用,他点击了一个按钮, 他对页面做了一次截图,用识图的 m c p 判断是否正确。再打开了一个新的页面,再做了一次截图,并检查是否正确。然后在 progress 里面仔细描述了自己所完成的工作,然后把这个任务标记为完成,他就按这么一套方式疯狂的干完了每一个任务。 要接入数据库的时候呢,他主动提出需要人工帮助,并且一步一步地给我说明,告诉我如何去这个 superbase 平台啊,点哪里创建项目,配置数据库,获取 api key。 尽管我没怎么用过 superbase, 仍然轻松地操作下来了。中间我还犯了错误,给他提供了错误的 key, 也被他及时发现,最后他还让我帮他去注册一个测试账号,然后他自己打开浏览器,输入账号密码,验证登录功能,可以正常使用。那像 superbase 这种外部的系统啊,超出了 ai 的 控制范畴。 g o m 非常明确的给我提供指引,让我协助他完成开发工作,一个不了解后端的人,也能在他的指引下完成数据库的配置。 他开发完后端一系列 c r u d api 后呢,声称对每一个 api 都进行了测试,但所有的 api 都是需要 os 的, 前端也还只有一个空白的页面,所以我就很好奇他哪里来的 os 权限,怎么完成测试,是不是在忽悠我? 于是我问了他一下,他用简短的语言,漂亮的格式向我解释。他说他打开浏览器,登录了刚才创建的测试账号, 然后通过一个叫做 browser evaluate 命令,在浏览器可以执行任意的 javascript 代码。然后他写了一些临时的 js 代码,就在浏览器里运行,调用我们的后端 a p i, 这样就能有 office 了。非常聪明的做法,我还怕他在骗我,我检查了一下录像,确实如他所说,他打开浏览器疯狂测试, 中间还真测试出不少问题,他就自行查看后端的报错日期,自行修复。最终三十一个任务全开发完后,啊,我也懒得去人工验证这个项目是不是已经可以用了。在往常的开发中啊,到最终阶段,因为已经把 前端、后端、数据库、第三方 api 全部连起来了,那第一次的集成测试啊,就会非常头痛,因为任何地方都可能出错,往往需要浪费大量的时间再把错误找出来发给 ai, 让 ai 去修复。但这一次我非常大胆,我只说了一句话, 请你完整测试一遍流程,确保功能可用。大概就是从早上七点十分开始,他自己在浏览器上疯狂测试,花了一个小时提交了这么多改动,用来修复 bug。 我看他在浏览器上像人一样一步步操作我们的产品,通过截图和视觉能力来判断是否符合预期。遇到问题的时候呢,他就自己查询后端的报错,检查各种 api 的 状态,综合分析出问题。最终他总算顺利的生成出了第一个视频,端到端的把整个应用全部打通了。 他修复的每一个 bug, 做的每一个 feature, 其实我都不清楚是什么情况,但我想知道的话,我只要找到他的 commit 记录,看一下他在 progress 文件里写了什么。这也是这套流程的强大之处,一切都是可追踪的。 我们让 glm 五点零一边开发项目,一边在开发过程中发现问题,让 ai 来增强我们这一套自动化的开发系统,左脚踩右脚,螺旋升天,我相信这就是未来开发者的工作方式。总结来说, glm 五点零已经远远超出了单纯抠顶的范畴,而是能对软件工程的每一个环节进行自动化,提升效率。 gm 五点零在超长任务上非常出色,已经达到了能让我放心的交给他连续运行一个小时的程度。横向对比的话,我个人认为 gm 比刚发布的 oppo 四点六弱一点,但在一些方面可以超过 gbt 五点三。 重点是价格便宜非常多,但现在过于热门啊,供不应求,抠钉套餐非常难抢。那我们这个项目呢?虽然现在端到端全部打通了,但最终深层的视频效果还有很大优化空间。点赞到一万,我可以开源出来,让感兴趣的人进一步优化它。

哈喽,下班了,上周呢,智普上市,有朋友呢,让我讲讲他们的模型的情况,今天我们就来讲一讲智普的一个旗舰模型 glm 四点七的一个情况吧。 那首先看一下这个评测榜单哈,应该来说这次还是比较开心,能够看到国产的这个模型,特别是开源模型,能够排在全球的这个榜单的前列哈,目前大概在在第七位的位置,那么它前面的基本上都是 国外的闭源的模型,那所以这次应该说是取得了两个领先哈,第一个就是国产的 sota, 第二个就是开源的 sota, 就是 在这个位置哈,我们是开源模型的代表了。 那么从这个 lm arena 的 情况来看,从这个 web dev 就是 一个 coding 的 能力来看啊,智普的 gm 四点七目前是排在了全球第六位, 那从他的模型卡就是他的 model card 也看到,这次的模型的能力呢,主要集中在这个 agentic, 就是 智能体推理,还有就是 coding, 这三方面的能力都有一个非常大的进步。 那么对于大模型的抠定能力来说呢,光说不练嘴把式,我们要看一看它实际的效果,所以呢,我就给了它一个例子哈,就是周末呢, agi nex 的 这个研讨会也非常的重磅哈去,其实是这个杨志林,然后唐杰老师,俊阳还有顺宇他们几个同台一起去 讨论 agi 接下来的一个趋势,但是呢,这个文字非常的长,大概有三四万字,那我就在想这个文字能不能把它变成一个网站 那于是我就用了 ai coding 的 工具,用了 g l m 四点七把它变成了一个 agi nex 会的实录的这么一个网站,这个网站呢里面包含了所有专家的分享,比如说像唐杰老师的这个分享,他分享了哪些内容呢?包括质朴的起源精神大模型、智能水平的眼镜、 scaling 到泛化 基础路线的选择,系统一、系统二等等。那同样呢,还有一些关键概念啊,我觉得可能会有一些小白理解不了,比如说顺语提到的自主学习到底是什么意思, 让它去用普通人能够理解的语言去讲一讲到底什么叫自主学习。那这个地方就有了啊,你看它还有一些这种格式化的理解哈,最开始的时候像婴儿发展中成熟,未来怎么样?那整个这样的一个网站哈,它是可以部署之后来去分享给所有人的,那我就是在 ai coding 的 工具里面来实现的。 那我就简单介绍一下到底什么叫 ai coding 的 工具啊?因为我之前讲过很多次。那首先我打开的这个叫 codebody, 那在这个界面中呢,大家可以看到有左中右三栏,左边呢是一些本地的文件的链接哈,像这个文件夹就是在我本地的,那包括侧边栏也有一些插件或者是搜索啊等等一些功能。 那中间这个区域呢?一般程序员写代码会在中间去查看它的代码,但是作为普通人不需要写代码的话,那中间就是一个打开文件去查找的一个区域,那右边是一个对话框,那这个对话框就是跟我们平常用 ai 模型是比较像的。 在这呢你是可以选择这些模型的,比如说我这次选择的就是 glm 四点七,它是一个能力比较均衡的这么一个模型,适合日常使用,而且性价比相对来说比较高。那同样像其他的 gbt 啊,还有包括 gemini 等等模型也可以在这里面选。 那么我给到 ai 的 这个 prompt 是 什么呢?其实就是这么一个简单的 prompt, 就 说我想基于这个研讨会的内容做一个网站,那可以展示专家的分享,有独立页面,把一些关键概念展示出来,我希望这个配色比较高级。当然这里有一个小的 tips 啊,就是说 你看你需要完全确认我的意图再开始开发,不确认的时候可以先问我一些问题。有这样一句话呢,其实就可以让 ai 在 充分了解你的需求之后,再开始进行开发。 而且值得一提的是,这里哈,就是我们在日常使用中,不要一上来就让 ai 开始写代码,而是要先把这个需求规划好对,然后再去操作。那所以呢,基本上我给他这样的一个问题,然后我们经过几轮确认之后,比如说他希望我用的是什么样的图示展示,经过几轮确认之后就开始进行开发, 所以一直到现在我都是没有写任何的代码的,然后哒哒哒哒,它就开始做任务的安排和执行,就像一个 agent 一 样去把这个任务开始执行完,完成。那从这次网站的综合实现程度,还有整个的审美风格来看呢,我觉得都是非常在线的哈。 呃,也就说明这个 glm 四点七还是一个非常均衡的一个模型,而且也是目前开源模型的一个最佳选择,推荐给大家。然后大家也不妨去 ai code 的 工具里去试一下,把你的想法变成现实,拜拜。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

质朴清烟今天上市,今天不聊股价,我告诉你能从他兜里直接掏出来的几个最实惠的东西。第一个,他的包年套餐原地升级,我是他的包年用户,之前是用他的四点六,现在自动变成四点七, 这一波可以说是非常良心的,加量不加价。那第二个,他的包年用户还会送你几个 m c p 工具,他的网络搜索最顶用了。第三个,质朴清烟的 适配性拉满你手头所知道的和不知道的外部控制工具,它基本上都能够适配。并且它还有一个 ocr 神器 glm 杠 v, 它的这个视觉模型做 ocr 效果太棒了, 这是一份巨大的一个组合拳,诚意是真是假,你用了就知道,你怎么看呢?

你们知道那个号称全球大模型第一股的制普吗?就是那个刚上市,市值直接冲到三千亿港币,风光无限的 ai 新贵。就在前两天,他们发了一封致歉信,这封信一发,物价直接哐当一声,单日就跌了百分之二十三,市值直接蒸发七百多亿港币。这哪里是致歉,简直就是致谢做空机构呀。但是你别说,这封信我看完觉得这帮搞技术哥们还是挺实在的, 他们承认了三个大错,首先是规则不透明,让用户算不明白账。其次呀,新版本 g l m 五灰度测试太满了,让大家干着急。最后升级机制太过粗糙,老用户升级以后发现,哎,钱包瘪了。你看,这不就是典型的技术宅,想搞个大新闻,结果把服务器给干崩了,顺便还把用户的钱包也给掏空了。的剧本嘛, 这里头有个特别有意思的点,叫做 token 消耗变快了,这不解释说,哎呀,我们新模型 g l m 五是个大胃王,参数量呢,是以前的两倍多,效果对标的是 cloud opus 四点五,属于大杯模型。 为了不把服务器给烧穿,他们给 glm 五定了个规矩,高峰期按三倍的消耗算,非高峰期按两倍算。结果呢,很多老用户压根没看懂,以为是刺客,觉得这公司是不是上市了就开始割韭菜了。社普一看这阵仗呢,赶紧跪下唱征服呀。他们的补偿方案呢,也是挺硬核的, 想退钱, ok, 只要是受影响的 lite 和 pro 用户,一月一号到二月二十一号期间买的,通通可以退,这样叫做请客,想继续用,行,送所有继续用的用户,不管是 max 还是新用户,直接送十五天的使用期,服务升级了回滚按钮,一按退回到老套餐,这服务态度简直比奶茶店小哥还要热情。 但是家人们这热闹背后呢,其实藏着一个 ai 行业的幸福烦恼,就是它太火了,算力不够用了。智普这波呢,其实是因为产品太好用, g l m 五在国外的 openroot 上画名 pony 阿尔法,被夸成是前年基础模型 写代码搞智能体特别牛,结果需求直接暴增,服务器直接被挤爆,排队卡顿,响应慢,这不就是典型的供不应求吗? 为了能够找算力,他们甚至发了英雄帖,全网找算力合伙人,这波操作也是没谁了。所以你看,这事闹得沸沸扬扬,市值跌了,但用户其实没怎么流失,反而因为这波真诚道歉,赢回了不少好感。不过咱们也得清醒点看,政府现在还是个吞金兽。他的招募书显示啊,从二零二二年到现在,三年半就亏了六十二个亿, 研发投入呢,也砸了四十四个亿。虽然别看他营收涨得快,但这钱烧的也是真的很猛。一句话总结,智普这波是用市值去换口味,用亏损换技术。对咱们普通用户来讲,只要他们能够继续送使用期,那咱们就接着用。对于投资者来说,这过山车心脏如果不好的,那你就真别上了。

马年开局最戏剧性的一幕,来自全球大模型第一股智普。一边是资本的狂欢,二零二六年上市不到两个月,股价最高翻了五倍,市值一度冲到了三千二百亿港币,把京东快手都甩在了身后。 另一边却是卑微的道歉。二月二十一日,智普发了一封致歉信,承认新模型 glm 五上线后,价格乱了,系统卡了,老用户寒心了。问题来了,一个三千一市值的大模型巨头,怎么流量一多就招架不住?这真的只是运营失误吗?大家好,这里是 mt 频道。 对于大模型企业,要想承接得住流量,就得有足够的算力。所以智普这次的道歉,表面看是流量冲击,本质上就是算力没扛住。智普的招股书显示,大模型公司最烧钱的根本不是科学家,而是算力。 二零二四年,智普研发花了近二十二亿,其中十五点五三亿直接砸给了算力,占比超过百分之七十,相比之下,工资才花了三个亿。二零二五年上半年更夸张,智普每赚一块钱,研发就要花掉八块四。 对比一下美国同行 openai, 赚一块钱,研发只花一块五,为什么差距这么大?因为智普在算力上实在太被动了。你看, openai 背后站着微软 gemini, 背后是谷歌豆包有字节,千问有阿里, 他们要么自建制算中心,要么就是集团内循环。而智普呢?不仅没有自建制算中心,还被列入了实体清单,高性能 gpu 买不到,只能找第三方租赁。那就好比人家开私家车跑长途,智普却天天打网约车,这成本能不高吗? 但真正致命的还不是贵,而是越火越亏。之前智普给大企业做本地化部署,毛利率一度冲到了百分之六十到百分之七十,因为算力成本是客户自己掏的钱。 而现在智普还要做模型超市搞云端部署,结果二零二五年上半年,云端 api 这块业务的毛利率直接掉到了负百分之零点四。你没听错,是负的。这意味着模型越火,调用的人越多,智普亏的就越狠。 智普高层就曾爆料说,有用户花了七美元用掉了七万美元的 token, 相当于购买金额的一万倍。所以黑厂和黄牛都在疯狂挤占智普的算力,用来套利。 对智普来说,用户涌进来,不是送钱的,是来烧钱的,算你跟不上,只能限流,只能涨价,最后只能道歉。现在最揪心的还有那些高位上车的股民。 智普的营收才一亿多美元,市值却给到了两千五百亿港币,算一下,市销率超过三百倍,而 openai 的 市销率也就六十多倍。换句话说,智普比 openai 还贵五倍。 市场在赌什么?赌智浦能成为中国版的 openai。 但算力瓶颈就像一个玻璃天花板,没有足够的算力跑出规模效应,三百倍的估值就是空中楼阁。 当然, openai、 gemla 也都当机过,但人家当机背后有微软、谷歌的强大算力书选,而智普呢,他只能靠自己。所以智普不打算硬扛了,他紧急推出了算力合伙人计划,想把国产芯片厂商算力中心全部绑在自己的战车上, 用开放核心接口来换算力资源。但坦白说,在有钱也买不到算力的大背景下,这方案目前更像是无奈妥协。 归根到底,大模型竞赛就是强者横强的比拼,比的是谁的推理更便宜,谁的帅力不被卡脖子。 智普摔的这一跤,贵的是用户,求的是帅力。至于他能不能通关,关键还得看国产帅力的朋友圈够不够大。只会因为智普的这次道歉而看空他的股价吗?来评论区聊聊。

大家好,我是三百零,很多小伙伴给我私信呢,包括评论区都在问用什么模型最好?呃,我首先给大家一个结论,就是大家不要去充钱到各家平台,然后使用他们的 a p i, 因为那样是非常非常贵的。呃,先 说个小结论,就是用 coding plan 是 最便宜的,每个平台都有,就包括 kimi, 智普, mini max, 还有腾讯云,阿里、火山,这这几个都有 coding plan 好,我们用到底是用哪一家呢?哪家更便宜呢?我们首先先看一个数据,就是 openroot 是 全球最大的模型应用平台啊,我们国家在前在三月份的前两周已经 登顶了这个模型调用,包括前五都是前四都是我们国家的,包括 mini max 是 第一, kimi 是 第二,然后 glm 第三。然后这几个模型呢,其实是经过全球玩家,就包括啊,国外国内的玩家验证过的啊,哪个模型是最好用的,所以我们就用他们验证过好用的模型就好了,用 mini max 跟 kimi 我 觉得是 ok 的, g o m 也是可以的。然后我们要买阔丁,不但要搞懂一个问题,什么是 a p i 请求次数,什么是 prompt 次数,还有什么是 token 剂量,然后我就先放一下,大家看一看就好了, 然后第四。呃,然后下一个是入门的档位啊,就各家其实入门的档位很便宜,就包括阿里云才七块九,然后火山才八块九,哎呀,腾讯云才七块九,这几个三,这三家大厂的价格都很便宜,但核心是还有没有能买,能不能买的到啊,因为这个我去腾讯云看了一下,腾讯云那个是需要抢的,然后火山阿里可能也还有 大家采购了去看一下,但是作为这个价格本身来说,其实也就不到一杯奶茶的钱。对于对于大家想玩小龙虾,想试小龙虾,我觉得是一个非常好的一个选择。 然后我们挨个说一下模型,首先是 kimi 啊, kimi 是 唯一多模态的,然后能够支持 kimi crow 跟 a 卷集集群的,然后他同时也是用计算 token 的, 就不会说五个小时就限流,所以我比较喜欢用 kimi, 因为我有时候会集中去开发一些东西,所以我选的是一幺九九安岳的套餐,目前还没有,还不用满, 就二十倍的这个用量我觉得还是挺充足的。然后是智普的,智普的大家可以看一下,就是四十九到一百四十九到四百六十九, 然后到 mini max, mini max 是 呃,性价比比较高,然后它是五个小时限时的,也是限限的次数,所以就看我觉得就 mini max 跟 kimi 选一个吧。然后你如果说可以五个小时 就开发不是很集中的话,我觉得用 mini max 也是没问题,因为它毕竟是全球钓用第一嘛,那肯定说明它是最好用的。 然后腾讯云的,腾讯云是每家都有啊,就 im 五, kimi 二点五, mini max 二点五,就这些都有。然后阿里云跟火山引擎也都差不多,因为三三家大厂都差不太多,都是各家的的模型,其实都有配啊,包括火山引擎这里没必要,但他也可以都用 kimi 二点五的。 如果大家不是新手的话,新手的话可以用这个中度的使用模型,但各家其实你要还有更大的需要,可以当场就升级了 啊,不同的人群怎么选就薅羊毛啊,尝鲜的就是阿里云,腾讯云的 light, 就 这些也可以选选择 kimi 二点五的模型,包括 mini max 的 模型,然后剩下这个追求极致体验的就是 kimi, 像我一样,就是你就需要去疯狂的使用,突然有时间,有有有 idea 就 疯狂的使用的,不要半路被卡壳停下来的,那你就选 kimi 就 好。 然后这是五个知识点,就是不要被请求次数迷惑,就一次提问不等于一次请求。 然后五个小时的滚动窗口的平静是很重要的,就是你们就看你们使用的这种平静,因为我自己肯定是很讨厌五个小时的,因为真的是很难受,用五个小时正正正正坐着呢,正写的嗨呢,突然就不让用了,然后你的你的虾又不能工作了,就就这就很烦,所以我用的就是 kimi。 然后涨价趋势,这个确实是已经在涨价了,就原来直普啊, kimi 他 们都有首月优惠的,现在都给取消了。一句话总结,便宜试水就是 mini max, 极致体验就是 kimi。 然后最后我列一下大家这个 coding plan 的 网站,大家可以啊,截图保存,然后后面有需要可以去去去去购买。 然后我最后再给大家再看一下这个模型的调用啊,就是我给大家讲了这么多,其实你可以可以了解到大概各家的一个情况。然后首先呢,我觉得 最好还是 mini max 跟 kimi 里面选吧,因为这是全球人民验证过的,既然验证过咱就不去验证了,咱也不是什么特别大的,也没有数据支持,也不是什么特别大佬,所以用别人验证过的东西就好了,就 mini max 跟 kimi 选一个吧。啊,这是我的建议啊,我的分享到此,谢谢大家。