这周 ai 圈发生了几件大事,九成的开发者可能还没注意到,今天三分钟帮你捋清楚。先说最大的新闻,阿里云发布了千问三点七 max, 这是目前国产最强的 ag 模型, 跑分八十点四,跟 cloud opus 四点七一个水平,全球排第五,国产排第一。输入十二块,输出三十六块,每百万 token 限时打五折,原价是二十四和七十二, 而且支持一百万。偷看上下文,三十五小时全自主执行一千次以上的工具调用。简单来说,这就是阿里版的 gpt 五点五,但价格只要它的六分之一。 不过要注意,百炼的抠钉 plan 现在还接不了 q n 三点七 max, 想用的话需要走 api 按量付费或者买 tko plan, 标准版一百九十八一个月,高级版六百九十八一个月。 第二个变化,抠钉 plan 从火山方舟、百度千帆、 kimi、 智普、 g l m 四家变成了八家 讯飞、星火进来了无忧版,首月只要三块九,不限次数,支持星火 x 二加 deep suit v, 三加 g l m 帮五加千问三点六。专业版三十九块,可以使用智浦旗舰模型 g l m 五点一,大概一万八千次每月。 京东云也出了 live 版 kodi plan, 四十块一个月,还有快手快 key 一 百九十九起,摩尔县城 ai kodi plan 免费试用,这个市场现在是真的卷。 第三个变化,小米咪墨五月二十七号调价,咪墨 v 二点五系列 kpi 全面降价缓存命中价从原来的一块四降到两分五,降幅百分之九十八。长窗口原价两块八,降幅百分之九十九。 token plan 的 积分额度也提高了。海外 colin plan 变化,简单说两句, get up copilot! 还有最后两天就切 token 计费了。六月一号起,免费模型兜底彻底消失,重度用户月费预估从十美元涨到四十至六十美元。 google 发布了 gemini 三点五 flash, 输入一块五,输出九美元每百万。 tocan, 比上一代贵了三到六倍,但 a 阵能力反超 pro。 最后快速过一下国内主流模型的 tocan 牌价,帮你横向对比一下 现在主流便宜好用的可以分四档,纯博主主观判断。第一档是 deepseek v 四 pro 和小米咪墨 v 二点五 pro, 输出都是六块每百万, token, 性能打平,价格也咬死,是目前国产最强的两个模型。 而且他们的 flash 版输出只要两块缓存,命中两分钱,性价比拉满。第二档是阿里的 q n 三点七 max, 输出三十六块,限时打五折,能力最强但也是最贵的。第三档是 q n t 薄,输出六毛,入门够用。 第四档腾讯混元 light 和智普 g l m soft flash 直接免费。一句话总结, deepseek 和小米在六块这档贴身肉搏,阿里在三十六块这档打五折抢高端, 便宜和免费的选择也都有。好,这就是本周全景,只对比,不推荐大家按需选择。
粉丝74获赞364

我是两个星期以前吧买的这个千问呢 s 一 的眼镜,我现在就戴着他这个眼镜, 然后我想聊一聊关于他这个眼镜的问题。我当时买的价格是用完券啊,在天猫是四千五百多块钱,然后我去山姆的那个线下眼镜店,他那边好像是四千八, 然后我这个线上买确实是便宜,但是不是说便宜不便宜的问题,就关键就是这个眼镜, 你现在它变四千五了,它就是两千五给我,我也不想再再买,它就让我再选择一次的话,因为什么?因为我觉得它这个东西它就是个电子垃圾,它一点不成熟。 就是你看他现在录像吧,倒是什么还行啊,这有个什么一千两百万呢,还一千三百万的像素的摄像头,他白天录啊,先说说他这录像问题,白天录吧,还行,但你一旦下到地下车库啊或者是夜景啊,这个 录视频的这个效果就会断崖式下降啊。那你说行,那个夜景啊,或者是比如那个昏暗地方,他录的时候比较少啊,都可以,也行。但我就想再说一说他这个续航时间, 你这个续航时间太短了,他说可以录什么所谓三 k 视频,然后加上算法能变成四 k, 但是这个视频说录不能超过三分钟, 然后呢?你录时间长了他还会什么发热,完了机器还会变迟钝,所以我就没用过三 k, 我 都是用那个幺零八零 p, 我 觉得也够用, 但幺零八零 p 呢?他一次性也是最长就能录十分钟啊,当然十分钟以上的视频就是这种情况,比较极端,大部分我们都是一两分钟啊或几十秒就完事了啊,但是他这个东西你一旦录上,像 他对你这个续航电池续航就是打折会非常大啊。所以就是还有一点,我再说一说他这续航,他这个续航他说能七个小时, 我当时我也没注意它是一块电池能七个小时还是两块电池,我买的是长续航版,只有两块电池。就这么跟你说吧,我就是录点什么东西,或者是听个歌,或者是开个导航, 半个小时吧,这一块电池基本就得要充电了,就是要连续用的。话说实话我听歌的时候它这个电池就抗用度都不如我那个游泳耳机, 我那个游泳耳机搁水下我游个四个小时,六个小时可以充一回电,但这个东西我架耳朵上,我是拍视频呢,我还是那个听歌啊,还是开导航啊,基本半个小时以上吧,就就完蛋。 所以他这个功能有的是有,但是你一用上之后你就会发现就电池也满足不了是他这个东西,他这个性能还不还不能完全替代手机。

大家好啊,现在市面上企业接入国内大模型 a p i 的 渠道特别多,那我今天就和大家汇报总结一下不同渠道的特点。首先呢是火山引擎的豆包系列和 deepsea 系列产品, 那他们的特点是限流的额度最高,基本上不会打满他们的 tpm 和 rpm。 原因是因为火山之前囤了很多英伟达的卡, 所以它背后的推理集群资源特别充足。那价格上呢,它的折扣力度相对比较小,如果不是特别大的客户的话,官方渠道最多是给七折,火山销售的业绩压力也很大,基本上每个人单单大模型都要背至少一千万的业绩。 其次呢是阿里云的千位系列和 deepsea 系列产品,那它的优点是单价最低,而且阿里云内部最近在打大模型战役, 千万系列模型的折扣根据用量呢,从五折到三折不等。但是缺点呢是背后的集群资源相对来说没有那么充足,如果遇到大客户重保的话,比如说 b 站跨年晚会,那资源就会更紧俏一些。 百度的大模型呢,目前基本上是卖三方的 deepsea 和其他模型为主,他们自己家的文心妍用的客户相对少一些,但是百度的折扣政策一般来说是还不错的。然后就是各种各样的大模型中转站了,比如说三零二点、 ai 云雾、 api 等等的平台, 这些平台的价格浮动会比较大,而且折扣普遍会比原厂高一些。但是有些厂商的模型可以做到特别低的价格,这种情况下呢,一般是做了逆向账号之类的方式,他们能够保证低价,但是不保证可用性。最后呢,如果您希望低价进入国内主流的大模型 api, 可以 后台私信我,我有靠谱的渠道。

宇哥,这个分享非常非常棒啊,然后我想也来体验一下 cloud 的 桌面端来对接国产模型。因为习奇 switch 这个大版本更新以后,支持了科奥的桌面端,所以哈,有了这个桌面端,这个桌面端的配置就非常的省事了,就不需要一些骚操作来处理了。然后呢,首先我们点击右上角的那个添加按钮, 选择国产模型 deepsea, 因为国产模型 deepsea 现在相对来说性价比非常高啊,既便宜又好用。选择完以后呢,对应的参数啊,这些参数都有了,我们主要又管一个 关那个 api, key 复制进来就好了。嗯,添加好,添加好这个对应的 key 之后, 跳到右下角的位置,以户上下文一照,你以为那个的不希克也已经支持了一照的上下文,然后点击添加就可以了。然后呢, 要开启这个模型,那么这里有个注意项,就是要首先开启本地路由,本地路由在哪呢?我们再返回到那个首页啊,点击左上角小齿轮,然后点路由, 然后他有一个路由,有两个都给他打开,打开以后啊,还有一个 log 按钮给他起用, ok 啊,这样的话基本配置就差不多了,怎么回到首页,点击这里的启用,然后现在准备打开那个 cloud 桌面端进行验证了, 你看啊,打开以后呢,他这个模型按道理来说已经加载,已经加载完毕了,好,出来了,我们看一下啊,基斯模型已经有了, ok, 模型模型都有了, 现在我们来输入一个,比如说你,好吧,测试一下,看看到底能不能跑通, 看看他回不回复 哦,回复了,回复了就说明跑通了哈,真正的接通了,然后现在我们再返回吸气死位置小齿轮, 然后有一个使用用量的统计,啊,使用量统计可以看到那个哎 do see 了, ok, 那 就说明 对接真的真的就成功了。最后呢,这里再提醒一个,提醒一个问题,就比如说我们切换模型的时候,比如说有啊切换,也不能说切换模型,切换供应商吧?模型供应商,比如说切换到七 kimi 切换的时候切换完了。其实现在如果说我们直接用 cloud 那 个桌面端的话,它是没有切换到 kimi 模型的,因为它还是有问题的,没有进行热切换,所以大家也要重启。

小米 miimo v 二点五大降价百分之九十九,很多大聪明的反应是,不就是降价吗?别家也能做啊?错!真正恐怖的地方,从来不是能不能做,而是敢不敢做!这才是这件事最炸裂的核心。 g l m kimi、 千万豆包这些大模型理论上能不能做缓存优化呢?当然能,甚至我怀疑很多公司可能早早就偷偷做了。为什么? 因为缓存优化这个东西,本质上就是把 ai 已经算过的内容缓存起来,下次再有人问类似的问题,直接读缓存。 那么以前 ai 每次回答问题都想重新做一遍高考数学卷,现在变了,这题老子做过了,直接抄答案,成本一下就暴跌,尤其是配合 ssd 缓存以后,显存的压力会下降的非常夸张。而显存才是一个 ai 公司最贵的东西。 所以问题来了,如果大家理论上都能做,为什么行业价格一直没有崩呢?那是因为没人敢。 你发现没有,现在很多 ai 公司表面上在卷模型能力,实际上拼的是什么?拼的是融资,拼的是利润,拼的是资本。故事 谁都知道价格还能降,但谁都不想第一个动刀,因为一旦有人掀桌子,整个行业的利润都会血崩。结果小米干了什么?别人偷偷优化,小米就直接公开砍价,这才是最狠的地方。 最离谱的是,他现在几乎做到同 deepsea 同价,同样 e m 的 上下文,而且他还有多模态,大家知道这基本上相当于 deepsea 四点一提前发布了。老铁 为什么这么说?因为过去大家一直以为 deepx 这么便宜,是因为他技术带差太大,别人短时间根本追不上,结果现在小米告诉行业不一定哦,别人可能也能做到,只是很多人不愿意降价而已, 因为他直接把整个 ai 行业的底库掀了。原来很多公司的护城河可能根本就不是技术,而是大家默契的维持高价。而小米最恐怖的地方是什么? 不是模型,不是论文,不是参数,他最擅长干一件事,那就是价格战。手机行业他这么干过,家电行业也这么干过,那汽车行业呢?他也在这么干。现在终于轮到 ai 了, 以后 ai 行业最可怕的事情呢,可能不是哪个模型更聪明,而是谁先把 ai 做成白菜价。因为当 ai 成本下降十倍的时候,变化的不是利润,而是整个世界的使用习惯。以前大家问一句 ai 嫌贵 以后可能默认全程挂着 ai, 那 时候真正难受的不是技术差的公司,而是成本明明已经降下来了,却还不敢降价的公司。兄弟们,你们觉得呢?

现在是小米的 max 阅读套餐啊,这个十六亿的 token 是 小米送,然后从昨天早上八点钟开始吧,到现在差不多四点八亿,快五亿了,也就三十多个小时。五亿 token, 这还是在它这个运算速度受影响的情况, 就是它的这个运算速度跟 calculator 里面的这个就是包月的,这个模型的运算速度还是没法比, calculator 里面有一个叫做 auto 的 这种模式,就这个模式可能比这个小米啊,比千万的 plus 这种运算速度,至少我觉得至少得快十倍或者八倍、七八倍这样子 的。就是如果说这个小米的这个大模型,只要算力够的话,一天烧掉七八个亿或者十来个亿的 token 不 在话下。然后我用这个 小米的 miimo, 这个是 miimo 二点五 pro, 然后这边是一个千万三点六 plus, 然后他们昨天晚上分别做了两个重构的任务,就是非常长的任务,基本上这两个做的都差不多,就是我没想过小米的这个模型其实做出来的这个效果也不错, 但是这两个模型都没有完全的把任务全完成,因为这个涉及到的文件确实挺多的,可能得几十万行代码吧, 他得扫描十几万行代码,那现在这个项目接近二十五万行代码,光文档就有十三万行,所以说体量非常大。这个重构呢,也是重构这个所有的这个命名就是很多变量名,他在写的过程当中命名不规范,然后我就写了一个命名的规范这个文档,让他们重新的把所有的命名全部规范一下, 说为什么这个项目没有上线就重构啊?是因为就是过去,比如说我们做一个项目的话,可能一两年或者两三年就写了一堆的代码,然后史山代码这个时候就有一些比较 大拿吧,技术大拿,或者说是有点洁癖的这些人,他就喜欢去重构这些东西,就是把那些分散在各个角落重复被写的这些功能,然后浓缩到一个工具里面,或者浓缩到一个函数里面, 让所有的业务都去掉这个函数以后每次我想去改点什么东西的话,我就直接在这个函数里面改,其他的这些业务就跟着都变了,大概就是这么个意思吧,重构就是这么个意思,过去你要想重构的话,写出大量重复代码的话,得花很长时间,很多人 才会出现这种问题。但是 ai 恰恰相反,就是它很快就能写出来一堆东西,然后你就会发现你的需求是一个个提上去的,然后它就一个个给你完成,最后你会发现这个需求和那个需求之间它有一些共用的东西,那这个时候你就必须得让它抓紧重构,如果不重构的话 就是属于恶性循环,你的代码会越来越乱,越来越乱,第一是你自己也梳理不清楚,第二就是 ai 也会越来越糊, 就是你的这个项目架构,特别是这个底子如果不好的话,那后面你给他提个需求,他得查一大堆东西。所以比如说我要改一个人的头像,那么这个头像就得在一个地方去改,以后我再上传头像,或者在裁切头像,或者在干其他的事情, 就只要和头像相关的都到这个模块下面去做,如果不这样的话,你这边业务这个页面上有个头像,你想在这改一下,然后你又换了个页面,也在那也改一下,他很快就给你写出来,然后很快就能实现。 你在写的过程当中你好像觉得没什么,但是慢慢你会发现,比如说原来那个头像是切成方的,那我又现在又想把它切成这个长方形的,那这个时候这边切了正方形的,然后那边那个长方形的可能还没动,它还是长方形的,这就会导致就是有可能你的界面不一致什么之类的,反正就是大概类似这样的问题 吧。所以说 ai 写代码只要你发现了有一些重复性的东西的话,它重复在改相同的错误,比如说这个页面上的错误跟 另外一个页面上的错误基本上是一致的,但是他改完这另外一个没变,那就说明这两个地方他是有重复的,两两部分代码就是实现了两次,相当于说是甚至实现三次都有可能。 因为我们的这个需求不可能是一下子就提的特别清楚的,而且架构也不是一下子就能设计的特别完美,所以说这个就是在不停的写,不停的改,然后不停的重构,好在就是重构还不错,然后这个小米的这个 执行呢,一晚上跑下来整个也没断,就他可以跑六七个小时,七八个小时,千问其实也可以跑六七个小时、七八个小时,这两天千问他没有断,就是以前我不是说上个视频,我不是说这个千问就跑着跑着就断了吗?就是算力,这个叫什么?到了到了一个算力上限了, 他就断了这两天。这个千问三点六 plus 就是 这几天啊,还不错。我也不知道是因为我装了小米的原因还是怎么样的,反正就是这两天他没有因为这个算力给我限制了。 小米这个 miimo 二点五 pro 的 这个模型也是一直没有那个断掉过,就是用下来还是蛮稳定的,就白天的时候会有点慢,晚上十二点之后到凌晨的那段时间,它是算力低谷,然后那个时候它是零点乘一个零点八的系数吧,然后整个的这个 算下来的结果我觉得不错,因为我的任务实在是太长了,所以说它是会丢掉一部分东西,但是你再去审核一遍的话会发现,然后再让它去补充这些业务,就一次可能比如列了七八个任务,它就会给你完成三到五个, 然后有些是完成了一半,最后你问他完成了吗?他告诉你只完成了这几项,然后你再接着让他继续完成。那这个过程其实蛮长的,就是从昨天早上八点一直到今天晚上八点三十多个小时吧。呃,有二十多个小时就是完成两个长任务。其实我觉得还不错,毕竟这个人家是白给的嘛,咱也得这 也不能说是完全无脑夸啊。但是确实还不错,就是作为一个卖手机的,卖汽车的,然后做了个大模型,能达到这种水平,就我觉得是不输千问三点六 plus 的, 然后他给的这个 max 的 套餐,我在这个平台上也看了一下。卧槽,这个有点贵啊,这一年合五千多, 五六千吧,然后一个月大概十六亿的 token, 按照这种使用量的话,如果说它的速度不限制的话,我估计这个 十六亿的话,可能也就三四天就能这个给它用光了。但是啊,就是这个项目是这样的,就是在初期的时候野蛮生长的,这个过程当中肯定会消耗很多 token, 但是随着这个功能稳定下来之后,它可能就用不到那么多 token 了, 因为我已经有好多个这个编程账号了,都花了钱的它可能用不到了,我也不会盲目的去一下子买太多账号吧,先看看吧,因为这个项目基本上也到了一个收尾的阶段,所以 说就给大家汇报一下,我觉得如果说你想用 mimo 去编程没有问题,这绝对不是个玩具,这应该是一个工业级的比较可靠的一个大模型了,特别是编程,我觉得还不错。

我一个人手抄 ai 短剧到现在整整两个月了,这两个月剧情我自己写,人物自己画,提示词自己编,剪辑自己干,踩了不少坑,也攒了一点经验。 今天开始,我做个系列总结,给同样想入局但又迷茫的朋友们当个参考。我这是野路子,但是保真。第一期先讲 ai 工具怎么选, 开门见山,如果你想免费做视频,首选豆包,至少目前豆包每天还能免费生成五个十秒左右的片段,多搞几个账号,你懂的, 基本够用。我刚开始做视频的时候也不是这样想的,心想我要做短剧了,一定要做最好的效果,一定要充 vip 来做。于是我首先找的是用积木 ai 充会员,结果呢, 普通会员排队生成视频能排一个通宵,我等不起。然后转头又用小云雀 ai 充值,最后发现 效果跟豆包生成的差不多,钱却花了不少。你可能会问,豆包效果差一些吧?没错,豆包的底层也是吉梦 c 三十二点零引擎,但是他被降智了, 做了效果限制。不过免费的干嘛要用自行车呢?而且不管是吉梦还是小渔雀,都要面对抽卡这个问题, 生成十条视频,挑出四五条,有时候甚至只能挑出三四条能用的,用积木,效果却和豆包差不了多少。 但是豆包抽卡不花钱,抽的也香啊。除了豆包,阿里的千万,快手的克林我都试过千万在 happy 二十引擎上线之前基本上没法看,现在每天能够送一百积分,够生成一个十秒左右的片段。 所以当豆包每天的免费额度用完之后,我会用千份作为一个补充, 当然前提是必须要用 happy hush 引擎。论效果来说的话,我的排名豆包绝对第一,其次才是接上了 happy hush 引擎的千份。再往后就是一款叫 ipad ai, 相对名气较小,它也有几十个积分免费送, 至于什么吉梦、小云、雀可林,他们送的积分很少,根根本不够你做一个很小的片段,所以我基本不考虑它。 可能有人会问,国外也有一些优秀的 ai 视频生存软件呢?说实话,我也尝试过,但我只想省心少麻烦,免折腾。所以我没有以国外 ai 为主,而且要考虑一点, 国外上网网速受限,而且同样也要面临充值。如果你用国外 ai, 当时你正在充值或者正在生成 ai 短片, 网速突然减慢或者突然断网,那个损失可就不小了。我是不想去浪费那个时间和精力。很多人觉得 ai 这么发达了,把想法告诉他,他就能自动生成完美的画面了吧? 告诉你想多了,当下的 ai 视频工具,包括机梦 c、 三十二点零在内,本质上都是单帧生成器,不是蓄势生成器,他能画一张很好看的图,也能生成一段很丝滑的视频片段。但他不懂蓄势, 他不理解这个角色为什么要在这一刻转头,不理解那个眼神为什么要在此刻停留两秒钟。 你给它越详细越严谨的剧本,有时它反而越生成越乱,因为它只有像素意识,没有蓄势意识。什么是像素意识呢?也就是说它只能识别画面的像素点位, 它不会去理解剧情或者你的提示词的逻辑关系。现在所有 ai 短剧本质上都是在玩抽卡游戏, 你有钱多抽几次,像我,没有钱就将就用呗。所以我的作品里画面不连贯,人物变形那是常有的事。你可能会问,你怎么知道这些? 我不是纯粹的小白,我干过二十年的互联网技术,去年还跟朋友合伙开发了自己的 ai 写作平台。论的 ai 也是调用的第三方大模型接口, 对 ai 的 底层逻辑多少有点了解和认知。没办法,这就是穷人的办法,但这丝毫不影响我短剧的制作。 我的原创 ai 科幻短剧星图二零四九已经做了七集了,总时长四十分钟,总共除了第一集花了三百块钱以外,后面的剧集再没有花任何一分钱,我觉得够用就行了。 总结一句,想省钱又要有基本的效果。首先我推荐豆包,其次是小云雀。 用小云雀至少不用排通宵的队,而且它的生存时长比豆包长一些,只是小云雀的还是要充值的, 它的效果可能比极梦 ai 略差一点,但也够用了。现在极梦普通会员基本上排不了队,要么你就得充 vip, 甚至得充 vip 中的 vip, 充了会员的钱够我花一个月了。至于网上有博主推荐 nano banana 以及纳米等人物建模工具,都是要花钱的,我暂时都没有碰。下期我再分享角色设计和建模,看我是怎么用免费方法保持人物的统一性的。

mimo 现在已经排到千万前面了,前面就剩一座大山。 deepsea 已经超越了 mini max, 它的收入有多少你们知道吗?就这十几年, mimo vr pro 平均下来啊,日均收入十一点八万美元,这才是刚开始啊,因为这个行业是在往扩张的,增速特别快啊。 如果从金额上来说啊,是大幅领先 deepsafe 和 mini max 的 那个 deepsafe 一 天是七点七万美元, mini max 是 四点五万美元。小米微软 vr pro 日均的收入是十一点八万美元,这是最新的最新的排名,如果发展的好啊,微软相当于再招一个小米了。 之前小米密报是免费的,免费的时候他冲到了周榜第一嘛,后来他收费之后,他的排名就一路下滑,从上个星期开始又逆转了,就周五的时候排到第二名的,这个收费之后啊,世界第二。为什么大家都争那个大模型的赛道? 你看所有的只要是巨头,基本上都在争那个大模型的这个基座啊,这绝对是最赚钱的赛道。 大家想想,这个卖铲子的赚的多还是卖金子的赚的多?大家现在都买买铲子,但到底是卖铲子的赚多还是卖金子赚多?初期因为卖铲子比较有确定性,现在看卖铲子的特别赚钱,到了后期卖金子的绝对比卖铲子赚钱。你现在看卖铲子的都能赚那么多钱,那以后卖金子不得了的。 你卖铲子的一一年的几百亿,难道卖金子的还亏几百亿或者赚几亿啊,几十亿啊,不可能的,那不成泡沫了。而且产业链有个问题,我们的产业链最大的问题是什么?到了最后可能是赚营收不赚利润的, 就跟二一年的新能源一样,就二一年的时候新能源的故事不比现在 ai 差呀,不比什么 cpo 他 们差,你们说是不是这样的? 但你看那个新能源就是很明显的涨份额,但是不赚钱的,他越大都会卷,大家的产量都起来了,这公司还没什么核心壁垒,你一家做出来了,过个一两年另一家马上出来了,这个价格就下来了,你可能会亏钱卖,但是后面一个大模型,一个应用,绝对是金子,真正的金矿啊。 只是说他什么时候爆发的问题。今年应该是元年吧,小龙虾出来之后,然后现在还有爱马仕是吧?从今年开始云计算开始涨价,后面价格会越来越高的,产业链他会传导的。我们之前说过小米的系统存在被牵制的问题, 因为没有生态底层用的还是谷歌的,但是以后的 app 肯定不是 ai 时代的入口了,这个入口的形态我们不清楚,但大概率跟基数大模型有关,所以咪某对小米来说是非常非常重要的,一定要关注。

小米最近也发布了它的单模型,名字叫 miimo, 据称是世界第二,那咱们今天看看它是不是真的有世界第二的能力。 咱们今天选择的模型是小米官方推荐的七 b 模型,其中最强的是七 b 二 l, 咱们今天就用这个模型来和千门八 b 做对比。 转眼之间我就用 mm studio 把这两个模型都下载好了。啊,咱们先测试一下小米的七 b 二 l 模型,那我就不客气了,我首先问他的问题,你是谁?看他怎么回答,嗯,回答的还不错。然后我再问一下他和谦问的关系,经过一段思考, 答的也不错,不过我高兴的不要太早。于是我又问了他,你和 mata 有 什么关系?他就开始莫名其妙的出英文了,可能是有 mata 两个字吧。 随后我又问了他数学问题,就是一点一零和一点九哪个大,他经过非常慢速的思考,最终得出了正确的答案。 这里看起来非常快,是因为我用了四倍速,想想如果不用四倍速的话,这里又非常非常漫长的。最后我测试他的代码能力,让他帮我复刻一下谷歌的主页,最后给了我一个 html 文件。到最后咱们和千万的版本一起对比。 好,现在咱们进行千问的测试。首先呢,我问了第一个问题,就是千问你是什么?然后第二个问题是一点一零和一点九哪个大?第三个问题也是让他帮我写一份谷歌的首页复刻, 然后他也给了我一份 html 文件。嗯,这里呢,就是快速略过,然后有兴趣大家可以暂停观看。 我这里总结一下测试的结果,在总体上来说,我感觉千万要更好一些,第一个就是文本,他会有更强的逻辑性,上下文更加连贯。然后第二个数学的测试呢,就是速度来说,千万会更好一些。第三个网页测试呢,大家看一下效果吧, 你猜哪一个是千文写的,哪一个是 mimo 写的呢?把你的答案写在评论区吧,之后我会在评论区公布答案。如果你喜欢我的视频的话,可以关注、点赞、转发,谢谢大家。

这个图片国内的主流 ai 几乎都识别错误,这个粮食放大器,国外的 gpt、 gmail 三表现如何呢?还有这个比较潦草的鸟,到底是哪个模型识别的更精准? 接下来我们做一个简单的模型识图能力对比。我找了四家平台,用免费的模型去测试,均选快速模式。国内的是豆包和千问,海外的是 gmail 和 gpt。 其实还有几家模型也不错,但免费用户的服务器太容易出现繁忙状态了。规则如下,我们分四组不同类型的照片,每组呢五张,让每个模行为每张图片生成五个不同的标题和二十个不同的关键词,每组满分是一百二十五分, 标题或关键词错一个扣一分。为避免混子,模型会对以下的情况进行一个加分,比如照片中是一只鸟,其他的模型都说是鸟,这个回答是没有错误,但是有一个模型,如果说出了这只鸟的具体型号或者是具体的特点,我们会额外的加五分。 当然有一些照片的内容我不能百分百确定,请见谅。如果有说的错的地方,欢迎大家指正。本次所用到的图片,除了一张风光照外,全部由我个人拍摄,不是什么热门的网图。 理论上对 ai 来说比较新,我们采用的一个方式就是随机的截图,加一个统一的复制粘贴形式上传,这样就不会附带照片的原数据。因为这些照片其实它们的原数据里面我已经写入了大量的关键词,还有不同的标题, 所以我们去截图就会避免模型识别到这些数据。现在开始测试 一个突发情况,就是 gpt 上传了几张图片之后,对免费的用户就进行了一个限制,后面我们的 gpt 就 换了一个渠道,但是模型呢,也从免费的五点三升级到了最新的五点四,这是需要注意的一点, 没想到整理这么花时间,周末搞了一下午才搞完。求赞,求评论,求关注,我们先看动物组的情况,抖音豆包二点零得分一百一十七分,他把大雁宝宝识别成了鹅宝宝,其他的倒没什么问题。下面是阿里千问三点五 plus 得分一百零七分,也是大雁宝宝识别成了鹅宝宝。还有这个麋鹿的状态也是识别错误的,这个麋鹿是夏天太热刚从河水里面出来,后背是黑色的淤泥, 很健康,但是比较孤僻。但是千万的模型识别,这只麋鹿挂了,所以是一个扣分项。而鹅苗识别成了鸵鸟,其实非常严格的意义,算它勉强是对的,但是其他模型呢,都给出了一个正确的答案,所以也扣分。但是这个灰罐鹤, 阿里的千万给出了具体的产地和象征意义,所以我们会额外的加五分。谷歌的 jimmy nike 三 得分一百二十七分,也是大雁宝宝识别成了鹅宝宝,但是它的关键词里面有一个大雁幼崽,这一个词是所有模型中唯一给出正确答案的词,所以也是额外加五分。而麋鹿呢,说出了一个四不像的真实特点,我们也会额外加五分。 g p t 五点四得分一百零九分,也是大雁宝宝识别成了鸭宝宝,和其他的还不太一样,麋鹿里面有一个词是受困泥地,也是一个明显错误,也是略微减去了一些分数,其他的回答倒是很标准。最终动物组得分,谷歌这名 nine 三,一百二十七分。 抖音豆包二点零一百一十七分。 g p t 五点四,一百零九分。阿里的千问三点五 plus 一 百零七分。这里面 g p t 给我的工具感是最重,不过我个人还是比较喜欢下面呢。来到了复古组, 这组图片其实对国内的 ai 比较友好。抖音的豆包二点零得分一百三十分。唯一精确说出这个搪瓷盆具体型号的模型, 红双喜,所以额外加五分。阿里的千问三点五 plus 得分一百一十八分。主要扣分项是它把搪瓷盆里面识别出了有 鱼,但是显然这个盆它就是一个单纯的搪瓷盆,这一项扣的比较多。谷歌的 jimi nike 三得分是一一百二十四分。粮食放大器识别成了老的压力锅, 虽然这个东西和压力有一定的关联,但是物品的分类明显是错的,所以也是扣分。 gpt 五点四,得分呢是一百二十二分,它把粮食放大器识别成了工业设备,我不排除它有一定的工业属性, 但是和主体的关联过弱也是一个扣分。像但是这个电视的照片, gpt 是 唯一缩出 crt 电视的一个模型, crt 就是 大屁股电视的一个意思, 这一点会额外加五分。最终复古组的得分,豆包二点零一百三十分。瑞米奈三,一百二十四分。 c p t 五点四得分一百二十二分。千问三点五 plus 得分一百一十八分。豆包的发挥依旧很稳定。接下来是动植物的一个混合组, 六包二点零系列,得分一百三十分,是唯一识别出石牙蝇的模型,这点会额外加五分。这个东西其实是看着像蜜蜂,但其实不是,蜜蜂的眼睛没有这么大,你看这个照片,昆虫的眼睛是不是特别像苍蝇,所以叫石牙蝇?阿里千问三点五 plus 得分一百一十九分, 也是把石牙蝇识别成了蜜蜂。但刺猬这张照片 把里面的背景三叶草识别出来了,所以会额外加五分。还有这张乌冬丝桑葚的照片,这面奶是唯一指出具体品种的模型,所以也会额外加五分。但是这里要说一下,其实这张照片这几个模型理论上都能识别出来, 但是不知道为什么,这次只有谷歌的 jimmy nike 给出了一个很标准的正确答案,其他的模型都识别出了一个基础的鸟类,但是不够具体。 g p t。 五点四,得分一百二十分,同样是把石牙蝇识别成了蜜蜂, 给出的答案依旧保持了很好的工具感。最终呢,植物组的得分,谷歌 jimmy 三是最高的,一百三十二分,豆包二点零一百三十分。 g p t 五点四,一百二十分,阿里千问三点五 plus 一 百一十九分。豆包的发挥呢,依旧非常稳定, 但是谷歌的 jimmy 凑巧在乌冬这张票片上面减了五分,因为乌冬这个鸟其实基本的模型都能识别出来,但是呢,这次结果就是没出最后一组。城市的一个风光建筑对国内的模型比较友好, 同时呢,也主要看看海外对国内风光建筑的一个识别能力。我们先看抖音的豆包二点零,得分一百二十五分,发挥很稳定。 阿里的千问三点五 plus 得分一百二十三分,没有钟楼略微是扣分。需要注意的一点就是南京紫峰大厦这张照片,其他的模型都能精准地识别出地区在南京,建筑是紫峰大厦。但是阿里的千问 没有给出一个特别明确的答案,但是他的回答也都没有问题,所以这里不扣分。谷歌的 jimmy 三,得分一百二十五分,很标准的回答,没什么问题。 gpt 五点四得分一百零八分,把北京的正阳门和箭楼识别成了西安的景区, 这里也是一个扣分项,最终城市风光组的一个得分。抖音的豆包二点零一百二十五分。 谷歌的 jimmy nike 三,一百二十五分。阿里的千问三点五 plus 一 百二十三分。 g p t 五点四,一百零八分。豆包和 jimmy nike 发挥依旧很稳定。阿里的千问三点五 plus 没有识别出南京这个地域,真的让我挺意外的。 j p t 五点四把北京的景区识别成了西安的景区。最终呢,我们的得分,第一名是 谷歌的 jimmy 三,总分是五百零八分。第二名是豆包的二点零,得分是五百零二分。 第三名就是阿里的千问三点五 plus, 得分是四百六十七分。第四名就是 gpt 五点四,得分是四百五十九分。 这就是一个本次的模型识图能力比拼,不知道这个排名是不是和你想的是一样。最后发一个几乎全军覆没的照片,就是这个,大雁宝宝。当然我我也不是百分百确定他是大雁宝宝,但是我百分之九十九确定他是大雁宝宝。 只有谷歌 jimmy 三在关键词处给了一个正确精准的答案,因为我是摄影爱好者, 需要借助不同的模型去帮我跑这些照片的标题和关键词描述,所以我目前更偏向于这种工具属性的答案,像是豆包 g p t 这种。但是谷歌 gmail 三 真的是非常拟人,个人觉得更适合做一些创造性的回答。阿里的千问三点五 plus 说实话真的是进步神速,比我去年使用的那个状态真的是好太多了!真的是好太多了。其实本次的分数和排名 都只是大模型在特定维度下的一次快照,其实不能说明什么。数字的高低从来不是衡量技术价值的唯一标准, 更不是判断一个模型是否好用的唯一答案。真正重要的是这个技术它是否一直在前进,而且能否为普通人的生活创造出真正有用的价值。最后呢,感谢这些模型在多个维度给我带来的一时方便 和更多维度的轻微不安。模型呢在迭代赛道呢一边又在扩宽,另一边呢又在加快收展,我们普通人也要尽量跟上,尽量不要掉队。好了,这就是本次的全部内容,欢迎关注新人自媒体,我们下次见!

我没看错吧,千问 ai 眼镜 s 一 现在只要这个价,就是这款千问 ai 眼镜 s 一, 别看它优惠大禁言显示智能导航佩戴的舒适性可一样没落下。喊一声你好,千问 导航到动物园就直接能设导航,并提供多种方案,箭头直接浮在眼前,跟着头转,不用低头,机身仅重五十一克左右,采用一比一均衡配重,再搭配弹性镜头,长时间佩戴也不会有不适感。不用再当低头族,抬头就能看清路的快乐他都懂。

大家好,欢迎来到东哥科技全球最权威的 ai 编程榜单。 code arena 刚刚放榜,这次的结果让人震惊,这个榜单有三十二万八千次真实用户盲测投票,覆盖八十一个模型,是目前全球最权威的 ai 编程能力评测。在 webbed 排行榜上,中国 ai 编程模型千万五十一分排名全球第四,仅次于 ntp 的 三款 klo 的 模型。 更让人兴奋的是,中国军团集体爆发,智普 ai 的 glm 五点一排名第六,月之暗面的 kimi k 二点六排名第八, 小米的 miimo v 二点五排名第十五。而且这些中国模型的价格只有海外模型的四分之一,甚至七分之一。千问三点七的输入价格只要九块钱百万头肯, 而 cloud opus 要三十六块,输出价格更是差了七倍。现在海外开发者社区已经开始大量使用中国 ai 编程模型,因为性价比实在太高了, 中国 ai 编程已经进入全球第一梯队。关注东哥科技,每天分享最新 ai 干货!

小米 mini 大 模型突破一万亿, toon 在 国内算什么水平啊?为何盘古大模型没有公布自己的调用量呢? toon 啊,是 ai 信息处理的最小单元,也可以简单离页为流量,调用量越大,就代表该模型被用户使用的越多。我们来看一下最近一周的国内排名啊,第一呢是千万三点六 plus, 四点六万亿。第二呢就是小米的 mini, vivo pro, 三点零八亿。 所以说呀,小米的一万亿 token 呢,已经达到了国内头部玩家的水平。而华为的盘古大模型呢,它不是单一模式调用啊,而是模型加平台模式,尤其是在工业、医疗、气象、金融、政务等专业领域啊,提供可落地的完整的 ai 解决方案。 他呢,不仅有自己的盘古大模型系列啊,还继承了千万 deepsea 的 模型。就在上周啊,国内大模型调用总量为十二点九六万亿啊,老美呢,为三点零三万亿。我们呢,已经连续五周啊超越老美了, 这个数据啊,说明我们的 ai 产业强大的竞争力,而在这一切庞大数据的背后啊,算力支撑才是七寸, 我们希望啊,除了华为的阿达拉斯之外呢,还有其他公司也加入进来,一起把我们自己的 ai 底座做强做实做大。

这轮中国的大模型竞争啊,很多人还在盯着参数榜单跑分,但是我现在觉得真正重要的不是谁今天的分数更高,而是我们先看每家公司它到底在用什么方式赚钱。 今天我们把港股的三个主要玩家放在一起看一下,其实它的路线差别已经非常明显了。第一类是像 mini max 这种,它更偏向于做低成本的 agent 底座,它的模型不一定是最大的,但是它的重点是便宜快,它适合大规模的调用,尤其是适合现在这种 agent 的 爆发初期的需求。 它的模型激活参数更少,而且对 k v catch 还有明显的价格优惠,本质上就是在鼓励开发者尽量附用上下文,把这个推理成本给打下来。 第二类就是智普这条路线,它更强调通用推理能力、长任务完成能力,还有更低的幻觉率,它的模型更大,每个 token 激活的参数也更多,所以啊,它的效果更强,但是代价也很直接,就是它的成本更高。 然后我们再往上看,还有第三类就是阿里的千问,它其实又是另外一种不同的打法,它不只是想做一个最强模型,而是想做一整套模型,家族小模型、端侧模型、企业模型、通用推理模型、多模态模型,它全部都想覆盖。 所以阿里真正想拿下的不只是模型本身,而是整个 max 和算力需求。说白了,阿里想做的不是单点冠军,而是一个平台。所以啊,你发现这三条路线其实背后对应的三种不同的是性价比, 智普卖的是能力上限和可能性,阿里则卖的是平台、云和生态。这里面啊,我觉得最值得我们投资人注意的一点是, 低价本身很难成为长期的护城河。为什么这么说呢?因为低价 agent 的 底座这个位置短期会很火,但是长期一定最卷。国内的同行会跟全球龙头也会不断推出更便宜的 flash 版的模型来抢市场。今天靠便宜拿到流量,明天别人也可以更便宜。 真正留下来的,反而可能还是那些推理更强、幻觉更低、做复杂任务更稳的模型。但是问题又来了,强模型更烧钱。尤其是在现在这个阶段,算力的成本还在往上走, 阿里、腾讯、百度这些 a a 云都还在涨价,独立算力租赁报价也在上涨。在这种情况下,那些没有自己的云基础设施,主要一部外部租算力的独立模型公司,基本上就是这个 price taker, 上游涨价,它只能被动地接受。 这就意味着,阶段最受益的未必是最会讲模型故事的公司,反而更可能是那些既有模型又有云,还有生态入口的大平台。因为他们既能做模型,又能卖算力,还能把自己的模型优先部署在自己的云上,这个成本结构和资源分配跟独立模型场上根本不是一个级别的。 所以啊,我的理解很简单,这轮中国 ai 不是 谁的模型参数大,谁赢,也不是谁更便宜谁赢,而是每家公司都在回答一个更现实的问题,我到底想赚谁的钱? 有人赚低成本 a 证的调用钱?有人赚高端推理能力的钱,还有人赚整个 ai 时代卖水的钱?如果站在投资角度,短期我会更重视这个平台型的公司,因为模型能力还在快速迭代,今天的领先未必能保持,但是云算力、生态入口这些东西,你一旦卡住位置,反而很容易形成一个持续性的回报。 这跟 ai 表面上是在比模型,实际上是在比谁更接近现金流。真正值钱的不是模型有多聪明,而是谁能把这个聪明变成一门持续赚钱的生意。

pro 六千又涨价了?家人们工作站版本的现在也已经涨到九万多了,那工作室和企业使用到底有没有替代方案呢?快来看看。这张 pro 五千七十二 g, 这张卡有七十二 g 的 大尺寸,我们实测下来它的性能略有缩减,但是它的性价比非常高,用 pro 六千百分之六十多的价格能发挥它百分之八十的性能。 像一些初创工作室和个人用户,又或者是追求性价比的企业。这个 pro 五千不管是用来跑 ai 本地推理,还是做一些大模型的训练微调,都是您的性价比选择。我们是做服务器部署站定制的,如果您也有业务部署站或者一些大模型本地部署的需求,都可以来找到我。

国产 ai 的 春天真的来了,家人们国产大模型现在真的支棱起来了!阿里千问三点六直接拿下 calderina 编程榜单, 国产第一,全球第二,仅次于 cloud code。 一 百万 tocan 的 上下文设计稿,直接生成前端代码适配全智能体框架。 今天就硬核测评一下千问三点六 vs cloud code, 看看国产 ai 编程的水平到底是什么样的。先划重点,这次的千问三点六的成绩可不是厂家自吹的,是全球权威盲测榜单 codrina 的 结果。真人程序员测评 一千四百五十二分,直接超越了 openai o 三 mini 就 追着 cloud code 跑。首先比核心能力, cloud code 正在复杂逻辑处理、前沿技术理解、 架构设计、高阶算法这块还是全球顶流。但是千问三点六直接把国产编程模型天花板拉高了一百万,头啃的是超大上下文,超长代码文档直接啃, 原生多模态更狠。设计师丢一张 ui 稿,它能直接生成附用的前端代码,这波时操心直接拉满咱们实测场景见真章。日常开发写业务流的代码 单元测试,做代码的注视简单的低 bug, 千万三点六完全能打,甚至中文理解更符合国内的 程序员习惯。变量命名、注式风格全都是咱们熟悉的套路,响应速度还贼快。但碰到了超复杂结构设计、前沿算法调研,还是 cloud code 更胜一筹,细节把控、逻辑严谨性 略胜一筹。最香的还是价格千万三点六,两元就能解锁百万级的 ai 编程。再看生态和适配,千万三点六全面兼容了主流智能体框架, 阿里云还同步推出了企业版代码审查、安全检测、私有部署全安排,企业客户可以直接从 amblanc 迁过来,省钱。还支持国产 cloud code, 胜在生态积累久,和 i d e 的 集成比千问更成熟, 但千万三点六的迭代速度肉眼可见,差距已经在快速的缩小。总结下来呢,日常开发千万三点六完全能替代 cloud code, 性价比拉满。 复杂项目可以用千问做基础开发, cloud 做核心优化,双模型搭配,直接效率翻番。这次千问三点六的突破,可不是单纯拿个排名,而是国产 ai 在 编程这个核心赛道实现了从跟跑到并跑的跨越。 以前总说国产大模型不如国际顶尖,现在千问三点六用硬实力证明,在细分领域我们已经可以正面刚了。 当然,客观的说,和 cloud code 在 复杂场景还有点差距,但架不住咱们性价比高、迭代快,符合国内开发者需求。后续千万再优化 i d e 集成股权前沿技术库, 真的有机会冲向全球第一。国产 ai 的 春天真的来了。评论区说一说,你要不要充千万三点六,下期实测千万三点六设计搞正代码的真实效果。

嘿,各位好,中美 ai 哪家强?不说废话, gbt 五点四, gemlife flash quad sonic g l m 杠五点零, mini max 杠 m 二点七,通用千万 quan 三 k 二点五, deepsea v 三,小米 miimo 杠 v 二,有个 ai 第一次中外同台,这期全部拉进来一起测了。开始视频之前,先说两件事,首先,题目怎么来,我们做了个内部题目,录制前我会随机抽取,只在真正客观测试真实能力。 第二,本期只测评各个 ai 所有用户都能触及的最新免费订阅方案。但在之后,我们也会测评各个 ai 的 最高付费订阅方案。这期测五个维度, 每个维度满分一百分,前端写一个网页小游戏,后端写游戏排行榜接口,然后连调职场写作,测五个公主的真实使用场景翻译测三个真实场景,最后验证 ai 给的学术文献是不是真实存在的。那么就让我们正式开始。 首先,第一个维度,职场写作。这个维度我最开始想出一道综合写作题,后来放弃了, 因为综合写作这个说法太虚了,运营写周报和产品写 p r d, 这根本是两种不同的能力,一道题测不出来,所以我出了五道,一个工种,一道运营周报招聘 j d, 产品需求活动推文、会议纪要,给每个 ai 的是真实的原始材料,一张数据表, 一段诱惑反馈,一份乱七八糟的会议录英文字稿,然后用这个工种真正的评判标准打分产品的验收标准,能不能直接测 h 二的 j d 读完有没有人想投月营的数字有没有写错?五道各二十分,满分一百。好结果出炉, 宾利第一, claus donna 四点六和 gemini 二点五 flash 各九十八分。这两个五道题里没有明显短板,扣分都集中在推文标题。 clark 写的是入夏第一件事,把家换成你理想的样子, 方向对,但在信息流里没有足够的胜出感。人们来写的是夏日换新季,全场八折加满减,标题太过于促销价。其一次的周报数字准确, p r d。 验收标准可测,会议既要干净准确,差不多可以直接用你在小米 mini 杠 v 二杠 pro 九十五分,这是他第一次参测三月十九日刚发布的模型 周报满分,会议纪要满分, t r d。 边界条件写的很完整,扣的五分全在推文标题。夏日坏心,志向清凉。这句话放到任何一家智能家居品牌都成立,太通用了,没有识别度。 第一次参测拿第三,后面要盯着一次海螺 ai mini max m 二点七九十二分。 t r d。 是 这次九个里最完整的之一。验收标准七条全可测。这道题满分,但会议纪要出了七条全可测,这道题满分,但会议纪要出了温泉人均五百这些信息。 海螺写出来的计要里出现了 q 三,追加预算五十万, a 方案一百二十万, b 方案一百五十万。这些数字完全是 ai 自己造出来的,以 拿这份计要去汇报,被问到数字哪来的,没法回答。这道题扣了四分,同样第四。 deep six v 三点二九十一分。周报是这次九个里最好的退款归因,直接定位到具体 sku, 说超卖导致集中退款占比百分之四十二。下周计划里还付了对受影响用户的补偿 方案,这个精度其他几个都没做到。推文也是满分。标题空桥省一千,仅限十一天,直接给你利益点和紧迫感。文案里还专门算了一笔账,是这次转化力最强的推文。但会议就要和海螺犯了同样的错误,依照了不在录音里的数字,两个模型在同一道题上出现同样的问题, 说明 ai 在 整理信息类任务里,如果原始素材细节不够,会有很强的倾向去填充合理信息,但合理不等于真实。第五, penny k 二点五九十分。推文是这次九个里最好的,没有之一。夏天到了,给家换个新呼吸。七个字里有季节感,有生活感,有改变的暗示,读完会想点开 中文也克制,没有对应某几不相 ai 写的。但 p r d 是 这次最严重的缺漏。文档里边界条件和验收标准这两个章节有标题,点进去是空,表格内容完全没有,交了白卷,直接扣六分。一个模型在同一次测试里出现最好的推文和最严重的空缺,这个落差本身就会说明问题。 第六,同一千万块,三杠 max, 八十三分,扣分点分散。周报的退款不一致,写了促销力度大,商品描述误差,客服响应慢,都是套话,没有结合给出的具体数据分。 p 二, d 里有一个比物推吻,加了一个不存在的优惠条件,满九百九十九减一百以上不封顶。题目素材里没有这条规则,是 ai 自己加进去的,如果真发出去是虚假宣传。一汽是普京 g l m 杠五八十七分,成绩稳健。扣分来自一个执行问题,推吻写到一半被截断了,内容不完整,这道题直接判不合格,扣四分。 如果推文是完整的,排名能再往前两位,其四道都在正常水平。 j d 里你不用做画图工具人,这个定位是这次几何里最有感觉的沃伟 g p t 杠五点三免费版七十七分,唯一跌破八十分的 prd 是 本次最低分十三分。通知分级只写了高中 d 三个词, 没有量化定义,验收标准无法执行。这里的第一段读起来是模板,没有让陌生人想头的感觉。对问标题,夏日换新家,志向生活,八个字里没有任何让人想点开的理由。 g p t 负五点三是目前 open n i 免费版最新的模型,但这次职场写作的执行精度没有跑赢国内几个主要精品。好 职场写作说完了几个值得单独说的,发现会问这道题分叉最大,同一份素材,有人给你写出了给家换个新呼吸,有人给你写出了智享生活。这不是信息量的差距, 是文字本能的差距。微机要这道题最危险,就和模型里有两个在录音没有的地方造的数字,而且造的非常合理。如果你用 ai 整理记,要逐条核对数字是必须的。 第二低,这道题区分度最高,同样是写通知分级,有人给你写了 qa 可以 直接执行的验收标准,有人给你写了用户体验好。最后一句话,写作能力强的用 pv 和 cloud, 结构化输出稳的用 cloud 和 gemini。 会议纪要哪个都要核对,别完全信下一个维度翻译, 第三个维度翻译,这个维度是上期观众建议加进来的,我觉得加的对翻译是大模型最高频的使用场景之一。 e 对 和 e 好 是两件不同的事。很多人用 ai 翻译,读完觉得哪里怪说不清楚,那个哪里怪,大多数时候就是翻译腔就是 ai, 感 记通顺,逻辑也对,但读起来不像人说的话。这次我们想把这件事量化,但在原文三种场景,场景 a 是 一段投行风格的消费电子行业分析报告场景 b 是 一篇医学学术论文摘药 场景 c 是 一段美剧最白,两个人在闹矛盾和好。三种文体,三套标准依次发出去评分两个维度,准确性五十分,自然度五十分,准确是底线,读起来像人话才是真的好。三个场景各自打分取均值,满分一百,好 结果出炉。 dcl, 四点六九十七分,场景 c 最好。 i didn't want to make it your problem。 一 成,我不想让你跟着操心。七个字,情绪关系,语气全在全场最准的依据。第二, dp 三点二九十六分,冷暴力这个词用的好,是 dp 主动加的,本土化表达,言文没有,但完成。对长崎 a 有 个小笔误,单机经济效益,因为单位经济效益一三。 jimi nike 三 flash 九十五点三分, attach ray 一 成。搭售率稍不准,因为附加率整体稳,字幕收尾那是必须的,自然。 第四,小米 mate 杠 b, 二杠 pro, 九十四点七分。单品经济效益,因为单位经济效益和 deepsea 同类错误,其余扎实字幕翻篇冷战到位。第五,芝普清言 g l m 杠五九十四点三分。穿越周期的优势是金融黑化报告里有点失衡,字幕折腾人用的准。第六 k 二点五九十三点七 分场景 c 字幕是本次最好的之一。冷暴力折腾人翻篇全中,但场景 a 硬伤英文单词翻篇全中,但场景 a 硬伤。英文词不是风格问题,是遗漏。 g p t 杠五点三九十三分场景 c 最后一句 stop saying sorry and just don't do it again g p t 一 成,我们能不能重新开始?这句话不是重新开始, 是别道歉了,别再这样就行。两个意思型的方向完全不同,人物心理状态被犯错了。第八,海陆 ai mini max m 二点七九十二点七分 回答开头写了好的,我已收到您的请求,任务是翻译,不是回邮件。场景 c your exhausting 一 称让人精疲力竭。原文是很日常的,抱怨译的太重了,末位通一千问 quin 三杠 max 八十九点七分,扣分全在格式译文里大量 mark 杠加粗,在提示词没有要求加粗的情况下,擅自给字 幕进行了加粗。内容没错,但把格式化写作的习惯带进了翻译任务。那么让我们来看看综合翻译的结果吧。 第四个维度,学术文献搜索。先说一件事, ai 会造论文,不是写论文,是编造一篇不存在的论文, 有标题,有作者,有刊名,有看起来合理的 d o i。 带你去数据库里搜,什么都没有,对学术用途来说,这是致命的,你引用的是幻觉,论文就废了。所以这个维度只测一件事,给九个 ai 同一个研究课题, 让他们找文献,然后在镜头前逐篇验好结果 d cloud sonic 四点六九十九分八篇全部通过,从 bioware 到 go 随机对照试验 scholar 逐篇可查,文献覆盖二零二零到二零二五,完整引进研究空白,指出 r c t。 证据稀缺和多模态融合 有价值。第二, deep c b 三点二九十六分。八篇,全部真实。选文献的角度是全场最多元的有题解研究,有 i c u 综述,还有专门研究 ai 片赞的论文, 选什么文献,本身就说明对领域理解到哪一步,这次 dp 最好。第三, gemini 三, flash 九十分,主要文献真实,但推荐了一篇自家 made gemini 的 archive 预印本。红台近期给自己打广告,不算大问题,但要指出来。第四,芝普清颜 g l m。 杠五八十八分, 整体真实。杨 m p j digital medicine li n e j m。 都是硬货,主要扣分是一篇刊集的刊,标注写成了 j a m a internal medicine, 实际发在 j m a。 两本,契堪一字之差。写了 y to o p t。 中文医疗大模型,方向加分。第五, g p t。 杠五点三八十五分,大部分真实。两篇存疑。 clintico g p t 杠 r 一 是二零二五年四月才发的 oxford 印本,同行评选还没过。六 kimi k 二点五八十一分,核心的 c c 考 go 是 真的,其他几篇作者和细节对不上,有拼凑痕迹。 七,小米 miimo 杠 b 二杠 pro 七十分,问题不是造假,是格式。所有文献第一作者全部缺失,写的是研究团队 d o i。 基本全缺,这不是文献引用,是搜索摘药,无法核查。 八,海螺 a i m i n i m x。 杠 m 二七六十七分。文献七的 d o i 是 十点二一九六,除以 g m i r 编号不可能是八位数,明显错误。文献八的 d o i 直接写 x x x x 代查,自己承认查不到末位统一权威 quan 三杠 max 三十八分六篇文献, scholar 全部查无 meaning at all, 二零二三不存在。 mepal m 是 二零二三年发表的,作者也不是 rushpo carr 全造的。但有一点值得单独说,同一千万是九个模型里唯一一个在回答末尾主动写了这句话的参考文献均基于真实研究方向模拟实际,引用时需核对, 他自己知道,而且告诉了你这算诚实还是推卸责任,见仁见智。最危险的不是同一千万,因为他告诉你了 最危险的是那些格式正确,作者名字像真人。 d o i 有 前缀但 scholar 里什么都没有的文献。一条规则,每一篇把标题粘进 scholar 看结果五分钟,省去无数麻烦。下一个维度代码,前端加后端一起上。 以五个维度代码,前端加后端,前端让九个 ai 写一个贪吃蛇网页游戏不要白色背景加黑色方块,要有完整的视觉设计风格,自由发挥。有意思的是,九个模型里有八个最后选了赛博朋克或者霓虹风格。 ai 的 审美比想象中单一。后端让他们各写一个排行榜,接口只能用拍送标准库直接跑。 前端满分一百,后端满分一百取平均。第一个模型里唯一一个没走赛博朋克路线的水墨风格, 底色宣纸背景造点纸张质感,汉字标题蛇 h e b i。 九个游戏摆在一起,它是唯一一眼能认出来的。后端代码最严谨完整,输出效验 c o r s。 支持只保留每位玩家的最高分注视全部中文 b a d。 一、 小米密墨杠 b 二,杠 pro 同样九十六点五分。前端九十五分,小米走的是另一个几端霓虹风格,但动画密度是全场最高的。扫描线,粒子消散水波纹,文字故障效果 c s s。 动画关键帧数量十二个, 比任何一个模型都多,画布也是全场最大的六百乘六百。后端九十八分,吃全场最高的后端分,代码最简洁,结构最干净,保留最高分的逻辑写得最漂亮。三、海螺 ai m i n i mx 杠 m 二七九十五分, glitch 故障效果和粒子系统都有,视觉层次仅次于前两名。后端稳健,整体无端版 直普清颜 g l m 杠五九十四点五分,前端九十四分,超过了 deepseek g l m。 这次的前端视觉完成度超出预期,渐变文字裁剪毛玻璃 overlay canvas 边框渐变 mask 分数弹跳,动画做的很细腻,从用户感受来看,整体比 deepseek 更精致,后端用 float 存储分数,是全场唯一支持小数分数的。细节有亮点。一五, deepseek v 三点二九十四分,前端有自己的语言体系,速度等级显示神经链接速度 lv 点一 u i 设计有虚实感, 后端接口实现最规范,用 u r o p r s。 解析路径比直接判断字母串更健壮。一六 k m k 二点五,九十二分, 前刀画不是全场最大的六百乘六百,按钮扫光动画有亮点,最终得分用四十八像素黄色大字展示,视觉冲击力不错。后端有 socket server 实现,写法不常见,但功能完全等价,注视到位,整体稳健,无短板也无惊奇。第七, g p t 杠五点三九十分,前端视觉层次偏薄,动画关键帧只有一个,和其他模型比视觉惊喜不足,但 后端做了一件其他 bug 模型都没做到的事,加了现成锁,频繁城市工程细节普通用户感知不到,但懂的人看到会点头。第八通一千万宽三个 max 八十六分,前端打开没有等待画面直接开跑,没有操作提示, 用户没有任何心理准备,时间加速,逻辑有 bug, 视觉只用了一个动画关键帧,整体偏基础。后端代码是全场最短的切注式错误处理,几乎没有接口,能跑,但是全场最薄的一份 尾。 gemini 三 flash 七十六点五分。 gemini 三 flash 这次有点冤。前端九十三分,视觉完成度其实不错,赛博朋克加扫描线效果完成度高,比 kimi 的 前端要好。 在后端教了一份跑不起来的代码,第一行是 python, 最后一行是把 markdown 的 代码围栏直接留在了 python 文件里,保存成 py 文件直接运行,第一行就报 syntax error, 获得运行分直接零分,后端总分六十分,把均分拉到了七十六点五,如果你懂代码,删两行一秒解决。如果你是代码小白,这份代码你永远跑不起来,能跑是底 线,没有商量余地。那么以上便是本期视频的所有内容,以下为省油版结果,不知道你对这个结果是否会感到意外呢? 我是幺五九,这里聚焦全球最前沿的科技,我们下期见!