是我们的新品千万 ai 眼镜,那么我们在设计上呢也采用了这种刚亮的色彩,那同时呢我们对于镜片也做了非常多款,然后多样的颜色,那希望这种喜欢时尚的用户可以尽情的去挑选。 那么除了这个之外呢,我们其实在续航上面也专门为用户设计的这种插拔的电池,一个这样的换电仓进行一个更换, 这个换电仓里面本身是有这个电池的,我们可以把它拔出来进行一个替换,当你的产品进行到一定程度,可能会有低电量的状况,我们可以通过电池的重新的安装,然后拆卸,然后这样呢就可以替换一个新的电池,然后进行一段时间的续航。对, 那么第三个我觉得广大用户更加关心的应该是我们的 ai 生态,那整个眼镜呢,其实是结合了阿里巴巴啊,整个集团的这种色光生态的能力, 我们接入了飞猪,淘宝,阿里商啊,然后还有支付宝,然后我们一起呢为所有的用户提供更好的啊,聪明能办事的这种 ai 体验。
粉丝5190获赞13.9万

国行苹果智能这回真的要来了,就在苹果刚刚发布的 macbook air 详情页上,苹果罕见的把国行 ai 内置的模型给放出来了, 用的是千万三的十四 b, 还是一个四 b 的 量化的低精度小模型啊,看来苹果的策略还是优先追求速度。我们看到千万自己官网的模型已经更新到了三点五了,就更别说外版目前用的是内加五的模型了, 大家可以自行去搜索一下两者模型之间的差距到底有多少,我自己也问了一下,看来这个三点五的数据库非常诡异啊,从尝试来判断,两者还是有较大的差距的, 不过相信对于国行用户来说,都这个时候了,能用就行了,还要啥自行车呀。按照苹果目前的发布节奏来看,如果 i s r 六点四的正式版上不出现, 很有可能会拖到 w w d c r 六上正式公布。都等了这么久了,不妨再等等吧,我到时候也会第一时间给大家带来深度测评,还请大家一见三连。

朋友们大家过年好啊,各种 ai 的 红包领到了吗?现在呢国产大模型啊也来拜年了,大模型领域的元神千问在除夕当天呢,发布了开源模型的新版本千问三点五, 虽然说啊,最近好多新模型发布,但是呢,千问三点五确实是我最关注的,因为呢它是毫无疑问的开源模型的领军者,所以呢,我也第一时间啊去做了上手的测试。今天呢就来分享一下我的千问三点五的实际体验。 如果说啊,你也做了体验,那可以来聊一聊。首先呢是参数,虽然呢我对参数现在不是特别的敏感,但是还是想和大家快速的过一下千分三点五的整体参数情况,那这一次开源的呢是千分三点五三九七 b a 十七 b, 也就是啊,三百九十七 b 的 总参数激活十七 b。 那 这次模型啊,采用了创新的混合架构,将限性的注意力啊和稀疏混合专家呢进行结合,力争呢在能力,速度和成本之间啊去达成一个最优的结果。 那还有一点啊,要特别注意的就是千万三点五是一个原生的多模态模型,也就是呢,从训练之初啊,他就让视觉和语言在统一的表征空间当中去联合学习,这个呢也是目前模型发展的一个趋势,在 g u i 理解还有视频分析等场景当中呢,都可以做到一模到底了, 数字呢总是很抽象的。那接下来呢,我们就进入实际的体验环节,因为啊,三百九十七币的总餐数量,估计大家呢想本地部署也比较困难,所以呢,想体验的话,主要就是通过千万 chat 还有阿里云百链的 api, 那我们先到千万 chat 里来做一些热身活动,先试试它的推理能力。那最近啊, ai 洗车的问题在网上很火,很多的模型呢都翻车了,我呢就先来试一下千万三点五怎么样?那我这里告诉他啊,洗车店离我家五十米,那我要洗车的话,我应该开车去还是走过去呢? 这里呢,千分三点五没有翻车,他注意到了问题的关键呢是洗车,另外呢还提示了一下可以叫上门洗车的服务。但是呢,这个服务在国内多吗?反正我是没有体验过啊。 那接下来呢,我再让他去写一个祝福语来试一下。在中文方面呢,其实我觉得啊,谦问的表现一直是可以信任的,这个祝福语的水平呢,也是相当可以的,文字方面的内容啊,我就不想放太多的精力了。接下来呢,我们就来试一下多模态,感受一下呢它的原声多模态支持。 那首先呢,我想试一个场景,在春节期间啊,大家都会刷到很多的爆款的 ai 视频,那很多时候呢,都会去求提示词,那是不是啊,可以用千字三点五来去帮我理解。然后呢直接去复刻这个视频, 这里呢,我传一个看到的很酷的视频啊,然后呢让千问去帮我分析一下视频的画面的整体风格,还有色彩,运镜动作。那最终啊,给我提示词,来去复刻视频。那很快呢,千问呢就可以分析出来视频的内容了。 其实呢,很多时候我们做不出高质量的 ai 视频,就是因为我们自己啊,写不出合适的描述,那我呢也使用同样的模型来试一下这个推理出来的提示词,它的生成效果, 那基本上可以说啊,它的复刻程度达到了百分之九十以上。那我呢也用千瑞 chat 自带的这个视频生成啊,也试了一下,那因为默认啊,它生成的是五秒视频,效果上呢就会有一些差异,但大体上呢也能复刻,所以呢,说明啊,它的理解是没有问题的。 那这一次啊,千万三点五也特意强调了它在开发方面的提升,而这个呢正是我最关注的一个部分,同时呢千万 chat 也加了一个 web dev 的 功能。那我们呢就先来快速的试一下,开发一个 web 上的小应用。 那昨天晚上啊,春晚的哈尔滨分会场,我觉得非常的不错,那我呢就给谦问一张哈尔滨分会场的图片,让他啊帮我去用三 d 的 方式重构这个场景,那还要可以自由的缩放和切换角度,那代码生成的速度啊,确实非常快,稍等一小会儿就能拿到结果。 那从功能的完成度来说呢,非常不错,尤其是啊,还非常细节的注意到了烟花灯光还有人群的特效处理, 可以单独的去做开关,特别是人群啊,真是太细节了。还有呢就是预设的这个镜头和时间,可以说呢,他在我的基本要求之上延伸出了很多有用的细节的内容。 可能唯一需要提升的呢就是这个建模的细节吧,那能根据一张图片做到这种程度,总体来说是非常不错了。另外呢,这个外部 app 呢,是可以直接做发布的,那发布出去之后啊,你就可以把拿到的这个链接丢给别人去看和使用了。 那除了这种基础的小型外部的开发呢,我还想试一下这种复杂场景下它的开发效果, 那我啊就在 cloud code 里去接入一下纤维三点五,然后啊最近我刚好有一个需求,就是呢,我本地呢经常会启动很多的开发服务,比如呢像 cloud code 里启动的, ide 里启动的,命令行里启动的,有的时候呢,我自己也记不清楚有哪些,那在启动新服务的时候呢,就经常冲突, 那我呢就想做一个工具啊,可以自动的去扫描所有的端口,然后呢通过格式化的界面来去给我查看和操作。另外呢还要可以做收藏,我可以把经常会使用到的服务呢收藏下来,下一次呢直接在这启动就可以了, 那我呢就来实际的开发一下,那开发的过程当中啊,我们配合上一些 skill, 它的体验是很不错的,那千万呢会先去准备计划,然后再实际的去执行开发。这里呢我开发的这个内容啊,其实它是麻雀虽小,五脏俱全的,它会涉及到前端的页面,后端的 api, 还有底层的扫描命令, 以及呢还有保存收藏信息的这个数据库,所以呢是一个比较完整的一个项目结构。那最后我们来看一下效果啊,也说一下我个人的感受。首先呢在功能上啊,它是完成了我需要的全部功能的,可用性呢是通过的, 那在效果方面来说呢,我觉得视觉的效果还是不错的,你觉得怎么样呢?因为我这里啊也特意要求了使用萨德 c n u i, 所以呢,其实它自己能发挥的自由空间不算大。 那第三个在 bug 处理上啊,开发的过程当中也遇到过 bug, 那 铅汞三点五我觉得有个比较强的能力呢,就是它确实能够把遇到的 bug 给解决掉。那最后呢,我们再来试一下这 u i 理解的能力。 那刚好前面我们开发完成了这个项目的功能,我呢就直接把铅汞三点五配置给本地的 openclo, 让他呢去用视觉的方法去操作一下网页,来试用一下这些功能。 那这里啊,我的动作描述呢,其实相对来说比较简单,那能够看到啊,它会根据自己的理解再推理出来应该如何去操作,最后呢也会自己进入到松仓夹来去做确认,整体的表现呢,我觉得非常不错。 而且呢,还必须要提一句啊,就是速度非常快。这里呢,我是有点惊喜的,因为现在啊,大家去配合 open cloud 使用的时候呢,速度快,在体验上的提升啊,那真是非常直观的。 那截止到二零二六年一月,哈根 face 上最新的数据显示啊,千万衍生的模型数量呢,突破了二十万,成为了全球首个达成此目标的开源大模型。同时呢,千万系列模型的下载量突破了十亿次,平均呢每天被开发者们下载一百一十万次,稳居呢全球开源大模型的 top one。 所以呢,千万模型的更新啊,很多时候不单单是为了无数的子子孙孙都会呢进入新时代。 那还有一点呢,我很关注的就是后续的基于千万三点五出的更小规模的模型,如果呢有七十倍八十倍左右的模型出来,那在本地和端侧呢,就会有更多的想象力。 那这一次啊,我综合的体验来说呢,我觉得是非常不错的,尤其呢,这一次的原生多媒体支持,让他的表现呢更加全面。那在二零二六年选择模型的时候呢,千万依然会是我第一时间想到的一个选择。好了,这里是爱的咖啡馆,我们下次再见。

兄弟们,今年春节 aa 券直接炸了!就在除夕夜,阿里突然发布了全新一代模型千万三点五。很多人可能以为这只是一个常规升级,但实际上这次定位非常夸张,它的性能已经对标咱们的三级别模型,而且最关键的一点是,它是一个真正的原生多模态模型。那什么叫原生多模态呢? 以前很多 ai 其实是拼接的模态,就比如先识别图片,再转成文字,交给语言模型理解。但前文三点五不一样,它在训练阶段就把文本、图片甚至视频统一进同一套架构里,本质上是在用一颗大脑理解所有信息。也就是说,你丢一张截图,一段视频、一段需求进去, 它是统一理解,而不是分模块拼装,这才是多模态真正成熟的标志。那再说说这次模型为什么这么猛?成本三点五总参数接近四千亿,但真正参与计算激活参数只有一百七十亿左右,听起来只是数字变化,但意义非常大,因为它用的是稀疏 mo 一 架构,简单来说, 需要哪个专家就调用哪个专家,用不到百分之五的算力,撬动了近万亿模型的能力,显存占用直接降低百分之六十,推理吞吐量最高提升十九倍,分成人话就是更强了,还更便宜了。这也是现在大模型很重要的一个趋势,不是越大越好, 而是越聪明越值钱。所以今天咱们就来看一下千万三点五最炸裂的四个实战玩法。玩法一,一句话生成完整应用。第一个玩法,我们直接来个狠的,最近网上不是爆火一个吃豆人小游戏吗?那我们不让模型直接生成,这里我们考验一下千万三点五多模态的能力。 我们不让这个模型直接生成,而是先塞给他一段吃豆人游戏的视频。看完视频之后,我们只学出一句话,按照这个玩法,帮我做一个吃豆人的游戏。注意,这里难度已经变了,不是 直接写游戏,而是先理解视频中的玩法和逻辑,比如角色移动规则,斗智判定机制,还有得分系统,结果你会发现,它真的能根据视频内容生成完整的游戏结构。这背后的本质就是视频理解加逻辑,抽象加代码生成,三件事一次完成,这才是原生动画态真正恐怖 的地方,已经不是简单的写代码了,而是在理解世界之后再创造。玩法二,丢两个小时视频,让他做分析。第二玩法,我们继续加难度,直接丢一段超长视频进去,比如两个小时的发布会录像,然后只问一句话,帮找出所有高光片段,并写一个爆款脚本。传统 a 早就上下文爆炸了,但千万三点五之 是超长上下文理解,可以直接做视频级分析,这对内容创作来说意味着什么?以后可能真的只需要丢素材,然后直接出成片思路了。玩法三,手绘草图,直接生成代码。第三个玩法更离谱一点,随便拿一张纸画一个 u i 草图,比如左边是菜单栏,右边是内容区,中间再来一个卡片布局, 直接拍照丢给模型。它可以直接生成完整的前端代码布局,逻辑样式结构,甚至你截图一个报错页面,它还能直接帮你定位问题在哪里,这就是典型的视觉理解加编程融合能力。玩法四, ai 自己操纵电脑 a 阵的能力。 这是一个复杂的表格,缺数据算总计,分区统计。我们只说一句话,帮把缺失的行列补齐,然后算出总价值。接下来,困三点五就会自动识别界面, 自动定位单元格输入公式,批量填充,最后甚至自动保存文件,本质就是 g u i 理解加任务规划加电脑操控。这已经不是 ai 帮你做工具了,而是直接替你干活。 所以你会发现,千万三点五真正的意义可能不只是一个模型升级,而是一次方向上的转折。从原生多媒体,到高效 m o e 架构,再到 a 振腾能力萌芽,他在做的事情只有一件,让 ai 变得更像基础设施。甚至阿里现在一个很明显的目标,就是 把 ai 的 价格打到像水电煤一样,更便宜、更普惠、更基础设施化。当模型越来越强,但成本越来越低, ai 才可能真正进入全民时代。而千万三点五,很可能就是这个阶段的标志性节点。

最近一段时间,我相信很多朋友都关注到一个名叫大龙虾,英文叫 opencloud 的 ai 产品。 opencloud 本质上是一个 ai agent, 也就是智能体,它跟某宝、某包这样的聊天机器人最大的区别是不仅能聊天,还能干活, 正是这种实用性,让他刷屏了。龙虾的大火,代表了 ai 已经从聊天机器人时代进入了智能体时代。龙虾只是一种智能体,未来会有越来越多针对不同场景的智能体出现。但是我自己,包括我身边所有用过龙虾或者其他类型智能体的朋友们,都会抱怨一个事,太费钱了, 每次龙虾干活的时候都会消耗大量的 token, 如果模型的 token 费用还比较高,龙虾就成了碎钞机。你可能想问,为什么不换个便宜点的模型呢?因为便宜的模型性能又差点意思。那有没有性能足够强,价格也足够低的模型呢?之前没有,但现在有了。 二月十六日除夕当天,阿里正式开源全新一代大模型千问三点五 plus, 性能媲美 gemini 三 pro gbt 五点二等顶级闭源模型,登顶全球最强开源模型。 同时每百万头肯输入价格低至零点八元,是 g p t 五点二的十五分之一, g m n i 三 pro 的 十八分之一。价格这么实惠,性能真的能打吗? 我第一时间就对千万三点五 plus 做了测试,这次我们测试的重点是这个模型的 ag, 也就是智能体能力。 为了让大家好理解,我先介绍一下智能体的工作原理。智能体主要包含两部分,一个是 ai 可用的工具,当智能体接收到一个任务的时候,大模型需要先拆解任务, 形成工作计划,在调用工具一步一步的完成工作计划。所以所谓的测试大模型的智能体能力,就是测试它拆解任务推理并且正确调用工具的能力。可以说智能体能力的测试相当于是大模型的铁人三项,是个综合能力的测试。但是想要深度测试一个模型的智能体能力 并不容易,你需要有足够多的 ai 可以 用的工具才行。正好我们自己做的 reportify 是 商业研究智能体里面已经有一堆商业研究会用到的 ai 应用的工具。为了这次测试,我专门把大模型换成了这次最新发布的千文三点五 plus, 做了一个基于千文模型的商业研究智能体。 那接下来我们就用这个智能体做测试。第一个任务,对比一下未来理想小鹏二零二四年全年和二零二五年前三季度的利润,做成表格和柱状图。 我们看这里千万模型。首先拆解任务生成了代办事项,这个代办事项生成的是比较合理的,然后就开始调用工具干活了,比如要调用财务数据查询工具来查这三家的利润。 其次还要做一些计算,因为我的要求是对比二零二五年前三季度的利润,所以模型需要把查到的二零二五年前三季度的利润做个加总。最后还要调用图标生成工具来生成柱状图,结果不错,数据和图都是正确的,速度也挺快。 第二个任务,请列出美光、三星电子、 s k、 海力士三家存储龙头公司的核心产品,以及过去半年的涨价幅度,最近不是存储行业大火吗?我相信很多关注 ai 的 人都对这个问题感兴趣,还是同样千万三点五 plus 先是把这个任务拆解成了代办事项, 然后调用各种搜索工具搜索相关信息,一项一项完成代办事项,结果也不错,数据正确,内容详实,也给出了所有数据的出处。 第三个任务,请帮我下载过去三个月纳斯达克指数的价格数据,保存到 excel。 经常做商业研究的朋友们应该对这个任务不陌生。过去你需要在某德这种数据软件里各种点,选标地、选指标、选日期,操作难度不低,而且很麻烦。有了 ai, 你 就直接说你要啥数据就行了。你看 千万三点五 plus 模型,理解了你的需求之后,会选择正确的工具,填写正确的参数,最后还会写程序,把所有数据写到 excel 里。之前 reportify 装的大脑是那种性能很好但很贵的模型, 这次换上千万三点五 plus 这个大脑之后,成本大幅下降,同时它的干活能力并没有打折。那为什么千万三点五 plus 能做到性价比这么高呢?这里面的核心技术是阿里千万团队的门控技术, 这个技术前不久刚刚获得了 neo 一 ps 二零二五的最佳论文奖。这可不是一个普通的奖项, neo 一 ps 是 全世界最顶尖的 ai 学术会议之 一,基本相当于 ai 研究的奥运会。二零二五年,这个会议一共收到了两万多篇有效投稿,最终只接收了五千多篇,接收率不到四分之一。也就是说,论文能被接收就已经算赢家了。在这么多论文里,只有四篇论文含金量有多高? 获奖论文的主题就是门控技术。那什么是门控技术呢?简单来说,门控技术就是通过在注意力层的输出端加一个智能开关,把信息像水龙头那样进行智能调控,这样既防止了有效信息被淹没,也防止无效信息被过度放大。 这带来的结果是,模型更少被噪音带偏,训练更稳,长文本更不容易出现注意力被无关信息吸走的问题。 更关键的是,这个改动,四两拨千金,改动不大,但效果又好又稳定。在美国的 ai 同行都在砸钱拼算力的时候,以阿里千万为代表的中国团队却在算法效率上做极致优化。这就是为什么千万三点五 plus 能做到 token 价格只有 g p d 五点二的十五分之一, jimi nike 三 pro 的 十八分之一。 千万是真正通过技术创新把 ai 模型的价格打下来的。这个思路很可能在智能体时代会大放异彩。 为什么这么说呢?我之前说过,智能体的作用已经被龙虾给验证了,唯一的痛点就是费钱。所以性能足够强、价格足够低的模型,一定是智能体时代的刚需。其次,我们再看远一点,如果想要让智能体越来越有用, 你就需要把自己更多的信息、更多的权限给到智能体。这时候隐私就会成为一个不可回避的问题。怎么保护隐私呢?最好的办法就是让智能体在自己的设备上运行。 想要做到这一点,肯定不能靠堆算力,只能靠算法优化,靠开源模型。未来大概率会出现一个现象,全世界每个电脑里都会有 ai 大 模型,而这些大模型大部分都是中国的开源模型。

就在昨天,阿里发布了一个狠东西,前吻三点五三十五 b a, 三 b, 一 张 rtx 三零九零二十四 g 显存,跑满二十六万上下吻一百一十二透视每秒。你没听错,二十六万上下吻,速度几乎不掉。 它和传统三十五 b 模型最大的区别是什么?是 m o e。 传统模型是全部层都工作,上下文越长,显存越爆,速度越慢。但这个模型总参数三百五十亿,每次只激活三十亿,二百五十六个专家每次只调用八个。 四十层里,只有十层是传统的 n t s, 剩下三十层用的是一种类似循环记忆的结构。结果是什么?上下文从四千直接拉到二十六万, 给你一个对比,传统三十五 b 模型,二十六万上下文要三十 g。 而这个模型模型本质是八点五 g tv 开始,二点七 g 状态缓存六十三兆,总共二十二点四 g b, 刚好塞进三零九零中。重点来了,有人用它干了什么?一条替诗词让模型写一个完整。太空射击游戏 带粒子系统,带碰撞检测带程序音效自动调试。三轮三千四百行代码,八个模块一次生成,完成一张三零九零三十亿激活参数,这不是跑奔驰 mark, 这是在干活。同样人物八十倍模型,两张三零九零 四十六 topos, 每秒两轮才跳通。这个模型一张卡一百一十二 topos, 每秒一次成功不是更聪明,是更快。在本地推理世界里,迭代次数大于单词治理, 一张二手三零九零仅需五千元,模型免费,没有 api 费,没有订阅费,没有速律限制,而且这已经是本地 ai 最差的一年,以后只会更快。

千万大模型在去年发布的千万 a 美,只经过了几次迭代啊,现在终于出了二点零版本。这个版本号称有着更真实的质感,更强的文字渲染,更强的语义理解, 并且它融合了之前生图和编辑两种模型多个版本的优点。我这也试了几天了,咱们今天来看看它有什么不同之处啊。 那按照我的惯例呢,咱们先生成一个女人,看看皮肤质感怎么样?当看到这样的质感,我是非常惊讶的,如果不给我说明啊,我真的以为这是哪个摄影师的作品呢。今天这些图啊,我都没做任何高清放大和锐化的处理。 从摄影的角度来说呢,虽然没有那种刀劈斧砍的锐利,但这种柔润的胶片质感啊,我还真没在别的模型上感受过。还有皮肤的颜色和肌底也都非常真实,分辨率最高支持两 k 支出,大部分情况下也是够用的。 在提示词里指定位置,指定文字内容,试了一下,结果很准确,没有错别字啊,乱码什么的,这种精准的感觉还没有在以前的版本体验过。试了几张场景图啊,也没让我失望,无论是人造光还是自然光,渲染的质感都很真实。 那如果我不指定文字内容让他自由发挥呢?来个节庆海报吧,这结果怎么样,你们自己看。我觉得千万以内这二点零在设计方面的能力还是可圈可点的,不用抽多少次卡就可以得到十分可用的图。 尤其这几个电商海报呀,我觉得基本不用怎么改啊,要求不高的话直接就用也不是不行啊,像什么旅行手帐攻略菜谱、客服图片这些, 你可以从各种途径得到详细的提示词,只要提示词给到位啊,效果一点也不含糊。值得称赞的是,他的文字渲染能力确实非常可以啊,抽卡多次,我基本上很少看到错别字或乱码什么的, 像我弄了个出师表 ppt, 也都是一字不差的正确生成。我随便找了个拖拉机的图片,不管是修改颜色、修改材质,还是改变时间、改变背景人物迁移,包括改变角度、改变景别什么的,通通都是信手拈来啊。 按照惯例啊,接着试了试游玩自拍,指定人物合影、修改替换元素 都没能难倒他。像这个电影剧照,提示词我只写了删除画面中的所有男人,他竟然能在昏暗的画面里精准的判断出所有人的性别,只保留了画面中的女人,并重绘了去到男人的区域,这个我真是服了。 最后我还测试了手绘线稿转实景效果图的能力,它生成的结果啊,简直和我想象中的一模一样。这不得不又感慨了一下呀,这国产生图大模型啊,是不是太厉害了?目前模型刚刚发布啊,大家可以在前往的 check 体验 打开页面选择生成图像,就是前往的 em 二点零更多玩法有带大家自行探索。好了,今天就先说到这啊,咱们下期见!

大家好,就在前几天,阿里的千万团队又发布了一款新的视觉测试模型,千万 emoji 二点零,今天我就给大家测试一下,看它具体表现如何。总体来说呢,千万 emoji 二点零它是一款偏实用的模型,跟之前刚刚开源的 z emoji 它不是一个赛道的。 我们都知道 zemoji 它是偏向人像,偏光影,还有偏多风格设计,而今天的 emoji 到底呢,可能更多的偏向产品广告的设计,海报、 ppt 的 制作 等等实用的方向。目前官方并没有公布具体的模型参数和开源的信息,直到它是由 emoji 二五幺二和 edit 二五幺幺进行了,一个模型就能实现两种功能,既能生图,又能进行图像编辑。 在看完官方的博客之后呢,我们可以把 emoji 二点零它的特点归为三个,那么第一个特点是 emoji 二点零,它支持一千 token 的 指令输入, 第二个特点是它能够指出二 k 分 辨率的图片。第三个特点呢,是它的文本设计,或者说文本渲染能力非常的强悍,特别是对于中文字体来说。 那么在最新的模型盲测人类编号排行榜中呢,他也是排到了第三名,位于 g, p, d 和 banana 之后。当然这个排行榜它是属于阿里系的,所以仅供参考了。 想要体验这款模型呢,我们可以来到乌利的官网,这也是阿里旗下的一款 a i g c 网站,它可以生成图片和视频, 目前来说可以免费无限量的使用。千问 image 二点零这个网站呢,它有提示时翻译和提示时优化功能。另外呢,我们可以像编程 id 一 样,通过艾特某个特定的图片文件来进行图片参考和图片编辑功能。 好,下面我将对比一下 nintendo pro 和 emoji 二点零,看一下他们对同一段题词的表现力和题词的遵从度。好,那么第一个力呢,我选择的是制作一张经过 ps 的 探店照片。 那么这张图的难点在于呢,它对不同区域的文字都有不同样式的要求,比如地址、 emoji 表情,还有下面的水印。 我们简单看一下 emoji 二等音它的具体表现,标题、地址、水印、塑像字体都有。 唯一可惜的点就是标题的 emoji 表情错了,我要的是一个哭的表情。然后我们再看一下 banana, banana pro 的 表现,这里的地址、水印包括竖版的文字, emoji 表情都没有问题,但是它的样式给我搞错了,我要的是白色描边的黄色圆体字。 总的来说,两个模型在这个复杂场景下都有一定的瑕疵。最后我们再看一下画面的表现力,我个人是觉得 banana 的 表现力更好一些,因为 emoji 二点零它的饱和度过高, ai 感太重了。如果我们看下一个智能手表产品图的例子,那么这段题是主要是想测试一下模型在微距镜头基础上的文字、 镜面反射等等方面的表现。这张图片是 nasa banana pro 生成的,如果单讲这张图的话, emoji 二零表现的很差,跟 nasa banana pro 不是 一个档次的。首先看这一圈的文字,千万他就写错了,出现很多重复的内容,像其他的镜面反射,包括质感更是完败。 下一个例子是关于小红书上的旅游信息卡片的例子,我们直接看对比效果吧。依然左边是香蕉,右边是千问。第一观感的话,香蕉模型更加的讨喜,因为它有更多的元素点缀,还有更活泼的文字。 但是呢,香蕉模型它生成的图片不能细看,你看 tips 这里它改成了 tips 区,下面还多加了一个哆啦 a 梦的标签。 另外呢,他在其他文字上也有一定的幻觉,比如我在这里 tip 四上,我只写了早去外滩必然留这样的三句话,但他偷偷给我改成了六句话。虽然他增加了内容在合理范围内,但这也是模型自作聪明的表现。 千万引麦就二点零,文字倒是没有出错,但是他的文字就一个字,丑,像有点没渲染完成一样。 由于这段文字主要是表现文字的渲染能力,所以还是千万强一些。下一张图的主题是游戏卡片的制作,这张图还是很简单的,我们直接看对比效果吧。 这一套题是要求的文字信息会比较少,所以两张图都没什么问题,我们主要是看下其他东西。简单来说,千万一麦九二零,它的画面清晰度比较高。 呃,纳洛布纳的 pro, 它表现的更像一张卡片。好,我们看下一组测试样例。这张是关于过年的书法海报,从这张图来说,我在提的时候,要求对中间四个字是有枯笔飞白的书法效果。 从书法效果上来看的话,明显是 emoji 二零,它更加的贴合,还有两边的对联的话。 然后呢,这个一看就是印刷体,并不像我要求的密书,包括最下角的这个落款,还是千问的比较好。千问与 mc 二点零唯一的缺点就是它的背景是白色的,没有遵从我的提示词要求,描述的是马莲的红色海报。 下面这个例子是关于超现实海报的提示词,主要是看下他们广告的表现力,像这样没什么难度的广告,我们还是看他们画面的张力和官感。个人感觉还是香蕉模型更加靠谱一些,无论是光影还是构图。 哦,下一个对比的项目是关于漫画单页的,我的要求是画一幅大有克洋风格的赛博朋克机械少女漫画 依然左边是那那不那那 pro, 右边是 emoji。 二点零再换成漫画风格之后呢?千万他的表现力完全跟之前不一样了,两张漫画都符合大有克洋的风格。 我们先看第一个画面的提示词,我个人感觉还是千万的红色光圈,还有脸上的雨滴,表现力更加强一些。 第二个高达机器人的画面,两个表现都差不多,不然呢,稍微好一些。然后我们看第三部分画面主体破格大图的部分。这部分我的描述是主角从高楼边缘纵身跃下,身体在空中扭曲,手中发射勾索。 虽然两个画面都不太完美,但表现更好的肯定是千万,无论是在破格的勾索还是大楼的边缘,这些都更加符合,也更加有表现力。 下面的例子是关于电影九宫格分镜脚本的,这个题词描述的是关于黑泽明电影风格的一个流浪武士的武打镜头。直接从风格上来说的话, banana banana pro 更完美符合黑泽明的风格, 它更加的低饱和度和冷色调。前吻呢,它是完全相反,它在风格上是完全不遵循提示词的。对于这个画面的话,我想展现的是一个武士被包围之后,低头耍帅,砍水炫技出刀击败敌人,最后帅气的离开。 我分别用这两张九宫图去 cds 二点零生成了对应的视频,大家可以对比看一下。 那么除了以上的测试案例呢,我还测试了它的其他生成的能力,包括不限于科研绘图、 ppt 制作、摆板、动画广告等等。这里我就不详细介绍,大家直接可以看一下对比的具体效果。 最后呢,我们再来测试一下 emoji 二点零它的图像编辑能力。 我们先上传一张由 ai 生成的人物图像,然后让它去生成九张不同情绪和角度的角色九宫格来看一下效果 好。我们可以看到这九个风格都遵从了提示词的要求,但是在人物一致性上出了一点小问题,有几张图片他的眼镜没有了,下一个编辑场景是产品的背景替换,我这里有一张篮球写的产品图, 我的要求是把它的背景替换成一个有光影效果的窗台上。好,我们看到上身效果还不错,但是很可惜,产品的细节发生了变化,这是不能接受的,我们可以明显看到这一块的图标它发生了变化。 最后我们再测试一下他的跨图融合角色植入功能。简单来说就是上传两张图片,然后把图片 a 主体放入到图片 b 的 背景之中,我上传了一张 毛毛茸茸的狗,还有另外一个魔法森林的背景,第一次是要求将图片中的狗放入背景中,并戴上红色的头巾,那么这个效果表现的还不错,角色和背景的一次性都保持住了。 好的,综合以上测试结果呢,我们可以明显感觉到 emoji 二零距离 no no no no pro 仍然有一定的差距,但是它在书法、中文渲染以及漫画上的表现还是比较有亮点的,还是期待二旅团队能够尽早开园这个模型。 关于相关的提示词以及测试报告我会放在视频下方。好,以上就是关于所有 emoji 二点零的图像对比测试结果了,那么本期视频就到这,如果这个视频对你有帮助的,欢迎点赞分享。

大家好啊,昨天阿里巴巴开源了千问的一个小模型,三点五系列最小的尺寸模型啊,四款,那其中有一款是零点八 b 和两 b 的 啊,这个是非常小啊,推力虽然很大,但这里面我说的不是他的,我说的是一个三点五 b 的 啊,四 b 这款, 四 b 这款好了,四 b 这款的话呢,我们昨天晚上测试了一下汤,同时话呢,我们先说一个事啊,马斯克在 x 上对这个模型进行了测试,并且给出了一个非常好的体验,他认为这些参数他的智能密度令人印象深刻啊,为什么这么说? 我说这个四 b 的 模型,我建议大家考虑,如果稍微能力强,可以上那个九 b 的 模型。干什么来都知道你们正在养龙虾是吧?就那个大龙虾,那个智能体的集成是吧?号称是贾维斯的出行, 但是他是一个吃 token 大 户啊,什么意思啊?就是我之前试过啊,一个晚上让他给我们做一个程序啊,然后消耗了两百多万 token, 做出来程序还有很多 bug 啊,那,那这个事确实不可持续,虽然说这个 token 现在比较便宜,但两百多万 token 的 话也十几块钱呐,对吧?一个晚上十几块钱这玩意,而且解决一个任务呢,人任务多的话,可能上千万 token 都出去了,那怎么办?对,这个事怎么办? 所以呢,这个端侧部署一个端侧模型来解决这个龙虾啊,在日常应用中的绝大多数的 token 的 使用是当务之急, 那么在这种情况之下,这种小模型的话呢,就比拼,哎,谁能把大模型的这个能力降下来的这个度越小啊, 它寄生能力越好,对吧?这种情况下,所以千门刚刚推出这四款,尤其其中这个四臂,我们正好测试了,我们在昨天测试了,在我们的自己养的龙虾上跑起来非常的舒服啊,百分之八十以上的工作完全由这个端侧的小模型来解决了, 非常好啊,包括数据的处理啊啊,包括图表的处理啊啊,包括我们跟他日常对话包,包括调取这个,哎, skills 包括什么?呃,就是搜索东西啊,包括数据的集成啊,包括 excel 表格处理啊等等,这些东西完全都可以通过端测这个四 b 的 小模型进去, 非常好。所以呢,我说啊,我说这千万这次开源的四个小模型,其实恰恰什么,就是我们现在玩龙虾的最好的助手,也是最适合龙虾发展的模型, 就是这么回事啊,就非常的玄幻,但是现在就是这么回事啊,所以后续的东西,如果你们感兴趣的话啊,你们如果正在养龙虾的话,或者你想探索龙虾的,哎,我建议你好好试试这个模型,这个模型会给你省很多钱,因为它是开源的,你直接不熟以后最少你百分之八十左右的工作, 甚至高一点百分之八十五左右的工作,你是不用再去调取网络的 a p i 的 接接口了,它这个东西就产生更好的应用,懂,懂吗?但对于我们来说的话呢,它一是省钱,另外一个的话就是它的能力还够,而且它还有什么?它关键它有图形的这个 o c r 的 能力啊,然后它有图片的生成能力,这个就很强了, 这就很强了啊,所以这个事我觉得还是非常有意思的,而且小尺寸实现高智能啊,这个是非常强的,而且是少数实现跨级的性能的超越,媲美中型模型啊,中尺寸媲美顶级模型,这样的一个情况,我觉得华为的,哎,不是华为千万,这次做这事非常的好啊,非常的好, 好了,简单大家说一下,如果有需要的话可以好好试一下啊。另外的话呢,说一下呢,很多朋友说,老张,你现在是不是又关注 ai 了?注意关注 ai, 因为这是热点 啊,这是一定的热点,而且我们的这个说,在咱们的这个会议视频当中,热点也是因为我们的分析的快,然后你要说到哪看的话,关注一下我们小程序啊,到底瑞克老张哥不哥啊?我们小程序小程序里面的话呢,说实在的,咱们那个有一个免费的专栏,你说我不想花钱,有免费的专栏,就是咱们在平台上发的内容精选出来放的免费专栏的,不停的更新的,你要需要会看 看一下啊,赶紧的订阅就行,免费的。当然咱们的年度那个会员的话呢,现在是幺六九九啊,而且的话呢,我们是一年一百八十个这个会员视频,三十二场以上的会员直播之前内容都能看,甚至包括以前的付费专栏,包括以后的付费专栏都能免费看,特别划算啊,平均一那个一个视频 喝喝一场直播都十块钱左右啊,所以你觉得对吧?这个一一一一,一瓶两瓶,这个汽水钱啊,就就就解决一次这个抹平新茶的机会,你觉得划算不划算?好不好啊?今天就到这,我是瑞小张,关注我,带大家看中国科技的高度和温度,明天见,拜拜。

除夕夜别人都在放鞭炮,阿里直接放新模型,困三点五三百九十七 b a 十七 b 呢,正式开源了,这次呢,不是参数再大一点的升级,而是架构层面动刀, 它是一款原生多模态模型,就不是那种视觉,一个模型语言一个模型,在推理的时候呢,做一下拼凑, 而是从训练阶段开始啊,图像视频文本就混在一起学,属于从底层就打通了。参数呢是三千九百七十亿,用的是 m o e 的 混合专家架构,每次推理呢,只需要激活一百七十亿参数,简单来说呢,就是三百九十七币的脑子,只花十七币的电费,再加上啊限行注意力, getty dotnet 上下文呢,直接给到了一照支持二百零一种语言,速度呢,比上一代更快了,成本却更低。榜单成绩呢,的确很好看啊,但是呢,我们更关心另外一个问题,就是这些听起来很猛的架构升级,到底能不能够实际落地呢? 他能不能够真正做到看图,搜信息,写代码,读视频,一条龙完成?所以说今天这个视频呢,我们就不看榜单,不念指标,直接上真实任务, ok, 我 们现在开始。 那我们首先呢,丢给他一道之前很多模型都翻车的问题,我会问他啊,我想去洗车,洗车店呢,离我们家五十米,我应该是开车过去还是走过去,那很多模型呢,可能会下意识的回答,走过去更加环保,但忽略了一个关键点,就是我们洗的是车,而不是人。 困三点五呢,直接是抓住了这个问题的核心逻辑啊,车还在家里,最终呢,是必须要把这个车开过去, 他没有被距离很近这种表层信息带偏,而是理解了真正的目标。那这类题目呢,不是很复杂,但是他很考验啊,场景理解的一个能力。 所以说接下来呢,我们就把这个难度再拉高一点,我这里准备了一张电影截图,我会跟他说这部电影呢,我有点印象,但是具体的剧情,主演导演是谁我已经记不清了,你帮我做一个详细介绍的 html 网页, 我们点开看一下他的这个执行过程吧。那首先呢,他会识别图像,从而确定这是哪部电影,然后他就开始获取电影阿甘正传的一个详细信息了, 紧接着他会开始整理信息,并构建结构化的内容。最后呢,生成了这样的一个网站,我们现在呢,把这个网站下载下来,看一下它的效果。整体的这个电影脉络呢,他已经是梳理的非常清楚了, 不过呢,他这边是没有去搭配啊剧照图片,而且整体的这个紫色配色还是有些单调的,对吧?那于是呢,我就去啊,让他再加一点剧照,然后改一下这个电影感的配色。稍等片刻呢,他就开始去搜索相关的一个电影剧照了。然后呢做了这个配色 ui 的 一个调整,我们再次看一下它的这个效果, 那这一版呢,整体内容就更加丰富了,对吧?而且呢,他每一个经典的画面都会有这种匹配的剧照,这个呢,其实就是一次完整的多默契协同任务啊。从图片的这个理解,到互联网搜索,再到最后的这个网站代码的编辑落地,大家觉得他做的怎么样呢?可以在弹幕给他打个分啊, 那接下来的话呢,我们来测试一下它的这个代码能力和任务规划的能力啊,我这边呢使用 open code 来做,来到 open code 的 配置文件,首先呢我们需要去修改这个 base url 和 api key, 那 这些信息呢,大家可以在百联云平台获取。 配置完成之后呢,我们输入斜杠 models 来切换这个 queen 三点五 plus 模型。那这次呢,我们做的不是一个小 demo 小 游戏,而是呢直接让它在一个现有的后台里面做一个完整的电商后台 mvp。 并且呢我对范围做了一下控制啊,只需要做商品管理,订单管理, 库存扣减以及基础的一些状态流转。并且呢我们这边只需要去完成管理端,不需要去做小程序。那我把这个需求调给他之后呢,他没有开始直接写代码,而是先分析需求,拆解模块,规划结构, 这一点呢是很关键的,因为真正的工程能力啊,不是说你速度有多快,而是思路是否清晰,在任务执行的过程当中呢,他会边思考,然后边调用相关的工具。这种连续的任务推进呢,其实就是原生视觉语言模型的一个优势 啊,所有的步骤呢,都在同一个模型当中去完成,而不是拼接式的写作。在数据库部分呢,它设计了这个 product order, order item, 还有 user 这些核心表,库存校验啊,订单状态啊,也都是考虑进去了。 后端层面呢,它也做了这个代码分层,结构是非常的清晰。前端部分呢,它生成了商品列表,页表单页和订单管理前端后端数据库都是在协助推进的,项目也是可以直接启动并运行的。来我们看一下它的这个实际效果,商品列表搜索,新增上架、订单查询这些呢,都是可以去完美跑通的, 从任务规划到最终的代码落地,它没有出现结构混乱或者是推翻前面设计的这种情况,整体的逻辑啊,还是非常的连贯的。同样的任务呢,我之前也用这个 gmail 三 pro 测试过啊,虽然说两者最后都能够把这个项目给做出来,但是昆三点五呢,它这边是开源模型,而且 api 成本是更低的, 那如果说两个模型能力接近,但是其中一个成本更低,步数更自由,这对开发者来说意义就不一样了。如果是我的话呢,我会选择做的到但是更划算的那一个。最后呢,我们来测试一下他的视频理解能力啊,那这里呢,我准备了一个小游戏的测试视频,我们把它上传上去, 我让他呢自己去读懂这个视频,然后复刻这个小游戏。首先呢,他会去分析这个游戏的核心机制,玩法与视觉风格。接下来的话呢,他就开始构建游戏的一个视觉与交互框架。最后呢,他开始用 html 代码编写游戏。 ok, 现在他已经全部写完了,我们下载下来看一下效果。 整体功能界面我觉得还原度还是很高的啊。星空的背景,星空的元素大家可以看到,而且呢,在生命值这个地方,它没有去像呃原来的素材那样继续去使用数字,而是采用 icon 来代替。 并且呢在 level 这里,他也会随着数值越大,游戏难度相应增大,整体可玩性我觉得还是非常不错的。 ok, 那 到这里的话呢,四个 case 就 已经全部测试完毕了啊,从图像到搜索,从文本到代码,从视频到程序,这种端到端的能力呢,正是原生视觉原模型想要去解决的问题。 那这条视频呢,其实只是一个开始啊,后面我们还会继续用更加复杂的业务系统,甚至是多轮智能体写作。 如果说你对上面某 case 印象深刻,或者说想要让我去加大难度,可以在评论区告诉我。那现在呢,这个 quan 三点五相关模型啊,已经是开放使用了,大家可以在掐点 quan, 点 ai 或者是摩达社区使用。 ok, 那 以上呢,就是本期视频的一个全部内容了,感谢大家的收看,我们下个视频,再见, peace!

今天 ai 社区最劲爆的话题肯定就是千万发布的三点五系列的小模型了,官方的奔驰 mark 里显示,即便是最小的 m o e 模型,千万三点五三十五 b a 三 b 在 代码能力方面也是鼻尖, g p t 五 mini 的 水平, 在多模态能力、视频理解方面更是达到了 cloudsonnet 四点五的水平,是骡子是马,我们还是要拉出来遛遛。目前我只有时间完成三十五 b 模型的测试,使用的是昂斯洛斯的动态四比特量化版,大家可以到我的网站查看。互动版 总分方面,千万三点五三十五 b 的 得分是七十四点六分,和千万三 coder max 的 八十 b 持平,但是不及体量差不多大小的 glm 四点七 flash。 我 们如果去掉上下文和多模态的滤镜,单看模型自身能力的话,千万三点五则是六十七点六分, 这个成绩和上一代的千万三两百三十五 b 基本持平,所以待机的提升还是有的。 在测试过程中有个很有意思的发现,那就是千万三点五的中文创意写作能力似乎比较差,输出字数严重不达标。 这个文章是原没有一千字的,且我尝试了几次都是字数不达标。相对的,英文创意写作字数倒是达标,但是得分也比较拉,和三代的三十 b 模型差不多。 应用文写作、数学和物理问答倒是非常的不错,但是大家可以看到这几项千万三的成绩也非常不错, 所以谈不上什么待机升级。最后的代码智能体部分则是比较拉,和官方 sw 一 bench verified 69 二分的成绩明显不相符,大家可以自己看看这个提壶骑自行车的 svg 代码和 html 网页浏览器的效果,并自行判断。 不过要说不说 html 浏览器,它给每个 app 都做了一个界面,每个 app 都可以点开, 而拍子六边形小球的测试则可以说非常惨不忍睹。最后我们把千万三点五放到比较流行的开源模型里查看,并加入一个 opus 四点六作为最高分进行对比。 我们可以看到千万三点五作为一个三十五 b 的 模型,其性能已经追平了上一代的两百三十五 b, 并大大超过了上一代的三十 b 模型,但是和 glm 四点七 flash 还是有差距。下一期我们看一下一百二十二 b 的 模型,看看它是不是会给我们带来一些惊喜。

啊,继昨天的千问三点五一百二十二币模型之后,我把千问三点五最后的一块拼图及二十七币的稠密模型测试了一下, 结果可以说意料之外,但是又是情理之中,我愿称其为开元中小模型的搜它。 在我的测试任务里,二十七币拿到了八十三点一分的高分,名列目前榜单第四名,它上面只有 jimmy 三 pro、 cloud opus 四点六和 gpt 五点二。如果我们去掉多模态和上下文的加分项, 单看模型本身的能力,二十七币依旧以七十六点一分和 deepsix 三点二正式版不相上下。 中英文写作和应用文写作的得分是三十五点二分,属于是第一梯队的水平,数学、几何和物理方面则是十九点四分。 大家可以发现,在纯文本问答和写作方面,中小模型的性能已经和国外闭元大模型没有什么太大的差别了。所以如果你的日常任务是问答和写作的话,本地部署一个中小模型是完全够用的。 代码能力方面,二十七 b 则是展现了稠密模型的优势,表现非常抢眼,以二十一点五分和 cloudsonnet 四点五的二十一点七分平分秋色。 这里我们用 cloud opus 四点六和 mini max 二点五作为对比测试对象,左边是 cloud, 中间是千问三点五二十七 b, 右边是 mini max 二点五满写版二十七 b 可能在视觉效果方面稍稍有些欠缺,但是整体完成度还是非常高的。 作为对比,我们再看看和其他中小体积模型的对比。这里左边是法国的 devstra 二,右边是 openai 的 chat gpt os 二十币 结果高下立判,和一百二十二币以及三十五币的横向对比,我们也可以发现二十七币的效果是更加接近一百二十二币的, 而三十五 b 的 混合专家模型则是有严重的涂层问题。 python 六边形小球测试的效果也非常不错,图形效果非常美观,各种粒的影响也有体现。 虽然有些欺负人,但是这里是 cloud opus 四点六的实现效果,这是 glm 四点七的实现效果,大家可以自行评判。 如果你想对比一下其他的模型的话,可以上我的网站自行查看所有测试任务的输出并对比哦。总结一下, 虽然现在的主流已经是混合专家模型了,但是稠密模型的性能仍然是强于混合专家的。稠密模型在 ai 领域,因此也总会有自己的一席之地。

阿里天问翻车了,那一段提示词直接生成违规图片,毫无拦截。但离谱的是,我随便找了一家 ai 大 模型出来,之前就有的老牌图片审核服务,把这张照片上传上去,人家秒判违规。那也就是说,一个几年前的技术就能识别出来的东西,二零二六年的大模型反而放过去了? 那我用 ai 深度调研了一下,发现纹身图的审核其实有三道防线,第一道生成前对提示词做敏感检测。第二道生成中模型本身会有安全约束。第三道生成后再用图片审核服务兜底。那我还专门问了一下千问,他说自己会结合阿里绿网做内容安全审核, 三道防线一套都没拦住。而且这不是个例,从纹身图技术诞生到现在,各家大模型在这块频繁翻车,那补了又漏,漏了又补, 那网友们的脑洞远远比审核跑得更快,总能找到各种奇葩题字词绕过检测。但话说回来,生成钱拦不住。我理解那,毕竟自然语言千变万化,可图都已经生成出来了, 过一遍图片审核都过不去,这就有点说不过去了吧?那所以我就好奇,这个审核到底难在哪?是技术上真的做不到,还是根本没上心?你们觉得呢?

前两天,阿里的千万团队发了一个新模型,在海内外呢,广受好评,最小的那个版本呢,才九十亿参数,在标准测试里呢,超过了 open i 一 千两百亿参数的模型,而且你可以把它直接部署到自己的电脑或者手机上,直接运行。 但就在发布不到二十四小时之后,带领这个团队的技术负责人林俊阳就公开宣布要离职了。那我详细搜索了一下资料,在过去三年,他不只是在闷头做研究,他还让千问在全球开发者社区有了很大的影响力。哈根菲斯上呢,有超过十七万个基于千问延伸出来的模型, 累计下载量呢,突破了六亿。那每次有新的版本呢,他也会第一个跑出来跟大家解释啊,这个模型为什么重要的亮点在哪里?马斯克还转发了夸了千问,说千问现在真的很了不起, 他的同事们呢,也纷纷感叹了,说这是一个时代的终结,那接任他的呢?据报道是一个叫周浩的人,来自 google 的 demi, 是 jammer 的 核心参与者之一。 但这两个人的背景呢,可以说刚好是相反的。林俊扬呢,代表的是开放科学,社区建设,学术累积。那周浩的背景呢,是封闭原码指标驱动,面向商业部署。 那这次换人的背后啊,有一个众所周知的重要原因,就是在一年前呢,阿里宣布未来三年要投入三千八百亿人民币用于 ai 和云基础的设施, 投入的这些钱肯定不是用来搞研究搞开源的,这是要转化为利润的。那就在春节前呢,他们就已经开始在千问 app 里面测试,把 ai 的 对话呢变成直接电商的入口,我们可以明显感受到这里面的矛盾呢。一边就是阿里的官方说千问是 ai 时代的安卓, 一个面向全球 ai 开发者的开放平台,那另外一边呢,是股东需要看到回报,让 ai 赋能电商流量。 但这两件事其实本质上是有冲突的,林俊阳和几个核心人物现在都走了,阿里还能继续做出有竞争力的模型吗?当然能,但是在开源社区的影响力,或者是说在全球 ai 行业的影响力,这个就不是钱能够砸出来的。祝福千万,未来越来越好吧。

今天在电梯里面看到了一个千万的广告,我才明白国内做大圆模型的这些大厂,他们心中的一个愿景大概是怎样的。他们想的是用户安装好他们的大圆模型,和 ai 对 话, 然后就可以购买他们那些生态内的。比如说我要点一份沙县小吃,直接就可以在他的平台里面下单,然后送上门,完成一个闭环, 理想非常的诱人,但是我仔细想了一下,根本站不住,呃,没办法,有结构性矛盾,四个原因啊,我给大家想一下,一共四个原因。第一个原因, 大圆模型天然要求开放,要和用户慢慢讨论,要考虑一切可能,但是所谓的生态闭环,它一定是不完美的。我举一个非常简单的例子,我去,我跟我跟那个 ai 说啊,我最近听说我附近开了一家那个 呃,外卖店,听说特别好吃,我想吃一下,然后大圆模型 ai 看了一下自己的生态内的那个商家, 然后说,不好意思我,我这里没有这几个商家,在别的平台,这一下子就尬住了,你知道吗?第二个问题,呃, 责任和权力不匹配,要让大元模型做这个入口的话,即使是自己生态内的入口,都要给他很高的权限,你要天然,要偏向用户这边。 我举一个非常简单的例子,我点一份外卖,结果发现包装破了,然后我问 ai, 我 说这 那个外卖送下来没法吃,怎么办? ai, 如果要偏向我,会大概问一下我什么原因,如果是平台原因的话,会引导我去退货、退款、投诉。那你要知道 那些平台他们本身的盈利模型里边是包含了一部分顾客出现问题不去处理,呃,或者是对条款了解不清,或者愿意去忍的那些这个情况,或者嫌麻烦那些一旦大圆模型 不说直接帮你去处理啊,就只是一个建议,都会直接破坏那些平台的盈利模型, 而这些平台正是这么多年一点点挣的家底,把这个大元魔星养出来的。那是你的老大哥,你这一个小小弟,我让你当一下大哥,你现在要挖这些大哥的根,那大哥能答应你吗? 肯定是不行的,对吧?这个是一个巨大的矛盾,我,我都没想,想不到什么办法能解决。然后第三个问题,我发现一个很严重的问题,就是所有的所谓的做生态闭环的公司都有一个问题在于 内容,电商履约,三个没有一家平台真正做齐的。嗯, 你像美团、拼多多、京东还有阿里巴巴,他们是有电商,有履约,但是没内容,那或者说内容非常弱, 然后腾讯内容很强,有小说,有视频,然后有游戏,但是呢?没有电商,没有履约,然后 抖音也是字节这边有内容,有电商,但是没有履约。我,我,然后我仔细想了一下,全世界好像所有的所谓的闭环都没有,真正闭环都是三个,这三点是最多做到两样,你现在不可能去补,没有时间了,你也不可能说是去收购一个其他公司,那也是不大可能的, 会被拦住的,这监管也不会允许,这就使得他们在这一刻发现所谓的闭环是一个幻觉,这就导致了什么? 对,你是可以用 ai 代元模型,我帮你买什么东西完成了,然后呢?完事了之后我要去看短视频,怎么办?那我就得把你抛了呀,因为你你给我调不出来内容呀,或者说我在这看内容,但是 玩的好好的,你要给我,我要问你想买个什么东西,你是你那些平台都没给你权限查,怎么办?这个东西就很麻烦,也就说这个也是一个没办法 的一个事情,因为所谓的闭环都是假闭环,不是真闭环,你不可能什么都有。然后最重要的一个问题就是信任问题。嗯, 你我作为用户,我跟 a a i 对 话,我真的不知道你给我的这个建议是在护着你的那些老大哥,还是在站在我这边, 你即使是站在我这边,我都不知道怎么相信你啊,这是一个巨大的问题,你你,我说要不要退货退款,你说。嗯,目前看起来这好像是呃什么什么的问题,暂时不需要退货退款。我都蒙了,我说这你到底,我我心里会就种下怀疑的种子,我会去和其他 a i 问一问, 所以说这个信任问题是一个巨大的问题,也是没办法解决的,而且 现在这几个大厂一边在使劲砸钱做,一边这些问题又没办法解决,我感觉弄不好要被一个中立的 ai 反杀了。所以说未来会怎样发展,真的很好奇。