四月二号,阿里放了一个大招,千万三点六 plus 直接刷新了全球纪录。二号当天,阿里发布了国产最强编程模型千万三点六 plus, 编程能力直接冲上中国第一,全球第二。当晚模型上线,欧芬瑞特儿调用量直接炸了,激增百分之七百一, 单日调用量突破一点四万亿,打破了平台全球记录。官方说这是有史以来最强劲的新模型表现。 最骚的是什么?全球开发者开始用氛围编程,就一句话,让千万盛城网站游戏小程序一次制出,效果惊艳!国产模型这次是真的支棱起来了。
粉丝992获赞2.3万

你好,千玺,帮我点微冰美式到公司为你推荐以下商品, manor coffee 的 话梅风味冰美式,酷迪咖啡的橙 c 美式。我选方二二即将支付二十二点五元,请说确认支付!确认支付!支付成功! 你好,千玺,帮我扫码支付。确认支付!支付成功! 你好,千万来了,我要骑车启动扫码!扫码成功! 你好,千万,帮我同声传译。这位澳大利亚车手冲向终点线,但他落后了十分之四秒,没有进步。欢迎来到战斗夏尔勒克莱尔 你好,请问你说帮我做一下这道题,请稍等努力思考中。这道题的答案是十二分之二十三,题目要求,计算定积分,乘积分从零。

我又一次低估了 ai 的 进化速度,国内也有一个能真正理解视频内容的 ai 模型了。前几天阿里发布了一款新的全模态大模型,先问三点五 omni, 从公开信息来看啊,它在多项评测中表现不错,而且使用的成本还比较低,那它到底强在哪呢?简单说就是它不只是能看视频,而且还能理解视频在表达什么。给他一个我用 ai 做的短片, 能准确分析出画面的风格、人物形象和穿着,还能判断出用途,甚至他还能看出来这是用 ai 做的。这可就不是简单的视频内容了,而是能还原一条视频为什么这么拍, 以及怎么拍。还有这个歪不确定的功能。之前测 k 二点五的时候,是为给他一个视频,他能还原出一个网站,那这个是又近了一步,他能根据音视频的指令生成网页内容。在这个地方,我希望展示的是一个香蕉, 甚至我想做个贪吃蛇的游戏,可以直接对他说,当小蛇精神的去时变为夏日,主题为深绿色色。 那这个对想搞点小工具小游戏的朋友们来说,他简直是把门槛给推平了。从能力上看,他是在同时处理语音和画面的信息,然后再把这些信息拼成一个完整的表达结构。这项能力的背后,是在超过一亿小时的音视频数据的基础上 做的原声多模态的训练。说白了,这个模型就是看着视频长大的。最后再提一嘴,他还支持一百多种语言和方言,甚至能克隆你自己的声音去翻译外语。以后出国旅游或者做个跨国的内容,估计就不用再带翻译了。 那总的来说啊,这个模型给我的感觉就是它不再是一个只会答题的机器,更像是一个能看懂画面、听懂指令,还能动手干活的全能搭档。

现在所有人在手机里下载一个千问人工智能,为什么?如果你想要更轻松的生活,千问可以帮你解决生活当中绝大部分的烦恼。 我们之前介绍过另外一款人工智能 deepsea, 它的重点在于它的逻辑拓展能力,而千问它可以帮你从一个 app 跳脱出来。那我举一个例子。 你好,请问我下午想要打羽毛球,你可以给我推荐一下周围的场馆吗? 你好,今天是四月二日,周四下午想打羽毛球的话,我根据高德地图数据,并结合你当前位置淮安市清江浦区 附近的搜索结果,为你筛选了以下几个距离适中、口碑不错的羽毛球馆。好,那么大家也要看到了。他给我推荐了几个场馆,那我们现在给他上点难度。 我想要每一次打羽毛球的综合成本压在六十块钱以内, 请给我推荐具体哪一家场馆以及交通方式。没问题,这个预算完全可以找到性价比很高的场地。根据你所在的 位置,我筛选了以下几家单次消费在六十元以内的好去处,并附上了交通建议。好,大家已经看到了,他是可以直接把我的打车费算进去,我的整趟 羽毛球可以花多少钱,他会给我算一个大概出来啊,他推荐了三个,经济实惠的特点,综合性价比等等。好,这还没完,我在最近这段时间用千问,实际上他能做的事情是很强大的。 下面我为大家展示他帮助你根据有限的线索找饭店的能力。 你知道淮安市有一个滁州区吗?那里有一个不错的川菜馆,但是他的名字我记不太清了,他开在一所中学的对面,老板的年纪不是很大,是夫妻店, 店内环境不是非常的高大上,但往来人是非常多的, 你能帮我找到这家饭店吗?根据你提供的线索,储州区县淮安区中学对面年轻的夫妻店环境一般,但人气旺川。菜馆这几点特征指向性非常强,你要找的这家店极大概率是 没有错,就是这家家俊饭店。昨天我跟我的爱人聊的时候聊到了这家饭店,但是我暂时也想不起来这个名字,我当时就试了一下,先问能不能帮我找到这家饭店,他直接就帮我找出来了,当然这还仅仅是一部分,还有更可怕的哈。 好,那么大家现在来看一个更厉害的哈,这也是我以前喜欢玩的一个小游戏,就是看图猜位置。这个游戏我看了一下,另外一个人工智能叫豆包和千问,我试了一下, 千万的效果会更好。这个小游戏是什么呢?你好,千万,你猜一猜我现在在哪里? 你正站在上海环球港五十二层的观光台上,俯瞰浦西天际线与苏州河湾,远眺浦东陆家嘴云端,观景绝佳位置,上海环球港五十二层观光台,位于两百五十八米高空,是观赏城市全景的绝佳地点。 站在观好,大家已经看到了啊,这是千问,现在可以通过网络搜索哪些东西?第一,高德地图的信息。第二,社交媒体上的图片, 找来了一些图片,我刚才点了一下,他是来自于站酷,这是一个设计师网站啊, 另外他还可以干什么事啊,太棒了,我现在并不在上海,我下午想要去打羽毛球,你可以帮我打车吗?好的,我将通过高德打车。这里我们点一下取授权,授权后 我点同意确定授权为你规划前往上海环球港环球观光台的用车行程。啊,太远了,我现在不想去,我现在想吃一份炒饭,最好里面能有海鲜,你可以帮我点外卖吗? 好的,该店铺有必选品,已帮你加选。如需修改,你可以点击下方卡片进行选购按钮重新选择。 建议检查卡片中的配送地址是否正确,你可以点击卡片操作修改。如果无法选中对应地址,可能是由于超出当前店铺的配送范围,请返回之前的推荐结果,找到卡片上方文字的地址链接,点击后修改或新增地址,我会为你重新推荐。 好好的,该我们今天就演示到这里,你已经可以看到你只需要一句话,几句话,他可以帮你打车, 他可以帮你点外卖。点外卖这个功能也是千问最早的时候利用奶茶来出现在大众视野的。我也是那个时候下载了千问,我也用它 的补贴喝了一杯比较便宜的奶茶。但是现在我想给你们展示的是,它可以帮助你去回忆,甚至帮助你去寻找你自己在哪里。那么这期就这样,所有人都要下载相关哦。

大家好,今天来给大家介绍一下纤维三点六,在四月二号的时候,阿里也是发布了他最新的纤维模型,纤维三点六 plus, 这个模型呢在大模型的盲测榜单中呢,排名是位面的,是全球第四,也是国内大模型的第一名啊,并且呢阿里也是在全球 ai 实验室中排名升到了第四名,仅次于国外的三大 ai 公司啊。 那这次千万三点六更新的场景呢?主要是比较推荐一做企业智能化办公的,比如说他多模态能量可以识别一些财务的核算,做一个自动的识别和录入,或者是做合同文档的一些智能审查,以及说做报告的自动生成和摘药。 那其次他内容审核和理解能力很强呢,可以做电商平台的一些商品图片检查,比如说社交内容的一个多模态审核,以及说新闻图片的一些事实的审查 啊。其次就是他多媒体视频处理能力,他可以做短视频的这种自动标签分类,或者是做长视频的这个摘要生成,以及说做多语言字幕的一些生成和翻译啊,这他的一个比较推荐的一些核心场景。那今天我们就来看一下千万三点六 他具体的一些更新和他的一些实战案例。那我们主要是从五个方面去介绍,第一个是对千万三点六这次更新的简单概述,这个是他的评测榜单的各项评分。第三个是 官方提供了一个应用场景和一些官方的案例,还有用户体验的一些实战案例,还有我们自己实际去使用啊,使用的一个感受。还最后的是我们再看一下他的现在的一个架构情况,那首先是我们第一个, 那首先千万三点六的话,他目前的话,他的一大亮点就是他目前是支持了百万的 talk, 百万托管的话,也就是说它现在是一次性能读入很大层面的一个代码库啊,包括整个的依赖测试用力啊,相对于企业成员去使用啊,修复整个项目的代码啊,修复代码 bug, 这个它会更加精准。还有这次增强它是原生的 a 帧的能力,也就是它 会更加的深度,适配于 open cloud 或者 cloud code 这样的一些编程 id, 它有一个很对于复杂任务的一些很强的一个规划任务拆解能力,还有工具调用的能力。其次就是它的价格,它价格呢每百元输入只要两元啊,还有这次更新就是它的一个多模态能力,它多模态能力呢,也是超越了这个 cloud 的 四点五的。 我们来看一下他的评测,评测榜单,那在官方文档也是发布了他这次的一个评测的结果,这个榜单呢也是找六个大木星作作了个对比, 那前面的排名的话,主要是编码能力,像他们连半期呢,他就是在终端环境去指一些复杂指令啊,调试等一些任务的一些能力,可以看到他的目前是领先的第一名。还有代码的 a 帧的能力也是仅次于这 cloud 的 四点五 是这个代码的验证能力,也是仅次于这 ops, 那 当然在多智能体的编码能力上确实又落后于这个 ops 了。 那下面一个来评测就是它的 cloud 能力啊, cloud evo, 那 这个是相当于模拟真实环境,比如说网页操作啊,或者是应用的安利啊, ai 代理去实现这些复杂的任务啊,分数呢?也是啊,跟这个 ops 比较接近, 那下面这个指标是千万的自己的实验室的真实的进腾能力啊,也是他的自己实验室因为比较适配的,所以他评分是最高的啊。千万还有一个自己的一个大模型的名啊,也是在盲测的,自己的排名上是接近于这个 cloud 的。 那下面就是长城的编码能力,可以看到长城的编码能力层面上还是比较要落后于这个 cloud 的 模型的啊,但是国内模型也是领先的,超过了国内模型。 其次就是 mmu, 它就是多模态的推理能力,主要是评测一些跨模态的深度推理,比如说图图形的专业图表,学一些专业的知识问答 啊,它的评分呢,也是超越了 cloud 的, 仅次于这个金木莱。下个呢是图像的推理能力,可以看到目前它图像的推理能力实现效果目前是排名第一的。那图像推理能力主要是去评测现实的一些场景图片,识别物体啊,或者场景行为, 这也是他的一个优势,他可以做一些日常的视觉感知和这些常识推理啊。领目前是领先所有的大模型,那还有他的一个文档识别和理解能力, 也是目前是排名第一的。最后一个他的带字幕的视频推理能力,也就是说结合视频内容和这些字幕信息进行一些综合的推理啊,他能力目前也是挺次于这个金来的,看到这一次呢,他在多肽深度推理能力上也是领先的比较高的啊,这是他的一个优势。 那下面呢是介绍他的模型表现啊,模型表现呢,这里会对每个榜单,比如说抠定能力啊,做一个各个模型的一个评测啊,抠定的各项指标啊,比如说终端编程啊,或者是做长城任务啊,或者是做这种多 a 型的协助啊,或者是通用的。这 a 型的能力,还支持推理能力和这个 长文本编辑能力,还有这种 g p q a, 它是一个专专业的一个学科问答能力也是比较的领先的啊。其次最后呢是它的多模态的推理能力的指标啊,这是它的一个各项维度啊,各方向的一个指标的一个评测。 那下面是他评测之后的一些实战。这下面是他的一个视觉层面上的一个啊评测指标啊,包含这种 m u u 多媒体推理啊,一些视觉层面的问答,或者是文档的翻译理解,视频的一个理解,还有真实幻境的 a 境的能力啊,这项指标啊,这是他的整个的一个评测。 那使用这个下面介绍他使用,可以通过 a p i 接入,我们主要看一下他的一个官方的一些啊,演示的一些视力场景啊,比如说第一个呢是网页开发,网页开发让他去写了一个三 d 动效的网件,我们可以看一下他这个视频 啊,这个视频就是他一个三 d 动效可以去转动的一个效果啊,也就是体现他的一个多模态的一个编码能力,还有三 d 的 能力。那后面还有其他的一些案例,这个是网站, 网站的编辑能力啊,这是一个二 d 的 一个前端的网站节奏关键能力啊,这是网第一个是网页的一个编码啊,这个是它适配与 open cloud, 我 们可以看到它在 a 帧能力上面啊,所以对复杂问题规划都是有很好的一个优势的,所以说它比较适配与 open cloud 的 兼容对比, 这里也是有它的对应的演示,他会去分析去这个是呢,深层这个网站的分析, 它也有它的代码编写能力,可以看到它有百万的拓客量长度,所以说对于企业的代码的一个维护呢,是非常有帮助的,所以它可以集成到各个代码工具,千万扣的一个集成啊,或者是说集成套 cloud code 的,是性价比最高的一个方式,用 cloud code 呢去编写对应的代码, 这是它的演示。还有就是,嗯,案例呢,是在它视觉推理层面上的一些案例啊,比如说这里呢,就做 做了一个图片的一个人物的定位啊,可以定位到哪个人啊,你描述之后定位到哪个人啊,做一个视觉的监测,那他就可以定位到人具体在画面中的哪个位置啊,这是他的视频推理能力啊,找到这个人的位置 还是觉得啊,编程能力,主要是是绘图能力啊,比如说他可以去绘制一张图片,并且呢进行图片的一个深度的推理,保存场景的一致性啊,保存图片的场景的一些事, 但这里还有一些其他的案例啊,比如说还有一个北京交通里规划图,他会判断如果说十四号探源线最少的换乘路程啊,可以通过对动态,动态方式去实现啊,最少的换乘路程,他会帮你去规划怎么去换乘啊?这是他的官方的案例,换乘的路线需要经过什么? 那还有其他的案例啊,这里是他可以去识别图片啊,去帮你算真实赚了多少钱,他也会去帮你做一个计算。还有个场景可以做做图片的卡路里计算,他可以帮你识别图片中的食物的卡路里,帮你去计算你的耗时, 计算你的卡路里消耗量啊,这里是做视频的理解啊,画一个理解需要多少木棍啊,这个也是做一个啊。另外一个案例还有一个就是视觉的编程能力, 那主要是体现对于视觉的这个是工具调用啊,或者是模型的一些深层层面啊,可以看到这个看上去解释整个的深层的步骤,比如说番茄炒蛋的制作步骤呢,这个是可以做到图片的一个菜谱啊,做一个菜谱的一个集集景啊,可以做这个菜谱的事情,还他的一个视频理解, 视频理解他可以去提高分析视频的内容啊,下面也是一个案例,他可以分析视频的这个问题,引入整个的一个目标函数,他会把视频内容全部翻译成文档啊,这个是他的一个很强大的一个视频理解能力,这个是这是他的一个视频理解能力的案例。 还有就是视频编辑能力,他可以自动帮你去裁剪辑视频,这里呢上传一个三十秒视频呢,他会剪出一个大概二十米三 它的视频剪辑能力。还有一个就是它的一个视觉 a 镜头能力啊,它可以去在环境中持续感知和推理,并且去采取行动啊,这里最主要使用在这个 可以去解决真实的质问问题网页之行啊,比如说这里呢,它让去销售,那这里是让去创建一个促销的价格在二十五到六十美元之间的一个咖啡列表。那这个案例呢?它将它的通讯录 腾讯呢去转转化一个格式啊,这一个案例,这就是它官方提供的案例。我们来看一下网友体验的一个案例啊,这个可以看到这个是一照上传文,它可以去生成一个三 d 的 雪山的多模态的场景啊,这个是网友层面的案例, 还有就是网友测试的一个 webcoding 能力,这里去创建了一个 ai 的 咨询的日历网站啊,这个视频暂时看不了。那还有就是游戏网页呢,这里是去创建虚拟宠物的网站,游戏网友体验的好了, 就是他多模态的推理实测,他可以去解析多模态推理的话就可以根据视频去二创一个小红书的爆款文案, 那这是他提供的原视频,他会去把这个原视频按照脚本逐秒去啊解析出来,形成一个很高质量的小红书爆款的一个推推荐文案啊,这是他的一个应用场景,做旅游的编程 终端的代码编辑啊,这些视频有些他访问不了了,这种抠定能力的展示啊,去用 c i 工具去抠定能展示,去修复代码,这是他的一些案例,我们来再看下我们实际的体验的效果,我们体验可以在他的一千万 c i 方式去体验。 这里呢我呢去做了一些,我把它的官方案例做了一些整理,我就单独做了一个。那这里其实我们在新建对话的时候可以去选择 官方有几项,你比如说深入研究啊,生成图像,或者创建视频,以及网页开发,还有换段片。那我体验了大概体验一下,我们来看一下体验效果。第一个是做行业报告的研究 啊,这个是他调用的好用报告生成出来大概的这么一篇的文章,但总体内容上不算是很多啊,质量可能一般啊,这个是他行业报告,我这时候第二个就是啊,深图,你可以看到我们这里呢,又复杂的深图的时候呢,他就直接报错了,深图失败了, 这也是他的一个缺点啊,这个生图的方式啊,这个是生成视频,这个生成视频的话,如果文字渲染太多的话,他就直接生成失败了。嗯,这个图片生成的话,我是通过极梦 cds, 极梦 cds 二十二点零去生成的啊, 看到极梦去生成的话,就没有没有任何问题啊。看到这图片,虽然说他有这个视频的生成能力,但是总视频生成能力不算是很强。这个是啊,图片的生成能力, 图片的生成能力,我对比了一下,我用这个豆包生成的这个图片, c jim 四点五啊,还是比较相似,但是它有一个问题,它的比例还原是不准确的,这也是它的图片能力的,也是弱势啊。这个是它视频生成能力啊, 我们可以看它是它是我们,其实都没错,只是太在乎了,嘿嘿,可以看到不太自然啊,它这个视频生成能力 太自然啊,这个是绘图能,能能绘图效果,但是视频生成率还有有待提高,还有这个呢,它生成的这个行业的 ppt 啊,可以看到 ppt 的 效果整体上体验还是不错的,这个 ppt 的 效果的方式还是不错啊,这个 ppt 大家生成自己的行业报告,那 ppt 的 效果,这是我们测试的官方的案例,我们也测试了它的一个 agent 的 能力,我们主要是让它集成在这个 work 吧里去使用。比如说我们之前是做了一个公众号的每日科技二十条新闻推送, 这里呢,我们就可以去在 work 吧里面去配置千万三零六。我们这里选择自定义模型,我们可以选择 选择自定义自定义的渠道,因为它目前不支持阿里云的配置,我们需要去找到第一个地址,还有 a p i k 的 配置,以及说我们输入千万三六零模型,这个大家可以在官方的百联平台,百联平台去配置对应的 a p i k, 还有它 api 配置有使用指南,使用指南里面的话它有对应的模型的配置,我们选择的模型配置的话,我们要选择 s r 的 话,选择华北的配置,然后呢对应的我们的模型呢去选择纤维三点六,纤维三点六的模型,那我们我们就可以配置出这个纤维三点六 plus 的 这个模型呢, 然后我们就可以用它的 plus 模型呢去执行我们之前的这个定时任务,我们就可以选择千万三零六 plus 去执行。那之前我们是 gm 五,那执行出来的话,就有对应的这篇的文章给大家看一下这篇文章,这篇文章整体生成效果和之前使用 gm 五的效果是比较相似的,因为我们写了一个技能, 就是公众号的科技推文的技能,所以他基本上是能够按照我们技能的要求去完成这个文章的编辑的啊,整个思路,然后实现层面上基本上跟 gm 的 都是效果是持平的啊,这是他们实际体验的一个效果。 然后呢体验之后呢,我们看一下它模型的用量啊,我们去搜索三点六,我们要去开启免费额度, 然后我们来看一下我们用量的统计,我们看下今天用量的统计,调用我们这个模型的次数啊,是调用一次啊,是模型的这个数量是一个啊,今天使用的是纤维三点六,它整个调用的话是调用了十八次,消耗了托肯的话是一 一百三十八万啊,一百三十八万也就是一次即行,消耗了一百八十三十八万的托肯也就是空, 这个是他的脱贫的消耗量,三十八万的话大概就是两两三块钱左右啊,所以我们那个报告生成的成本还是挺高的, 就是可以看到他模型的用量统计啊,一次 a 技能执行的话就消耗了一百三十八万的用量了,这个用量还是相对说比较高的吧,但是这个你用扣的我可因为他本身他会带有大量的搜索这篇文章的执行的话,他会搜索大量文章,可以搜索的话可能是搜索一百多篇文章才能去汇总得到一个这样的一个 效果,那主要还是在工具调用上的消耗成本也比较高。接下来我们再看一下它价格层面的一个一个深度的理解啊,因为我们来看一下它价格的一些, 最后我们来看一下它的技术价格,那技术价格层面上也是继承了这个铅 m 三点五的一个 方式啊,这个大体的主架构是没变的,就是混合注意力加上这个吸收混合的个专家系统的组合,然后用户在输入的时候,他会进行多模态的编码器,然后进行输入了预处理,预处理的话又做了一些支撑系统的优化,比如说缓存管理,然后混合注意力又做了分布式推理引擎,然后再吸收专家注意力,又增加了显存优化, 然后在输出编码器的层面又做了个批处理的调度,然后经过一系列的方式处理,再得到输出的结果,这是他一个推理能力。然后混合注意力呢?也是 这次的话,它是采用的是将现行注意力和全全注意力进行了三比一的混合,那这个混合的话,其实之前三点五也有创新啊,这是它混合的优势。然后这个稀疏混合专家注意力的话,这 m o e 也是跟之前是比较类似的,通过门户网络去,并通过这个专家系统去分配对应,分配对应的请求, 然后呢将不同任务分给不同专家,最后进行加权求和得到。然后这一次的话,主要是他增强了他的原生动画的能力啊,然后从这个文本图像、视频的一些输入层面上增加了他的一些优化,还是跨步态理解能力。这次比较核心点啊,就是他的百万托克,百万托克的话 可以看到他的一个请求的一个链路,用户请求之后先经过网关,网关会检查上下文缓存,然后传递原始输入到千万 plus, 千万 plus 会建立这个缓存的还这个 k v 缓存,然后经通过混合注意力计算去返回对应结果。 然后呢,他通过限性注意力的方式去处理长距离的优赖和全注意力,去精准的去命中局部关系啊,这是这次他做的这个百万托克的一个优化啊。下面的内容还都去关于评测和应用案例了, 这是应用案例的一个介绍,我们这向我们也看到他应用案例,那后面内容会做对一些,这篇文章后面内容会做一些深更深度的一些了解啊,企业的一些部署啊,主要是便于这个大家去理解他,这个他的一个整个的一个生态,那我们今天分享就到这里,谢谢大家。

今天我拿到了一款千问新的 ai 眼镜,听说这款眼镜呢?我看一下二维码他就能帮忙支付。我看一下共享单车他就能帮忙解锁。那今天我们一起去使用一下吧。你好,千问,我要骑车帮我开锁。 你好,请问你说我想喝一杯爷爷不泡茶的荔枝冰酿。立即配送,优惠后价格十七元。确定下单吗?确定支付成功,请在手机端查看账单。哇,就这样支付成功了, 老板,我要买一瓶这个茶派。好的。你好,请问请帮我支付要付多少钱?要付五块五,即将支付五点五元,请说确认支付,确认支付啊,支付成功,支付成功了, 拿到了 ai 点的奶茶,也是喝上 ai 点的奶茶了。太棒了,没想到整个过程能这么便捷。

朋友们,阿里云又再次扔出一枚重磅炸弹,天问全模态大模型换三点五奥尼正式发布!这次升级号称将 ai 的 感官彻底打通,听说读写全部拉满,在两百一十五项任务中拿下全球第一,成为全球最强的全模态大模型之一。首先,他听得懂全世界一百一十三种语言及方言的语音识别, 同时它能生成三十六种语言的语音,音色稳定,情绪自然。更厉害的是,它的实时交互体验大幅提升,不动时就像跟真人聊天一样自然。其次,它开创了音视频编程的新范式,打开摄像头,对着镜头口述需求,哪怕是一段复杂的草图描述, 它就能直接生成带有复杂 ui 的 app、 网页甚至游戏代码,动动嘴就能编成科幻片里的场景,今天成真了。更硬核的是,它能当专业级的视频后期使用款。三点五 omni 可以 对画面主体、人物关系、对话逻辑、情绪起伏进行极细颗粒度的拆解, 自动完成视频章节切片与时间戳标注,并支持超过十小时的音频输入。最关键的,现在就可以在屏幕上的地址免费体验,从技术前沿到实际落地,没有任何门槛儿。总结来说,跨越三点五 omni 的 发布,意味着无论是开发复杂应用,还是处理海量音视频内容,一个模型就能让你全部搞定。 这部只是一个新模型的发布,也是国产 ai 的 又一个里程碑。想要了解更多 ai 知识内容,欢迎在评论区留言或者私信我,我们下期再见!

重磅消息!大模型的世界刚刚迎来了一位全科状元!大家好,我是你们的好朋友千岩。就在三月底,通易千万发布了他的新一代模型千万三点五 omni。 这是一个能看、能听、能说、能写的全模态大模型,那么他有多强呢? 在一视频理解、语音识别以及对话等整整两百一十五项国际权威测试中,他的成绩都拿下了第一,而且在很多关键测试里,甚至超越了谷歌的 jamina。 他不仅能精准识别全球一百一十三种语言和方言,最神奇的是,他解锁了一项被称作 wyber coding 的 魔法技能。因视频编程,你不再需要敲复杂的代码,只需要打开摄像头,对着草图说出你的想法。 比如做一个产品展示页面,他就能直接生成可运行的产品原型代码,并生成界面。对专业人士来说,这简直就是个效率神器。而且把一段几小时的视频扔给他,他能自动拆解内容,分析人物情绪,打上时间戳,把繁琐的后期工作缩短到秒级。 现在 ai 全模态的时代已经来了,千问三点五 om 正在重新定义我们与 ai 交互的方式。想免费体验的可以评论区留言,关注千言,让 ai 更好的服务于你。

不知道大家有没有觉得呀,打车这件事看着容易,但实际上每次都像在开盲盒,填完地址就要从一大串超长的列表里选车型,一不小心就选错了,花了冤枉钱,即便打到车也担心是臭车。 到今天为止,我都不知道清新车那个按钮到底在哪,而且人多的时候还得选特定的车型。说实话,每次打到什么车,全看运气。听说阿里千万最近上线了一句话,打车功能, 直接跟 ai 说需求就能全都搞定吗?正好我们今天要去山姆买点东西,我们就真实的去测试一下,看看它到底是不是真智能。我们先打开千问 app 啊,直接说出需求,千问千问,帮我打辆车到山姆会员商店,顺义店要最便宜的车型。呃,预算不到二十吧。 你看,千万没有像有的 ai 那 样,把软件唤醒,以后就不管我了,确认用车,而是直接通过语义理解生成符合要求的订单,而且是二十以内的第一关呀,轻松通过。光这样的还不够,咱俩得给他上点难度。比如现在买完东西回家了,我可以对着千万说, 千万千万帮我打个车回家,中头要去趟国产地铁站 b 口接个人,我不要出租车,车里不能有烟味。 哎,还是没难倒它,瞬间就识别出了我要干什么。而且你会发现,这次的需求更口语化,句子里的信息也更多,千万都能精准识别。还有一点很关键啊,就是有的打车软件像增加途经点,它藏的很深,操作也挺复杂,还得手动写字。 现在呢,一句话全都设置好了,根本就不像以前那么麻烦了,而且过去需要点选四五处的操作,现在一句话全都搞定, 这对那些手机用的没那么六的长辈啊,那是相当的友好,再也不用找那些功能藏在哪了,而且省下来的时间还能跟司机聊会天。 哎,你好,是六五三六啊,哎,我是用 ai 的 那个千问 ai, 阿里的那个千问直接下的单行吗?不,不知道,哈哈。对,这是刚出的功能, 整体效果还挺好的,而且就过去不是我们要在那个菜单上要选好几样吧,还在列表里选车型,现在你只要是说的话,就比如说我说我要去哪几个人我要去哪,完了以后我要 就是我几个人,包括我还可以说我几点去,他还给你预约完了,比如说我选我可以选那个清新车型,要无烟车型,他还能给你要备注无烟车型。 哦,还有这样,对对,现在这个 ai 是 越来越发达,就在千万上面。对对,就,就不用,就不用,那个之前要点选,比如说还得要那那么一大串列表,不得选吗?啊,这不用选了,你直接一句话就可以了,也方便了。那什么科技改变生活呀, 千万之前还出了这个什么一句话点奶茶,一句话点外卖,哦,就是只要说一句,就是一句话,就就他跟这些平台他就互联的打通的。对,然后这科技生活越来越方便了,哇,真是越来越方便,哈哈哈。除了这些还有一个更厉害的功能, 比如我说千万千万,我们下午六个人五点想去国家游泳中心玩,还贴心的约到了下午五点。 这哪是打车助手啊,它分明就是贴心小秘书。其实 ai 打车这个场景啊,要比点个外卖、点杯奶茶要更复杂,因为它软件的功能就要更复杂,而且容错率要更低。在国外啊,像 jimmy, 像 open ai, 其实都尝试过 ai 打车,但实际上除了能把 uber 拉起来,剩下的还要自己点点点。 而千问呢,它能站在用户真正的需求出发,让 ai 真正理解你究竟为什么要打这辆车。再加上经过咱们这么三番五次的折腾,整体体验不仅丝滑流畅,而且还精准。所以在这里也建议大家多去试试千问的一句话,打车,多去体验一下 ai 对 生活带来的便利。 ok! 以上就是本期视频,这里是科技研,下回见。拜拜!

国产 ai 又有大动作了,阿里全新升级了千问三点零,表现真的很亮眼,他在代码能力评测中,国产表现突出,国际位居前列,支持超大一百万出坑上下文,长篇文档、完整项目都能一次性出。 把设计图直接上传就能自动生成前端页码,效率超高,兼容主流智能体框架,使用更顺畅。很多人拿它和外国的知名嗯模模型对比,实际体验下来,综合能力还是非常接近, 甚至在使用成本上更有优势,普通人和新手都能用得起。以前我们总觉着海外的 ai 更厉害,现在我们国家国产的大模型已经接近于国际一流的水平, 不管是学习、工作还是做副业,可靠的国产工具可以用。所以说未来的 ai 机会可能会越来越多。 看好国产大模型吗?评论区聊一聊啊,我是夕阳,陪你遇见不一样的你,一起用 ai 升级,了解现在国内的 ai 知识。

同学们,国产大模型的历史性时刻,我们看一下这个排行榜,阿里刚发布的千问三点六 plus 拿下了二零二六年最强新模型,单日的消耗量超过了一点四万亿的 talk。 这个排行榜呢,是全球头部提供一站式大模型的 a p r 的 一个平台, 这个榜单呢,也代表了当下实实在在的一个市场需求的一个结果。就连国外这个两个 ai 博主发视频的标题都是千万 ai, 刚刚证明了美国为什么不能再忽视中国了。 千万三点六真的这么强吗?我们稍后实测一下,看一下效果。我们先看一下这个模型的测试数据表,我们就拿目前最强的 cloud opus 来对比一下。 在编程方面呢,基本上是相差不大了,但是在多模态推理领域呢,轻微三点六 plus 呢,基本上是全面领先,我们直接实测一个案例看一下。那这个呢,是海外博主开发的,通过摄像头来抓取手部动态打球的一个运动游戏。 现在呢,我给技术小白看一下,什么是 ai 时代的 bubble coding, 什么叫大白话也能让 ai 去帮我们开发产品。我用的是千文扣的,装了免费的三点六 plus 这个模型,然后我把这个游戏链接直接丢给他,然后就写了一句简单的指令,就是分析这个交互游戏,然后帮我复制同款, 接着哈,他就哗啦啦的写了一堆我看不懂的代码,没关系,因为在 ar 时代呢,我们只看结果,不满意让 ar 去改,改到满意为止。那最后我们看一下他做出来的效果怎么样,效果是不是杠杠的,我还在他原版的一个基础上添加了我的一个音效, 其实这个能力呢, cloud opus 呢,它也能做到,那差别在哪里呢?就是它的门槛太高,成本太高,大部分人呢用不起。那千万呢,现在可以达到它同样的能力,重点是呢,免费,人人可用。 那最后给同学们展示一下呢,就是目前 cloud 做不了,但是千万可以做的就是多模态沉浸式的 bug 扣顶,拿着手机对着你白板上面的这个草图,然后你吧啦吧啦吧啦说着你想要构思的网站,接着呢,你发给千万, 他呢,就直接帮你生成你要的网站,不满意了,同样再巴拉巴拉发出你的修改意见给他,然后千万呢,就按照你的要求改了,你就说强不强吧, 当然千万三点六呢,目前还支持一百万文字的一个上下文,所以更多能力呢,同学们可以去感受一下,反正现在也不用钱, 所以千万三点六 plus 这波升级呢,让我更确定了一点,就是在 ai 时代呢,你会说比你会做更强,技术会迭代,工具会升级,但你会不会清晰地表达,精准地描述,想明白你到底要什么才是未来拉开人与人真正差距的能力?这里是实时 ai goodies, ai 让生活更有趣。

阿里发布千问新一代大语言模型,表面是更新底层,其实再重排就规则,不然你会慢半拍,越早看懂越不被动。四月二日,阿里发布千问三点六 plus, 变成超越三倍参数量模型,如果你要接入这类能力,成本和顺序都会受影响。性能接近 cloud, 全球最强, 但输入仅两元百万,性价比反常时觉得国产模型能超 cloud 的 扣一,觉得不行的扣二。评论区站队更值钱的判断是,先看阿里发布先问新一代大语言模型会影响谁,再决定要不要跟这件事你更站先上车还是先观望。

新出的千万的这个眼镜,我买的是个 s 一 版本的,它现在功能就是有导航、音乐,呃,拍照、录视频,还有翻译, 我觉得可能对于现在来讲比较实用的功能就是出国旅游的这个翻译功能呀,因为他前面这个 s 一 他是有屏幕的,他前面是就跟那个智能车样是有台显的,只不过现在的版本是一个绿色的。 还有比较实用,我觉得如果是那种做自媒体的人,他们要第一视角随时要拍摄那些东西的话,我觉得这个眼睛还是蛮方便的,因为这个位置它有一个摄像头,就可以随时随地的去拍,在这触摸就可以。 然后呢还有一个功能我觉得蛮好用的,就是那个提瓷器的功能,如果说是有这种上台演讲的需求的话,他会根据你的语速,然后在这屏幕上都会有显示,我觉得这个功能还蛮好的, 这就是它的操作还是比较方便的。还有一个功能我觉得比较实用的是这个录音技要, 就是你要在开会的时候需要他去帮你总结一下你的这个会议,总结的话,我觉得这个功能还是蛮实用的。再就是他的这个音乐,他的这个音响是通过这个鼓传导的方式,他的音质我觉得还蛮好的。 再就是还有一个便捷的支付功能,他可以和你的支付宝去做连接, 然后去有一个便捷支付的功能,他这个系列还有一个 g 一, 价格要更便宜一点,但是他没有这个台险,有这个台险的价格稍微高一点,大概是在四千元左右, 然后使用的时候滑动就可以了,唯一我觉得这个东西有点小尴尬点,就是他这有一个摄像头,所以在出去社交的近距离的时候,我觉得有这样的一个东西放在这,大家都会觉得有点社交恐惧, 因为他现在做的这个东西还是挺明显的。目前我我的感觉就是他的外形吧,就中规中矩吧, 但他的功能我觉得相对应的还是偏为实用和基础。但是如果这个是看工作需求的,如果是需要随时记录的那种工作的话,我觉得戴这个眼镜确实还是蛮方便的多。 但是对于日常生活工作要求的话,我觉得可以再等一等,目前我觉得它的功能相对应的比较基础。

看,这是刚刚升级的千万 ai 眼镜,首次升级之后,他有哪些新功能呢?让我们一起去体验一下。你好千万,你说帮我点杯奶茶到公司问题 你选择几个?第一个,优惠后价格二十元,确定下单吗?确定 下单半小时之后就拿到我的奶茶啦!你好,千万,帮我 ai 克隆同声翻译,苹果的设计一直是我们身份和所做事情的基础。千万,第五题选什么? 这道题的答案是 a, 因此 f 负四分之三等于负二分之一。你好千万,我要骑车确认开锁 升级后的眼镜还能够看一眼,自动停车缴费。你还期待有哪些新功能呢?快来评论区和我们互动吧!

你们有没有发现,早上的时间和晚上的是不同的汇率?早上从起床到把小孩送出门,我要上厕所倒水做早餐,催孩子快点吃,喂龟喂鱼,催促孩子刷牙洗脸,并且掐点在七点三十五之前避开电梯的高峰期把他们送出门。 然而晚上不管我是几点钟开始规划做多少事情,只要我熬得住,永远是悠哉悠哉的慢节奏。庆幸的是,早上忙完以后,打开家门,我的外卖咖啡就已经在门口等着我了。早上的第一口热美食是正式开启我一天的新号。 什么?你问我什么时候点的咖啡,让我们来回顾一下。你好,请问 给我点杯热吻?没错,自从千问 ai 眼镜 g e o t a 升级之后,它就成为了我每天睁眼的第一个命令对象。指令发出以后,它会自动给我下单,咖啡支付,订单一气呵成,再也不用我在半睡半醒的状态下盯着手机瞎点一通。如果你像我每天都点一样的,那么你可以直接说, 你好千问,给我来一杯昨天的热美式,偶尔想换一下口味。你也可以说,你好千问,点一杯城西美食,或者说你今天不想喝咖啡了,想喝点甜的。你可以说,你好,千问,来杯喜茶的。打开门发现还没有送到怎么办?你好,千问, 我的外卖到哪了?眼镜会及时查询你的订单状态,并且语音给你播报最新的进度。没有想到现在点外卖也只要动动嘴皮就能搞定了。在 ota 升级之前,这副眼镜更多的是我平时是用来拍照拍视频的辅助工具,拍拍第一人称视角类的画面, 尤其是徒步或者骑行的时候,本来就很累,双手也腾不出来掏手机拍摄了。一句千万拍照,千万录像,就能记住眼前的画面。 长时间的拍摄也不用担心电量的问题,因为它的电池是可拆卸可更换的,像我出门拍摄一天的话,就会额外准备一块电池和换电仓。而这次 ota 升级之后,更新了很多功能,眼镜里面的 ai 助手升级成了真正能办事的超级助理,它不仅仅可以回答你的问题了,现在还能真的帮你动手做事情呢。 除了点外卖,出门看到共享单车,你也不用伸手去拿手机了。一句千万同学,我要骑车就能扫码并轻松开锁,给我的感觉,这副眼镜升级后,它不仅仅是一个辅助的拍摄工具,更是我随叫随到的 ai 助理, 交互体验也从人机变得更有人情味了。实话实说, ai 的 发展真的很迅速,甚至可以说太迅速了,稍微慢一点点你就要跟不上了。 ai 眼镜则是当下 ai 产品里面把 ai 交互做的最极致的具象化体现,它时刻在你耳边,它能看到你所看到的画面,你的一句话,它就能开始帮你执行操作。