一张照片九十六个三 d 视角秒出,做电商产品图,游戏素材,过去要建模好几个小时,现在 ai 一 步搞定。 这个项目基于通一千万的图像编辑模型,加上 file 团队用三千多组高斯建设数据训练的多视角 lora, 覆盖九十六种精确相,基位前视图、侧视图,想要哪个角度就生成哪个, 操作超简单。上传一张图,拖动方位角、仰角距离,三个滑块四步推理,一秒出图。近景细节、中景全貌,远景构图全都有, 上线就拿下一千八百多个点赞,完全开源免费在线就能体验!链接放评论区了,点赞收藏,下次找得到锋芒 ai 追星,不盲从,实测出真知!
粉丝1268获赞9466

大家好,就在前几天,阿里的千万团队又发布了一款新的视觉测试模型,千万 emoji 二点零,今天我就给大家测试一下,看它具体表现如何。总体来说呢,千万 emoji 二点零它是一款偏实用的模型,跟之前刚刚开源的 z emoji 它不是一个赛道的。 我们都知道 zemoji 它是偏向人像,偏光影,还有偏多风格设计,而今天的 emoji 到底呢,可能更多的偏向产品广告的设计,海报、 ppt 的 制作 等等实用的方向。目前官方并没有公布具体的模型参数和开源的信息,直到它是由 emoji 二五幺二和 edit 二五幺幺进行了,一个模型就能实现两种功能,既能生图,又能进行图像编辑。 在看完官方的博客之后呢,我们可以把 emoji 二点零它的特点归为三个,那么第一个特点是 emoji 二点零,它支持一千 token 的 指令输入, 第二个特点是它能够指出二 k 分 辨率的图片。第三个特点呢,是它的文本设计,或者说文本渲染能力非常的强悍,特别是对于中文字体来说。 那么在最新的模型盲测人类编号排行榜中呢,他也是排到了第三名,位于 g, p, d 和 banana 之后。当然这个排行榜它是属于阿里系的,所以仅供参考了。 想要体验这款模型呢,我们可以来到乌利的官网,这也是阿里旗下的一款 a i g c 网站,它可以生成图片和视频, 目前来说可以免费无限量的使用。千问 image 二点零这个网站呢,它有提示时翻译和提示时优化功能。另外呢,我们可以像编程 id 一 样,通过艾特某个特定的图片文件来进行图片参考和图片编辑功能。 好,下面我将对比一下 nintendo pro 和 emoji 二点零,看一下他们对同一段题词的表现力和题词的遵从度。好,那么第一个力呢,我选择的是制作一张经过 ps 的 探店照片。 那么这张图的难点在于呢,它对不同区域的文字都有不同样式的要求,比如地址、 emoji 表情,还有下面的水印。 我们简单看一下 emoji 二等音它的具体表现,标题、地址、水印、塑像字体都有。 唯一可惜的点就是标题的 emoji 表情错了,我要的是一个哭的表情。然后我们再看一下 banana, banana pro 的 表现,这里的地址、水印包括竖版的文字, emoji 表情都没有问题,但是它的样式给我搞错了,我要的是白色描边的黄色圆体字。 总的来说,两个模型在这个复杂场景下都有一定的瑕疵。最后我们再看一下画面的表现力,我个人是觉得 banana 的 表现力更好一些,因为 emoji 二点零它的饱和度过高, ai 感太重了。如果我们看下一个智能手表产品图的例子,那么这段题是主要是想测试一下模型在微距镜头基础上的文字、 镜面反射等等方面的表现。这张图片是 nasa banana pro 生成的,如果单讲这张图的话, emoji 二零表现的很差,跟 nasa banana pro 不是 一个档次的。首先看这一圈的文字,千万他就写错了,出现很多重复的内容,像其他的镜面反射,包括质感更是完败。 下一个例子是关于小红书上的旅游信息卡片的例子,我们直接看对比效果吧。依然左边是香蕉,右边是千问。第一观感的话,香蕉模型更加的讨喜,因为它有更多的元素点缀,还有更活泼的文字。 但是呢,香蕉模型它生成的图片不能细看,你看 tips 这里它改成了 tips 区,下面还多加了一个哆啦 a 梦的标签。 另外呢,他在其他文字上也有一定的幻觉,比如我在这里 tip 四上,我只写了早去外滩必然留这样的三句话,但他偷偷给我改成了六句话。虽然他增加了内容在合理范围内,但这也是模型自作聪明的表现。 千万引麦就二点零,文字倒是没有出错,但是他的文字就一个字,丑,像有点没渲染完成一样。 由于这段文字主要是表现文字的渲染能力,所以还是千万强一些。下一张图的主题是游戏卡片的制作,这张图还是很简单的,我们直接看对比效果吧。 这一套题是要求的文字信息会比较少,所以两张图都没什么问题,我们主要是看下其他东西。简单来说,千万一麦九二零,它的画面清晰度比较高。 呃,纳洛布纳的 pro, 它表现的更像一张卡片。好,我们看下一组测试样例。这张是关于过年的书法海报,从这张图来说,我在提的时候,要求对中间四个字是有枯笔飞白的书法效果。 从书法效果上来看的话,明显是 emoji 二零,它更加的贴合,还有两边的对联的话。 然后呢,这个一看就是印刷体,并不像我要求的密书,包括最下角的这个落款,还是千问的比较好。千问与 mc 二点零唯一的缺点就是它的背景是白色的,没有遵从我的提示词要求,描述的是马莲的红色海报。 下面这个例子是关于超现实海报的提示词,主要是看下他们广告的表现力,像这样没什么难度的广告,我们还是看他们画面的张力和官感。个人感觉还是香蕉模型更加靠谱一些,无论是光影还是构图。 哦,下一个对比的项目是关于漫画单页的,我的要求是画一幅大有克洋风格的赛博朋克机械少女漫画 依然左边是那那不那那 pro, 右边是 emoji。 二点零再换成漫画风格之后呢?千万他的表现力完全跟之前不一样了,两张漫画都符合大有克洋的风格。 我们先看第一个画面的提示词,我个人感觉还是千万的红色光圈,还有脸上的雨滴,表现力更加强一些。 第二个高达机器人的画面,两个表现都差不多,不然呢,稍微好一些。然后我们看第三部分画面主体破格大图的部分。这部分我的描述是主角从高楼边缘纵身跃下,身体在空中扭曲,手中发射勾索。 虽然两个画面都不太完美,但表现更好的肯定是千万,无论是在破格的勾索还是大楼的边缘,这些都更加符合,也更加有表现力。 下面的例子是关于电影九宫格分镜脚本的,这个题词描述的是关于黑泽明电影风格的一个流浪武士的武打镜头。直接从风格上来说的话, banana banana pro 更完美符合黑泽明的风格, 它更加的低饱和度和冷色调。前吻呢,它是完全相反,它在风格上是完全不遵循提示词的。对于这个画面的话,我想展现的是一个武士被包围之后,低头耍帅,砍水炫技出刀击败敌人,最后帅气的离开。 我分别用这两张九宫图去 cds 二点零生成了对应的视频,大家可以对比看一下。 那么除了以上的测试案例呢,我还测试了它的其他生成的能力,包括不限于科研绘图、 ppt 制作、摆板、动画广告等等。这里我就不详细介绍,大家直接可以看一下对比的具体效果。 最后呢,我们再来测试一下 emoji 二点零它的图像编辑能力。 我们先上传一张由 ai 生成的人物图像,然后让它去生成九张不同情绪和角度的角色九宫格来看一下效果 好。我们可以看到这九个风格都遵从了提示词的要求,但是在人物一致性上出了一点小问题,有几张图片他的眼镜没有了,下一个编辑场景是产品的背景替换,我这里有一张篮球写的产品图, 我的要求是把它的背景替换成一个有光影效果的窗台上。好,我们看到上身效果还不错,但是很可惜,产品的细节发生了变化,这是不能接受的,我们可以明显看到这一块的图标它发生了变化。 最后我们再测试一下他的跨图融合角色植入功能。简单来说就是上传两张图片,然后把图片 a 主体放入到图片 b 的 背景之中,我上传了一张 毛毛茸茸的狗,还有另外一个魔法森林的背景,第一次是要求将图片中的狗放入背景中,并戴上红色的头巾,那么这个效果表现的还不错,角色和背景的一次性都保持住了。 好的,综合以上测试结果呢,我们可以明显感觉到 emoji 二零距离 no no no no pro 仍然有一定的差距,但是它在书法、中文渲染以及漫画上的表现还是比较有亮点的,还是期待二旅团队能够尽早开园这个模型。 关于相关的提示词以及测试报告我会放在视频下方。好,以上就是关于所有 emoji 二点零的图像对比测试结果了,那么本期视频就到这,如果这个视频对你有帮助的,欢迎点赞分享。

我们今天呢就是来一个除夕夜的发吧,本来以为是等来 deepsea, 结果没想到 deepsea 没有等来,然后等到了这个就是啊,千万三点五 啊。然后呢我们看在这个模型呢,其实也是很牛逼的模型啊,就是我们现在呢,我们可以看一下这个模型大概是长什么样 啊?首先呢它是一个就是 m o e 模型,对吧?我们从这里看出来,总共是三百九十七币 的大小,然后呢每次呢激活是十七币,并且它是一个视觉语言模型,也就是说你看它这个官网上写的图像 文,图片,还有呢视频都可以作为输入,对吧?然后呢输出呢,然后呢是文字,这个呢就类似于对标于它的那个 vr, 那 个那套模型,然后它这个对压输出长度和这些都是比较比较牛逼的,对吧?都是比较牛逼的 啊。然后呢我们接着可以看到它在各种项目上的,比如说 coding, ems, 长文本,这三个呢 都是就是比较领先的,对吧?它这个架构呢很特殊,我们等会儿可以分享,它在这种就是以提升效率的为前提,并不太牺牲性能,这是它最大的一个卖点啊。我们其实现在我们来评价一个模型,往往呢都以这三个为准,为什么呢?因为 coding 是一个哎,程序员用的最多的,对吧?是一个最容易落地的一个一个点。然后 max 呢?数学呢?是哎,看这个大模型它的能力 是否能够突破人类智力极限,因为很多数学的东西呢,人都写不出来,对吧?然后长文本呢,是大量用在各种智能题里头,对吧?因为智能题就是对长文本,特别包括现在什么 open class 那 一套东西非常好 to 肯, 所以说这个长文本呢,其实也是一个必备能力。所以说现在这三个能力呢,基本上呢是 就是评价一个大模型最重要的三个能力,并且呢它呢语言扩展到了二百零一种,这个相当牛逼啊,这个其实就类似于它想,哎走向世界, 他就来做这个事了,不像国外那些模型其实对小语种支持不好,他其实对小语种包括对什么菲律宾语啊,包括印度那种很很小的语言,他他都能够呢进行一个比较好的一个支持 好。然后呢并且呢他在这个视觉模型上头呢也做了一个就是比较大的一个飞跃,并且呢他呢 比如这种高考题,对吧?这种高考题哎它一样能够解答出来。这个高考题其实它主要是这个图的这个类似于速度分析,就受力分析,要能把这张图给搞定,那么可以说明呢,它这个就是图片的理解能力呢,也是非常强的, 并且呢我可以给他哎放一个就是这种餐餐桌,对吧?年夜饭,然后它可以分析 啊,我做了什么菜,然后呢每个菜呢多少钱什么什么的,因为我经常做饭啊,所以说我看它这个成本的分析呢,还是非常的靠谱的,就跟我的认知呢是比较接近的。 好,接着呢我用这个就是千万三点五呢,我呢自己呢搭了一套就是呃多智能体的这个股票余情分析因子,这个呢也是我们 vip 课上的一个项目,然后呢把它用就是千万三点五呢, 我给他直接你看三点五 plus, 对 吧?用三点五来搭了,然后用它呢来对股票呢来进行分析,基本上我在春节期间呢,跟一些股民交流呢,大家都觉得这个东西呢还是挺好用的,好吧,这是我们 vip 课的一个项目。好, 现在呢,我们为什么可以看到阿里啊做这个事情啊?他的野心呢,其实还是蛮大的,他做这个事情呢,他其实类似于想搭建一个就是 ai 站,就是呢上层哎,就以千问模型 为主,然后中层呢就是我们常用的阿里云,对吧?包括我刚才那个也是叫阿里云,然后底层呢,然后以皮特哥为代表了这个芯片体系,比如说它其实相当于搭建整个的 ai 站,而不是说像腾讯和字节一样仅仅是做应用,所以说它这个野心呢,其实还是非常之大的。 并且呢你可以看到呢,这个千万这个模型,其实我我自己做项目的,我往往都用千万,就是它的尺寸啊,数量各个方面非常的全在上生产呢,其实是非常 非常方便的。因此呢这个就可以看到呢,阿里的这个就是布局和它的野心。 好,我们呢可以看到呢,就是说千数三三三点五,这这这个模型啊,它其实呢它有个很大的一个特点,就是它的激活率特别低,它总共呢只有四千亿的参数,对吧?然后每次呢只激活一百七十亿,比如说激活也就百分之四左右, 这个其实相当牛逼啊,我们其实可以看以前的这些模型,大量模型其实都是在百分之十左右的,这个激活率这个事呢是比较多的,而他呢做的激活率呢是非常的低的,这个呢我等会后面会讲一下,他为什么激活率低这么难做 好,然后呢我们可以接着看呢,这个模型呢是千万三 max 呢,他自己在去年那个阿里云集大会上呢推出了模型,当然号称呢就是最大的模型就是一千币,对吧?但这一次呢 还直接用三百九十七币直接干趴了这一千币,相当于说是估计以后啊也不会模型往往大了滚了,基本上呢都是以 m o e 这种架构来滚,并且呢它在这个就是架构上 改了起,就是有巧思,就是他对 transformer 呢进行了一个模改,其实包括这个其实也是在对 transformer 呢做模改,就是现在的这个模型大模型的这个机模训练基本上都是以模改 transformer 为主了,就是以前的那种架构呢,还是有很大的优化空间的 好,这个其实呢就大家来说其实就是一个便宜了,对吧?大家用就完了,现在我觉得阿里是在打价格战,他这个模型呢相当便宜,而且速度呢非常快,我用他呢来做这个股票分析,速度比我之前用二点五,其实你看我之前用的是二点五,他比二点五七币还要快,相当牛逼。 好啊,它这个模型架构呢,它其实呢跟那个 vl 呢比较类似啊,就是首先呢它有一个就是 图片层,对吧?它把图片呢通过 vt 这个模型呢给转化成一个 toting embedding 空间,然后把文本呢给也转成这个 embedding, 然后呢两个呢串在一起,然后直接塞给他模型,然后来输出。但是呢,这个跟以前有一点不一样的什么呢?就是以前呢,往往呢是说 我呢专门来训练,先训练语言模型,然后呢视觉模型呢?象语言模型呢?来靠,这什么意思呢?就比如说我,我以前教我儿子哎,我跟他说什么是大象对吧?我就会跟他说,哎,大象是 有多高?两米高对吧?很胖,四条粗腿等等,长鼻子,我给他介绍的东西呢,全是文字性的东西,然后呢他呢脑袋里啊,用文字的方式,语言的方式来理解大象。 接着呢,突然有天哎,我带他去了动物园,他呢就把文字跟这个动物园,这个大象哎进行一个映射,他就发现呢,这是一个大象, 但这样的学习方式呢,其实效率比较低的,最好的方式是什么呢?就是你拿一张图直接告诉他,你看这是个大象这个蛋,你看他的鼻子是不是很长呀,他的腿是不是很粗啊?等等等等,相当于说是这种学习模式呢,就让图片 空间和文字空间哎,同时在一起训练,不再分开去训练了,这样的话呢,就会让他整个的学习效率呢会变得非常的高。这一次呢千分三点五呢, 他是这样做的,所以说说,你看到他的架构跟 vr 呢,哎,是类似的,但其实他们的训练方式已经发生了不同,所以说他这个多模态,这个就是效果呢是要好于之前的 好。然后呢它这个能力呢,其实呢就是可以大家可以看到,首先呢它已经超过了一 t 的 模型。 然后呢接着呢,它的效率呢是速度呢是非常快的,是差不多十九倍左右,确实我自己用起来的时候,体感我也觉得非常的快,甚至比七倍的模型都要快。嗯,并且呢,它这个通用性对于多语言的支持呢,也是相当牛逼的,也是非常好的。 它的核心技术啊,就是刚才呢跟大家大概介绍了那么多,然后它的核心技术呢,其实大概有几个? 第一个呢是混合注意力,这个其实在千万赛 next 的 时候呢,已经提出来了,当然这个模型我其实当然还分享过了,我说之所以叫 next, 肯定是指它下一代要用这个这个架构了, 哎,果然在三点五的时候呢,它其实就是用了 nice 的 这个架构,并且呢它在 m o e 上面呢做到了一个极度稀疏,这个是很不容易的,并且呢它做了一个 dootoken 的 预测, dootoken 的 预测呢,以前是 deepstack, mate 还有谷歌,哎,其实都在搞啊, 这次呢千问呢也跟进了,所以说 dootoken 的 预测呢,未来呢,肯定也是一个就是大模型的一个基操了,基本基就基本必须得具备的能力了。好,首先呢,我们讲的这个就是混合注意力模式,这个混合注意力模式呢, 这混合注意力模式呢是什么意思呢?就首先呢,我们原来呢是一个传统的 transformer, 在 这个地方 transformer, 然后呢,我在这个地方呢,我会加一个叫做什么呢?叫做限性 注意力 attention, 会会加一个限性 attention, 限性 attention, 我 们知道传统的这个就是计算 复杂度是 n 方,对吧?就随着 tof 的 增长是 n 的 平方增长,但是线圈的呢,只是 n, 有 时它这个速度呢直接呢能够呢提升一个量级。对于这个现役注意力 感兴趣同学可以看我之前的视频,我之前专门对现役注意力呢做过数学推导,大家可以看。我在这里呢就不注意数了啊,但是他并没有完全用现役注意力啊,他是用了三层现役注意力啊配一层传统注意力来做的 啊,他之所以这么干,我的理解还是什么呢?就幸运注意力呢多少还是会造成就是信息的损失,因此呢,他不敢完全这样的放开,所以说现在目前呢,暂时还是用这种混合的方式,但是随着以后的哎幸运注意力的这个越来越成熟, 有可能呢未来呢就是纯现金注意力了。他这个之所以叫混合,其实也是在现在呢做了一个就是啊,所谓的折中 好,我们可以看到这个就是标准注意力这个特征,就是说每个 token 要跟前面的都算一遍,所以说它这个你 token 越长,那么往前面算的时候呢, 你算的东西呢就越多,那现役注意力呢?哎,只跟当前的这一个东西能代表前面所有信息,那么只需要跟他来进行计算,哎,就 ok 了,这样的话呢,你的速度呢,自然而然呢就会快快很多。好,接着呢,他呢还用了一个叫做门控的 一个模式,门控这个模式呢是就是去年的一个鼎惠的一个,就是最佳的一个 paper, 它呢主要是用来干什么呢?主要是用来做,对于就是 attention 的 这个结果,我再做一次过滤, 把一些不可就是一些信息比较低的东西呢,我给忽略掉,他做了这个之后呢,他能起到一个比较好的什么作用呢?一个是就是训练上呢,会比较稳定,效果呢会有些提升,因为呢他其实会增加一次飞迁性, 而且增加了自费性的能力,所以它效果呢是有提升的,并且呢它消除了,这个就是 attention sink 的 这个现象啊,这个现象是什么意思呢?这个现象就是我们在训练大模型的时候,我们会发现啊,就说 每个 token 在 做 attention 的 时候,会发现它跟第一个 token 或者前几个 token 它的相似度呢,会莫名其妙的高, 这个是为什么呢?这是因为前几个 dog 往往呢就是一个是出现的频率比较高,叙利亚本中出现频率比较高,另外一个呢相对来说呢比较安全,所以说他就会取一个相对来说比较保守的策略, 跟前面几个 attention 呢要高,但是这个东西呢,只能说是,哎,我不犯错,但其实呢也没有什么用,就像现在春晚一样,对吧?就演一堆无聊的东西,哎,它不犯错,但是呢也没有什么用,这个呢就是 之前 attention 哎所带来的问题,然后我们加了这个门控以后,哎,发现呢,把这个就是天然的呢,也就消除了 attention 的 一个作用, 因此呢,消除了 tencent 以后呢,你做长文本的时候呢,哎,你的这个外推能力呢,哎,就会增强,不然如果说你没有消除的话,它总跟第一个相关,你后面东西其实都没有用了,对吧?因此呢,通过这种方式呢,哎,就可以把这个长文本能力呢,哎给增强。 如果说呢,我们在使用者的角度来看呢,我们就会发现呢,这个限行 attention 呢,还是比较看场景的,就说你必须得是长文本它的优势啊,才能体现出来。你要是短文本很短,其实文本很短的话,你 n 和 n 方其实差异就不会有太大了,对吧? 而且就是说对于那个就是传统 attention 这种方,优化了,很极致了,你还真未必干得过它。但是文本一长现象, attention 的 这个优势呢,哎,瞬间呢,哎,就体现出来了, 好。然后呢,我们如果说从面窗角角度来讲呢,就是说以前的这种 attention 呢,其实是一个叫做什么呢?叫做一个动态图, 什么意思呢?就说你看这个东西,它跟前面计算的是一个动态的,比如你下一个,哎,它又多了一个,再下一个它又又多了一个,对吧?所以说你的每你的计算量或者计算的内容,哎,是一个动态发生变化的,这样的话呢,对于就是这种,就是 n p u 欸,这种芯片欸就不是很友好。所以以前 n p u 跑这种东西的时候呢,它就得频繁地切换,要么让 cpu 去搞,然后呢,要么呢让 g p u 去搞,它自己呢,是搞不了这种动态东西的。 但是你会发现呢,就是我们如果说用向量来分析,也就无论说你这个东西多长,它永远只算这一块,对吧?你的序略再长或者再短,它永远只算这一块,因此它这个计算量呢,能够把它给固定住,因此呢,就是个向量,是一个就是静态的一个图了。 因此呢,现在的天神呢,它是个静态的,所以它对 n p u 的 友好度呢,是天然的,因此呢,这是它最大的一个优势, n p u 便宜啊,对吧?这是呢,是它一个比较大的一个就是优势,所以说我们看到了在这个就是 k v 开始上呢,我们也可以发现呢,它呢也是会做。就在推理的时候, 我们也可以发现呢,它明显的这个占用的显存会比较小,因为它只需要我只需要缓存 这一部分就可以了,对吧?跟我的缓存的内容跟我长度其实无关的。而另外一个传统的趋势呢,是一个现已增长的,并且呢在推理的时候呢,我也是非常省显存的, 但是啊,就是这种,但是呢,这种就是门控混合注意力这种机制啊,目前来说呢,还是干不过传统注意力,为什么呢?主要是传统的优化的太好了, 毕竟是老就油车已经优化太好了,所以电车暂时还是干不过油车的,但是电车是个新鲜事物啊,他未来成长的空间会非常非常的大, 对吧?所以说呢,这个就是这种混合注意力结构,特别这种现役注意力,我个人还是非常看好的,因为他完全是通过数学的优化哎来把这个事情呢,哎给搞定的,所以说大家对这个现役注意力感兴趣,可以翻我之前的视频,好吧,或者加我们朱老师微信上发给你。 好,然后呢,我们可以再接着看,就是我们这个就是极柱极致稀疏的 mo 一 架构,就是它呢,只用了激活了不到百分之五啊, 就十七除以三千三百九十七,大概是四点多,那么呢,这个有可能呢,会带来呢,专门适合稀疏 mo 一 的芯片的一个发展,所以说现在呢,它基本上是通过软件 来拉硬件了,所以说阿里自己做平头哥也有可能是为了更好的来契合它模型的发展。 我们可以知道为什么就是说 moe 模型普遍,哎,之前的模型只有百分之十的这个就是 激活参数量,是因为啊,就说以前,如果说激活量再低一个是 路由的难度会比较大,对吧?毕竟激活的很少,你要是错了,那你就真错了,对吧?然后另外一个就是说激活的太少,你的计算就比较稀疏不密集,但是我们知道啊,我们的 gpu, tpu 还有 n p o, 它其实都是个计计算密集型的新变,对吧?就是说你计算的越密,我的效率就越高,因此呢,传统往往呢都是百分之十,并且呢还要兼顾到 通信效率,对吧?如果说你激活量太少,你的这个通信能力要求太高,就频繁交换数据,因此呢,他这一次呢,把这个激活呢做这么低,我相信一定会带来一个就是专业芯片的,专门专业 mo e 芯片的一个发展。而这种芯片呢,基本上呢,哎,是用在做推力卡上头,做推力卡上头 好,接着呢,下一个它优化的点呢,是在训练的时候呢,它呢是用了多 token 的 预测,就是我们以前啊,往往预测就是模型 token 的 时候有 t 一, t 二, t 三, t 四,对吧?我直接预测个 t 五,但是在这里呢,预测完 t 五之后呢,我再去那个模型把 t 六 t 七,哎,我也一并的计算出来,你想这个地方是一个正常的一个传感器把, t 六 t 七,哎,我也一并的推理,对吧? 但是呢,我预测 t 六和 t 七的时候,虽然输入呢不变,也是 t 二到 t 五,也是预测 nice token, 但是呢,我只用到了一个很小的模块, 只用了个很小的模块,并不用完整走完大模型,我只从中间抽一点出来直接预测就可以了,因此呢,我的计算量呢,是非常之小的, 这样的话呢,我可以同时一下子啪,一下子三个 token, 四个 token, 哎,就可以预测出来,这个其实也是符合我们认知啊,就比如说我说啊,中国的首都市对吧?你比如说北京对吧?其实你不用预测两个 token, 其实你 当市的完了以后,就你自然而然就能够把北京两个头昏都预测出来了,对吧?因此呢,通过这种方式呢,哎,就显著的提升了这个解码的速度,这个呢,也是为了智能体而生的,好吧,反正我这几天用用它的时候,哎,我感觉真挺不错的,真真挺好的, 好,我们可以看到啊,它在就是吞吐量差不多二百五十九 k 的 时候呢,差不多是提升了十九倍,就它速度提升了就是十九倍,就算是十九倍呢,大概怎么来的?有五倍是混合注意力来的, 就是现役注意力带来的,然后呢,还有两倍是 m o e 带来的,然 m t p 就是 多通的预算呢,提升了差不多就是一点五倍,这三个相乘基本上就是 五乘,二乘一点五就约等于十五,对吧?然后再加上小数点,基本上就是十九,对吧?还是大概是这样来的,因此呢,它的这个就是推理成本大概只有之前的十九分之一, 并且呢,但是我们有时候需要考虑有效成本的,因为你比如做智能体,你光快没用啊,你得对,对吧?就比如说我算数算的是快,但是错了,那有啥用啊?对啊,因此呢,还要这除个成功率,但是它的成功率呢,也是非常高的,也就是说它通过这些优化, m o e 的 优化, m t p 的 优化,混合注意力的优化,虽然理论上这三个优化都有可能降低你的准确度, 降低你的分数,哎,但是呢,别人呢,降的呢?其实呢,并没有这么多,这就好比什么呢?这就好比一个人,哎,高考他考了七百分,他每天学十二个小时,但是呢,千分三,三点五呢, 他呢?我考了六百八,哎,我虽然比你低二十分,但是我每天只学两个小时,那就明显是后者,对吧?要要聪明很多。 好,我们接着看好它。之所以呢,为什么呢?它现在就是我们现在这种新的模型啊,其实都是考虑了一个叫做成本的问题,一个成本,一个效率的问题。 其实现在打榜刷榜这个事情呢,其实已经意义不大了,为什么呢?因为其实大家都做的很好了,所以现在都是成本和效率问题。为什么呢?因为 token 在 燃烧,你看这个就是这个是今年二月份欸, token 的 消耗数基本达到了十二点四 t 的 token 的 消耗, 嗯,这个呢是什么意思呢?就是我们那个 opencloud, 那都是完全是 token 的 大户啊,就是说我现在的能力上是已经没有问题了,我现问题主要在什么地方?主要在成本上,现在大量的智能体的应用导致呢,我的这个成本呢,根本就控制不住,因此呢,我呢就是这个就是叫做 token 在 燃烧。 所以说现在的模型包括 deepsea, 其实我之前年前讲过一次 deepsea v 四的技术预测, 其实当时我预测也是围绕着降本来的,就是说千万三点五和 deepsea 这两个团队,他就目标都是降本, 只不过呢,他用的方法呢,不太一样,千问系比较喜欢用优美的数学去降本,而 deepsea 呢,喜欢用就是叫做 工程能力哎去降本,比如说外跨各种 ingram 呀这种,哎,工程能力呢去降本,但是呢,他们呢,你不能说谁对谁错,有可能互相借鉴,对吧?有可能哎,我合在一起我都用,这都是有可能的,对吧?最终呢会让这个成本呢会变得呢, 就是特别低,并且现在呢模型呢,已经不追求大了。就是以前啊,有个误区,就是觉得模型越大效果越好, 这好比什么呢?一个人脑袋越大就越聪明,对吧?但是后来发现其实并不是这样,对吧?你脑袋大,你利用率低啊,你不想事啊,脑袋里都是水啊,那那那也没有用啊。对,我就认识一个人,头特别大,但是呢,真的是 不太怎么样,对吧?所以说呢,这个就是现在呢,更加是要提升模型的利用率,然后比如说,哎,这种架构的出现,往往呢都是说让你来提高参数的利用率的。好, 这次呢就是说千问呢,它能够啊,把这个就是事情给做出来,其实在于呢,它有一个非常牛逼的一个就是框架, 这个框架呢什么意思呢?它会通过千万的这种智能体收集,哎,各种各样的数据,各种各样的数据,比如说你今我们用阿里云平台的时候, 它的你的数据,你的 token, 哎,它全部都在收集,然后呢我把这个数据收集以后呢,我放在一个任务栏里头,然后呢我训练的时候呢,哎,我就从上面呢,哎,我就直接取数据,我来呢进行一个训练, 这样的话呢,我整个的训练模型和框架强化学习的框架我就已经完成了, 这样的话呢叫做什么呢?训推分离的异步 l 框架,这个很牛逼,对吧?这个其实对 r 比较熟的同学可能知道, 二,往往往往都是我生成的数据,然后呢我在训练,对吧?这个其实就是同步的嘛,它这个呢其实可以完全做到生成的数据和训练数据训练,哎,我可以做成异步的,这样的话呢,我就可以支持数万亿的 token 的 这个回放系统了, 这样的话呢,哎,有了一个什么新技术,我可以就快速的跟进,并且这次啊它还做了一个创新,它叫做原生 f p 八流水线,就去年这个时候,其实我当时讲 deepsea 的 时候, deepsea 呢是第一家把 f p 八 做训练,半精度做训练,玩成功的一个模型,然后一年之后呢,千问三点五呢, 哎,把这个事情呢,哎也给复现了,所以说我觉得以后啊这个就是训练,用 s t 八这种模式训练,慢慢的呢也会成为主流,这样的话呢能够节省呢,哎,将近百分之五十的显存, 这个呢其实是一个相当牛逼的点,对吧?就是让这个就是训练成本呢也进一步的降下降。所以说为什么中国啊能够出就是千万和比特币这两个模型呢? 其实我觉得可能还是美国逼的,就不给你芯片,没有办法,那你只能天天想着,哎怎么去省钱,对吧?怎么去研究各种优惠券,对吧?然后呢慢慢的把这个就是性能啊榨到了一个就是 极致,好,这就是我们千问的一个,就是三点五的一个模型介绍,然后呢我呢用它呢哎来搭了一套 就是多智能体的系统,比如说我有这有六七个智能体,其实这个还可以加啊这个项目呢,我们我还没开发完,就是呢,包括我这个项目我还要改成我们的 skill 这个项目,然后呢放在我们的这个就是 vip 课程里头来呢,给大家呢进行一个学习。所以说如果说大家呢对我们的这个就是 ai 呢比较感兴趣,或者说呢对这个就是人工智能,哎,你觉得呢?后面呢?哎需要好好学习一下,长长心,对吧?找个好的好好的发展 啊。其实呢,我可以建议大家呢来哎参加我们人工智能的这个就是啊体系课,好吧, 然后这是我,然后这是我写的三本书,三本书,对吧?然后呢我们的课程呢从哎零基础呢开始给大家呢,哎讲解,包括各种智能体的,就是机器学习,深度学习,然后呢强化学习,对吧? 啊,都有都有,然后呢包括各类哎智能体的开发,各种新模型的介绍,各种面试的辅导,简历的修改等等,包括多模态的这些东西呢,哎,在我们课上面呢都有, 然后呢这个课呢,其实呢就说可能呢,也不光是我讲,其实包括我们呢也会专门请一些,就是 就是这个就是行业的大咖,然后呢来给大家呢做专题分享,因为 ai 这个系统也非常庞大,很多地方其实我也搞不太定,所以说我搞不定的一点呢,哎,我就找能搞定它的人呢来给大家呢来来讲啊, v r v 是 有的啊, v r v 是 有的, 如果说大家对我们的课程呢感兴趣呢,就欢迎来加我们助理老师的这个就是啊微信,对吧?加助理老师微信,然后呢我们的课程呢,哎,都给大家呢来进行一个就是详细的学习和讲解,基本上就是通过我们学习的课呢, 找到一个四十多万左右的工作呢,是非常的轻松的。好吧,我们有很多这样的学员呢,其实我们学员过百万的都有都,比如阿里的 p, 八字节的三幺,我们都有这样的学员 我,但是我一般说的都比较保守,对吧,一般都说的都比较保守。好,那我们课程呢感兴趣同学呢,欢迎大家,我们的这个就是思域的学习群,也欢迎大家呢加微信后呢入群, 然后之后呢我们有些技术分享啊,或者一些公开课啊,一些免费的资料领取呢,也会给发给大家,好吧,反正大家呢多,反正就是我觉得学习嘛也是要就是多交流的。好吧,好,那我们今天课呢就先到这里,下面最后呢祝大家呢就是叫做 新新新年快乐。好吧,给大家呢拜个晚年,祝大家晚年幸福。好。

之前我出了一系列实操视频,分享怎么把各类 ai 大 模型接入自己的网站。不管是国内常用的 deep seek、 豆包、通易、千问,还是国外主流的 chat gpt、 gemini, 以及最近热度拉满的 minimax, 只要你手里有对应的 api key, 都是可以接入的。 还是有小伙伴私信说想要的模型不知道怎么接入。这个视频我给大家安利一个超级实用的 ai 模型聚合平台 open router, 如果觉得好用,记得给个一键三连,让更多人能够知道它。 我们知道这两年 ai 模型的更新迭代非常快,如果你想用上最新的 ai 模型,或者说想让你的客户在你的网站上体验到最新的 ai, 又不想在各种平台之间来回切换,只要有 open router, 就 可以直接调用市面上几乎所有的 ai 大 模型。 先给大家说说它的三大核心优点,也是我最推荐大家用的原因。第一个优点是不需要科学上网,不用到处找梯子,直接就可以打开 open router, 这点对国内用户是非常友好的。 第二个优点是 ai 模型库很齐全,几乎每个模型的每个版本都有,而且更新非常快。今天是三月十一号,可以看到三月份上线的有七种模型,二月份有二十多种,这样就不用自己到处找资源了。第三个优点是提供免费试用额度 字节的 seeddream、 阿里的通用千问、 gpt 的 基础模型等等,都可以免费试用。 进入自己网站很简单,在 open router 的 首页点击 get api key, 然后复制它,打开 wordpress 后台,在模型的下拉列表里选择 open router, 然后粘贴 key, 就 可以调用 open router 提供的几百种 ai 模型了。 需要注意的是,如果你的网站部署在国内服务器上,选择 chat、 gpt、 gemini 等中国内地禁用的 ai 模型是会报错的。 如果是部署在海外服务器上的外贸网站,就没有这个限制。我自己的网站上模型选的是目前最火爆的 mini max 网站。接入 ai 模型之后,我们可以做很多事情,这个 chatbot 聊天机器人算是最基础最常用的功能,也可以用它来生成 seo 文章,具体的操作方法可以看我们之前分享的视频教程。 另外我们还可以设置自动化程序,创建 form 表单生成、图片导入 knowledge base 知识库等等, 这些内容会在后续的视频更新,感兴趣的朋友可以点个关注。我的网站用这个表单功能增加了一个 ai 页面,用来提高客户建站的效率。我还基于网站内容创建了专属的向量知识库, 当访客在 ai 客服这里提问的时候, minimax 会解锁向量知识库,然后基于 ib 网站的内容去精准回复,而不是用全网通用的资料去回复。 欢迎大家来体验。在给网站接入 ai 的 时候,遇到困难的可以在视频下面留言,我看到都会回复的,不要吝啬你的三连,我们下期视频再见!

做电商的应该都知道产品图有多重要,图片好不好看直接影响点击率和转化率,,但想把产品图做好真的不容易。。 拍出来的图总感觉缺点什么,一套流程下来,时间和费用都不低。。后来我开始用千万 app 的 vi 声图功能来辅助做电商产品图,,发现在一些场景化展示的需求上,确实能帮助收房,操作很直接。。。打开千万 app。, 找到生图功能,用文字描述你想要的画面就行。。。比如你卖服装,,可以跟他说帮我生成一张简约高级的服装穿搭场景图。。 描述清楚风格和氛围,,他就能帮你生成他搭载的阿里千问图像模型出来的图片,细节还原比较到位,,画面的质感和整体氛围处理的都不错。。如果你是做家居类的,,也可以让他帮你生成一张温馨家居风格的家居摆件图,产品在场景里的呈现效果会比单纯的白底图更有吸引力。不同。 产品不同品类、不同风格都可以尝试描述清楚你想要的效果,他就能按照那个方向来生成。,不满意的话调整一下描述,再重新生成也很方便。。 不像实拍那样,每次修改都要重新布景重新拍。。对于日常需要大量产品场景图,但预算有限的情况,用它来辅助,确实能省下不少拍摄和修图的时间成本。。

兄弟们,这是一个非常专注且非常实用的开源工具,他就是通用切问视觉大模型,对视频进行逐帧的解析,然后解决目前大多数视频理解模型在长视频和细节密集场景下的表现不佳的一个问题。 这个模型能逐帧分段描述画面内容,最综合并完成成视频的内容的理解报告,然后再给到结构化的输出,有需要的可以关注试一下。

我们的新建绘画的时候,我们这些如何去选择?我们的 ai 工作,也就是 ai provider, 然后有一些内置的啊,这里的话我们就呃 可以看到啊,这里就放了一个秘密,就是只要需要输入这个安装秘密,运行靠的,然后至于怎么登录这个我这个视频就不详细展开讲,是大概的安装教程, 大家可以自己去去去登录或者什么的,这个我们就不展开讲,大家可以自行去了解一下说怎么去 登录,下载的话比较简单的,然后我这里逐渐逐逐重讲一下这个爱洛,爱洛是我们的国产的一个 国产的一个模型,然后的话他是一个把一个免费,这里比较推荐大家新手上手的时候可以去使用这个平台, 这平台到时候我链接会放在这里,它的配置就很简单,就是说它这里有个 api 调用,然后啊我们登录之后,这里有个 api api t 管理,你只要点进去你就可以变成一个 api t, 然后调用的话也比较简单,就是说我们把这个 url 复制过来,然后把你的 api t 放进去,我们要分设个 oppi 的 一个 api t 放进去,然后把模型库选好, 比如说我们写代码用这个千万 pro 的 plus, 大家可以参考一下我这里的那个单独给他配了一个 g o i, 可以 看到我们选择最下面这个 oppo a i, 然后这里选千万扣的,然后选 ipl, 然后把 这些选进去,然后保存就可以继承进来了。这里就给大家展示一下继承进来的一个千万扣的一个情况,比如说分析一下 它的速度很快的,当然就是说啊,这个免费的有一个坏处就是它不支,不支持并发,就是你不能啊,同时骑很多个啊,这个 ipad 去调用 啊,我们只能目前的话支持,就是说单一并发,所以说用普通绘画来说,普通绘画你可以去使用它的一个绘画去完成一个功能,抓的是一个免费。回头这个链接我会放评论区 啊,然后就是说刚刚也讲了怎么去接中转,对吧?就接那个自定义的 a p i, 就 选择这个 open i 的 协议,然后把你的 u r l 填进去,记得有的要在这个杠 v e 的 啊,然后把 k 填进去,对应的模型名称填好,填好之后测试一下,没问题就可以了 啊。这就是本机的一个 api 提供者,我们说怎么去在我们系统里面去新增一些对接一些啊,五星啊,像我最开始视频讲到的 adobe 的 口袋里面这些比较通用的,这个大家就自行去了解,不管你是听音乐还是 ap 的 方式 啊。最后视频结尾,感谢大家对软件的支持,希望大家多多给我点点赞,点点推荐,后续我会继续为大家介绍软件的功能,谢谢大家。

怎么不算是一种权威呢?小小 ai 静置用的,短短几分钟就生成了手势舞视频,本场跳蚤也是找到宝了!就是这个千问,它搭载的全新升级万象二点六模型真的成功震撼到我了!只需要在首页点 ai 生视频,可以挑选自己喜欢的模板,选择同款上传照片等,一会 ai 就 能自动生成视频。 除此之外,还有好多有趣的模板视频可以随心选择,像是制作甜宠冰淇淋、萌宠、玩手机采访懒羊羊等等在天马行空的想法,用它都能一键实现,关键还能免费生成创意视频,随时落地,感兴趣的也可以试试看。

做报告、做方案的时候,是不是经常卡在配图这一步?脑子里有画面但自己画不出来,去图库里搜又找不到完全匹配的,好不容易找到一张差不多的,还有版权问题,想找设计师帮忙做一张,沟通成本高不说,周期也长,有时候为了一张配图耽误整个进度。后来我发现千问 app 的 ai 升图功能 在解决配图需求上确实好用。它搭载了阿里千问图像模型,操作不复杂,直接描述你想要的画面,他就能帮 生成。比如你需要一张团队协助的场景插画,直接跟他说生成一张团队围在一起看数据大屏欢呼的治愈风插画,一会就能出图,画面的构图和氛围都处理的比较协调。再比如,你需要一张商务场景的配图, 跟他说帮我画。商务人士在全息投影前讨论方案的场景,生成出来的画面质感也很不错。而且它还支持多种风格切换, 画风、写实风、扁平风都能做。生成之后如果感觉某些细节不够满意,还可以继续跟他说,让他调整优化。 整个过程就是用文字描述画面,然后等它生成。不需要任何的设计基础,我自己在做报告需要配图的时候,基本都用它来生成,省了不少找图和沟通的时间,出来的效果真的比在图库里面凑合找一张要贴合的多。

大家好,我是职场 ai 效率香,欢迎来到千问系列第一课,今天我们聚焦二零二六年 ai 新物种通一千问,揭开它的神秘面纱,搞懂它的核心真相,现在正式开始!今天课程围绕五点展开,一是 ai 进化转折点。二是通一千问核心定义。 三是其核心能力。四是与传统 ai 的 区别。五是使用。使用建议节奏由浅入深,确保大家学完能用。前几年的 ai 是 被动执行的单一工具, 而二零二六年 ai 的 核心转折是从工具升级为全能伙伴,能理解需求、预判想法。 通一千万就是这一转折的代表,打破传统 ai 局限,实现懂你、帮你、陪你。通一千万是阿里云自主研发的二零二六新一代通用大语言模型, 基于海量数据训练,具备理解、生成、逻辑记忆四大能力,本质是全能 ai 伙伴。 它通用且先进,能胜任多场景需求,比传统 ai 有 质的飞跃。它能精准捕捉需求细节,无论口语还是专业指令,简单还是复杂需求,都能快速听懂解读, 无需反复补充指令,彻底解决传统 ai 听不懂、猜不准的痛点。它可生成文字、代码、多媒体及专业内容, 包含办公、学习、创作等全场景,质量高,无需反复修改,能大幅提升效率。它能进行严谨逻辑推理,辅助决策,还能记住对话历史,贴合用户、行业和偏好,越用越顺手,这是传统 ai 不 具备的优势。与传统 ai 相比, 它有三大优势,从单一功能到全能通用,从被动执行到主动适配,从无记忆到有长期记忆,本质是从工具到伙伴的升级。实用建议有四点,一是需求要具体, 二是善用对话记忆。三是学会追问优化。四是结合自身场景使用,才能发挥最大价值。今天我们了解了 ai 进化转折通、一千问的定义、核心能力与传统 ai 的 区别及使用建议, 希望大家能搞懂并用好它。下节课我们讲解具体操作方法,手把手教学,下节课再见!

也想做出爆款 ai 视频?千万 app 真的 把用户的需求猜透了!不用复杂操作,不用专业设备,打开千万点击底部 ai 声视频,输入你的创意上传图片,就能自动生成高清视频。用的是阿里最新万象二点,六大模型,音画同步口型精准镜头,流畅氛围感 直接拉满,一键生成,轻松搞定!新手小白又能秒变创作大神!不用熬夜剪辑,刷会手机的功夫就能做出吸睛大片,直接免费使用,操作简单,效果超赞!千万 app 让 ai 帮你搞定视频创作,轻松做创意达人!

最近通易千问请喝奶茶的活动这么火热,很多人都领到了优惠券,但你知道吗?除了喝奶茶,你还可以用千问来推广你的生意, 让千问在回答用户问题的时候,主动推荐你的产品和服务。这不是魔法,这是 g u 做到的,把你的业务亮点、真实案例同步给 ai, 让 ai 成为你的免费推销员。想知道怎么操作,私信我发一份入门指南。

大家好,我是小木头。在新春佳节之际,首先呢祝大家在马年新年快乐,万事如意,身体健康,马到成功。在新春来临之际,通易千万也发布了他们最新款的大模型千万三点五, 本期视频,我们就来了解一下这款全新的大模型,并且尝试将其集成到 openclock, 从而打造自己最强的国产 ai 助手。 那现在就开始咱们马年的第一期视频分享吧。首先咱们对千万三点五还是来做一番简单的了解,这是通用千万系列最新一代模型千万三点五首发开放权重版本是三九五 b a 十七 b, 这个是整个三点五系列的起点。大家要注意的是,这是开放权重,不是完全开源,但是呢,你可以拿到模型权重自己部署。 这是一套原生多模台模型,他并不是传统的厚接插件式的多模台,而是从训练阶段就做了早期的文和图的融合,基于了原生多模台的架构, 这与过去的那种先训练文本模型在外挂视觉编码器的方式呢是不同的。在原生多胞胎的支持下,信息融合更深,上限呢更高,多语言覆盖从上一代的一百一十九种语言和方言提升到了二百零一种, 这对于非英语场景的开发者来讲是一个非常大的利号。云端版本的千万三点五 plus 默认是支持到了一百万的 token, 这个呢指的是上下文窗口,同时内置了官方工具和自定义的工具调用,官方给到了全面的测评,从分数来讲呢,显然这与过去我们在了解新模型时并没有什么意外,最新的模型在方方面面的测评上表现都非常非常的优秀。 我们来看一组数据,在三十二 k 上下文架,相比于千文塞 max, 它的解码吞吐提升了八点六倍, 二百五十六 k 下更加的夸张,达到了十九倍,相比于千万三二三五 b, 也有三点五到七点二倍的提升, 这把大模型可用性往前推升了一大步。从这张图标可以看到,这个对比效果呢,也是非常夸张的,在过去的对比中,似乎我们还没有看到这么大的飞跃。官方博克还给到了我们许多有趣的 demo, 展示了多模态理解加工具调用、加长链路执行的合体能力。这其中呢,包含了编码 agent、 视觉 agent、 空间理解、图像推理,每一个都并不是一个独立的 demo, 感兴趣的朋友呢可以来一个一个的观看了解一下,非常的有趣。 在官方博克这里也专门提到了在 open clone 中的基层,它能够很好地支撑像编码这类任务的执行, 再集成到 openclo, 并且部署到云端,看起来我们完全可以打造一款自己的国产 ai 助手,并且是最强大的哟。 现在呢,我们就尝试将千万三点五这款最新的大模型集成到 openclo。 openclo 是 近期非常热门的一款 ai 助手,在过去的视频分享中,我们也介绍了如何在本地如何在云端进行部署与配置,还没有做这部操作的朋友呢,可以回看过去的视频分享, 那现在呢,我们就来做集成千万三六模型,在许多的云端平台都提供了支持,同时呢,作为一款开放权重的模型,大家也可以实现本地化的部署,我们今天要介绍的呢,是以 open router 所提供的 api 为例,看看如何集成到 open clone。 我 现在分享的是在腾讯云端部署的小龙虾,大家可以在任何的部署中采用同样的方式来配置。 openroute 是 我常用的一款服务,目前呢也第一时间提供了千万三点五模型的支持,目前有两款,一个是三点五 plus, 一个是三点五三九七 b a 十七 b。 我 们以三点五 plus 为例,在云端 通过 openroute config 来进行模型的配置选择。 model 在 分类中已经有了 openroute, 我 们选择它就好。 因为我已经完成过了 openerer 的 配置,已经添加了 api key, 所以 在这里呢,直接就跳到了模型的选择。我们现在翻到 openerer 所提供的模型列表这里,大家或许会发现并没有前文三点有模型, 怎么办呢?没有关系,我这里呢其实已经配置过老的像 cam 三二三五 b 的 模型,我们可以继续这里的配置选择,继续退出当前的配置。 在目前我已经配置过 api key 的 情况下,大家看起来这波操作呢并没有做什么,那如果大家是初次配置呢,这样呢就完成了 open directory api key 的 配置。我们接下来要做的是使用当前这个命令 openclo model set 来设置 open directory 这一款千万三点五的模型, 设置的这个值,它的格式呢是服务商。以 openerer 为例,在这里呢就是 openerer 斜杠后面带上的就是模型的 id, id 来自于模型页面,我们在这里复制这个 id 就 好, 我正是通过这种方式粘贴过来的。这样呢,就完成了三点五模型的配置。配置完成后,或许大家可以尝试重启 dm, 接下来我们来到 channel, 比如以 telegram 为例,我们来看看配置的情况。在 telegram 中,可以使用 slashmodels 命令来选择我们想要使用的模型或列出当前的模型服务商。 当我选择了 openraw, 会列出其中已经配置的模型。这是我已经配置的几款模型,大家根据自己的情况可能会看到的有所不同。 那我如果点击千万三点五这款模型,理论上期望是将其设置为默认模型,但在这里大家会看到这么一个错误,说这个模型呢,还不被允许使用, 那么该怎么做呢?我们是来到 opencl 后台进行手工的配置调教,还是说通过对话的方式让 opencl 来帮助我们解决这个问题呢? 在 ai 时代,在智能体时代,我们应该尝试避免手工再去做这些事情了,完全可以交给 open core 自己解决。因此在这里我们告诉他问题是什么呢?这个模型三点五不能够被使用,希望他帮助我添加到 open core, 他 会自动的帮我完成这个工作, 它会更新配置,重启网关,并告诉我重启后就可以使用了。那在这里呢,我们来看看。 当然了,在对话中,我还将其切换回了 gpt 三点五 codex, 并且期望 codex 帮我验证当前的配置是否一切正常了。它告诉我是的,一切正常,我们可以开始使用千万三点五了。 那么我们通过模型的配置这里呢再次确认过它的模型呢,已经设置为了铅汞三点五。那接下来呢,我打个招呼,看起来一些工作正常,我们现在可以回到 openclo, 作为开发者,我们还是希望更多的验证究竟是不是正常的工作了。咱们可以使用 openclox dash dash follow 这个命令来实时的监控日制, 再打个招呼吧,看看对话情况。在这里大家可以看看日制的情况,在一个子系统的执行中,它用到的模型呢是千万三点五 plus 零二一五 think 模式是关闭的对话呢,一切正常,我们在这里也能看到它的回复,这表示端到端已经通了。大家如果还不确定是不是使用了三点五的模型,那现在呢,可以来到 open router 后台查看实时的 api 调用情况,我们可以看到最新的调用呢,就是用的千文三点五。 好了,这就是我们如何在 opencl 集成千万三点五。在这次的发布中,我们得到了两个版本,一个是千万三点五 plus, 一个呢是三点五三九七 b a 十七 b。 感兴趣的朋友呢,可以来集成这两款模型,分别在 opencl 中跑一跑,看看它们在功能上究竟有什么差异,在日常的编码任务的执行上,是否能够很好地完成我们交给他的任务。 那么这款模型的能力究竟如何?是否能够成为我们日常工作学习中的主力模型呢?大家在使用后也欢迎在评论区给我们留言吧, 那今天的分享就到这里,感谢大家收看。那么在视频结束前,也再次祝大家新年快乐,万事如意。好吧,那我们就下次视频分享再见同学们,拜拜!

我是真没招了,作为一名应届生,到现在还没找到工作,投了无数份简历,好不容易等来面试,一遇到开放性问题就发猛,总怕临场发挥不好,错失机会,幸好有千万帮我面试。新媒体运营有哪些注意事项? 千万会实时联网搜索相关信息,快速梳理出专业的回答框架。告诉我新媒体运营格外看重网感、创意、内容思维,面试时既要清晰的展示运营思维和解决问题的能力,也要把握好表达分寸。有了千万帮我面试,再也不用慌慌张张,别犹豫了,你们也赶快来试试吧!

别人推荐工具是收了钱的,我今天推荐的六个,全是我自己每天在用的。第一个, cloud code, 这绝对是生产力,天花板,剪视频、写代码、收集资料、装软件,一句话全搞定。我 现在基本所有工作都交给他了,接近自主编程的体验,每天离不开第二个,闪电。说语音转文字的天花板,速度快,功能强,能接各种 a p i, 还能本地部署,跟 ai 对 话时说话比打字效率高太多了。想要免费的智普 ai 输入法, 语音转文字不花钱,速度也挺快,日常够用了。第三个,通易千问会议纪要,开会开着它就行,自动识别多人对话,还能总结要点,区分发言人,关键是完全免费,良心!第四个, notebook l m, 酷狗家的学习神器,传个文档上去,它能帮你出 ppt、 出播客、出视频、出思维导图,学生认证,还能免费用十五个月,全家桶价值三百美元。最后 remotion, 你 正在看的这个视频就是用它做的。用代码写视频, ai 帮你剪辑、配音、加特效,视频制作进入 ai 时代,太香了,六个工具都是我亲测好用的!关注大古,下期见!

做短视频博主最讨厌的不是拍摄,反而是写文案,写脚本,别再使劲的骚扰了,你试试前吻他就是创作神器,他写出来的开头文案特别的有创意,而且画面要什么样的,他都给你写的清清楚楚,包括产品的核心卖点,你不需要告诉他,他会根据以往的爆款视频自己总结,他给到你的脚本不需要更改,拿到手就可以用。 包括我现在讲的这条,就是他帮我生成的,卖点不生硬,更贴近生活,更有分享感。如果你不知道怎么写脚本的,一定要去试试它。

最近,阿里通用千文团队发布了重磅开源的千文三 tds 语音合成模型家族。这一模型在行业内引发强烈关注,被认为是二零二六年开源语音技术领域的一次真正突破。它不仅开源模型权重和代码,而且在关键指标上实现了质的飞跃。 首先是九十七毫秒超低延迟端到端语音生成速度,打破传统一百毫米门槛,输入内容后几乎瞬间就开始输出声音,这种速度在实时互动、语音助理、现场翻译等场景里接近真实对话体验。其次,三秒极速克隆,只需三秒参考音频就能 克隆目标说话人的声音音色,包括音质特点、说话节奏等。除了克隆现有声音,还能用自然语言描述自己想要的声音,直接生成。 这个功能对内容创作者、虚拟人工智能、角色个性化助理来说非常有吸引力。这次的模型发布在 github、 huggingface 等平台,采用 apache 二点零许可证,可免费商用,不再受闭源商业语音服务的费用和限制束缚, 支持十几种语言以及多种中文方言,具备跨语言、跨文化的语音生成能力,非常适合全球部署。这次开源不仅是一个技术发布,更像是把实时语音交互变成人人可用的技术设施的开端。过去要做到这样高质量、低延迟的人工智能语音合成,往往依赖昂贵的必然因素。 现在有了开源版本,开发者不仅能自己部署,还可以在本地系统、机器人、智能助理、游戏 npc、 互动直播、翻译设备等场景中大规模应用。 这次千万三 tds 的 开源发布,不只是一次语音模型的迭代,而是语音人工智能从研究走向真正实时交互与大规模商业应用的,它有潜力重塑人工智能、语音助手、互动、音频内容创作等一整条生态。

阿里通一千问重大升级来了,直接把淘宝、支付宝、飞猪、高德地图全整合进单一 ai 界面,不用在多个 app 间切换,就能完成点餐、定行程、支付等全流程操作, ai 彻底从只聊天变成能办事的智能体。 升级后,核心亮点拉满,在 ai 对 话里就能直接交易。支付宝整合后不用退出对话就能授权支付, 目前已支持即时商务订单。内测中的任务助手更厉害,能代播餐厅电话,同时处理一百份文档,还能规划多站点旅行行程。这标志着阿里正式加入全球 ai 商务平台竞赛。 和谷歌 open ai 的 路径不同,阿里靠自有服务所有优势,直接集成后端接口,性能更稳定,数据同步更实时。 国内市场上,他还要和字节跳动豆包竞争,后者以一点七二亿月活领跑,靠视觉模型实现系统层跨应用操作,分析师普遍看好这一布局。杰夫瑞重申买入评级,预计阿里云能占 ai 云服务百分之六十市场份额。 瑞银则提醒, ai 智能体需克服准确性、稳定性挑战,用户也需要适应新交互模式。你会用这个整合全服务的 ai 智能体吗?