ai 时代所带来的巨大的变革会超出所有人的想象,因为 ai 会是一个更加伟大的时代。
粉丝43.7万获赞1547.4万

今天我们看一下豆包、千文、混元和 deepsea 这四个模型,在同样生成视频卡片提示词的情况下,它们对于 code 的 生成效果、效率以及最终的页面的效果如何,然后我们进行一个对比,然后这个是我们用到的一个提示词的内容,和我们上一期的内容呃基本上是保持一致的,呃,也是用户输入主题,然后生成对应的视频呃,这里面需要精准生成十二个单词的,呃英语的相关的读音以及含义, 然后点击朗读按钮,它可以自动间隔一秒,然后朗读十二个单词,这是核心的一些功能。下面的话是对于生成的页面上的一些要求啊,比如顺时针生成,然后顺时针生成和读取相关的单词,每一个 单词卡片里面包含音标,中文示意他的读音,这个是他的朗读的一个顺序啊,以及对他生成代码的一些限制。好,接下来我们看一下啊,我们经过一系列的对比测试之后,嗯,他们的对应的效果如何? 我们通过第一次、第二次以及最终的效果进行了一个对比。首先我们看一下豆包的一个情况,这个是代码块,和上面的提示词是一致的啊,后面的模型的提示词也是一样的,这块就不再细说了,这个是豆包呃,收到 一个提示词之后,他给出的一个效果啊,他基本上是把整个框架给搭出来了啊,里面的布局和相关的内容基本上相当于是一个 html 模板。第二次呢,自己给他提供了一个个 html 文件调整,然后这个是他输出的一个效果啊,但是这个里面的话,它核心的一个问题就是录制的时候对于 htm 浏览器之间和音频之间它的一个功能生成的有些问题,然后理解的不是很到位。还有一个是没有办法自动循环,然后我们看一下这是它的一个效果, 对,它可以实现交互,但是没有办法正常的进行朗读啊,这个是它的一些问题,然后我们经根据它生成的效果,然后我们经过了很多轮的一个沟通,包括页面交互的一些问题,然后页面排版的一些问题以及声音 嗯,播放的一些问题等等,然后进行了大概十九轮的沟通,然后达到的一个效果可以看一下 这个基本上是可以满足我们提示词的一个要求的顺序读取,然后嗯,可以通过我们可以通过视频录制的方式,然后达到相关的效果, 这个是豆包的情况。然后接下来我们看一下千问好,提示词也是一样的,给出提示词之后,呃,千问给他生成的一个方式是什么?他给出来了,呃,每一步到底具体应该怎么样去做啊?他给出来的是一个思路, 这个是他给出来的一些比如说提示词,然后他给出一些生成势力等等,然后包括样式如何修改,如何填充进去,他都给好了他的代码的一个 呃,模板,相当于是啊,但是我们其实是想让他直接生成我们最终想要的一个结果,然后我们就给他了一个提示语,生成完整的个执行的代码,那么他就按照这个要求的话,就自己嗯,自己生成了这样一个视力相对来说比较完整的呃内容,但是这里面我们可以看到,嗯,可能还是有些小问题,我们可以看一下这个视力 好,这个他基本上是满足整个的呃要求的,而且生成的这个效果,呃也是,嗯相对来说比较好的。但是有意 有一小点问题,就是他的排布之间是有些遮挡的。嗯,你比如这个位置,这个位置还有这个位置,那么我们针对他的排布,然后又经过了一些沟通,然后这主要是沟通排布的问题,然后大概进行了十十分钟的沟通,然后这个是我们达到一个最终的效果, 这个他在排布上也基本上是没有问题,而且能够正常播放视频。然后接下来我们再看一下混元的一个效果,混元当时在使用的时候啊,没有给他改成那个,嗯,编程模式,但是还出了一点小问题啊。那接下来这个测试我们是在那个混元的编程模式下,然后进行测评的, 这个是我们给他提示之后,他第一次然后就呃直接给出来了一个视力,然后包括相关的呃单词,而不只是给出了布局,但是他的布局还是有些问题。嗯,那我们看一下他第一次生成之后他的一个效果。 stream bird, moss deer, fern mushroom squirrel。 嗯,它整个的效果还是不错的啊,但是它在朗读上顺序上有些问题,还有排版的问题。那接下来这是我们第二次沟通的一个结果啊,它这个确实是给顺序排布了。嗯,然后看一下它朗读的一个效果。 tree bush stream bird 啊,我们加一下速。 tree fern mushroom squirrel path, 对,他这个呢读书也就是对的,但是他的呃排布存在比较大的问题,稀疏,包括他的遮挡的一些问题。好,那么我们针对他的遮挡问题,然后吸收问题,然后也是主要是进行页面布局问题的一些修正,然后经过六轮的一个沟通,他这个是他达到的最终的一个效果。 可以看到他这个排布还是相对来说比较均匀的,而且我们在给他提示词的时候相对来说比较精准,比如上下左右间隔多少像素啊等等,然后这样的话他会快速的理解你的含义。 然后这个的话我们经过六轮的沟通,这个沟沟通的次数和效果我认为还是比较理想的。 然后接下来我们看一下 deepsea, deepsea, 我 们给他提示词之后,然后他给了一个这是第一轮沟通一个结果,可以看到他这里面就排布比较混乱。啊,那页面是生成的有点像 web 形式的页面,然后在这里面我们根本看不到他的单词的一个结构。嗯,他的排布结构, 然后针对这些问题的话,对,就是他的页面排布比较混乱,那针对这些问题,然后我们告诉他,我们看不到单词被黑框遮挡了,然后需要根据问题优化代码,让他重新生成。那他再重新生成之后,我们看一下他的第二轮沟通的结果。哎,他直接排了两列。啊,对,但是所以就是从嗯这个里面看到他对页面排布的理解不是很精准,而且这里面他 给他的单词数量是八个,而我们要求里面是十二个,他对上下文的记忆也是不是很上下文的理解不是很精准。 呃,然后我们也是经过几轮的沟通吧,这个就没有再去详细的进行统计,因为它的页面效果,嗯,确实差距太大了。然后经过几轮沟通,我们看一下它,最终呃达到了大概是这样一个效果,然后它能够朗读的效果,可以看一下渲染 synthesis 合成算法、视频 animation, 对,他这个基本上就是顺序朗读了。然后,嗯,排布式的页面也跟我们的要求差距还是蛮大的。然后对这几个模型,然后通过不同方面进行一些对比分析。 首先我们看一下豆包,在豆包的交互页面里面他有一个非常有用的功能,就是引用啊。引用功能我觉得他是比较好的一点,就是我们对某个版本,然后或者是某些内容他的回复或者有效的,我们可以引用过来进行继续的提问,他对上下文的理解会更好一些。嗯,然后还有一个就是我们在交互的时候,不需要特意进入到他的编程,然后确定是不是需要进行扣子的输出。 还有一个它页面的交互上是有一个截图的功能,嗯,很多问题我们是可以通过图片然后去反映这些问题,因为有些不太好用文字去描述的,就可以截图给他。嗯,然后第四个的话就是生成页面的部分,它是有一个小窗口进行展示的啊,可以看一下 啊,比如像这里它不会说是把这个全部展开,而是嵌入一个子页面,然后这样的话我们在浏览上下文的时候就是会比较方便,因为有些代码会生成几千行特别多啊, 好,所以就是它的页面交互起来我觉得做的还是比较优秀的啊,它的代码是集成了 trace ide 啊,这个 trace 这块大家可以自己再看一下,但是它的问题是就是它的代码是没有办法编辑的,你可以预览,你可以下载后自己去进行编辑。 那接下来我们看一下啊他的大模型生成的效果,他是非深度思考模式下进行生成的,但即使在这种情况下,你看他啊,对于页面布局的理解是相对来说比较清晰的啊。还有一个是他的上下文的记忆啊,相对来说还是比较好的,然后而且他能够自动调用啊,适合的模型,比如说图片理解啊,然后 嗯,勾定代码的便携等等,而不需要我们自己嗯不停的切换模式啊,而且我但是这里面就是我切换过他的格式的模式,切换到格式模式之后,他对上下文的理解反而没有,在这种普通的对话框当中进行沟通,他的理解会更优秀。 那接下来说一下他在我们生成当中的一些问题点,一个就是声音他声音做的地方的问题,我认为他是对浏览器的特性理解不太透彻,然后造成的,然后这样的话就会我们沟通了很多轮,然后他才能够理解关于声音这个地方的需求。 第二个是啊,代码生成也会有一些语法上的问题,然后但是你可以点击自我修复,然后他基本上会把相关的问题啊全部解决掉。然后第三个就是不需要切换到编程模式啊,而且看比较好的能够啊。 第三个是编程模式,就跟他提到非编程模式,他是理解的比较好的,但是编程模式他的理解容易出现问题。嗯,这个是使用多包的时候需要进行注意的一个点。 那么大模型这个是一些简简介吧,然后大家参考一下啊。然后但是这个豆包这块是没有开源的,然后他可以提供 a p i 相关的接口,嗯,在我们这么多次的高频次的沟通交流过程当中啊,他的后台的稳定性是比较好的啊,即使比如说我现在联网 断了,嗯,但是我只要把消息发送过去给他,他后台也会持续的进行一个推理,所以说我认为他是稳定性是比较高的。 然后综合下来看的话,豆包啊它的交互上更占优势,以及它的稳定性上相对是比较好。嗯,从这个角度来讲啊,如果满分是十分的话,它的页面交互我觉得是可以评到十分。 然后当然还有些改进的点啊,就是个人目前看到的一个效果,然后大模型这一块的话,它的一个生成效果是七分还是几颗的,嗯,还是能够给出最终的一个效果。它的稳定性,嗯,我觉得还是蛮蛮 ok 的。 接下来我们看一下千问,千问的话他这个是可以进行多个模型的一个切换啊,那这个是他在页面上的交互上的一个优点吧。然后但是他现在的问题是他里面没有应用功能,我们没有办法针对某个版本进行优化。对,因为比如说我们 提示完某一个问题修复之后,但是可能发现他的修复效果不是很好,我们想回到上一个版本,但是没有办法。嗯,这样去修改了,然后我采用的方式是把上一个版本的代码下载下来,然后作为附件给他,然后再给出相关的一些问题,让他进行一些优化啊。第二个是没有截图功能, 那么千万他的一个,嗯,因为我觉得也用是个非常好的一个功能,对他没有的话,这款对他的评分有些影响啊。接下来是,嗯,他的一个大模型生成的效果的一个底色啊,目前是千万是没有使用这个深度思考模式啊。嗯,他的模型种类比较多, 然后本轮测试的就是千万三 max 啊。还有一个是啊,千万三有一个精品精品模式,芯片大模型,这两个大模型我觉得都差不太多给出来的效果,然后他的生成的代码质量还是相对来说比较高的,我们经过大概呃,十十左右的一个交流啊,他就能够给出比较好的一个效果了,然后他也是是没有去切换这个编程模式,就可以 有效的理解我们的诉求。他这里面有一个特别重要的一点啊,他的,嗯代码是可编辑的,嗯,这个是特别优秀啊,如果说对某一次的生成效果还是比较满意,如果是需要修改的话,自己编程尽量又比较 ok 的 话,可以直接修正,而不是需要反复的进行啊。代码跟他沟通, 但他的问题有一些吧,就是他在连续输入沟通的情况下,上下文记忆连贯性不是很好,所以我就是这块可能,呃,这个 就是在记忆存储这块上下文理解上啊,还是有一些欠缺的。然后第二个就是说对于重新生成完整代码啊,他这个地方的理解,嗯,和我们希望他达到效果不太一样啊。我们给出他这个提示之后,他有时候只会给出他小修改的内容,并没有生成完整的代码,嗯,这是他在测试过程当中发现了一些问题 啊,千问的模型很多都是开源的,但是他,嗯发布出来的千问这个大模型,他这个还是闭源的。嗯,然后他的联网的稳定性这块的话,就后台正常联网情况下就是存在一些自动断联的情况,而而且给他发消息,他存在一些消息无法送达的情况,所以说他的稳定性我觉得还是有一些欠缺。 接下来我们看一下混元,混元他的,呃就是代码页面啊,就是你像嗯,豆包是, 呃这次,呃这次 id, 然后像会员,他用的是 code buddy id 啊,他集成了这个编辑器啊。然后他现在会员的问题就是答案中代码模块没有缩放按钮啊,占据很大面积,就是不利于浏览,就是他会把所有的代码哎呀都给你展示出来,然后如果我想回到上一个问题或下一个问题,我就要不停的滚动鼠标,就这这个翻译翻的我就是有点头大了,我觉得这是肯定是他 页面当中最大的一个问题点了,当然如果我理解不到位的地方可以指出来啊。会员这块我们用的是深度思考加联网搜索模式,嗯,他这块确实是还是比较优秀的,他可以迅速的理解提示词,而且理解的会更精准,生成的代码质量也会很高。然后修改步骤,嗯,相对来说比较少的,只需要经过几次的沟通,他就能生成一个啊完整的代码。 然后但它有一些小问题啊,就是第一个是需要手动切换到编程模块,没有办法自动识别说,哎,我要,我要,你给我写一个 htm 代码,它识别不了,或者它可以识别,它可以识别,但是它在回答的内容里面是,嗯,不会以那种代码的模块的形式给你输出出来,那以正常的文本的形式输出出来,你没有办法预览和编辑,所以说这块的话我觉得还是 可以去提升一下。然后第二个时候是需要开启啊,深度思考模式或者是联网模式,就是如果不是深度思考或非联网模式情况下,它给出来的代码就是可理解性和可读性强弱,是比较差,而且没有办法进行页面的一个预览啊。然后我们看一下就是混元这块,它的一个大模型的一个情况, 嗯,这个是目前混元的一个情况,它很多也是开源的啊,但是目前我们用到的这个,嗯, 他应该是自己做的一套大模型,和开源的这些还是有些区别的啊。让我们再看一下他的稳定性, 后台正常联网情况下就是存在自动断网情况,就不是很稳定。这个是,呃,在交互过程当中发生问题还比较多的,有时候你给他的代码,然后你给他那个,那个 有时候同样的蛋白,你给它放大之后,呃,点,点击预览,预览模式下黑茶会出现说无法执行它这个时候大概率不是说蛋白有问题,而是它断网了,所以说它的稳定性不是很好。接下来我们看一下 deepsea。 deepsea 我 们测试的是继承在呃,元宝当中的,呃, deepsea 啊,它的页面,然后和混元的页面就是基本上一致的啊,它的优缺点也都基本上继承了它,嗯,然后就,嗯,我们在测试的过程当中也是采用深度思考的模式啊,给它进行测试的。和其他几个模型对比,就是在代码生成场景下,就是我们没有看到就是 divx 它的一个优点, 然后但是他的问题,呃,有核心的,我觉得大概有以下几点啊,就是其实此理也不是很清晰,没有办法实现有效的功能。第二个就是说初指生成的代码可优化空间比较小就,嗯,就是我用他的时候,当我看到第一版代码之后,我就想放弃,因为他就离我想要的东西差别有点太大了。 但是 dsp 他 比较好的就是他是开源的,嗯, dsp 他的一个稳定性这块就是也是不是很好,虽然他就是元宝给他接入了,但是他的效果也不是太好,嗯,而且元宝里面的会员是应该是同学自己的,他 稳定性也不是很好,所以就是稳定性这块我觉得还是稍微差一点。稳定性最好的,嗯,还是豆包,嗯,然后是,嗯,深度效果最好的还是这个混元的,嗯,深度思考疗法模式我认为是最优的,然后后续,嗯,可以再试试其他的。 好了,关于千问、混元, deepsea, 然后还有豆包这几个模型的对比,情况就是这样了,嗯,你们有什么看法吗?

对标 dec, 超越 gpt 四欧,阿里悄悄发布千万二点五 max, 一分钟教会你使用千万二点五 max 打造自己的 ai 编辑器。我们打开阿里云百炼,点击右上角 apit, 创建 t, 点击复制,然后打开 visco, 安装 client 扩展 api, 选择 open ai 兼容 贝斯 url, 输入阿里云的视力,粘贴刚才的 t 模型,输入千万 max 零幺二五,点击保存。我们来看下效果,你学会了吗?

给大家测试一下千万三点五,今天的话千万三点五已经更新,我们可以看到在他的官网中已经可以进行测试,他是千万三点五。 然后接下来我给大家全面的介绍一下,我们以这五个为例,第一个就是测试一下他的代码能力,第二个就是一个最近的比较火的一个问题,然后接下来是这个数列问题,然后是他的一个数学问题, 接下来是它的一个知识读补的一个通用性的问。我们首先看一下原本的这个网页, 我们可以看到这是一个亮白色的一个汇报,千万三点五的一个网页,我们会把它进行一个基于此进行一个春节风格的改造,这个是千万三点五 plus 的 一个效果。 接下来就是三点五的一个三九七 b 的 一个模型,我们可以看一下 这个模型是开源的,然后接下来我们对比下一个模型,这个是 cloud 写的一个, 接下来我们使用工薪后的 deepsea 进行看一下它的代码能力,还是比较适合中国人的审美的。 然后接下来我们看一下 jrm 五的 它的一个春节风格的改造。 好的这就是我们第一个模块,然后给大家介绍一下它的三个核心的一个架构,第一个是它的一个注意力的机制, 使用了百分之七十五的 g d n, 这个就是为了大局的遗忘啊,然后是精确的一个攻心,然后我们看一下, 接着就是它的一个 o m o e 的 架构,然后是一个多模态的融合,它支持一个原声的语音,然后我们的一个视频,还有一个文本,或者输入我们图片的一个输入, 这是我们的一个技术路线的对比。然后我们接下来进行第二个,我们进行测试一下这个问题,我想去洗车。首先是我们的 这个问题,然后我同时发送给了左侧的三点五 a 十七 b 的 开源模型和三点五 plus, 在 它的一个摆链的一个平台上,然后我与此同时我会给 deepseek 进行发送以及 jrm 进行发送。 我们看一下它的一个对比的效果。在这个界面里面我们可以进行一个官方的对比看一下,我们可以看到我们输入的信息可以包括文本,图片,视频,然后的话它输出的是仅仅是文本,因此 比如说我们可以应用在一个视频的自动剪辑上面,是可以进行使用这个模型的。接下来是它的一个价格, 最重要的是它的一个上下文,在 opencloud 里面,上下文决定着很多的一个复杂的操作,可以看到这个上下文 plus 的 话是 em。 然后这个开源模型呢是二百五十六 k。 然后接下来我们看一下他的一个结果,这个答案是一个经典的逻辑题,我们必须要开车去对很聪明的模型。然后接下来我们看一下 step, 很 简单直接的告诉我们要开车去。然后接下来是 g r m 的, 它依然没有思考完毕, 这也是我们经常测试遇到的一个问题,但是它的答案是对的。然后我们接下来进行下一个问题, 我们测试一个树列, 首先进行对于这两个模型的一个测试,当然的话我已经测试完毕,这是没有问题的。然后接下来到了 deepsea, deepsea 的 思考确实很快,我们继续, 我们已经看到 deepsea 花了四秒的时间思考完毕,还是非常优秀的。然后接下来是它的 开源的模型已经输入的结果,然后接下来是三点五 plus, 结束结果是正确的,然后接下来看一下它的 g r m, 我 们稍等它一下也是对的。然后接下来我们测试最后一个问题, 我们的结论是全部通过,我们看一下,首先给 g m 一个,然后是 db6, 然后是这两个模型,我们发送 我们看一下它的一个反馈结果, dbic 花了五秒的时间测试完毕,五秒。然后接下来看一下 三点五的模型还在推理,看一下 g r m 的 g r m 的 话也在输出, 我们可以看到他花了四十七秒输出了他的一个正确的答案, g m 五。然后接下来我们看一下三点五 plus, 还有他的一个三九七 b 的 一个模型还正在思考, 我们可以看到三点五的 plus 已经正确的输出了答案,可以发现这几个模型还是能力比较强的。 然后接下来我们进行最后一个,它是一个通用型的知识图谱的一个抽取, 我们打开我的项目到这里面,我们可以看到现在我已经处理完毕, 我们使用的是民法典的前两章,一个使用的是他的一个三点五 plus, 另一个使用的是千问的一个 plus。 然后接下来我们进行交互问答一个问题,首先对于这个 三点五的话,他已经给出了一个答案,我们可以把它给复制出来,然后通过一个中间的 ai 进行一个测评, 我们在这输入自己的问题,然后发送,然后我们看一下它的一个最终的结果, 我们可以看到这是相关的一个问题,然后是它的答案,为什么一定要这种方式呢?因为知识图谱对于我们的一个文本是一个抽象性的一个连接概念,它比普通的 red 更加的一个有上下文的衔接性,因此我们可以对比一下它回答的一个维度。 然后我们看一下它的一个三元组,这个是 千问三点五 plus 抽取的一个实体,我们可以看到是一千多个,然后接下来是它的一个 plus 的 模型,这个少一些。

哈喽,大家已经二月七号了,谁还没有喝到千问的免费奶茶?阿里狂砸三十亿请大家喝奶茶,你以为他是在做慈善?不,其实是背后藏着完整的商业闭环。 你以为你喝的是免费奶茶,其实你喝的是千问 ai 体验门票啊!二十五元的拉新成本,大厂稳赚不亏,那接下来我们就一起来看一看,这一波操作背后的商业逻辑到底是什么? 第一层,免费奶茶破圈拉新,最低成本获客,最抓人心的一步,没有复杂套路,打开千文书,帮我点杯奶茶,直接领二十五元,无门槛免单卡,全国三十多万家奶茶店通用实付,零点零一元就能下单 邀新用户,双方各得一张上线,二十一张自发转发,撬动私域流量。要知道大厂拉新成本至少五十元,千万二十五元即拉新,还让用户完成首次 ai 交互,血赚。 第二层,驯化习惯,把千问打造成生活助手,免费奶茶只是诱饵,核心是让你养成有事找千问的习惯。 平时点奶茶要多切 app, 切换笔架,千问一句话, ai 自动匹配门店折扣优惠,全程不跳转。千问要让你知道, ai 不 只是聊天写东西,还能点外卖订机票,让你遇事先要开千问。 第三层,联动阿里生态,实现三方共赢,千万背后有阿里全生态托底,这才是砸三十亿的底气。点奶茶用的是淘宝闪购门店支付宝支付,高德定位相当于串联起阿里全系业务,你薅羊毛的同时,给阿里系带来新增订单, 用户消费数据沉淀后,还能优化推荐,连线下奶茶店也能爆单省营,实现平台、用户、商家三方共赢。 第四层, ai 商业化落地,抢占流量制高点。长远来看,千万世界奶茶测试 ai 商业化可能性。春节 ai 大 战中,他不走红包老套路,用 ai 加消费差异化突围,三十亿投入,相当于大规模 ai 测试验证模型和联动稳定性,为后续 ai 广告、增值服务等变现铺路。 现在的补贴都是为了未来的盈利布局。所以啊,其实大厂免费福利,本质都是高频刚需换流量、养习惯,赚长期钱。看懂不被套路。 总结,千问请喝奶茶不是慈善,是精心策划的 ai 入口卡位站,每一步呢,都藏着赚钱的逻辑。你还见过哪些类似的免费套路呢?评论区聊一聊吧!