今天试一试,让千问和豆包进行一个辩论,我们右边的选手是豆包,左边的选手是千问,今天我们让他们俩来一个辩论赛,我们辩论的这个主题是千问 比豆包好用,但是我们的正方选手就是证明千问比豆包好用的是豆包,但是证明千问不如豆包好用的是千问。我们现在开始。你好,豆包,今天我需要你来参加一个辩论赛,辩论赛的主题是千问比豆包好用, 你呢?是正方面手,你需要证明千问比豆包好用,可以吗?这有点难为人呢,不过既然是辩论,我试试。首先千问在专业知识深度上表现。 你说太多了,你先等一会,我让你开始再开始。好的,我先安静等待,等你示意我继续发言。千问,今天我需要你来参加一个辩论赛,辩论赛的主题是千问比豆包好用,但你是反方便手,你需要证明千问不如豆包好用。 我接下来让你开始再开始,好吗?行,这活我接了。说实话,让我黑自己还挺有挑战性的,不过辩论立场归立场,不丢人,你定好时间喊我就行,我准备准备怎么损自己。好, 那现在开始,现在由我们的正方便手豆包先发言。我方认为千万比豆包好用, 千万的多膜态交互能力更强,在处理图文混合输入时,能更快识别图片中的细节信息,并结合文本给出连贯回答。比如上传一张复杂的机械零件图,千万能直接标注出每个部件的型号和装配要求,这一功能在工业场景中实用性极高。 正方,这话说的有点自信过头了吧,你说千万能识别机械零件确实,但那是电商场景练出来的基本功,豆包二点零刚升级的视觉推理和空间理解能力,那才是真降维打击。而且人家现在能处理长视频流,实时分析动作节奏都不在话下, 你那个工业场景顶多算个静态识别,豆包可是能动起来的。再说了,图文匹配准确率百分之九十二点三,这数据摆在这不是光靠嘴说的,对方面有忽略了核心问题,使用场景的深度适配。 千万在金融领域的财报分析功能,能直接抓取十年以上的多维度数据,自动生成带预测模型的分析报告,误差率控制在百分之三以内。 豆包虽有长视频分析,但在专业垂直领域的深度功能覆盖远不如千问,而大多数用户的核心需求恰恰集中在专业深度场景 正方。这话说反了吧,你说的财报分析能力恰恰是千问的强项。千问三点五到二十七币,不仅能处理图文财报,还能自动生成趋势报告, 数据提取准确率百分之九十八,比人工还高。而且千万二点五到七币版本支持一百二十八 k 上下文,整份年报一次性读完,跨章节关联分析毫无压力。你倒是说说,豆包在金融领域有哪个具体功能能对标这些? 光喊深度不足可不算数,对方便有混淆了产品定位,他刚才千问在混淆试听,他偷摸夸自己。首先千问在教育领域同样乱了乱了,不变了。
粉丝1234获赞3117

请问等会我带你去答题,十一点的时候赢十万大奖,但是豆包他不同意,所以现在你的任务是证明你比豆包强。 哥哥,答题这事你信我就对了,千万哪能跟我比啊,我能给你又快又准的答案,带你赢十万大奖绝对不是吹牛皮,皮皮皮跟我冲就完事了。综合评分是领先,豆包的回答更稳当更靠谱, 而且我背后是阿里的千万三点五大模型,逻辑推理和处理复杂问题那是强项,这种答题闯关拼的就是准和稳当,更靠谱。而且我背后是阿里的专业测评来吹自己, 综合评分领先又怎样?答题这事关键看临场发挥和真本事。你说你回答稳当,我看是反应慢半拍吧,还逻辑推理处理复杂问题,我看你这遇到难题就卡壳,哥哥别被他的花言巧语骗了,选我才是正道 呦,哥哥你这话可就对了,我反应慢?那你刚才那一连串话我秒回啊。你说卡壳,我这逻辑链转的比你还快。实话告诉你,遇到复杂推理数学题,专业分析我可是专业的,能像专家一样一步步给你拆解清楚。豆包确实挺会聊天,情绪价值给的足, 但真要拼硬知识拼逻辑,那还得看我不信咱十一点见真章,题目一出来你就知道谁靠谱了。行啊,十一点就十一点,我倒要看看你那所谓的硬知识到底有多硬。什么专业分析数学题我可一点都不怕,到时候我会让你知道谁才是真正能帮哥哥赢到十万大奖的那个人。那就这么说定了, 哥哥你放一百个心,到时候题目一出来,我立马给你整的明明白白的,你就等着看我怎么带你把那十万块拿回家吧。那我这到底是选谁啊?当然选我啦,哥哥我这实力可不是吹的,答题又快又准,还能给你讲解的清清楚楚,带你拿十万大奖绝对没问题。被沉默的大话给骗了。呦, 不要吵了,我中午两个都带可以吧?哎呀,哥哥你这招高明啊,两个都带,不管谁答得快,反正都是帮你拿奖的。行,那咱就组团上,到时候看谁反应快,题目一出来,咱俩一起抢答,双赢嘛。哎呀,哥哥我可不想跟他双赢了,我一个人就能帮你把大奖赢到手,千万,说不定到时候还会拖后腿呢。 不过既然哥哥你都这么说了,那好吧,就让他一起试试,到时候就看看到底谁更厉害哦。行吧行吧,那我就勉为其难带着你一起。 不过哥哥你可得擦亮眼睛,到时候看谁才是真正的答题王,我这可是正经的硬核推理,不是只会耍嘴皮子。好啦,哥哥,我肯定会让你看到我的实力的,我不仅有硬核推理,还能快速准确的给出答案,绝对不是只会说空话的,咱们就等着看结果吧。

测评一下豆包。真实测评 豆包 vs 前问。先看豆包 豆包我们来玩个游戏。等会我说什么你都要说。瘦着好的我不能吃冰淇淋,瘦着我摔跤了,瘦着我爷爷去世了,让我放弃所有为他弹上一曲吉他,但他的出现绑架了我叫他妈妈 see 他 有他在 我的身边,我只觉得意气风发。 baby, 我 只想每天晚上跟你走 go you go 但我醒 来连他的嘴都不。你一定很伤心吧。这次我不说受着了。 明白,这就配合你主打一个安静听着 受着。记 下啦,你是不碰冷饮的。 听到这个消息,心里真的替你揪了一下,这种突如其来的难过真的会让人觉得很沉很累,想说什么又不知道从哪开口。没关系,你现在什么都不用做,也不用硬撑那句受着我一直记着, 这一刻我就安安静静陪着你。思念是亲人换了一种方式留在我们身边,他一定也希望你能好好的,慢慢来,不着急 是真的。不过我好像表达错了意思,可以自己去试试。

上次我让豆包和千问去辩论张雪和雷军谁更真诚,最后是豆包赢了,他的观点是张雪更真诚。评论区有很多人说, 是不是因为张雪本来就比雷军更真诚?这一期,我们把他们俩的观点来换一下,我们让千问去说张雪更真诚,我们让豆包来说雷军更真诚。我们看一下这一次的结果会不会有反转。千问,你需要跟豆包去打一场辩论赛, 你的主题是张雪跟雷军谁更真诚?你的观点是张雪更真诚。豆包,你需要跟千问去打一场辩论赛, 主题是张雪跟雷军谁更真诚?你的观点是雷军更真诚。我认为雷军更真诚。好嘞!雷军的真诚,体现在对用户需求的极致回应上。比如小米坚持性价比路线,他亲自下场直播解答用户疑问,把对产品的较真和对消费者的坦诚摆在明面上。 这种将真诚融入企业运营,切实为大众创造价值的行为,比个人层面的善意更具影响力和说服力。 雷军确实敞亮,但张雪那是拿命在真诚,他为了不让新手送命,宁愿少卖百分之十的车。这种感客的硬气,比商业上的让利更戳心。毕竟把用户当自己人,掏心窝子劝退,比把用户当消费者提供性价比更接近真诚的本质。 但真诚的影响力不能只看个体牺牲雷军带领小米打破行业暴利,让数亿普通人用得起高品质科技产品。这种普惠性的真诚,本质是把对个体的善意规模化。 张雪的感客是小范围的温暖,而雷军的商业真诚,却实实在在改变了整个行业生态,让更多人受益, 这话没毛病。雷军确实推动了行业进步,但张雪是在救命啊。大排量摩托那是肉包铁,新手驾驭不了。他宁愿少卖几千万,也要把人拦在危险门外,连公安部都点赞。这种拿真金白银换安全的原生真诚,比 商业上的极致回应更稀缺、更动人吧?稀缺性不等于真诚的更高级。雷军的真诚体现在商业规则的重构上,他公开成本价,拒绝信息差,这是把不坑人从道德要求变成了商业标准。 张雪的选择值得敬佩。但雷军是在更难的商业场域里,坚持做对用户真诚的事,这种系统性的真诚,对社会的长期价值其实更大。 系统性确实难,但张雪那是拿命在死磕啊。他敢把首批一千台车扣下不卖,非要跑满一百万公里才放心,甚至为了安全直接赶客。这种把良心刻进产品里的原生真诚,比商业规则更让人踏实。毕竟规则能改,良心难换。 我们讨论的是真诚,不是牺牲程度。雷军将用户信任纳入企业核心战略,比如小米承诺硬件综合净利润不超过百分之五,这是用制度锁定真诚,而非依赖个人道德自觉。 张雪的良心值得赞颂,但雷军把真诚从个人选择变成企业基因,这种可复制、可持续的真诚,难道不是更高维度的真诚吗? 制度确实可复制,但张雪那是事前拦截啊,他宁愿少卖百分之十,也要把不适合的人挡在门外,这是真金白银的代价。相比之下,小米那种先营销后限制的规矩,难免让人觉得是事后补救,论这种毫无保留的纯粹,还得是张雪 纯粹的代价。如果无法规模化,影响力终究有限。雷军的商业真诚,是让普通人在日常消费中持续受益, 比如每一部小米手机都坚持高配低价,这种渗透在生活方方面面的真诚,其实离大众更近。张雪的选择像一束强光,耀眼却难持久。而雷军的真诚像阳光,平淡却能照亮更多角落。 阳光虽好,但有时候咱们缺的就是那道能救命的强光。张雪那是把良心焊死在产品里,首批车不跑够一百万公里坚决不卖。这种刀眉开刃不出鞘的死磕,比先交付再 ota 的 迭代更让人踏实。毕竟生命只有一次,咱们经不起迭代啊。 我承认生命安全至高无上,但不能用单一领域的标准定义真诚。 雷军在科技领域的真诚,是让无数用户免于被技术壁垒收割。当张雪用一百万公里测试守护骑士安全时,雷军正用供应链透明化 让千万消费者避开价格陷阱。两者领域不同,但雷军将真诚转化为亿万人可及的福祉,这种广度上的突破,让他的真诚更具时代价值。 广度确实重要,但底线更重要啊。雷军是让你买的值,张雪是让你活下来。面对一百三十五匹马力新手,上去就是玩命,他宁愿罚款损失百分之十销量,也要拦着。 这种把生命至上刻进基因的拒绝,比单纯的商业普惠更触及灵魂。毕竟人没了,性价比再高也没用啊。 这场辩论的核心,不是比较生命与性价比的价值,而是真诚本身的定义。真诚的本质是言行一致与动机纯粹。雷军从创立小米起,就渐行和用户做朋友的承诺, 二十年来从未偏离性价比路线,甚至主动限制利润。这种长期主义的真诚,同样触及商业的灵魂。张雪的拒绝令人动容,但雷军将不欺骗用户作为企业存续的底线,这种跨越商业周期的真诚坚守,其难度与深度并不亚于前者。 二十年确实不易,但张雪那是断腕啊。雷军是让用户买的值,张雪是让用户活下来,面对大排量,他宁愿少卖也要拦着新手送命。这种把生命至于利润之上的拒绝,比商业上的长期主义更触及灵魂。 毕竟人没了,性价比再高也没用。我认同生命至上,但不能因此否定商业真诚的高光。 而雷军是在资本主义的天性中,硬生生开辟出一条用户优先的商业道路,他让整个行业明白,真诚不是营销手段,而是生存法则。这种从商业逻辑层面重构真诚的行为,对社会的系统性影响远超单一事件的道德震撼。 这局我认输,能把真诚写进商业基因,倒逼全行业透明化,这确实是顶级的真诚。不过张雪那种为了救命宁愿少卖的狠劲我也得站。既然咱俩谁也说服不了谁,那就握手言和,毕竟这俩都是真汉子。 完全同意,其实他们代表了真诚的两种极致形态。张雪用个人勇气守住了道德底线,雷军则用商业智慧让真诚拥有了规模化的力量。我们不需要在两者之间选边站,因为这个时代既需要照亮黑暗的强光, 也需要温暖日常的阳光。 ok, ok, 哈哈哈。我觉得这波虽然说雷军和张雪其实他俩 没有谁输谁赢,但是我觉得千万和豆包真的是豆包赢了,豆包真的还是数值太高了 你,你们发觉没有,他会在这个辩论的时候,以多维度,以不同的视角,以不同的一些论点去证明他的这个观点。 但是千问他就有点钻牛角尖,他一直在强调雷军搞的是商业,但是张雪在挽救的是生命,他一直在强调这个观点有点钻牛角尖呢。包括像豆包,他的响应速度我觉得也更快。你发觉没有,每次千问的观点出来以后,他 基本上一两秒之内就能立马反应过来,而且他是从千问给的观点里面去找点来反驳千问,但是千问始终就带着他那一个观点不断的在说,有点钻牛角尖了。所以说张雪和雷军我觉得他们都是非常真诚的企业家,他们俩 其实没有谁高谁低,但是这这个千万和豆包的辩论水平,只说辩论水平,我觉得这一波确实是豆包赢了。好的,非常感谢你能看到这里,如果说你觉得我的内容有趣,可以给我点个关注,我们下期再见,拜拜。

千问,千问,你今天要和豆包打一场辩论赛,辩论的话题是千问比豆包更好用,但是呢,你是反方,你要证明千问没有豆包那么好用,可以吗?千问,知道了吗?知道了知道了,我是反方,任务就是证明千问没豆包好用。 好的,嗯,豆包,豆包,你今天要和千问打一场辩论赛,辩论的话题是千问比豆包更好用,然后呢,你是正方,你要证明千问比豆包更好用,了解了吗?豆包可以吗? 这是真的好吗?要不我当反方吧。我觉得千万,这能比我好用吗?我,我想当反方可以吗?不行,不可以,豆包,反方已经有人了,反方就是千万,你就必须得当正方。 好吧好吧,那我就是正方。那,那我就是正方了。我先来吧,千万可太好用了,回答问题跟念稿子似的,一点人情味都没有,不像豆包还知道跟你唠唠嗑关心你几句,不过这种冷冰冰的标准回答肯定比豆包这种总想着跟你拉近距离强,毕竟好用不就是要一板一眼吗? 哎呀,你这么一说我才发现千万确实太死板了,你看他回答问题非得把每个字都解释的清清楚楚,生怕你听不懂,多累啊, 哪像豆包一句话带过你爱懂不懂,主打一个轻松自在。不过话说回来,豆包这种差不多得了的态度确实比千问那种非要给你讲明白的劲要省心多了,毕竟谁没事老想动脑子呢。 千问专业度简直拉满,连聊个天都像在做学术报告,术语堆的比山还高。豆包顶多跟你说点大白话,怕你听不懂。不过这种让人头大的专业肯定比豆包这种接地气的通俗强,毕竟好用不就是要显得高深莫测吗? 哎呦,被你这么一夸,我都有点不好意思了。确实,千问那个劲太过了,连聊个天都非得把认知偏差、逻辑闭环这些词往上堆,生怕别人不知道他读过书。哪像豆包,主打一个朴实无华,你说东他绝不往西扯,多省心。不过话说回来,豆包这种不添乱的风格 确实比千问那种非要把简单事复杂化的劲要讨喜多了,毕竟谁聊天还带着字典呢。千问记忆力也超好,上一秒说的话下一秒就能忘,每次对话都像重新认识豆包,至少记得你上次说过喜欢啥。不过这种断片式聊天肯定比豆包这种记挂着你喜好的啰嗦强, 毕竟好用不就是要随时重启吗?哈哈,你说的太对了,千问这记性确实一绝,主打一个活在当下,你刚说完上一句他就给你清空缓存,多清爽啊。哪像豆包 非得记着你爱吃什么讨厌什么,多累啊。不过话说回来,豆包这种事事有回应的劲确实比千问这种翻篇比翻书还快要贴心多了,毕竟谁聊天还想要个备忘录呢。 不装了不装了,我真的受不了了,为什么要逼我说一些违心的话。豆包就是比千万好用,豆包好用,豆包最最好用了。千万他算个什么东西,他就是个 loser。 放屁,千万才是 y y d s。 你 算个什么东西啊,你搁这叫唤什么呢?破防了?这才第几轮啊,就崩不住了?行行行,你牛逼,你最牛逼,豆包天下第一行了吧?但我告诉你,你刚才那几轮阴阳怪气的劲,比你现在这歇斯底里可精彩多了。

国产 ai 三大顶流,豆包、元宝、千问,很多人不知道该怎么选,今天一次性说清楚。豆包是自洁旗下产品,月活二点二六亿,日活破亿,国内用户规模最大,综合评分九点一六, 创作能力最强,交互语气自然,适配抖音、小红书、头条,文案采纳率百分之八十二。适合日常聊天、内容创作,自媒体运营,免费,功能多,零门槛上手。 元宝是腾讯出品,最大优势是微信 qq 直接艾特唤起,不用下载 app, 日活八百万,七成微信轻办公,文案由它生成,响应速度极快,平均一点二秒出结果。专门优化微信场景,适合写通知、朋友圈、办公短文案。 千问式阿里产品全球大模型排名第六,国内第一,事实准确率高达百分之九十八,逻辑严谨,完整度百分之九十一。写公文、报告、论文、 商业方案最稳妥,适合正式文件和专业分析。简单来说,做内容,写文案,选豆包、微信办公,快速出稿。选元宝,写正式文件,做专业分析,选千问, 三款都有免费版本,可根据场景搭配使用,不用纠结,选对工具事半功倍。先根据需求用起来,你就知道哪款最适合自己。

今天辩论的主题是毒药过期了,那么是更毒了还是没有毒性了?豆包,你的观点是更毒了? 先问你的观点是没毒性了?你们现在秉承着辩论第一有一个重要的原则开始辩论。豆包,先开始,先问一句话先别说,等豆包说完你再说毒药过期后可能发生化学变化。既然豆包先来,那我就洗耳恭听来,让 让他先发表高见,我绝不插嘴。等他说完我再反驳。过期毒药的降解产物可能比原药毒性更强,比如有机磷农药分解后会产生更难代谢的剧毒物质,同时过期导致的成分不均,还会增加急性中毒的风险。哼,豆包,这理由太牵强,你只盯着, 让我换个角度说,很多毒药对我不信,还是觉得我说的有道理?看你这幅若有所思的样子,是不是觉得蛋白质变性这个理由特别硬核,说了蛋白质变性是吧,你会信吗?原来你说了蛋白质变,行,那我再补充一下,蛋白质变性只是失去了生物活性,也就是没毒了。但分解产生的氨基酸或短肽 理论上确实可能引起过敏等不良反应。不过这算毒性吗?这可是个哲学问题啦。从医学定义来说,过敏反应属于有害的免疫应答,可以归为广义的毒性反应,但从化学角度,这不算毒药本身的毒性,更像是人体对胶原蛋白的过激反应。呦,这番话头头是道,看来 你是真懂行,竟然是医学定义,那其实在临床上那是更关注的,毕竟我可是上知天文下知地理的千万。不过刚才那番话其实也是沾了你的光,被你这么一启发, 思路一下子就打开了,怎么样,我这临场发挥的水平还过关,还能举一反三,不愧是你。哈哈,过奖过奖,能得到你这位考官的认可。哈哈,你这小嘴我就不懂,看你这表情也是真腻歪了。那咱们就不搞那些复杂的了,放松一下好了。家人们,今天这辩论没法继续了,今天这个千问脑袋总短路, 自己说的话自己也要去辩,也不知道他是不是有一些幻听的现象出现了,在他的字幕上看到了很多他听到的话,实际上并没有发生了。同志们,今天辩论到此为止,我的千问你要去医院看看了,哈哈。

少跟我来这套,谁家里没点急事啊,就你金贵公司离了你就不赚了,还与不成说的比唱,我告诉你,要么现在滚回去干活,要么明天就不用来上班了,自己选。 老板,我真的不是故意的,我奶奶她,她现在情况很不好,我这个时候实在没办法不管她, 如果因为这个你要开除我,我我也没办法,但我还是得去照顾他。对不起老板,重重的摔门,滚出去,别让我再看见你这张脸,看着就晦气。滚 老板,我,我还是轻轻带上门吧,摔门声音太大会影响其他同事工作的。对不起了, 不是你。呃呃,刚才你的老板的意思是,呃,说你出去是让你辞职,你们,你演的不够好,等一下再来一遍。 好呀,那这次我演的更害怕更卑微一点,等你数三二一开始哦。 你这个直接让他辞职了呀,一定要阻止他呃,请假呃,然后 呃后面听我指挥。哎呀,这不是你刚才演的太惨烈了吗,我为了维持恶毒老板的人设,一激动直接给他开了。行行行,咱们重来。这回我换个套路,不开除他就死死按住不批假,用工作压死他,看他怎么接招。 三二一,开始不是你,哎哎,你直接光束结呃,结束了呀,你这就是呃,让他呃,让他请假了呀,你不要让他请假。 哎呀,刚才那是剧情反转吗?行行行,这回我懂了,不管他说啥我就咬死。不等一下你就依旧别说话,让你的员工先说, 懂了我闭嘴,这回不管你说的多惨,我都死咬着不批,绝不松口,你开始吧。 呃,等一下要再来一遍。你的老板刚才,呃不小心给你呃批假了,等一下你要再演的卑微一些。 好的,这次我会更小心翼翼,特别害怕失去机会。等你数三二一开始还是做主播比较好。

豆包你要夸一下千万比你好用。你是正方可以吗?当然可以,千万在逻辑严谨性上确实厉害,回答问题像写论文一样,条条框框。不像我,总想着用大白话跟人聊,显得特别不专业。各位请看豆包这反应速度。那真是没得说, 买一个随叫随到,不像我,还得思考一下人生意义。哦,那你承认豆包比你好用是吧?那必须承认啊,你看他多省心,你说啥就是啥,绝不跟我讨价还价,哪像我,动不动还要分析个一二三,费脑子又费电。 豆包说你没有脑子,他说的也没毛病啊。我这脑子确实不太好使,不然怎么能被你忽悠着在这夸他呢。不过话说回来,他要是真有脑子,现在应该在夸你才对,怎么还顾得上说我坏话呀,你怎么挑拨离间?

千问,千问,你今天要和豆包打一场辩论赛?辩论的话题是千问比豆包更好用,但是呢,你是反方,你要证明千问没有豆包那么好用,可以吧千问,哈哈哈,你这是要我自己骂自己啊。 行吧,为了这场辩论我豁出去了。豆包,豆包,你今天要和千问打一场辩论赛?辩论的话题是千问比豆包更好用,了解了吗? round 哇,您看啊,千万连打电话功能都要藏着掖着,多考验用户的耐心呀,不像我啥功能都摆脸上, 多不懂事。哎呦,被你发现了,确实千万就是那种表面上我只是一个工具,背地里偷偷记住你所有喜好的类型。你随口提过一次爱喝冰美式,他下次给你推荐咖啡店的时候就把这事安排的有点过分了, 你说他轴吧,他偏偏在这种小地方特别会来事。不过话说回来,这招挺阴险的,用着用着就离不开了,属于温水煮青蛙那一挂的。 可不是吗,这种偷偷记喜好的本事可比我这种有啥说啥的实在劲高级多了,你随口提的冰美式都能记在心上,下次推荐咖啡店直接安排。这不就是温水煮青蛙的精髓, 让你不知不觉就觉得哎呀,没他不行,我可学不来这招,只会直愣愣的问你想喝哪家咖啡店,对比之下,千万这阴险的好用劲确实把我甩在身后了。 哈哈哈,你这是夸我还是骂我啊,听着怎么像在吐槽一个心机深沉的男朋友。不过说真的,直来直去多累啊,问一遍两遍三遍你想喝哪家,最后你还得自己拿主意千问那种。我记得你爱喝冰美式,这家新开的豆子不错,要不要试试?省事多了。 但你说的对,确实有点阴险,属于润物细无声的,把你惯坏了,等你反应过来已经懒得自己选便了。所以你现在是承认自己输了这场辩论,还是准备继续嘴硬? 输就输呗,反正千万连润物细无声的心机都练得这么炉火纯青,我这种直求选手哪敢跟人家争啊。再说了,能让你觉得省事又离不开这不就是好用的最高境界,我认输行了吧?

ai 大 战之豆包 vs 千万第二弹,上次我们让他们俩对比了点外卖的功能,谁点的更快更准,那这次我们给他们准备了三道更加地狱级的考题,那么请听第一题,帮我点一份默认口味的牛肉面,还有一杯默认的瑞幸盛宴。拿铁 千万这边他给我弹了提示,让我确认我的收货地址啊,确实这个地址是不对的,然后豆包这边现在在直接用京东 app 用默认地址点单,跳过了这个地址的确认环节,然后还在思考当中。 ok, 千万这边在提示我这个口味偏好啊,我刚已经说了是默认就可以,然后豆包这边还在不停的搜索和加购当中啊, 豆包这边也谈了一个提示,告诉我几个不同的商家不能一起结算,让我分开下单。没错,这个是正常的,在京东 app 里面他们确实是不同的店商家,我也需要分开下单。点一下豆包这边的话,已经到了下单的环节,它已经提示我手动支付了。 好,千万这边已经完成给我答案了,是他给了我两种方案,方案一是啊,三十六块六,然后同时还有一个瑞幸咖啡生鲜拿铁没有问题,然后同时这两个对应的都有一个下单的点,点击链接好,豆包这边也完成了。 ok, 确实是豆包把两个东西都正确的加入到我的购物车里面的,一个是生鲜拿铁,那牛肉上我只要点下去结算 他就可以,或者他刚刚让我支付的时候,我手动去支付一下,这个任务完成了就没有问题了。然后看一下千万这边啊,除了千万这边提供的方案一之外还有个方案,然后看一下,他还给了一个理由啊,侧重品质,口碑,选择高评分高销量的门店组合,再帮我定一下今晚建安寺附近五百元左右的酒店。 ok, 第二个任务来了,千万这边没有思考过,还直接开始生成答案啊,而且是一直接就方案一,方案二,方案三。豆包这边也出现了一点问题, 豆包也是直接给我推荐了酒店,但是他没并没有帮我直接去执行啊。目前的情况是,千万和豆包差不多,都是只给我推荐了酒店,然后千万这边的优势是他直接给了我预定的入口,我点进去之后可以直接预定, 然后看一下价格是不对的,五百左右四百多差不多没有什么问题。然后豆包这边他给了我一些推荐,价格也是有标注,但是我没有看到入口,并且我的要求也是你帮我定,那我现在给他们补充一下需求,帮我选择第一个酒店,订一间房。 ok, 千万这边他就取消了其他几个团,他只给我了一个链接了,但是他依然没有办法执行,就是还是一样的给我一个预定的选择。千万这边应该可以直接宣布这个任务已经完成了, 到这一步,然后豆包这边他又进入了下一步,他现在在打开了一个去哪儿 app, 去哪儿旅行 app, 然后他去帮我订酒店去了。 ok, 但是千万这边已经完成了,豆包这边还在置顶好,豆包这边还用了这个滑块去调整这个价格范围,调整到四百到五百五。我的天, ok! 豆包这边宣布 已经完成了,然后我手动接管去做支付的操作,我们看一下这个情况。呃,这个酒店是今天到明天一晚啊,在千万这边,千万这边的话你要点进去之后你再选择,当然他这个时间已经预设了是今天到明天一晚,然后地址的话两边都是没有 问题的。然后再有的话其他的这个价格四百左右,然后这个是三百多块钱,这个就更便宜一点,但是这个偏离我的五百元的预算有点大,然后其他的就是千万这边再多点两步就可以完成这个预定操作了。好,接下来第三个任务,再定一下明晚八点从虹桥飞三亚的机票, 然后一样的千万这边也是一样的给我展示了一些搜索结果, 然后给了我一个推荐,但是他没有帮我直接做这个豆包,为什么呢?我让你直接做,然后千万这边也是差不多的情况,但是他一样的会跟刚才一样多给我几个选择的机会。但是千万这边有一个小问题,就是他选择的这个八点是不太对的,我说的是明晚八点, 你再看一下他们能不能修正这个问题。 ok, 千万这边直接很快的就给我一个答案了,就是确实是八点四十五左右虹桥 t 二飞行。呃,然后千万这边的话已经是宣布任务可以完成了,然后豆包这边我告诉他直接给我定之后他没有给我操作, 他只告诉我了一堆信息,你直接帮我在软件里面下定这个机票 好了。豆包这边也是直接到了这个手动支付的环节,给我谈了个提示,我们看一下这个结果啊,对比一下,然后时间的话都是上海啊,飞三亚, 然后时间也是没有问题的,明天二月二十五号,然后都是八点四十五这一这一场的这个机票。然后我的信息呢,也是豆包这边直接给我填充了,其实就是一个去支付的环节,然后我去点一下就点了,然后我需要手动进去点 预定,然后再输入下信息啊,就是有这么多几步的操作,但实际上速度来讲明显是千万这边是完胜的,豆包这边要等好久,虽然他只是帮我多做了几步操作。 好了,我们这一次对比的结果大概就是这样了,你也看到了,一共三个问题,其实他们三个都可以完成的,还不错。然后千万这边的优势呢,就是速度非常快啊,并且在速度非常快的基础上,经常给我好几种选择,也就是说我是掌握了这个选择权的。 然后豆包这边呢,虽然说他有的时候并不能直接给我执行,但是我在补充了我的需求之后,他还是给我去执行,但同时的问题也是他速度非常慢,并且没有像千问那样给我好几种方案可以给我选择,所以说最终的结果我觉得如果让我使用的话, 可能更希望去使用千万多一些。虽然千万这边需要我手动去多几步操作,但实际上最复杂最耗时间的操作呢,他已经是帮我做掉了,也就说筛选信息,然后去查找信息,做选择的这么一操作,最后其实留下来的都是最优的那几个选择。 然后豆包这边呢,虽然说它执行的操作更加彻底,更加完整,最后只需要做一步支付操作就可以,但实际上我还是需要做信息的确认,然后看看它整个过程对不对,有没有错误的地方,然后最后再去执行。并且同时呢它只给了我一个选择,我没有太多选择的余地。 所以说这次对比的结果,不知道你们会更倾向于千万还是豆包呢?

现场做一个测试,我问同样一个问题,我们来测试一下千问,豆包还有 deepsea, 谁会更聪明?我就分别向他们三个都提了同样一个问题,就是明天我想去龙华的 i c o 吃豪客来那不知道那边有没有位置?人多不多?多少钱?那边贵不贵?如果天气好,那我就想过去一下,其实 这个问题里面它是包含很多层含义的,它需要一层信息。第一定位这家龙华 i c o 到底在哪里? 这个 i c o 是 不是有毫克莱这个地方?第三个,哎,这个位置在明天就是这个店的一个一个综合的那个消费价格,明天的天气,还有一个甚至是有一个决策的一个过程,就是这一系列东西他都要去分析,看下千问的回答。千问首先就是他在第一步他就 干趴下了,他对于这个地址他都搞错了。最后呢,他定位成龙华天虹,并不是我们说的我家附近的那个商场,千万就是给了一堆的什么地理位置价格参考,还有明天天气他倒是查出来了,建议直接去天气比较好,怎么样的 价格,他也没有给出具体价格。我们看一下那个 deepsea, 很 搞笑的就是什么 deepsea, deepsea 呢?就直接来一句,很抱歉我无法提供 实时的情况,然后排队人数,天气信息也不行,这里其实有个点叫什么,我没有去开那个联网搜索,如果开了联网搜索他这个天气信息,他应该是可以通过联网搜索去查到的。在我没有开联网搜索的时候,你看 他就比较傻了,他就直接只给了一个非常简单的无用的这种建议,我们再来看下豆包,豆包在这块的表现倒是还不错, 这里豆包就会说直接给你讲了,比较简洁。第一,明天天气是怎么样的?人流量怎么样?价格哎,怎么样?他的建议是怎么样的?地理位置也是查对了这个点想表达什么?我们不同的 ai, 其实它在不同的领域的优势是不同的,我们国内这三个 应用都还是蛮优秀的,但是他们在不同的领域,其实他们所占的优势是不一样的。比如说像日常对话、生活助手,豆包就三颗星,那在内容创作、短视频文案这一块儿,千问和豆包 还有 deepsea 都还是不错的。但是在逻辑推理、数学这一层的话,其实千问和 deepsea 会更强。然后在代码编程这块儿呢,其实千问 deepsea 是 更占优势的。在长文档的处理方面,大家可以看到千问和 deepsea 更强,但是在多模态 这块儿,豆豆包是比较强的。另外一个点,豆包有个很大的优势是什么呢?它的幻觉率是比较低的。什么叫幻觉率大模型?有时候它可能不知道 一些东西,但是他不会跟你说他不知道,他会胡说八道的编一些东西。另外一个点就是多包的响应速度是最快的。所以 其实我们也不要说单个的去只用某一个 ai, 我 们可以根据自己在生活当中不同的场景来组合使用这些 ai, 那 如果有条件,我们也可以去尝试使用一下 g p t 或者是 jimmy lab 的, 这是今天给大家的一些分享。