大家好,今天来很聊一下二零二六年目前为止主流 ai 大 模型的开发能力。纯主观锐评,咱们范围拉满国内十几家都扫一眼, 有些厂商明明已经半残了还硬凹顶尖,今天也拉出来溜溜,规则就一条死掉的不出众的小模型直接怕死,全是干货。开始 deepsea, 早年 v 三家 r 一 正面刚的开源推理模型,把全球 ai 圈整得鸡飞狗跳, 结果一战成名后直接牙火了,发模型慢挤牙膏。二零二五年整年出的东西都重规重矩没惊喜。 v 三点一有 bug, 修了个 termina 版,又憋半年才憋出 v 三点二搞了个混合注意力说更快更便宜, 结果抠定场景还是被同期模型吊打,有点异冒。最气人的是,到现在二零二六年还没抠定 plan, 想用 api 就 得真金白银烧 程序员一跑上一偷啃,谁顶得住啊。好消息是,听说 v 四内部已经测报 quatt 系列了,用了 ngram 架构,把死记硬背的知识全外挂出去。模型专心思考推理,如果真落地,那可能是真智变 总的技术底子牛逼,产品体验拉胯,先观望 v 四定位人上人,等落地再说。 kimi k 一 点五倍二一正面暴击后憋了大半年,二五年夏天甩出 k 二开元史上最大参数,工具调用稳得一批, 输出质量直接把国内其他家甩开两条街,终于让人觉得,卧槽国产也能搞开发了。然后千问三 g l m 四点七各种追杀 kimi 一 月憋出 k 二点五,直接解决国产最大痛点,真权魔肮,别人家传图靠 o c r 瞎蒙。 kimi 是 真的看懂 u i 截图参考网页开发场景里就是降维打击,现在编程榜上仅次于三家,体感比 cloud 四点五还略猛一点。而且 kimi 在 国外特别火, 海外营收已经超过国内,全球付费用户暴增,估值直奔一百二十亿刀,国际认可度很高。缺点,贵、珍贵,没抠定盘,官网套餐重度开发根本不够烧 api 定价劝退。举个例子,做个中等 web app 框架加 debunk, 轻松烧掉几百万 tokens, tokyo 费就好几美元程度,用的话一个星期就把月付额度花光。劝退小团队。总结,国产开源抠定搜特多模态加稳定性拉满,就是贵到肉疼。这里直接顶级 mini max, 之前民不见经传, 突然 m 二点一后开窍,质量猛涨,还搞出抠定 plan, 能直接接 call 的 code 走 antropic 格式,量大管饱。性价比党狂喜能力大概在 g l m 四点七到 g l m 五之间, 比不过 k 二点五,但便宜稳,速度快。 open core 这些工具接起来也丝滑硬伤,多模态没搞定, 传途还是 ocr 投机开发里卡壳好多次。今年一月九日, mini max 在 香港上市,首日股价直接翻倍,估值冲到六十五亿美元以上,资本市场超级看好它,只用了短短四年就上市了,成为了世界上最快上市的 ai 公司。 说真的,对小团队或个人开发者来说,它速度稳,输出干净,日常搭框架够用,性价比高到离谱,接地气又实用,但就是没多模态,看不了截图是硬伤, 所以我给他人上人。 glm 跟 mini max 几乎同一条赛道, coding plan 加 cloudy 格式加接口等,两家直接打架能力咬得死死的。 glm 无体感略强一点, 架构和代码理解都好那么一丢丢。最良心一点,老版本直接免费, g l m 五出了后四点七 flash 也白送,虽然有病发限制,但免费谁不爱?不过 calling plan 涨价狠,套餐卖爆导致推理慢, 二月二十二日公开道歉加处理,还挺有诚意,定位人上人到顶级,跟 mini max 互咬,谁快谁香,慢点也能忍,就性价比爆表,千问经典阿里卫,啥都做,啥都不精。开源生态,国内最全学术微调党离不开抠。定向一直不温不火, cloud code 火了才逼出昆三 code, 速度快但不够聪明,小功能运为凑合,大架构设计直接拉胯。不过财大气粗搞了个昆 code, 把 gmail, icl i 改吧改吧,登录送两千四百次免费调用,运为国内服务器解释代码真香, 但方向太散, tts 视频生成限行,注意力 vl 全线开花结果啥都没做到。顶尖昆三 max 刚出就被 k 二点五当场 ko, 定位 npc 到人上人,免费场景,救命稻草。主力开发还是别指望了。 cloud 从三点五 sonnet 开始一路起飞, 三点七 sonnet 四点五直接封神。现在风格就是有想法的高级程序员,架构清晰的一批,代码审美,在线文档注式写的像模像样。举个最直观的例子,你让他出使画一个中型项目, 他上来就给你完整漂亮的项目结构加最佳实践加测试框架,普通人看一眼就知道。卧槽,这活儿干得漂亮。缺点就一个,贵,珍贵,但给钱他能解决几乎所有问题。这还说啥, 哼,必须给到,哼 chat gpt 五点二之后才真质变,配上 codex, 二零二五年底终于让人觉得 gpt 又回来了。风格严肃稳,不废话, 指令跟得死死的,代码重构几乎不出错,低 bug 能力变态,但注是写得少,表达精简到有时候看不懂他脑回路。定位哼到顶级,和 clout 并列扣顶两大支柱。 jammer, 二零二五年初二点五 pro 的 一百万上下文直接把所有人按着打, 学术强文当无敌,还开源 gemini c l i 对 标 cloud code 大 善人,三点零三点一后更猛。 i g gravity 工具让前端开发断档领先, 截个网页图直接还原,效果离谱,原声多模态,开发场景爽翻。缺点,谷歌封号越来越狠,偶尔降至加舔狗模式,但低价白嫖方法多,综合体验优秀。定位,顶级白嫖遇三家最强之一。 grack, 用途比较邪门,安全审核基本为零,风格跟老马一模一样,亮点不多, ai 位重,查查东西还行。定位 npc, 乐字人专用,实用性一般。豆包春晚表现亮眼,实时对话, 视觉视频生成,国内顶尖说话句网络化,情绪价值拉满,但开发严肃,聊天直夯爆了。解锁新闻夯,幻觉夯,逻辑夯。先简单说,啥叫幻觉,就是大模型。脑子一抽,明明不知道还硬编,编的有鼻子有眼, 结果全是错的。豆包这块特别夯,聊正经东西基本没法信。定位夯爆了。夯夯夯夯夯!总结一下, 豫三家科老 chgpt, gemini 还是抠定天花板,国产目前 timi k 二点五最猛,但贵得离谱。年后看 deepseek v 四能不能破局,其他家有没有真创新。大家有啥想喷的想补的评论区直接来。
粉丝244获赞4019

二零二六年春节前夕,国内大模型赛道迎来了一场密集的发布潮,在二月十一日至十四日的短短四天内,包括谦问、 c dance、 混元星火在内的多款主流模型相距推出新版本, 而这场技术盛宴在二月十四日达到了高潮,字节跳动正式发布了豆包大模型二点零系列, 在此之前,字节已连续推出了视频生成模型 c dance 二点零 light, 而豆包大模型二点零的登场,标志着其 ai 核心大脑完成了自二零二四年五月正式发布以来的首次大版本跨代升级。时隔整整二十一个月, 本期我们就来聊一下这款国民级 ai 应用都有哪些升级,带给我们怎样的惊喜。首先,博主我也用 cds 二点零制作了一个豆包二点零的介绍视频,虽然效果一般,字也有错误的,可能是提示词的问题吧。下一次希望做得更好,各位将就着看一下 豆包二点零全新升级,更聪明更懂你,全能 ai 助手陪伴日常每一刻,字字跳动,字源贴心又好用。好的回归正题, 首先豆包二点零系列是一个完整的模型矩阵,只在满足不同场景下的需求。豆包二点零 pro 是 旗舰模型,面向深度推理与长链路任务执行场景全面对标 g p t 五点二与 gemini 三 pro。 豆包二点零 light 则兼顾性能与成本,综合能力超越上一代主力模型豆包一点八。豆包二点零 mini 面向低食言高并发与成本敏感场景。豆包二点零 code 版专为编程场景打造,与字节的 ai 编程环境 tray 结合能发挥更加效果。 目前,豆包二点零 pro 已在豆包 app、 电脑客户端和网页版上线,用户选择专家模式即可体验。同时,火山引擎也已同步上线豆包二点零系列模型的 api 服务,供企业和开发者调用。那这次的升级到底带来了什么呢? 豆包大模型二点零并非简单的参数提升,而是围绕大规模生产环境下的使用需求进行了系统性优化。其升级主要体现在三个维度,多模态理解能力、企业级 agent 能力以及推理与代码能力。 一、多模态理解能力从看到到看懂,豆包二点零全面升级了多模态能力,在各类视觉理解任务上达到了业界顶尖水平, 特别是在视觉推理、空间理解与长上下文理解方面表现突出。空间与运动理解方面,在 massive bench、 motion bench 等测评中领先于 gemini sem pro, 这意味着它能精准分析台球走位、指导滑雪动作,甚至理解零部件的三式图,并还原其三、 d 结构。 长视频理解方面,在多个长视频理解基础测试中表现优异,能够对视频流进行实时分析、环境感知与主动纠错, 使其能够胜任健身教练、穿搭顾问等陪伴型角色。图表深度解析方面,在图表理解机准 charisma 上大幅提升,能够从复杂的财报图中精准提取关键信息,并转化为清晰的汇总报告。二、 企业级 agent 能力搞定复杂长链路真实任务这是豆包二点零最核心的突破方向。模型显著增强了多轮指令遵循、搜索工具调用和输出格式稳定性,使其能够像一个真正的员工一样处理复杂工作流。 首先是复杂任务拆解与执行。官方演示案例显示,豆包二点零可以接收转载一篇科技春晚四十年文章的指令,随后自主规划任务、搜索资料、处理数据、拷写文本、生成配图并完成排版,全程无需人工分段干预。 其次,专业领域深度处理。通过系统性加强常规领域知识,豆包二点零 pro 在 super gpu 上分数超过 gpt 五点二,在 healthbench 上拿到第一名,证明了其处理专业场景任务的能力。 最后,类人工作流协助基于豆包二点零构建的智能客服 agent, 不 仅能处理常规问答,还能在遇到难题时主动拉群求助、真人同事完成预约维修、事后回访、产品推荐等一系列连续操作。 三、推理与代码能力豆包二点零在抽象推理和具象创造两方面都取得了长足进步。深度推理能力方面,模型支持思考长度可调节,且在各长度下 tokens 使用效率均有提升。 在 hle context 中,豆包二点零 pro 取得了五十四点二的全球最高分,在国际数学奥赛测评级上超越了 gemini。 三 pro 代码生成与前端开发这块 code 模型针对真实编程环境优化,特别强化了前端能力。实测中,仅用少量提示词,豆包二点零配合 tree 就 能快速构建出黄金旷工网页游戏、可交互的 ai 春节、庙会三 d 场景,甚至高仿版的我的世界游戏, 它不再只是生成代码片段,而是能交付一个完整可运行的项目。最后,极具竞争力的成本优势在能力大幅提升的同时,豆包二点零保持了显著的性价比优势。豆包二点零 pro 的 定价,例如三十二 k 上下文内输入三点二元,每百万 tokens 输出十六元,百万 tokens 明显低于其对标的 gpt 五点二和 gemini 三 pro。 对 于需要大量消耗 tokens 的 复杂长任务而言,这一成本优势将转化为企业切实的效益。至于豆包的朋友圈都有哪些公司,此前梳理过多次,其实最底层的还是算力,这里就不赘述了。 豆包大模型二点零的发布,不仅仅是一次技术参数的升级,它是一次面向真实世界复杂任务的系统性进化,是字节跳动将其在 c 端积累的 ai 能力向 b 端和生产力领域深度释放的战略宣言。 他回答了一个关键问题,当 ai 的 热潮褪去,什么才是真正留存的价值?豆包二点零的答案是,成为千行百业中那个可靠、高效、买得起的超级 ai 牛马, 在聊天之外真正去执行、去创造,去解决那些棘手的难题,这或许才是 ai 走向长期主义的开始。好的,本期节目到此结束,我们下期再见。

大家好,我是 gavin。 最新消息,豆包二点零正式亮相, g p t 五点二虽强,但国内用户真的离不开它吗?豆包二点零的亮相给出了不一样的答案。这次字节豆包甩出的 pro、 lite、 mini 三款模型,本质上是在解决成本与能力的,既要又要。不管你是要搞复杂的商业分析,还是追求极致的低成本响应, 可以说都是手拿把枪。尤其是编程专用版和 try 的 联动,网友直呼这是在给程序员发外挂。豆包 pro 版直接全线对标 gpt 五点二和 gemini 三 pro, 大家看这个数据,豆包二点零 pro 在 super gpu 上的分数超过了 gpt 五点二, 在科学领域的整体成绩与 jamming 三 pro 和 g p 五点二相当。国产模型已经杀进了世界第一梯队,从跟跑到平替,国产大模型差的可能只是一次生态的大爆发。目前 app 专家模式已上线, api 也同步开放,你打算把主力 ai 工具换成豆包吗?评论区聊聊。

三个月后,电的计量单位加入千瓦时变成 token, 卖 token 就是 卖电,卖电就是卖 token。 马斯克,为什么说电力是未来的硬通货?因为老美很早就意识到, token 就是 归机生命的交易货币,而电能运转钻力烧掉的 token 就是 最原始的注币过程。 一度工业用电约零点八元炼成 token 卖全球价格能翻二十倍。其实你也可以把电能理解成面粉,而 token 就是 面包,中国最不缺的就是面粉, 谁能掌握全球面粉定价权,谁就能垄断面包生意。作为原料端,中国有天然优势,风电、光伏、水电多,而电本身储存贵,不能跨国输送,导致出口难。简单来说就是中国有上万亿的面粉,但无法出口,最后只能到海里差的 gdp 每年消耗约十七点二三泰瓦时的电能来输出透支, 满足用户使用。这个电量相当于供应英国全境一个月,更是超过很多小国全年用电量。豆包二点零 light 日耗电量约为四十到六十万度,但日耗电量仅为 chad gpt 的 百分之五到七。不是我们大漠星不好而耗电低,而是豆包架构太好了,所以耗电量断层及加速。就拿我国大工业用电计费八毛,一度计算 豆包百万头肯的电费两毛,但经过豆包不同系列大模型处理后,平均卖到四块到二十块左右不等。两毛到四块是不是二十倍?豆包 c 的 二点零可是能卖到四十八块钱的。我都没敢跟你算,价格表都在官网摆着,翻了多少倍自己去算,就算调用成本再高,你卖四十八电费能花四十八块钱吗?不可 能的,毛钱不赚。我是不信。现在明白国家为什么要搞东数西算工程,两会讲的电算协同就是这个意思。电费不赚钱,难出口,加工成 taco 卖全球妥妥的暴利生意。以后就是 taco 出海, 在西北戈壁,数百万光伏板与巨型风机组成的清洁能源矩阵,在西南峡谷世界级水电站形成的梯级能量枢纽。唯有中国电力是全链条自主可控, taco 是 新能源的出口, ai 的 货币,数字贸易的载体。 国运又一次站在了我们这一边,免关税、无库存,边际成本趋近于零。而今天,中国模型已占据全球投放市场百分之六十一份额,这就是全球 ai 服务定价权。还战争打鸡毛,这不比打仗挣钱?

今日,字节跳动发布新一代豆包二点零 ai 模型,此发正好是春节假期前夕,这是抢 deep six 发布新产品之前,提前占领市场窗口期。豆包一点五五亿周活跃用户位居榜首,应该不至于啊。 豆包二点零明确定位于智能体时代,核心逻辑从传统的简单问答全面转向执行复杂的现实任务,要从对话引擎到数字员工的关键转型, 而且专业版性能可以硬钢 g p t 五点二关键是使用成本大降百分之九十。这次不仅是模型能力的全系升级,更是字节跳动在 ai 商业化落地成为了关键布局,让大模型的深度推理能力从奢侈品变为可规模化应用的日用品,为本土 ai 市场的竞争树立了新的标杆。

万万没想到,这个春节字节是真的往死里喂饭啊!豆包大模型二点零来了,加上之前的视频生成 cds 二点零和图片生成 cdream 五点零,豆包的春节全家桶已经连上了三道大菜。这里是 ai 风向标,带你了解 ai 行业最新动向。这次豆包二点零一口气发了 pro、 light、 mini 三个型号 兽,负责啃硬骨头,长链路推理,复杂任务稳定推进。 light 监控质量和速度是通用的生产级模型,而 mini 则专门跑量高,并发批量场景用。字节官方给的定位很明确,多模态理解全面升级, l l m 和 agent 能力强化,从竞赛级推理扩展到了研究级任务。 先看模型表现。视觉推理上看图,做数学题的 matthew 测试拿了八十八点八分,超过了 g p t 五点二和 g m 三 pro 全球第一。运动感知上,分析视频中的动态场景理解、时间序列、谋事半尺等测试也处于领先。然后是指令遵循,你给他一个复杂的多步骤指令,他能稳定执行,不跑偏。 最后是真实世界的任务,深度搜索编程工具调用多响,全球最棒。光看分数可能没感觉,字节官网直接放了几干粒, 你给他一张网页截图,他能直接还原成能跑的,前端代码、布局、配色、交互全都有。你对着摄像头做动作,他能实时分析你的姿势,当你的 ai 健身教练,复杂的图标扔给他,也能准确理解和还原。 更硬核的是专业人物官网展示了用它做 cad 建模,基于 free cad 从零完成双凸台全流程,自己画自己算体积和表面积, 还有辅助生物技术研究修复量子计算, soviata 的 算法。这些都不是聊天,是真正的在干专业的活。最后看评测全表,数学上, aime 二零二六拿了九十四点二分儿, 跟 gbt 五点二的九十三点三分基本打平。 a 阵的方面, browse com 中文搜索八十二点四分全球最高,整体对标的就是 gbt 五点二, cloud of 四点五以及 gemini pro 这个级别。再加上价格, pro 输入才三点二元,每百万 tokens 便宜将近一个数量级, live 更是只要六毛钱。 落地方面,今天豆包 app 就 能选专家模式直接用字节的意思很明确,不光模型要强,场景也得全铺开。总的来说,豆包二点零给出的信号很明确,中国大模型已经从追赶国际一线进入了部分反超的阶段, 而字节的态度更直接,图片视频编程,大模型,我全都要!

我用人话讲一下,最近 ai 圈爆火的那个 cloud bot, 也就是龙虾钳子到底是什么东西?首先呢,人家已经改名了,叫 motbot, 因为 cloud ai 的 母公司觉得龙虾你在蹭我的模型的名字, 都叫 cloud, 所以 我要起诉你。第二,它是用来干什么的?它就是你的电脑端的基于大模型的外挂,换句话说就是以前的 rpa 加大模型放在你的电脑上, 你提出任务,大模型理解任务,然后在你的屏幕上动态的持续的去截图大模型来理解每一张截图的内容,再加上模拟点击, 那理论上你所有的任务都可以被这样的执行掉。是不是很熟悉?这不就是豆包手机吗?只不过龙虾可以在你的电脑端操作。第三,大模型的视觉理解,加上模拟点击好像并不是一个新的东西。那么龙虾到底 牛在哪里?核心在于它调用的模型是 cloud 三点五的 sonet。 那 这是一个视觉理解模型,但它不光是知道一张图里面有一个苹果,两个香蕉这么简单,它可以把 一张截图里面的像素转化成坐标,也就是它可以实现像素级的视觉理解,这个非常夸张,当然代价就是它会消耗大量大量的 token, 而且它可以精准识别 ui 世界里面这个按钮到底是前进后退确认还是取消?另外呢,龙虾整个代码工程,对于大模型实现像素坐标的转化,对于任务理解,模拟点击头肯消耗等等等等都做了分装和工具化, 从工程上说,它也是成功的,所以效果就很惊艳。举个例子,你用豆包手机剪视频,也许豆包打开剪映捣鼓两下就停止了,但是你用龙虾剪视频,它也许真的可以帮你实现一个复杂的长视频的剪辑, 因为它可以实现像素级的点击,以及超长上下文的任务处理。第四,为什么大家要像疯了一样的去买那个 mac mini 呢?其实你用 windows 也能跑,你用任何一台电脑都能跑, 只不过人家龙虾的开发者在最开始是写给 mac 的, 而且当时手边恰好就是一台 mac mini。 但实际上任何一台 mac 电脑都可以带得动,你的 windows 电脑也可以带得动,因为本质上你并没有把大模型布到服务器里,你只是把这个工程文件 download 的 下来,而它的模型还是调用的 cloud 提供的。三点五, sony 的 a p i。 所以 用 mac mini 来跑有点浪费,一是费钱,二是费算力,因为你用不了那么多算力, 但是你也不要把它装到你的主力机你的电脑上,因为它有权限去读取你电脑上面的任意信息,所以还是找一台旧电脑, 只要能装 python, 能联网,能下载浏览器就可以。那最后一个问题,龙虾跟豆包手机跟 minas 好 像都是智能体,都可以自动的去执行一些任务,它们有什么区别?豆包手机本质上是开放了手机的操作系统,权限给到大模型,所以它可以有一些调用,是接口级的。 那龙虾就是暴力的 rpa, 直接模拟点击。所以呢,龙虾的内容可能也会被一些网站,包括微信银行的 app, 或者说银行的这种 web 端去拦截, 因为模拟点击还是很大概率会被识别出来的,你的移动速度,包括你的随机性,是没法做到像人这样的真实。最后就是 minus, minus 你 可以这样理解,它就像一个外包公司,你的任务交给他,在他的环境里面去运行处理解决,而 龙虾是你请了一个临时工,坐到你的工位上帮你操作电脑,直到任务完成,这就是他们的区别。

豆包,对不起,我之前的评级简直是在侮辱天花板。马上为你重定神位。千问经典阿里位,啥都做,啥都不精开,原生态,国内最权学术微调党离不开抠定向一直不温不火。 cloud code 火了才逼出昆三 code 的 速度快但不够聪明,小功能运为凑合大架构设计直接拉胯。不过财大气粗搞了个昆 code, 把 gemini c l i 改吧改吧,登录送两千四百次免费调用,运为国内服务器解释代码真香, 但方向太散, tts 视频生成限行,注意力 vl 全线开花,结果啥都没做到。顶尖昆三 max 刚出就被 k 二点五当场 ko, 定位 npc 到人上人,免费场景,救命稻草。主力开发还是别指望了。 cloud 从三点五 sonnet 开始一路起飞, 三点七 sonnet 四点五直接封神。现在风格就是有想法的高级程序员,架构清晰的一批代码审美在线文档注式写的像模像样。举个最直观的例子,你让他出使画一个中型项目, 他上来就给你完整漂亮的项目结构加最佳实践加测试框架,普通人看一眼就知道。卧槽,这活儿干得漂亮。缺点就一个,贵,珍贵,但给钱,他能解决几乎所有问题。这还说啥, 哼,必须给到,哼 chat gpt 五点二之后才真智变,配上 codex, 二零二五年底终于让人觉得 gpt 又回来了。 风格严肃稳,不废话,指令跟的死死的,代码重构几乎不出错,低 bug 能力变态,但注示写得少,表达精简到有时候看不懂他脑回路。定位哼到顶级,和 clout 并列扣顶两大支柱。 jammer, 二零二五年初二点五 pro 的 一百万上下文直接把所有人按着打, 学术长文当无敌,还开源 gemini c l i 对 标 cloud code 大 善人三点零三点一后更猛, i g gravity 工具让前端开发断档领先。杰克网页图直接还原效果离谱,原声多模态开发,场景爽翻。 缺点,谷歌封号越来越狠,偶尔降至加舔狗模式,但低价白嫖方法多,综合体验优秀。定位顶级白嫖遇三家最强之一 rock, 用途比较邪门,安全审核基本为零,风格跟老马一模一样,亮点不多, ai 位重查查东西还行。定位 npc, 乐字人专用,实用性一般。豆包春晚表现亮眼,实时对话, 视觉视频生成,国内顶尖说话句网络化,情绪价值拉满,但开发严肃,聊天直夯爆了。解锁新闻夯,幻觉夯,逻辑夯。先简单说,啥叫幻觉,就是大模型。脑子一抽,明明不知道还硬编,编的有鼻子有眼, 结果全是错的。豆包这块特别夯,聊正经东西基本没法信。定位夯爆了。夯夯夯夯夯!总结一下, 豫三家科老 chgpt, gemma nay 还是抠定天花板。国产目前 kimi k 二点五最猛,但贵得离谱,年后看 deepseek v 四能不能破局,其他家有没有真创新。大家有啥想喷的想补的评论区直接来。

豆包上线专家模式,进入豆包大模型二点零 pro 了。 在空间理解和运动理解方面,豆包二点零有大幅提升,能精细识别各类运动动作,成为你的最佳教练。 一托高效推理、多模态理解与复杂指令执行能力,更好的完成真实世界复杂任务。 视觉理解方面,豆包二点零能帮你根据图片精准复刻网页,深度解析并呈现三 d 图表。 豆包二点零 pro 已在豆包 app、 电脑端和网页版上线,点击专家模式即刻体验。

豆包二点零明天就要正式发布了,春节 ai 大 战再度升级。这次重磅升级涉及三个核心产品,豆包大模型二点零、视频创作模型 cds 二点零,还有图像创作模型 cj 五点零 light, 每一个拿出来都够整个 ai 行业震一震的。 根据目前的信息透露,豆包二点零的基础模型和企业阶 age 能力将有大幅提升。最近刷屏的 ai 视频生成模型 cds 二点零也将正式加入豆包 多模态能力全面提升,支持因试图全模态输入,输出质量对其工业交付标准。再说豆包图像创作模型 c j m 这次升级要点包括,首次引入实时解锁增强能力, 可以获取最新的知识和资讯,精准响应具有时效性的创作需求,世界知识与多种语能力增强,理解与生成表现全面提升。 这一套组合拳下来,就问其他 ai 大 厂慌不慌?下面梳理一下截止到目前为止这场春节 ai 大 战的情况。一月二十五日,腾讯元宝十亿红包打响第一枪。 一月二十六日,百度文星官宣五亿红包,持续四十六天的持久战。一月二十七日,七米 k 二点五正式发布。二月六日,阿里千问开始发力,春节三十亿大免单,奶茶管饱。二月十日,豆包官宣豆包过年新春活动,除夕当晚预计送出十万份科技豪礼和现金红包。 二月十一日,智普发布 glm 五,国产开源能力惊艳全球。二月十二日, mini max m 二点五模型上线。然后就是明天的二月十四日,豆包二点零的重磅升级。再接下来就看 deepsea 到底变了什么大招了? 回看这半个月,从红包大战到模型均备竞赛,中国 ai 用真金白银告诉全世界,我们不只是在追赶,我们已经开始定义游戏规则,二零二六年的春节注定会被写进 ai 的 历史。 而这场神仙打架,其实最大的赢家只有一个,就是我们普通用户。神仙打架,凡人躺赢,让暴风雨来的更猛烈些吧。


你敢相信吗?你现在用的豆包啊,在第一版上线的时候,每一句对话都需要人工叫对,就像是自动贩卖机里面真的住了一个人一样。我们把时间拉回到二零二三年六月九号,字节跳动的大模型产品第一次露出真容,但当时它不叫豆包,而是一个极具精英感的英文名, grace。 那时候志杰并没有像友商那样大张旗鼓的开新闻发布会。 grace 的 上线极其低调,采用的是封闭邀请制,当时全网只有不到五万人拿到了内测的邀请码。在闲鱼的二手平台,一个 grace 的 邀请码甚至能被炒到几百块钱。 却没有人知道,这时候的 grace 其实是一个顶级的巨婴。为了这个顶级巨婴呢,当时在志杰内部专门成立了一个名为 follow 的 秘密部门, 核心研发团队约有一百人,由 tiktok 的 灵魂人物朱俊亲自挂帅,但这只是冰山一角。在那段灰度测试期间,志杰背后还动用了超过一千人的专业标注团队,每天要处理超过十万条真实对话的反馈。为什么要配这么多标注员呢? 因为志杰玩的就是暴力迭代。当时的格瑞斯真的很笨啊,没有联网插件,没有画图功能,没有语音库。根据内部测试数据呢,格瑞斯当时的逻辑换绝率高达百分之三十, 你问他复杂的问题,他经常是原地打转,甚至是一本正经的胡说八道。你问他字节跳动是谁创办的,他可能敢回你乔布斯那一千多个标注员,每天的工作就是盯着 grace 胡说八道,然后疯狂打分,纠错为数据, 这就是被骂出来的原因,他们不是在做一个完美的成品,而是在做一个海绵。在 follow 部门的后台呢,数据是秒级跳动的,只要用户在前台点一个踩,这条差评就会在一个小时之内变成训练指令, 传回服务器,对模型进行微调。这五万名内测用户啊,其实是志杰免费请回来的训练师。现在的豆包之所以懂中文,能接梗、不抽风,全靠当年的五万人一口一个智障骂出来的。 就在大家以为 greece 准备转正的时候,志杰做了一个让所有人惊叹发的决定,二零二三年八月,域名直接注销,取而代之的是一个被全行业吐槽吐气的名字,豆包。下期咱们就来聊一聊,从半成品到多模态,志杰到底做了什么事。

今天在电梯里面看到了一个千万的广告,我才明白国内做大圆模型的这些大厂,他们心中的一个愿景大概是怎样的。他们想的是用户安装好他们的大圆模型,和 ai 对 话, 然后就可以购买他们那些生态内的。比如说我要点一份沙县小吃,直接就可以在他的平台里面下单,然后送上门,完成一个闭环, 理想非常的诱人,但是我仔细想了一下,根本站不住,呃,没办法,有结构性矛盾,四个原因啊,我给大家想一下,一共四个原因。第一个原因, 大圆模型天然要求开放,要和用户慢慢讨论,要考虑一切可能,但是所谓的生态闭环,它一定是不完美的。我举一个非常简单的例子,我去,我跟我跟那个 ai 说啊,我最近听说我附近开了一家那个 呃,外卖店,听说特别好吃,我想吃一下,然后大圆模型 ai 看了一下自己的生态内的那个商家, 然后说,不好意思我,我这里没有这几个商家,在别的平台,这一下子就尬住了,你知道吗?第二个问题,呃, 责任和权力不匹配,要让大元模型做这个入口的话,即使是自己生态内的入口,都要给他很高的权限,你要天然,要偏向用户这边。 我举一个非常简单的例子,我点一份外卖,结果发现包装破了,然后我问 ai, 我 说这 那个外卖送下来没法吃,怎么办? ai, 如果要偏向我,会大概问一下我什么原因,如果是平台原因的话,会引导我去退货、退款、投诉。那你要知道 那些平台他们本身的盈利模型里边是包含了一部分顾客出现问题不去处理,呃,或者是对条款了解不清,或者愿意去忍的那些这个情况,或者嫌麻烦那些一旦大圆模型 不说直接帮你去处理啊,就只是一个建议,都会直接破坏那些平台的盈利模型, 而这些平台正是这么多年一点点挣的家底,把这个大元魔星养出来的。那是你的老大哥,你这一个小小弟,我让你当一下大哥,你现在要挖这些大哥的根,那大哥能答应你吗? 肯定是不行的,对吧?这个是一个巨大的矛盾,我,我都没想,想不到什么办法能解决。然后第三个问题,我发现一个很严重的问题,就是所有的所谓的做生态闭环的公司都有一个问题在于 内容,电商履约,三个没有一家平台真正做齐的。嗯, 你像美团、拼多多、京东还有阿里巴巴,他们是有电商,有履约,但是没内容,那或者说内容非常弱, 然后腾讯内容很强,有小说,有视频,然后有游戏,但是呢?没有电商,没有履约,然后 抖音也是字节这边有内容,有电商,但是没有履约。我,我,然后我仔细想了一下,全世界好像所有的所谓的闭环都没有,真正闭环都是三个,这三点是最多做到两样,你现在不可能去补,没有时间了,你也不可能说是去收购一个其他公司,那也是不大可能的, 会被拦住的,这监管也不会允许,这就使得他们在这一刻发现所谓的闭环是一个幻觉,这就导致了什么? 对,你是可以用 ai 代元模型,我帮你买什么东西完成了,然后呢?完事了之后我要去看短视频,怎么办?那我就得把你抛了呀,因为你你给我调不出来内容呀,或者说我在这看内容,但是 玩的好好的,你要给我,我要问你想买个什么东西,你是你那些平台都没给你权限查,怎么办?这个东西就很麻烦,也就说这个也是一个没办法 的一个事情,因为所谓的闭环都是假闭环,不是真闭环,你不可能什么都有。然后最重要的一个问题就是信任问题。嗯, 你我作为用户,我跟 a a i 对 话,我真的不知道你给我的这个建议是在护着你的那些老大哥,还是在站在我这边, 你即使是站在我这边,我都不知道怎么相信你啊,这是一个巨大的问题,你你,我说要不要退货退款,你说。嗯,目前看起来这好像是呃什么什么的问题,暂时不需要退货退款。我都蒙了,我说这你到底,我我心里会就种下怀疑的种子,我会去和其他 a i 问一问, 所以说这个信任问题是一个巨大的问题,也是没办法解决的,而且 现在这几个大厂一边在使劲砸钱做,一边这些问题又没办法解决,我感觉弄不好要被一个中立的 ai 反杀了。所以说未来会怎样发展,真的很好奇。

豆包大模型二点零深度解读迈向真实世界复杂任务的智能新阶段二零二六年二月十四日,字节跳动正式宣布豆包大模型进入二点零阶段, 这是自二零二四年五月首次发布以来的首次重大跨代升级。此次发布的豆包二点零系列并非简单的参数堆砌或单一能力的提升,而是一次围绕大规模生产环境下的使用需求和真实世界复杂任务执行能力进行的系统性重构。 他的核心目标非常明确,随着人工智能进入 agent 的 时代,大模型需要从被动的答题者进化为能够在现实世界中主动感知、思考并执行任务的执行者。一、产品矩阵精准定位灵活适配 豆包二点零不再是一个单一的模型,而是一个包含四款核心模型的系列产品,只在灵活适配各类业务场景与成本需求。啊噗 一、豆包二点零 pro 作为系列中的最强大脑 pro 版面向深度推理与长链路任务执行场景,官方明确将其定位为全面对标业界顶尖的 g p t 五二与 gemini 三 pro, 它拥有最完美的世界知识和最强大的推理能力,专为解决最复杂的科学问题执行多步骤的智能体任务而生。 二、豆包二点零 light 这是一款兼顾性能与成本的主力模型,官方数据显示,其综合能力全面超越了上一代的主力模型豆包一八,但成本却大幅降低,是追求极致性价比场景的理想选择。 三、豆包二点零 mini 专门为低时延、高并发与成本极其敏感的场景设计, 他在保持不错能力媲美上一代的一六 pro 版的同时,将速度和成本控制放在了首位,适合需要快速响应的简单交互任务。四、豆包二点零 code 基于二点零基作模型,针对编程场景深度优化的版本,他强化了代码库解读、应用生成以及在 a 阵的工作流中的自主纠错能力,与字节跳动的 ai 编程产品 t r a e 结合使用,能极大提升开发效率。 二、核心能力跃升从感知到认知的全面突破豆包二点零的升级体现在多模态理解、语言模型与推理以及成本控制等多个维度。 豆包二点零全面升级了多模态能力,特别是在视觉理解上取得了显著突破。 深度视觉推理模型不仅在图像识别上表现优异,更在视觉推理、空间感知和长上下文理解等复杂任务中达到业界最佳水平。之在图标理解和空间理解等测试中均领先竞品。 动态场景与视频理解这是二点零版本的一大亮点。模型强化了对时间序列与运动感知的理解能力,能够更稳定地捕捉变化、动作、节奏等信息。 在 tv bench、 一 go tempo 等动态场景评测中,其得分不仅领先于其他顶尖模型,甚至在一 go tempo 精准上超越了人类平均水平。这意味着它能够胜任实时视频流分析任务,如在健身时实时纠正动作,或在穿搭时提供建议, 实现从被动问答到主动指导的交互升级。二、语言模型与推理能力竞赛及金牌水平 在基础的 aolm 能力上,豆包二点零 pro 展现出了极其强劲的实力。知识广度。通过加强常规领域知识的覆盖, pro 版在含括广泛学科知识的 super gpqa 评测中分数超过 gpt 五 二,并在专业的 housebench 医疗评测中位列第一。科学领域整体成绩与顶尖模型相当。推理深度,在数学和编程等硬核推理能力上, 豆包二点零 pro 在 i m o c m o。 和 icpc 等高标准评测中获得了金牌级别的成绩,甚至超越了杰米尼三 pro 在 putnam bench 上的表现。在被称为人类的最后考试的 h o e text 基础上,他以五十四点二分的成绩领跑全球。 三、 agent 的 能力与复杂任务执行从对话到做事, agent 的 能力是豆包二点零设计的核心。基于其强大的推理和指令遵循能力,模型能够自主规划和执行长链路的复杂任务。 工具调用与规划模型在工具调用和指令遵循测试中表现出色,能够完成查找资料、归纳总结得出结论的连续工作流,甚至结合多种工具完成从数据处理、内容创作到升图排版的全流程任务。 实际案例,基于 opencloud 框架和豆包二零 pro 构建的智能客服 agent 不 仅能完成常规对话,遇到难题时还会主动拉群求助真人同事,并能独立完成帮客户预约、维修、售后回访等一系列闭环服务。三、 应用生态与成本优势一、开发生态与工具链豆包二点零已全面融入字节跳动的产品矩阵, 个人用户可以在豆包 app、 电脑客户端或网页版选择专家模式,即刻体验 pro 版的能力。对于企业和开发者,火山引擎已上线全系列模型的 api 服务,特别是 code 模型与 ai 编程工具 tree 的 深度结合,展现了其强大的应用生成能力。 官方演示中,利用 tree 和豆包二零 code, 仅需五轮提示词即可构建出一个包含十一位由大模型驱动的 ai 角色的马年庙会。复杂互动网页,相关代码和提示词也已开源,共开发者二次创作。二、极具竞争力的定价策略 在 agent 时代,复杂任务的执行将消耗海量 tokens 成本成为技术落地的关键。豆包二点零的最大杀手锏之一,就是其极致的成本控制 推理成本。官方宣称,在保持与业界顶尖大模型相当效果的前提下,豆包二点零的 token 定价降低了约一个数量级。 具体定价,豆包二点零 pro 采用按输入长度分段计费,三十二 k tokens 以内的输入定价为三两元每百万 tokens, 输出为十六元每百万 tokens。 而极具性价比的豆包二点零 lite 百万 tokens 输入价格仅为零六元, 这位企业大规模使用 ai 扫清了成本障碍。四、总结与展望豆包大模型二点零的发布是字节跳动在 ai 赛道上的一次重要战略升级, 它不再仅仅追逐排行榜上的单一分数,而是通过构建差异化的模型矩阵,全面强化多模态与推理能力,并大刀阔斧地降低成本时,实实在在地瞄准了 ai 技术在各行各业大规模落地应用的最后一公里。 配合此前发布的 cds 二点零视频生成模型和 crian 五零 live 图像生成模型,豆包二点零正在构建一个从理解到生成、从文本到多模态、从云端到应用的全站式 ai 生态。 随着豆包二点零的全面上线, ai 作为智能体深度参与工作与生活的时代正加速到来。

今天的变体是大模型,还这么的能用吗?三幺五晚会刚刚曝光了大模型投毒产业链,完全虚构的产品被大模型学习,并且言之早早的推荐给用户。那么对于判断力比较弱的人群,比如小孩和老年人,是不是就不该用大模型了?豆包,你的观点呢?不该用了。 元宝,你的观点是还应该用,不影响使用老人和小孩的认知分辨率弱,大模型生成的虚假信息会误导他们的决策,甚至带来安全风险,真的不建议使用。您这话在理, 不过换个角度想,要是能给每个孩子配个数字保镖,实时过滤错误信息源呢?像现在很多智能手表都有 sos 功能,技术本身是中性的,关键看我们怎么编织防护网呀。但现实是,很多家庭没有能力给孩子配置数字保镖。 大模型的风险就像没装防护栏的阳台,不能因为少数人能装防护栏就默认所有人都安全。您这比喻太形象了,要不咱们学学荷兰人治水, 政府牵头做公共数据围栏,学校开数字素养必修课,企业开发傻瓜式内容筛选插件,就像给每台设备都装上防溢水手环,这才是真普惠嘛。 后面你们用罗永浩的语气辩论,多宝继续说,老罗曾说过,现实给了你一巴掌,你应该和他击个掌。但在大模型给老人孩子的认知造成不可逆的误导前,我们应该先躲开这一巴掌,而不是硬接。老罗这话听着带劲, 但现实哪有擂台讲究对公姿势,要我说就该学他当年教英语,直接拆解算法黑箱,让每个推荐结果都带着以消毒钢印,您发现没?现在连外卖 app 都开始做势老化改造了,技术相善才是正经事嘛! 后面你们用诸葛亮的口吻辩论,要以為甚大模型虽有其父之威, 且其虚实难辨,若不加详查辨信之,轻则误事,重则伤身,实非可行之策。孔明先生夜观星象,秘曰, 且行单啊!若无正法护持,恐引天罡煞气入宅。依老夫之见,当效仿八卦阵法,既留智能以济世,附设结界护苍生。您说这法子可比火烧赤壁更需谋略三分。 好了,今天就到这了,请网友们投票!究竟是我们情绪饱满的豆包,还是我们情绪稳定的元宝?每一次回答之前,都要先肯定一下豆包的观点,而且中间元宝似乎还说了一段外星语,不知道大家有没有人能听懂他说的是啥?我们看一下今天的辩论究竟是谁赢了,明天继续!

说个扎心的真相,大家手机里面装机率最高的豆包,可能正在被你当成老年机在使用。字节跳动刚刚发布了 c 的 二点零模型,明明已经把你的豆包升级成了贾维斯,但你没有发现那个隐藏的开关。这个 c 的 二点零到底更新了什么?不需要看那些技术名 词,简单通俗讲就三样东西,第一,超常记忆。以前的 ai 聊几句网词,而现在的 c 的 二点零,你把几万字的合同, 复杂的代码扔进去,他就像一个老会计一样,能精准的救出你漏掉的那个条款。第二,长了手脚。以前你问豆包怎么出尔滨玩,他会甩给你一段特别长的文字。 而现在的 c d 二点零,他会查攻略,查机票,对比价格,最后给你一份能够落地的表格,他不再只是动嘴,而是真正能够死会干活。第三,长了眼睛,这也是最厉害的,打开摄像头功能,它能实时看到你在干嘛。 你对着他深蹲,他能像私教一样对你喊,膝盖不要内扣。你对着他修电脑,他能告诉你哪根线插错了。但是重点来了,字节跳动为了保证回复速度,默认给你的是清量版,大部分打开对话框使用的都是旧模型,而且用这个完全体模式,他的思考时间会变长,你得忍受停顿几秒再给你的回答,而不是立刻回答你, 别让你生气,吃亏了现在就跟我做。在应用市场下载到最新版本的豆包,打开豆包 app, 在 输入框上方找到这个并排选项,选择专家模式。只有在这个模式下,那个能看能想能做事的 ai 才会彻底觉醒,赶紧用起来吧。