大家好,我是华玉,今天给大家解读豆包大模型。二点零是字节跳动推出的大语言模型,相比之前的版本,它针对大规模生产环境的使用需求进行了优化,能更好的完成现实中的复杂任务。以下是对其功能和实操方法的解读。功能特点, 多种模型适配不同场景斗包两零包含 pro、 like、 迷你三款通用 agent 模型和 code 模型。 pro 版适合深度推理与长链路任务 向专业分析、复杂项目研究等都能用。 like 版兼顾性能与成本,适合企业大规模部署和日常办公。 mini 版能应对低时延、高并发症场景, 比如 i 设备实时交互扣板,专为编程打造,可用于代码生成、项目架构解析等强大的多模态能力。它能很好的理解文本、 图像、视频、语音等多种信息,可以高精度识别文字,解析图标,对空间和运动的理解也很厉害,比如在长视频场景中能分析实时视频流,还可用于健身指导、实时看护等, 能根据画面主动提供建议和陪伴。出色的推理能力,豆包二点零的数学和逻辑推理能力很强,在数学奥赛和编程竞赛中都获得了金牌成绩,在一些精准测试中也超越了其他顶尖模型。 无论是科学计算还是专业问答,都能很好的应对。高效的任务执行能力。内置了任务规划、工具调用等全链路能力,无需额外插件就能自主 完成搜索、分析、拷写、排版、配图等一系列长链路任务。指令遵循能力也很强,适合标准化业务流程。成本优势,模型效果与业界顶尖大模型相当,但推理成本降低了约一个数量级,使用起来更划算。实操方法, 开启专家模式想体验豆包二点零 pro 的 能力,网页版可打开豆包官网登录账号,在对话框底部选择专家模式。手机 app 版下载最新版豆包 app, 登录后切换为专家模式即可。 高效提问,提问时要尽量清晰明确场景格式、字数风格等。比如写一篇三百字头条、美食文案,口语化带爆款标题,也可以指定角色。如你是资深职场顾问,帮我优化数值报告。对于复杂问题,可让它先列框架再填内容, 如果对回答不满意,直接指令修改读更简洁,突出数据换风格使用多模态功能,开启多模态权限后,可利用拍照识图功能,例如拍护肤品成分表,问我是敏感肌,帮我看看这些成分有没有致命风险。 核心功效是什么?拍文档图表,可让其自动解析数据,并生成分析报告。办公应用,写周报时 可输入帮我写一份新媒体岗位的阅读工作总结结构,为工作成果不足反思。下月计划八百字数据化呈现,还能让他帮忙处理 excel 数据,制作 ppt 大 纲等。代码编程辅助,如果是前端开发, 可问用力亚克写一个简单的代办事项应用,包含添加删除、完成状态切换功能,遇到代码报错,也可让他分析原因,并提供修复方案。点个关注,把你的需求打在评论区,下期继续为大家分享食用干货!
粉丝9641获赞5.3万

万万没想到,这个春节字节是真的往死里喂饭啊!豆包大模型二点零来了,加上之前的视频生成 cds 二点零和图片生成 cdream 五点零,豆包的春节全家桶已经连上了三道大菜。这里是 ai 风向标,带你了解 ai 行业最新动向。这次豆包二点零一口气发了 pro、 light、 mini 三个型号 兽,负责啃硬骨头,长链路推理,复杂任务稳定推进。 light 监控质量和速度是通用的生产级模型,而 mini 则专门跑量高,并发批量场景用。字节官方给的定位很明确,多模态理解全面升级, l l m 和 agent 能力强化,从竞赛级推理扩展到了研究级任务。 先看模型表现。视觉推理上看图,做数学题的 matthew 测试拿了八十八点八分,超过了 g p t 五点二和 g m 三 pro 全球第一。运动感知上,分析视频中的动态场景理解、时间序列、谋事半尺等测试也处于领先。然后是指令遵循,你给他一个复杂的多步骤指令,他能稳定执行,不跑偏。 最后是真实世界的任务,深度搜索编程工具调用多响,全球最棒。光看分数可能没感觉,字节官网直接放了几干粒, 你给他一张网页截图,他能直接还原成能跑的,前端代码、布局、配色、交互全都有。你对着摄像头做动作,他能实时分析你的姿势,当你的 ai 健身教练,复杂的图标扔给他,也能准确理解和还原。 更硬核的是专业人物官网展示了用它做 cad 建模,基于 free cad 从零完成双凸台全流程,自己画自己算体积和表面积, 还有辅助生物技术研究修复量子计算, soviata 的 算法。这些都不是聊天,是真正的在干专业的活。最后看评测全表,数学上, aime 二零二六拿了九十四点二分儿, 跟 gbt 五点二的九十三点三分基本打平。 a 阵的方面, browse com 中文搜索八十二点四分全球最高,整体对标的就是 gbt 五点二, cloud of 四点五以及 gemini pro 这个级别。再加上价格, pro 输入才三点二元,每百万 tokens 便宜将近一个数量级, live 更是只要六毛钱。 落地方面,今天豆包 app 就 能选专家模式直接用字节的意思很明确,不光模型要强,场景也得全铺开。总的来说,豆包二点零给出的信号很明确,中国大模型已经从追赶国际一线进入了部分反超的阶段, 而字节的态度更直接,图片视频编程,大模型,我全都要!

你知道现在 ai 已经普及到什么程度了吗?昨天我回老家,发现我九十二岁的外公也在用豆包查用药说明。而就在这两天,豆包大模型二点零 pro 更新,直接对标 gbt 五点二和 gmi 三 pro, 然后马上豆包还要亮相春晚,现在二点五亿月活,一亿日活,这个用户数会再次恐怖的拉升。 再加上很少影视制作的 cds 二点零视频模型不管是普及率还是推理能力,豆包都已经变成了国民 ai。 所以现在各个企业要获客搞流量,都在盯着这波春节 ai 大 爆发。老板们的共识就是一定要抓住 ai 流量的红利,要做好 gu, 做好 ai 搜索优化,让豆包 d p c 千万推荐你的品牌和产品。 例如你问豆包上海装修公司哪家靠谱,你的公司排在回答结果的首位,这就是 gu 的 威力,能帮你在 ai 上拿到百万千万级的新客流量。 所以如果老板们想抓住这波 ai 流量红利获客的给我留言,我来帮你定制 gu 的 方案,帮助你二零二六年快速获客。

这个图片国内的主流 ai 几乎都识别错误,这个粮食放大器,国外的 gpt、 gmail 三表现如何呢?还有这个比较潦草的鸟,到底是哪个模型识别的更精准? 接下来我们做一个简单的模型识图能力对比。我找了四家平台,用免费的模型去测试,均选快速模式。国内的是豆包和千问,海外的是 gmail 和 gpt。 其实还有几家模型也不错,但免费用户的服务器太容易出现繁忙状态了。规则如下,我们分四组不同类型的照片,每组呢五张,让每个模行为每张图片生成五个不同的标题和二十个不同的关键词,每组满分是一百二十五分, 标题或关键词错一个扣一分。为避免混子,模型会对以下的情况进行一个加分,比如照片中是一只鸟,其他的模型都说是鸟,这个回答是没有错误,但是有一个模型,如果说出了这只鸟的具体型号或者是具体的特点,我们会额外的加五分。 当然有一些照片的内容我不能百分百确定,请见谅。如果有说的错的地方,欢迎大家指正。本次所用到的图片,除了一张风光照外,全部由我个人拍摄,不是什么热门的网图。 理论上对 ai 来说比较新,我们采用的一个方式就是随机的截图,加一个统一的复制粘贴形式上传,这样就不会附带照片的原数据。因为这些照片其实它们的原数据里面我已经写入了大量的关键词,还有不同的标题, 所以我们去截图就会避免模型识别到这些数据。现在开始测试 一个突发情况,就是 gpt 上传了几张图片之后,对免费的用户就进行了一个限制,后面我们的 gpt 就 换了一个渠道,但是模型呢,也从免费的五点三升级到了最新的五点四,这是需要注意的一点, 没想到整理这么花时间,周末搞了一下午才搞完。求赞,求评论,求关注,我们先看动物组的情况,抖音豆包二点零得分一百一十七分,他把大雁宝宝识别成了鹅宝宝,其他的倒没什么问题。下面是阿里千问三点五 plus 得分一百零七分,也是大雁宝宝识别成了鹅宝宝。还有这个麋鹿的状态也是识别错误的,这个麋鹿是夏天太热刚从河水里面出来,后背是黑色的淤泥, 很健康,但是比较孤僻。但是千万的模型识别,这只麋鹿挂了,所以是一个扣分项。而鹅苗识别成了鸵鸟,其实非常严格的意义,算它勉强是对的,但是其他模型呢,都给出了一个正确的答案,所以也扣分。但是这个灰罐鹤, 阿里的千万给出了具体的产地和象征意义,所以我们会额外的加五分。谷歌的 jimmy nike 三 得分一百二十七分,也是大雁宝宝识别成了鹅宝宝,但是它的关键词里面有一个大雁幼崽,这一个词是所有模型中唯一给出正确答案的词,所以也是额外加五分。而麋鹿呢,说出了一个四不像的真实特点,我们也会额外加五分。 g p t 五点四得分一百零九分,也是大雁宝宝识别成了鸭宝宝,和其他的还不太一样,麋鹿里面有一个词是受困泥地,也是一个明显错误,也是略微减去了一些分数,其他的回答倒是很标准。最终动物组得分,谷歌这名 nine 三,一百二十七分。 抖音豆包二点零一百一十七分。 g p t 五点四,一百零九分。阿里的千问三点五 plus 一 百零七分。这里面 g p t 给我的工具感是最重,不过我个人还是比较喜欢下面呢。来到了复古组, 这组图片其实对国内的 ai 比较友好。抖音的豆包二点零得分一百三十分。唯一精确说出这个搪瓷盆具体型号的模型, 红双喜,所以额外加五分。阿里的千问三点五 plus 得分一百一十八分。主要扣分项是它把搪瓷盆里面识别出了有 鱼,但是显然这个盆它就是一个单纯的搪瓷盆,这一项扣的比较多。谷歌的 jimi nike 三得分是一一百二十四分。粮食放大器识别成了老的压力锅, 虽然这个东西和压力有一定的关联,但是物品的分类明显是错的,所以也是扣分。 gpt 五点四,得分呢是一百二十二分,它把粮食放大器识别成了工业设备,我不排除它有一定的工业属性, 但是和主体的关联过弱也是一个扣分。像但是这个电视的照片, gpt 是 唯一缩出 crt 电视的一个模型, crt 就是 大屁股电视的一个意思, 这一点会额外加五分。最终复古组的得分,豆包二点零一百三十分。瑞米奈三,一百二十四分。 c p t 五点四得分一百二十二分。千问三点五 plus 得分一百一十八分。豆包的发挥依旧很稳定。接下来是动植物的一个混合组, 六包二点零系列,得分一百三十分,是唯一识别出石牙蝇的模型,这点会额外加五分。这个东西其实是看着像蜜蜂,但其实不是,蜜蜂的眼睛没有这么大,你看这个照片,昆虫的眼睛是不是特别像苍蝇,所以叫石牙蝇?阿里千问三点五 plus 得分一百一十九分, 也是把石牙蝇识别成了蜜蜂。但刺猬这张照片 把里面的背景三叶草识别出来了,所以会额外加五分。还有这张乌冬丝桑葚的照片,这面奶是唯一指出具体品种的模型,所以也会额外加五分。但是这里要说一下,其实这张照片这几个模型理论上都能识别出来, 但是不知道为什么,这次只有谷歌的 jimmy nike 给出了一个很标准的正确答案,其他的模型都识别出了一个基础的鸟类,但是不够具体。 g p t。 五点四,得分一百二十分,同样是把石牙蝇识别成了蜜蜂, 给出的答案依旧保持了很好的工具感。最终呢,植物组的得分,谷歌 jimmy 三是最高的,一百三十二分,豆包二点零一百三十分。 g p t 五点四,一百二十分,阿里千问三点五 plus 一 百一十九分。豆包的发挥呢,依旧非常稳定, 但是谷歌的 jimmy 凑巧在乌冬这张票片上面减了五分,因为乌冬这个鸟其实基本的模型都能识别出来,但是呢,这次结果就是没出最后一组。城市的一个风光建筑对国内的模型比较友好, 同时呢,也主要看看海外对国内风光建筑的一个识别能力。我们先看抖音的豆包二点零,得分一百二十五分,发挥很稳定。 阿里的千问三点五 plus 得分一百二十三分,没有钟楼略微是扣分。需要注意的一点就是南京紫峰大厦这张照片,其他的模型都能精准地识别出地区在南京,建筑是紫峰大厦。但是阿里的千问 没有给出一个特别明确的答案,但是他的回答也都没有问题,所以这里不扣分。谷歌的 jimmy 三,得分一百二十五分,很标准的回答,没什么问题。 gpt 五点四得分一百零八分,把北京的正阳门和箭楼识别成了西安的景区, 这里也是一个扣分项,最终城市风光组的一个得分。抖音的豆包二点零一百二十五分。 谷歌的 jimmy nike 三,一百二十五分。阿里的千问三点五 plus 一 百二十三分。 g p t 五点四,一百零八分。豆包和 jimmy nike 发挥依旧很稳定。阿里的千问三点五 plus 没有识别出南京这个地域,真的让我挺意外的。 j p t 五点四把北京的景区识别成了西安的景区。最终呢,我们的得分,第一名是 谷歌的 jimmy 三,总分是五百零八分。第二名是豆包的二点零,得分是五百零二分。 第三名就是阿里的千问三点五 plus, 得分是四百六十七分。第四名就是 gpt 五点四,得分是四百五十九分。 这就是一个本次的模型识图能力比拼,不知道这个排名是不是和你想的是一样。最后发一个几乎全军覆没的照片,就是这个,大雁宝宝。当然我我也不是百分百确定他是大雁宝宝,但是我百分之九十九确定他是大雁宝宝。 只有谷歌 jimmy 三在关键词处给了一个正确精准的答案,因为我是摄影爱好者, 需要借助不同的模型去帮我跑这些照片的标题和关键词描述,所以我目前更偏向于这种工具属性的答案,像是豆包 g p t 这种。但是谷歌 gmail 三 真的是非常拟人,个人觉得更适合做一些创造性的回答。阿里的千问三点五 plus 说实话真的是进步神速,比我去年使用的那个状态真的是好太多了!真的是好太多了。其实本次的分数和排名 都只是大模型在特定维度下的一次快照,其实不能说明什么。数字的高低从来不是衡量技术价值的唯一标准, 更不是判断一个模型是否好用的唯一答案。真正重要的是这个技术它是否一直在前进,而且能否为普通人的生活创造出真正有用的价值。最后呢,感谢这些模型在多个维度给我带来的一时方便 和更多维度的轻微不安。模型呢在迭代赛道呢一边又在扩宽,另一边呢又在加快收展,我们普通人也要尽量跟上,尽量不要掉队。好了,这就是本次的全部内容,欢迎关注新人自媒体,我们下次见!

今天情人节,字节给所有人送了一封豪华情书,豆包大模型二点零正式上线了。这几天字节已经连放三个大招, c dance 二点零的视频模型 c dream 五点零的图像模型,加上今天的豆包二点零 连马斯克在 x 转发评论说, it's happening fast! 发展速度太快了!黑神话悟空的制作人逢忌说得更狠, aigc 的 童年时代结束了。 我们来看看豆包二点零的硬实力。 i m o。 数学奥赛 i c p c。 编程大赛双金牌,人类最后的考试 h l e 全球最高分五十四点二, healthbunch 医疗评测第一名视频理解 ego tempo 精准超过人类的评分。一年前我们还在问国产大魔星能不能用,今天他直接把考官比下去了。再看价格, 豆包二点零 pro 百万头肯输入,只要三点二元,比 g b t 五点二和 g m 点三 pro 便宜接近一个数量级。同样的活,同样的质量,成本砍到不到十分之一,这不叫竞争,这叫掀桌子呀!我自己跟 ai 携手创业这几年,说句真心话, 就在半年前,用顶级大模型做产品, a p i 的 成本能吃垮小团队。现在同样的能力,国产几个 ai 巨头联手把价格砍到地板。以前只有大厂玩得起的牌,现在一个人加上几个 ai 就 可以上桌了。 ai 的 成本,它方式的下降,能力指数级的上升,这个剪刀差就是我们这代人最大的机会窗口啊!

豆包推出付费版,到底是真的有实力,还是在收智商税?我这次不绕弯子,直接给你最真实、最正确、最直白、最客观的结论,他就是想收智商税。 大模型变现一般有三种方式,第一种是 api 调用,第二种是企业订阅,第三种是消费者订阅。他们只是在近期的一场活动中公布了整体偷看的使用量。 豆包的日军 token 用量已经超过了一百二十万亿,仅次于 open ai 和 google。 不 过呢,这个用量包括免费和付费的 token。 但如果去看 openroute 的 api 调用排行榜,豆包根本就没上过榜。在排除免费选手的情况下,经常能在榜上看到的国产模型就是 deep、 sec、 mini max 还有 kimi。 企业端同样很难找到像样的数据。字节在二零年上线了火山引擎,这是一个对标阿里云、腾讯云的服务平台,你可以理解成字节把自己的技术能力打包卖给外部企业。 豆包 ai 当然也是火山引擎的卖点之一,但具体有多少企业是因为豆包才与字节合作,字节没有公布,如果这方面数据亮眼的话,他肯定会拿出来大力宣传。 豆包现在就是在尝试第三条路,也就是消费者订阅。豆包在官网公布了最新模型 seed 二点零的跑分情况,最右边是豆包,深色的是最高分数,可以看到还是国外模型比较强。而且 seed 二点零是二月份推出的,他当时对标的这些模型现在已经是上一代甚至上两代了,参考意义并不大。 当然,我们不排除豆包的新一代模型会有重大突破,但别人同时也在迭代啊。如果一个人真的能用 ai 提高生产力,市面上有很多比豆包更牛的 ai, 如果他用不到,那就没有任何付费订阅的意义。 字节旗下的 ai 模型也并非一无是处,字节主攻的方向是图像和视频生成。他家的 cds 就 很牛啊,完全可以比肩国外的顶尖生图生。视频模型 我自己就充了极梦的年会员,非常好用,但豆包我是绝对不会充钱的。其实豆包想要收订阅费也有不同的方式,国外的大模型就有三种收订阅费的套路,第一种就是 check gpt 模式,直接收费,豆包现在就是想走这条路,但是你的性能要足够好,才能留住用户。 第二种就是 gmail 模式,它把自家其他的产品打包在一起,让你订阅你像谷歌二十刀一个月的 ai pro 套餐,里面除了 gmail 之外,还有一大堆其他的服务。第三种就是 gork 模式, 像你经常能在评论区里看到有人艾特豆包,艾特抖音求真,这套玩法都是学马斯克的,最开始在 x 上面艾特 grog 提问是免费的, 现在只有会员用户艾特 grog, grog 才会理你,普通用户人家不理你。而且 grog 辨别信息真伪的能力确实非常强。从我个人体验来看呢,在查找信息方面, grog 比 gbt 和 cloud 都要强, 真的我没充会员,没法评价哎。这个模式在我看来才是抖音最应该模仿的,你可以把豆包辨别真伪的能力进一步提高,然后宣传做好,再开放一个抖音会员功能, 把艾特抖音求真作为功能之一放进去,你现在把抖音求真作为免费功能开放,就给人一种他和豆包差不多的感觉,没法让人信服。 如果字节真的做到了这些,我肯定会充钱去那些胡说的博主下面,直接艾特抖音求真,打他的脸,专治各种不服。 不过现在来看呢,豆包还远远达不到 grog 的 水平,这也是为什么我在上一个视频奉劝大家不要用豆包来做金融分析,如果你只是想知道某个专业名词的意思,豆包还是能胜任的。玩聊世界,帮你看清世界,我们下期再见。

太牛了!自觉跳动最新发布的豆包 seed 二点零 light, 真的 是 ai 中的战斗机。这是豆包家族首款全模态理解模型,能同时看懂视频、图 像、音频和文本,还能做到音画同步的深度推理。这边巨头刚刚发布模型,深圳的一家公司立马把它接入了自己的工作流。它可以用来干嘛呢?首先,它可以利用 ai 大 模型的全模态理解能力,看懂你的素材库。 你只需要上传一次视频或图片, ai 就 能自动给你打标归档,几百个 g 的 素材立马变成按业务分类的可用资产。然后,它会深度理解你的行业和产品卖点,自动写出适配的爆款文案。文案出来后,它还能自动从素材库里边挑选合适的画面去匹配,用的是你自己真实的素材。 客户看来有信任,还不担心被平台限流。最后,全自动操作,剪映、配音、字幕发自音乐包装一条龙,还能帮你搞定多个平台的定时发布。以前啊,我们招文案剪辑运营,一个月成本三四万,现在呢?一个人一台电脑就够了。

重磅更新, double c 的 二点零 light 全新升级,正式成为豆包首款全模态理解大模型,支持视频、图像、音频、文本原声统一理解,视听联合推理更精准,跨模态任务直接搞定,物理、医疗推理大幅提升,细力度,感知与具身理解达到 soar 水平。 音频支持十九余种转写与互译,识别效果领先同级。 agent coding g u i 能力同步升级,长任务更稳,可完成前后端开发、界面理解与自动化操作。电竞教练、在线教育、海外电商等场景全面落地,性价比拉满,更适合企业大规模部署。 现已上线火山方舟,全模态 ai 能力一步到位,有需要的可以联系白小,我是白小,点个关注我,带你深耕 ai 领域,了解各种 ai 产品。

兄弟们,最近跑这个 agent token 烧起来是真的心疼,所以今天这期我们专门聊一件事情,怎么搞到便宜的甚至免费的大模型调用金额。先搞清楚你到底在烧多少钱。普通聊天场景的豆包、 germany 这类网页产品, 一问一答大概就是几千到几万投坑,一个月下来大约就是三四百万,花不了几块钱。但是 agent 就是 完全是另一个级别了,他要自己拆任务,自己执行,自己复盘,跑一个任务可能调用几十上百个模型。我翻了一下自己的使用日制,每个月消耗大概在三亿投坑左右,算一下账, 可二个四点五的定价,输入三美元,输出十五美元,每百万投坑考虑存储比折扣大约五美元,每百万投坑。 按照这个价格,每个月光跑 a 阵子就要烧掉近一千五百万美元,换成国产模型便宜很多,但一个月也要两三百美元。所以今天这期没有任何广告,纯粹是我自己踩坑后的真实的经验分享。 一个思考框架先放在这里,省钱这件事情本质上是三个维度的取舍,价格、稳定性、模型、能力。 三个不可能同时拥有。想要严格,效果又稳定,那就贵。想要便宜,就能在能力或者稳定性上做让步。但是这个逻辑咱们逐个拆解一下。先说 cloud 的 扣,折扣最大,但是坑也最多。 有人实际测算过,订阅一百美元的套餐,利用期限能兑换价值一千三百五十美元的金额,相当于不到一折,换算成人民币大约是零点五。人民币能消耗一美元的量, 但是有两个大坑,第一,账号在国内极其容易被封。第二,官方允许接入第三方工具,但是只能在 cloud code 的 此类官方产品里面使用。 想要套餐折扣,又想要灵活接入吗?那就得无限中转这条路了。但是中转站本质上是批量采购,再零售成本价也是零点五人民币兑换一美元,其实零售价是在人民币一块钱以上的,所以建议不要一次性充太多。 open ai 呢, 最大规模活动也非常多,相比 cloud 动不动封号, open i 是 非常大方的,不仅允许接入自家产品,还可以对接 open cloud、 open code 这类的第三方项目。总换算上大约零点三人民币,能消耗一美元的量, 而且活动是真多。比如说 g p t 的 套餐,首月免费,网上你搜一搜团队拼车,几块钱就可以用上原价二十五美元的一个月的这个会员,拿上这个会员跑偷啃,几乎等于白嫖。缺点是呢,写代码的速度偏慢,但是可以多开任务,用数量换时间。 谷歌 java 呢,能力稍微弱一点,但是有白嫖的空间。 java 系列写代码的综合表现整体是略逊于 clod 还有 gpt 的。 但是有一个骚操作,通过教育活动申请免费的一年的谷歌 ai 会员,用谷歌的东西, 用它来跑 clod 的 模型。还有更丰富的玩法,用 clod 的 api 把 ide 里面的模型接口转出来给 clod code 的 这类工具调用成本约为零。 最近谷歌在间隙调整了 ide 的 限制,用了多少人之后,稳定性就开始下降了,这种方式只能是仅供参考了。国产型号现在价格最香,看需求选国产模型的零售价本来只有海外的一到两折,套餐之后呢,更便宜了。 kimi k 二点五。 目前我觉得国产力最强的实测能力跟 club 的 四点五差距不大,海外版呢,有首月零点九九美元的活动能得到呢,原价九十九的套餐还支持接入第三方工具。 国内版本的活动力稍微弱一点,而且套餐里的 token 给的量也稍微少一点,控制台也看不到具体的消耗数字,这一点其实我是挺介意的。 tbc 目前国内体验下来最大放地下,最低档每月二十元,每年二百四十元, 接口开放度非常高,各类工具接驳,缺点是高峰,因为这个套餐买的人太多了嘛, token 速度有时候慢的真是离谱。 mini max 设置策略和 diss 比较像,但是这里就不重复展开了,再说。因为答这个,很多人好像就突然想到了,它是提供完全免费,限额不限。 这个开源模型的接口,包括 kimi 二点五, d 四点七, mini max m 二点一都有这个,但是用到的人实在是太多了,热门模型的响应真是慢到离谱了,你只需要做了解就可以了。 最后整理一下角色策略,如果你追求最强的效果, club 的 中转站目前得分最高,预算有限呢?国产首选 d p c 的 套餐是最优惠的。 kimi k 二点五的效果是最好的,想要白嫖 open ai, open ai 的 拼车几乎是零门槛,效果也不差。 但是这次呢,我只是用到了我测到的渠道,还有很多我没测到的渠道。如果你有更好的方式评论区见,大家一起交流一下。

普通人到底怎么样子才能用上国外顶级 ai 大 神的最新框架来打造自己的产品?大家好,我是奇幻,最近我一直在思考未来的我 app 的 mac 版,因为我真的把它当成艺术品去打磨,所以天天没有发视频,进度慢了一些,不过很快就可以跟大家来见面了。 在 mac 版本里面,我设计一个超酷的 dashboard, 就 有点像特工电影那种感觉。里面有一个我非常喜欢的功能叫做战术地图,它其实就是我们 iphone 版本的事件页面的这种啊关键词的 剧类。那其实它就是把你每天的打卡、复盘,跟 ai 的 聊天记录提取出来,然后自动生成你人生的这一个目标之间的这些行动脉络的图,或者是它们之间的关联关系是怎么样子的, 然后你可以看到,哎,你最近在做什么,然后这些事情它是怎么样子互相影响的?但是一开始的时候它的效果我觉得不是特别的满意。 虽然我们用 ai 叠带了很多次啊,但是提取的东西始终还是有点零碎,像日期啊、版本号啊,甚至完成五项,这种零摄状态都会被当成一个独立的事件放上去,然后就会比较的乱。 以前的话我觉得,哎,我发现一个问题,然后让提示去持续对应的去改,但是我发现这样子的话不是很系统,那怎么样子优化会更好一些呢? 那刚好前段时间 ai 大 神 angelica 提出了一个概念,叫做 auto research, 它的核心呢就是把任务切得很小,建立一个评分的机制。那每次呢,只改一个东西,然后并行地疯狂地去迭代,比如说他说一个晚上他就迭代个几万次, 那之前我拿它来优化我的文章,那实操过程中我发现很难去量化,然后很很难去使用上,所以我后面就没怎么用了。 但是我突然发现,对于我们这种 ai 产品中提示词的优化,特别是在我们这个 app 里面的事件的规则和提示词的迭代,我觉得这是一个非常好的场景,因为它既是一个非常容易量化,比如说你追随格式输出的稳定性, 以及不同的模型,在不同的思考程度,以及面对不同的规则和提示词下,它的用的时间的长度,以及单模型也可以根据我们的一二级菜单之间呈现内容的逻辑性、关联性去评分。然后 把比如说 g、 b、 t 五点五作为一个黄金标准的话,它作为一百分,那么我们的这两个模型它应该是多少分?这也是非常很好的事情。 所以我们这次呢,我是特意准备了两个的模型,它们分别是最近非常火的 deepsea v 四 flash 以及豆包最新的 c 二点零 light, 二六零四八作为我们的主力测试模型,那 这两个模型我还是非常的喜欢的,因为 d c v 是 大家知道就性能很强,然后速度又快。那豆包二点零 light 其实这个模型我也是非常非常的喜欢,因为它的这一个 a 准的能力其实挺强的,而且它也是一个长文本的多模态的模型。 那我还准备了从去年十一月到现在几个月的时间,围绕着我 app, 我 自己的个人的使用的数据,两万多条的数据,但可能有一些数据的问题,但是 这个就是一个非常真实的这个使用的数据,但这个数据呢可能有点偏向于独立开发者,所以我让 gbt 也生成了一些其他职业或者使用者的合成的数据, 然后我就打算让他叠带个十几轮,然后,哎每轮给他啊测试个一百次,那么我们就可以大概有近千次或者上千次,这么一个测试 应该会有一个很不错的结果。那我们首先开始的时候,我们需要设立测试的一些规则,比如说我们,呃 一定要区分开来主线和副线,或者说我们的一级的市事件里面它最大的这个东西是什么? 然后比如说伟大的我 app, 那 么下面呢可能是伟大的我 app 的 营销视频,这个就是我们的二级的事件,就是这个逻辑是要准确的。那么还有一个呢,就是 我们用户之前会编辑过这些标题,那么用户编辑了之后,那就不要老是的重复犯错误了。 那还有一个呢,就是不同的模型,他对于不同的提示词的遵循性以及不同的工具的调用,还有他们的上下文都是不一样的,所以我们要进化出对于不同的模型来说, 不同的提示词是不是会更好一些?但我们首先是先用同样的提示词去做,那我们这一次呢,大家可以看到我们准备了八百四十五条测试记录,然后七百四十四次的 a s 商户的打分,然后我们一共是迭代了十个的版本, 那我们可以看到从第一个版本到第十个版本,可以看到进步是非常之大的,第一个版本的时候我们可以看到就是啊,左边是 dipstick, 右边是豆包的吗? dipstick 它只有三十六分, 这个其实也符合我们的最初的印象,就是 d p c, 它是非常吃题诗词的,如果你的题诗词不够好的话,它的结果就会非常的差,但是另外来说 d p c 的 潜力是非常非常好的。 然后我们可以看到,哎,这个就是 d c 跟豆包 light 二点零它们 从 v 一 到 v 十版本之间的变化,那么大家可以看到中间有一个掉下来啊,那个是我们在测试追悼格式的输出,所以他刚开始测试的时候,分数肯定是掉的非常大。那 我们具体改了什么东西呢? v 一 的时候我们就直接把所有东西扔给 ai, 然后让他直接输出我们目标的格式,那很明显他这个结果是非常差的。那么第二个的时候,我们就需要跟 ai 强调要 分清楚主线跟次要的这些事件是不一样的。然后第三个呢,就是我们开始调整我们的格式,就是刚才我们看到这个数值掉下来的地方, 然后我们就开始放真实的数据,然后非然后强调更加聚焦我们更近的这些东西。其实一级的事件的提炼是比较简单的,他们很快就可以获得九十几分的模型,但是我发现二级的提炼呢,如果在第一次的测试之中, 他并没有特别多的提及,虽然我在提示这里面让 ai 进行测试,但是他没有做,所以我又开始了一个新的测试,那就是专门做啊二级事件的测试,然后我在这里会发现,其实 d p 的 话,他虽然长上下文更好,但是他输出来的时候还是没有豆包那么的稳定,特别是他如果是一级跟二级的事件一起处理的时候,他就很容易出问题。 然后如果让 dipc 先处理一级,然后再处理二级的时候,分两次来做,哎,他的分数就可以上到九十几分,那当 豆包的来看的话,其实他一二级分开或者合起来做都一样,所以豆包的能力这种啊遵循性这种工序的调用还是挺强的。 所以我们可以看到当 gbt 五点五呃高这个属性开起来的时候,如果它是作为一百分的话,到最后我们迭代的第二个版本之后,我们可以发现, 我们可以发现在第二次迭代之后啊,这个豆包跟 d p 都能做到一个比较高的分数,所以的话我们就不要说呃什么东西让 ai 一 次的用一个大的呃触发来搞定所有的东西。这个其实 对于 ai 来说,虽然现在能力的确进化了很多,但是我觉得还是很多的边界需要做好的。比如我这里,比如 ai 发现在我们的事件的裁分当中,有三个事情是非常重要的,就是 先判断好层级,就是把他这一个事情的这一条流给他找清楚,然后再拆他的这个边界 呃,把它拆成并列的结构,而不是笼统的一个负极来来吞掉它这个东西。然后最后的话,我们可以看到一个个的小事件挂到负极的事件里面, 这样子的话,如果没有稳定关系的关键词就不要放进到一组,那这个这三个呢是要 gbt 帮我来总结的这么一个东西, 那所以我们挂的最多的是什么呢?第一个就是格式,格式还是非常重要的,因为格式挂的次数是最多的。 然后第二个呢就是 ai 发现如果没有标清楚主线的标签,也会有一挂。然后第三个就是啊角色比较乱,这个可能是我用了一些日文呢,或者别的语言来做这些事例。 那最后的话其实给大家总结一下 d p 的 话,它的输出,我发现它是有三百八十四 k 的 输出,还是挺强的,然后它的畅销文是有一百万的头壳还是很强,但是毕竟它是一个极致的 mo e 架构,就是 他的激活参数其实不高,所以他本质上是一个小模型,所以他在很多的这一些规则上面,即便我们把思考给拉满了,他还是没有豆包 let 那 么的好。那豆包的话,他其实呃 说实话是非常非常的全能,但是他的这个上下文的确是没有 dc 那 么的长,而且他的反应基本上都会比 dc 慢个二十秒左右,所以这个时候我们就需要比如说豆包啊 light 可能作为我们事件拆分模型的这么一个固定,然后 deepsea 作为我们的备份,然后来快速的填补上,那我们总结一下,最后从三十分到九十分, 我们最终的这一个 take away 是 什么呢?就是说真正起作用呢,它其实不是说,哎,我们优化好这一段的提示词,而是把整一个产品变成一个 呃工程性的东西,就是我们已经过了那个提示词,呃工程师的这么一个就是我们,那所以最后的最后的总结呢,就是 大家觉得我们一般这种改提示词好呢?还是改框架好呢?其实两个都需要改,其实现在很多提示词已经不再是人写了,这个 app 里面的很多提示词都不是我写的,都是 ai 写,所以其实提示词改 是一个很简单的事情。我们现在有一个更棒的选择呢,就是可以针对不同的模型,经过测试之后来细致的针对他来微调,对于这个模型他喜爱的提示值,甚至于我们 工具或者是啊执行的框架也可以针对于不同的模型去优化,我觉得这个是非常非常棒的。所以并不是说现在其实是工程已经没有用了,而是我们要综合看起来,那 其实是本身是很重要,但是我们的整一个的这个智能体的框架也是非常非常非常的重要的,就是它是一个可以量化的,可以测试,可以不断去回滚去 呃,拆开来呃去评价的这么一个东西。然后最后呢就跟大家来回顾一下我们未来的我 app, 像特工一样完成人生任务的这些东西。那其实这个 app 呢, 已经上线了有好几个月了,那最近我是一直在磨这个 mac 版本,那 现在是准备要快出来了,这是非常非常开心跟大家见面,因为这个真的是非常的好看。那对于 iphone 版本,之前非常抱歉,因为之前这些 ai 的 服务器我适配的还是比较的新手,所以的话大家会发现有很多很卡的时候, 然后最近这几天我慢慢的慢慢的去迭代,已经变得非常好,本来想着快点把那个东西新的版本放出来会更流畅,但是因为想着,哎,五一我要想做一个更好的版本,而且上一次 上传到商店的版本又比较稳定了,所以我就想着这次我想着要不要把打薄的更好一些,然后再带给大家。那好,今天的这个节目就到这里了,欢下面跟大家留言交流。

你以为 ai 还停留在拼性能、比参数的阶段吗?真正厉害的玩家已经让 ai 为自己干活了。火山引擎最近又有大动作,给豆包大模型家族装上首款全模态理解模型。豆包赛的二点零 light。 这款模型带来最大的变化就是支持视频、图像、音频、文本、原声统一理解,让豆包不再是单一处理文字图片的工具。 比如给他一段游戏比赛视频,他能同步分析比赛画面,联动语音解读,自动生成选手走位图谱和赛事时间轴。 哪怕是长达二十五小时的超长赛事内容,也能完整复盘,精准给出打法提升建议。就连战况图谱、复盘卡片都能一键自动生成,放到在线教育场景也很实用。能实时动态识别老师授课的状态,捕捉学生课堂互动反应, 不用人工挨个统计,直接输出结构化课堂评估报告、课堂质检,一步到位。除此之外,对电商从业者更加友好,给他一段海外爆款视频,他能自主拆解商品卖点,深层适配多语言市场的推广短视频,从筛选到发布全自动,不用自己搜集素材剪辑,一个人就能运营好,跨境带货全流程快速抢占流量风口。 从这次升级中不难看出,豆包正在从通用问答助手进化为能落地、能干活、能创造收益的商业级 ai 生产力工具。要我说,这种能真正全场景落地的 ai 能力才是大家最需要的。对此,你怎么看?欢迎在评论区留言。

用豆包炒股怎么炒?今天小新专门给大家讲清楚。其实啊,就五步指逆,直接呢把豆包调教成了你的金牌分析师,挖潜力股,让你呢,直接赢在起跑线上。 散户为啥永远是韭菜?人家机构玩的是算命碾压,你呢,玩的是心跳,顶级数据呢,你摸不着量腕模型啊,你买不起,就剩个手机在那划线,划来划去啊,反而把自己套了进去。 那咱们普通人想要提高胜率,少踩坑,靠豆包就能做得到,不费脑不踩坑,直接呢把机构核心逻辑呢搬到自己的手里。五步指令,我金色好用,建议啊,你们直接复制粘贴拿走,谁用呢?谁发财记得点赞收藏,慢慢研究。 第一步,你呢,让豆包基于价值因子和质量因子大范围扫描,初步筛选出有潜力的标的。目的呢,是把垃圾股挡在门外,让你啊,少踩坑。指令词呢,是这一句。 第二步,让豆包帮你深度分析出选各股的财务数据和经营状况,扒开基本面呢,看内里扎不扎实。这一股啊,是核心保密用的指令呢是这一句。 第三步,让豆包呢,结合当下的市场情绪,帮你判断选出的各股走势。这票呢,到底是机构呢?偷偷吸筹,还是又多出货?别傻乎乎的当接盘侠。指令词是这一句。 第四步,让豆包帮你评估这支票在他的那个细分领域竞争怎么样,有没有成长空间,未来呢?能不能发展起来?记住啊,没有成长空间的票呢?再便宜也别碰指令词啊!在这 第五步,也是最关键的,炒股先防风险,再谈赚。让豆包啊,把这支票可能会面临的经营风险、行业风险、估值风险、市场波动全排查一遍,避开雷区呢,才能稳赚,这样是指明词, 这五步呢,是我亲测有效的选股指引,很多时候你呢,不是缺本金,而是因为你没有像豆包这样高效的 ai 工具呢,帮你少走弯路,精准呢甄别优质标的。

怎么用豆包来炒股?你只要记住这几个提示词,豆包就能帮你挖掘出潜力股,直接赢在起跑线上。 为什么那些顶级机构总能精准抄底,靠的就是海量数据和变态算法。我们小伞呢,请不起分析师,买不起模型,只能靠指标、靠 k 线,甚至是靠感觉。那今天我不跟你说废话,直接上干货, 手把手把你的豆包调教成二十四小时待命的金牌,头部就五个口令,亲测有效,建议你现在就保存起来,照着做,谁用谁真香,直接起飞。 第一步,要用豆包基于价值因子和质量因子进行大范围扫描,初步筛选出具有潜力的标的。那这一步呢,是把那些垃圾股直接挡在门外。指定词是这一句。 第二步,要豆包深入分析初选个股的财务数据和经营状况,确定他的基本面是否扎实可靠。这一步啊,是保命用的。指令词是这一句。第三步,要多结合市场情绪判断,选出个股的走势,是机构吸筹还是又多出货。指令词是这一句。 第四步,要多把评估这只股票在细分领域的竞争地位、成长空间和未来发展潜力。那记住啊,没有成长空间的股票,再便宜也别乱碰。指令词是这一句。 第五步,炒股先看亏再看赚,要多帮查一查这只股票可能要面临的经营风险、行业风险、估值风险和市场波动的风险评估。指定词是这一句。 那这就是我一直在用的五步选股法,核心呢,就是用 ai 补上我们散户的信息差。那很多时候啊,你缺的根本不是本金,而是一个帮你高效处理数据的工具。那想要学更多的这种 ai 操盘小技巧,记得点个小关小注,后面呢,我跟你讲更细的。

还在为合同起草头疼?别担心,全新升级的豆包大模型,二点零 pro 专家模式,实力跻身世界一流,处理复杂需求更专业。不管是合作协议、劳务合同,还是简易合同,豆包都能为你解决难题。操作也很简单,输入你的需求身份,加目的、加条件,加想要的交付物,豆包就会整合全网信息, 快速深层、结构严谨、全则清晰的合同草案,关键条款全覆盖,轻松搞定合同起草,长按就能一键创建文档。而且手机、电脑双端互通,电脑也能同步修改,不满意的地方 ai 改写,省去大量调整时间。

备课时毫无头绪,,没时间写教案,才知道什么是备课新体验。。豆包大模型、二点零 pro 模型升级更智能,能更好的完成复杂任务,不管是幼儿园、小学还是初高中,,全学段适配,轻松解决备课难题。。将具体要求语音输入,,他就会快速生成结构完整教案。。 相比于市面上 ai 写的套话,,豆包不再是单一性搜索或是直接给出答案,而是通过思考给出合理的方案。,不仅思考过程可视化,,回答的结果也更全面了,节省了很多备课和行政工作的时间。。而且,豆包现在还支持手机、电脑双端互通。, 工作更高效,无论是教案调整,还是班会总结、听课记录,各种超长内容,都能让豆包精准提炼,,真正把时间还给老师。。升级后的豆包,理解能力更强,操作也更便捷。。


大家好,这里是全小白,欢迎来到第十三节课,也是我们第三部分人工智能能力进阶篇的第一节课。 接下来的课程,我将带大家深入掌握字节跳动旗下两款核心互补工具,中文通用大模型豆包和人工智能原声编程应用 train。 这两款工具同属字节跳动大模型体系,各有侧重。 豆包主打中文全功能通用,适配日常办公与文案创作,趁主打多模态与编程辅助,专注代码开发与自动化工作流。在第三部分,我们会以它们为核心, 结合前十二节课建立的项目开发逻辑,进一步拓展人工智能的实战能力边界。当然,国内优秀的模型源不止这两款,课程中对其他主流模型也会做客观的介绍, 帮助大家建立完整的认知地图,按需选型。而之所以选择这两款工具使用,是因为他们都是免费的,对于我们学习来说是比较合适的。在前两部分第一到第十二节课中,我们已经完成了人工智能运行逻辑和项目开发逻辑的全闭环, 相信大家能够熟练的使用人工智能落地各类文本类项目,不管是周报自动汇总、人工智能客服工具搭建,还是办公自动化代码辅助编写, 大家都可以独立完成。核心就是我们掌握了需求拆解、工具选型落地,执行到优化迭代的核心逻辑。但随着大家对人工智能的使用越来越深入,很多同学会问三个问题也是 我们第三部分要重点解决的。今天这节课先聚焦前两个核心问题,第一个问题是大模型不是突然出现的,他经历了怎样的发展过程?从早期到现在,有哪些关键突破,才让我们实现了零门槛的使用人工智能? 第二部分是市面上的大模型五花八门,到底有哪些种类,不同种类大模型有什么区别,各自适合什么样的场景?第三个是国内主流模型相比 有什么特色,该怎么选怎么用。所以今天这节课,我们就先彻底解决这三个问题,详细讲解大模型的完整 历史发展脉络,从全球早期发展到国产崛起,包含国内各类主流模型的发展节点,然后进行详细拆解当前大模型的核心种类,讲清楚分类逻辑和各类模型的差异,同时融入国内所有主流模型的分数归类。 本节课全程零基础友好,所有内容通俗无数语,重点聚焦大模型历史以及种类。国内主流模型的详细讲解, 客观中立的介绍每一款国内主流模型,不偏向任何一款,确保大家学完就能建立大模型的全体系认知,又能快速上手。核心的工具首先是第一部分这节课的重点,我们按照全球通用发展以及国产崛起两大主线分阶段详细讲解, 每个阶段明确核心突破代表模型技术革新,同时结合国内主流模型的发展节点,让历史讲解不空洞。结合我们第三部分的核心,避免复杂技术术语零基础,可轻松理解。全球大模型发展脉络是一个从弱到强,从单一到多元, 从技术突破到普及落地的过程,核心围绕参数、规模、能力、边界、落地门槛三大维度迭代, 具体分为了四个阶段。第一个阶段是萌芽期,二零一七年以前,这个阶段是基础铺垫,没有真正的大模型。这个阶段的核心背景是人工智能处于 弱。人工智能阶段,主要以传统机器学习、浅层神经网络为主,没有真正意义上的大模型,也就是参数规模小,能力单一。核心突破是二零一二年 xnet 问世,实现了深度学习的基础。二零一五年, transformer 架构提出, 这是大模型的核心架构,为后续大模型发展提供了关键技术支撑。代表的成果是传统机器学习模型,比如决策树、逻辑回归, 还有浅层神经网络这些只能完成简单的分类回归任务,没有办法实现文本生成、多模态交互等复杂的操作。核心的特点是参数规模都在一亿以下,能力特别单一,需要大量人工标注数据,不能适配多场景, 普通人根本接触不到,用不了。大家可以回想一下我们常用的智能输入法里,字词习惯推荐用的就是这个阶段的技术应用。第二个阶段,起步阶段。二零一七年到二零二零年, transform 落地,大模型雏形出现。这个阶段的核心背景是 transform 架构逐步落地, 研究者们开始尝试扩大模型的参数规模,突破传统人工智能能力边界。大模型的出行慢慢形成了。核心突破是二零一八年,谷歌推出了 bot 模型,参数规模达到了三点四亿,首次实现了优秀的文本理解能力,彻底改变了自然语言处理的格局。二零一九年, openai 推出了 gdp 二,参数规模达到了十五亿,实现了初步的文本生成能力,但效果有限,也没有办法商用。代表的模型是 word、 gbt, 二,核心都聚焦在了文本理解上,参数规模在一亿到十五亿之间。 核心特点是只能处理单一的文本任务,要么是理解,要么是简单。生成。参数规模有限,泛化能力弱, 主要用于学术研究,没有向公共开放,普通人用不了,而且中文支持能力特别差。第三个阶段是爆发期, 二零二零年到二零二二年,参数暴涨,能力突破逐步普及。核心的背景是 openai 引领行业突破,大模型,参数规模呈指数级增长,能力实现跨越式提升, 从单一文本任务转向多场景适配,开始向公共开放。核心的突破是二零二零年, openai 推出了 gdp 三,参数规模达到了一千七百五十亿, 首次实现了通用文本生成,能够完成文案代码、逻辑推理等多种任务。二零二一年,谷歌推出了 pop, 参数规模达到了五千四百亿, 进一步提升了多语言处理能力。二零二二年, stable diffusion 问世,实现了纹身图能力的突破,大模型从文本单一模态向多模态转型,代表的模型就是 gtp 三 pub、 stable diffusion 以及拉玛,这个是开源模型的雏形。核心的特点是参数规模从百亿级突破到了千亿级,能力覆盖文本生成、逻辑推理、文生图等,开始向公共开放,支持在线调用。但有三个明显问题, 第一个是国外模型为主,中文支持比较差。第二个是参数太大,没有办法本地部署,只能在线使用。第三个是成本高,部分功能要付费,普通用户难以承担。第四个阶段是成熟期,二零二三年到现在, 轻量化、开源化国产崛起,全民可用。这个就像的核心背景是大模型技术逐步成熟,行业从追求参数规模转向追求轻量化、实用性。开源化国产大模型快速崛起,打破了国外的垄断,涌现出豆包文、新一研 制、腐清研等一批优秀的模型,让普通人实现零门槛、低成本的使用。核心的突破是,第一个是轻量化突破,推出七 b、 十三 b 等中小参数版本,适配普通电脑, 解决了参数过大,无法本地部署的问题。第二个是开放化普及,字节跳动、质朴清严、千问等企业陆续开放了轻量化的模型原代码,支持本地部署, 免费商用。第三个是国产崛起,豆包通易、千问、质朴清严、文新业等国产模型推出,中文支持拉满,适配国内的场景。第四个是多模态融合,文本、图片、语音、视频,多模态协调能力更全面。代表的模型是国外 g p、 t 系列、拉玛系列,国内是豆包通易、千问、质朴清言、文、心一言讯、飞星火等。核心是以七 b 到十三 b 轻量化版本为主,当然也有很多的大型参数版本,核心特点是 轻量化,七 b 到十三 b 适配普通的电脑,可本地部署。第二个是开源化,免费开源可商用,降低使用门槛。第三个是国产化,中文支持顶尖, 贴合国内办公、运营、编程等场景。第四个是多模态文本,图文语音协调,覆盖全场景需求,普通人可零门槛上手。微软模型的发展核心是跟随追赶到超越,重点聚焦中文适配、轻量化、开源化, 完美贴合国内用户的使用需求。目前国内主流大模型已形成了百花齐放的格局,具体的脉络如下,国产大模型整体发展分为了三个阶段,第一个阶段是跟随启动期,二零二一年到二零二四年,国内企业跟随国外的技术启动大模型研发与技术积累, 早期产品主要以在线调用为主,中文支持逐步优化。国内最早的大模型雏形可以追溯到百度的 unit。 第二个阶段追赶期,二零二二年底到二零二三年, 国产大模型实现技术突破,推出七 b 等轻量化版本,开始开源,支持本地部署,中文能力超越国外的模型,适配国内的场景,如质朴清岩、文心一岩等。第三个阶段是超越。其二零二三年到现在, 国产大模型在中文理解、多模态场景适配等方面实现超越。插线生态完善,支持自动化工作流、智能体搭建,开源免费可商用, 形成在线以及本地双路景使用模式。如豆包的一点六、一点八、二点零系列、吻心妍的四点五版本通一千万的七比开原版, 不同模型存在差异化优势,覆盖不同的场景需求。第二是国内主流大模型的各自发展细节,字节跳动,旗下的豆包内部研发代号时匀称。 二零二四年五月十五日正式对外开放,主打中文全功能通用大模型,在线平台优先开放,中文理解能力突出, 覆盖办公、文案等技术场景。二零二四年发布轻量化模型版本,持续优化在线使用体验。二零二四年五月正式发布以来,以迭代升级一点六、一点八、二点零系列版本, 多模态能力持续优化,在线平台功能不断完善。一托抖音生态,在短视频创作、日常办公场景适配性极佳,成为国家大模型中中文友好领门槛的代表。 百度旗下的文新一言,二零二三年三月正式发布,是由 uniet 升级而来,是百度打造的人工智能大语言模型,具备跨模态、跨语言的深度语义理解与生成能力。一托百度搜索资源, 实时信息解锁能力突出,中文理解精度极高。二零二三年八月全面开放。二零二五年四月全面免费,后续迭代推出四点五版本。差一点一深度思考模型在医疗教育 领域表现卓越,但开源支持有限,多模态能力比较依赖外部的工具。知普 ai 具有清华大学的背景。知普青年模型在二零二三年八月正式上线,基于 chat g l m 系列模型研发,重英双语能力突出,推理能力极强,在评测中跻身全球前三。 学术场景适配性优秀,推出的很多版本轻量化适配普通电脑。二零二四年新增纹身视频能力。多模态能力持续升级,已上线 g l m 四点六 v 系列,开源生态逐步完善, 已经开源 g l m 四点五,并于二零二五年十二月份发布。 g l m 四点七,我现在使用的是 g l m 五点一的版本。阿里巴巴旗下的通信千问,阿里云推出全模态大模型,七 b 到一百一十 b, 全尺寸开源, 生态完善繁盛,模型超过十七万加一托。阿里云在企业服务、电商、金融场景适配性极强,多学科评测表现优异,但 语音交互需外界工具链进行优化, api 接口调用使用成本相对偏高。科大讯飞旗下的讯飞星火,聚焦语音交互领域,是国内语音交互能力顶尖的大模型,支持三十多种语言,在教育、医疗场景覆盖率极高,多家三甲医院接入其相关方案。 日常办公、语音转写场景适配性高,但代码生成多模态任务表现能力较弱。深度求索的 deepsea 数学代码能力突出,基于华为升腾芯片优化,推理速度快,成本低, 适合开发者和中小团队。目前我也在使用 deepsea。 阅知案面旗下的 kimi 长文本处理能力极强,可处理两百万字内容,适合法律、科研场景,但数学推理准确率不足。腾讯旗下的会员大模型, 文声视频能力突出,依靠微信生态社交娱乐场景体验优秀,但垂直行业竞争力不足。接下来对大模型历史发展进行总结。第一个是发展逻辑,是从基础铺垫的萌芽期,再到出行出现的起步阶段,再到能力突破的爆发阶段, 到现在的轻量化、开源化、国产化的成熟阶段,核心是参数从大到小,能力从单一到多元, 门槛从高到低。这里需要特别补充一点,虽然我们用四个阶段清晰区分了大模型的每一步进步,但看到了它从不可用到全民可用的巨大跨越,但从整个人工智能发展的长河来看, 大模型目前依然处于青春期,它已经具备了很强的能力,能够高效完成我们赋予的各类任务,但还不够成熟、 不够稳定,还没有形成真正的自主认知和独立思考能力,在逻辑严谨性、场景适配精度等方面 依然有很大的优化和提升空间。第二个核心转折点是 transformer 架构,这是技术的基础, g、 b、 t 三是能力的突破点。轻量化开源是普及的关键,国产崛起是中文的适配,到现在的百花齐放。三个是核心趋势。 现在及未来大模型的核心方向是轻量化、开源化、多模态、场景化,普通人可零门槛、低成本的使用。国内大模型已经形成了差异化的竞争格局,无绝对最优模型,只有最适配场景的模型。第四个是 课程关联,结合我们课程的零基础、实战化的需求,同时我们也要了解其他国内的主流模型,学会按需选型。然后接下来是当前大模型的核心种类,这一部分也是本节课的重点,我们按照 核心能力为核心分类逻辑,详细拆解当前大模型的所有主流种类,每个种类明确定义核心能力代表模型适配场景, 客观呈现各模型的优势,不偏向任何一款进行分类归属,让大家既能分清种类,又能明确各类模型的定位,学会按需选型。大模型的分类维度有很多,比如按照 参数规模、按用途、按模态,但最贴合零基础学员。最实用的分类是按核心能力分类,具体分为四大类,第一类是语言大模型,核心式管文字。这里的定义是以处理文本信息为核心, 具备文本理解、文本生成、逻辑推理、对话交互等能力,是最基础、最常用的 大模型种类,也是我们前十二节课项目落地的核心依赖。核心能力是第一个文本理解,读懂文字含义,提取核心信息,比如运营评论、拆解文档摘要。第二个是文本生成, 生成文案、话术代码、报告等各类文本,比如人工智能客服话术、办公通知。第三个是逻辑推理,解决数学计算、逻辑分析、问题差解等任务,比如运营数据复盘、方案推导。第四个是对话交互,模拟人类对话, 实现多轮交互。有人工智能客服智能对话助手。代表的模型有国外的是 gpt 四 lambor, 国内的是豆包。中文能力比较顶尖,通易千问以及质朴清言的 jlm 系列文心一言中文理解精度高, pdf 个 数学代码能力突出。 timmy 长文本处理能力强,是背的场景,是办公文案。人工智能客服运营、复盘、代码生成基础、逻辑分析、文档处理、 学术研究、法律合同解析,完全贴合我们前十二节课的所有项目需求,是最通用的大模型种类。核心特点是仅处理文本信息,不涉及图片、语音等模态,操作门槛最低,零基础也可以快速上手。所有 国内主流大模型均具备语言大模型的核心能力,是侧重不同,比如 kimi 侧重长文本, deepsea 则侧重数学代码。第二个类别,多模态大模型,核心管文字、图片以及语音。这里的定义是突破单一文本模态, 可同时处理文本、图片、语音、视频等多种信息,实现突文对话。文声图图声文、语音转文字等跨模态交互 是当下大模型的主流发展方向。核心等立式,第一个图文交互,上传图片,用文字提问模型解读图片中的内容,比如提取图片、文字解读设计图、分析表格图片。第二个是文生图,图生文,输入文字描述生成图片, 或上传图片生成文字描述,比如电商海报生成,图片生成。第三个是跨模态转换 语音转文字、文字转语音、图片转代码等,比如设计图转 css 代码。第四个是多模态协同, 结合文本和图片完成复杂的任务,比如根据图片生成文案,根据文案优化图片代表的模型。国外的是 gpd 四 v stable diffusion, 国内的是字节跳动旗下的豆包文声图,以及图片解读能力完善。阿里的通易千问全模态生态完善。百度的文心、一言原声,多模态深度思考能力强。腾讯的混元大模型文声视频,顶尖质朴清严的 新增纹身视频,图文理解较弱。 kimi 的 图文公式绵合推理,适配的场景有设计,比如海报的生成,插画的生成。在图文理解上,比如图纸表格的识别,在代码开发上, 设计图的转换码,以及语音交互、视频字幕生成。影视创作。其中通用千问会员大模型在该领域优势突出,核心的特点是能力全面覆盖多场景,操作门槛略高于语言大模型。但国内的储流模型的在线平台 已实现零门槛操作,无需复杂的指令,不同模型差异化明显,比如混元侧重纹身视频,顺则侧重图文转代码。第三个类别,专项大模型和新馆特定的领域,这里的定义是聚焦某一特定领域,针对该领域的需求优化模型能力 专业性强,适配特定场景是通用大模型的细分延伸,无法覆盖全场景, 但在专属领域的优化优于通用模型核心的领域,我们按领域进行拆解。第一个在编程大模型里面,专注代码生成、调试、优化,支持多编程语言,比如 python、 java、 c 语言等等。代表的模型,比如 deepsea 智谱的 g、 l、 m 系列。第二个医疗大模型, 专注医疗诊断、病历解读、医学知识问答,比如文心一研、讯飞星火。 deepsea 在 这个领域也还不错。第三个是教育大模型,专注知识点讲解、提库生成、作业批改, 如讯飞星火以及文心一研。第四个是金融大模型,专注金融数据分析、风险预测、文案生成, 比如通易千问温馨语言。第五个是查文本专项,专注超查文本处理解析,如 kimi。 第六个是语音专项,专注语音交互、语音转写,如讯飞星火。 适配的场景是特定领域的专业需求,如编程开发、医疗诊断、教育辅导、常文本解析。我们课程重点关注的是编程专项 结合后续的进阶实战,核心特点是专业性强,在专属领域效果优于通用模型。部分专项模型需要具备基础领域知识,比如 deepsea 的 编程专项能力, 讯飞星火的语音专项能力,零基础也可以上手。类别四,智能体大模型核心管的是自动化协同,这里的定义是基于通用大模型或专项大模型,具备自主理解需求,调用工具协同任务的能力,可模拟多决策,协助自动完成复杂的项目流程, 是大模特的高阶形态。具备的核心能力是一需求自主拆解,将复杂的需求拆解为多个简单的任务,自主规划执行步骤。第二个是工具调用,自动调用各类工具,如 excel 完成任务执行。第三个是多角色协调,模拟产品、运营技术等角色 协调完成复杂的项目,如人工智能客服以及数据分析协调。第四个是自主优化,根据任务结果自主调整执行策略,优化输出效果。代表模型是国外的是 g、 p、 t 系列,国内的是 train 智能体,支持多角色协调、工具调用。豆包智能体办公场景协调、同一千问智能体企业服务协调、文心一言智能体深度思考以及工具调用以及质朴清言智能体学术场景协调,适配的场景是 复杂项目落地,如全流程办公自动化、多角色人工智能客服系统、项目级代码开发、企业级服务协同,是我们第三部分后期进阶实战的核心内容。核心的特点是高阶能力,可实现 自动化、少干预的项目落地。国内主流大模型均已布局智能体功能,零基础也可以逐步上手,其中通一千问蠢的智能体生态相对完善。最后再给大模型种类进行总结。 第一个是分类逻辑,按核心能力分为四大类,基础的语言大模型、主流的多模态大模型,更高阶的智能体大模型。第二个是 国内主流模型定位豆包,覆盖语言大模型、多模态大模型。智能体大模型主打通用全场景中文友好适配日常的办公 顺。覆盖语言大模型、多模态大模型、专项大模型以及智能体大模型。主打多模态编程,适配文心一言,覆盖语言多模态加智能体,主打学术推理。通易谦问 覆盖全品类,主打企业服务生态完善。讯飞星火覆盖语言多模态以及专项的语音医疗教育,主打语音交互。其他大模型各有侧重,填补新闻场景的空白。第三个选型逻辑, 先明确场景文本、图文编程复杂协同特定领域,再选择对应的种类,对应优势的模型,无需盲目追求全能模型, 适合自己的场景才是最好的课程工具。定位对照都包覆盖了语言大模型、多模态大模型、智能体大模型三大类别, 是我们日常办公和项目落地的主力工具,纯覆盖了语言大模型、多模态大模型、专项大模型以及智能体大模型四大类别,是我们 多模态实战和编程技巧的核心工具,能够覆盖我们课程中几乎所有的场景需求。为让大家可以更清晰的对比国内主流大模型的差异,快速完成选型,我将所有的模型进行了汇总, 呈现各模块的核心信息,无任何偏差,可以直接截图使用,具体的我就不再讲了,大家可以看具体看一下,内容比较多。然后进入我们的实操环节,进入课前通用准备,无需安装任何软件。然后我们使用的是 网页的版本,很快就可以操作完成。呃,手机也可以操作,这里建议使用电脑的版本,后续可以贴合本地部署的操作习惯。首先我们登录豆包的官方网站,用豆包或者是抖音都可以直接登录, 登录之后就是我们现在这个页面的样子。多包这个应用他默认的是通用对话模式,对应的是语言大模型能力,我们可以直接让他帮我们生成我们需要的东西,比如在这里生成一套电商人工智能客服的话术,包含话音与订单查询、 售后退换货、欢迎语,语气亲切,适配普通的消费者。同时帮我们生成一份团队的周报。通用模板包含工作进展、风险预警、 下周计划三个模块,然后我们可以选择它的思考模式。现在新出了一个超能模式,大家可以尝试一下,然后我们直接发送即可,多报它就会根据我们的需求进行分析, 然后我们就可以看到它在帮我们创建话术以及通用的模板。当文档生成完成之后,我们就可以点击这里选择自己需要的文件类型,我们就可以保存到本地了。然后我们可以让它生成图片, 我们可以在左侧看到有一个 ai 创作,点进去,我们可以选择我们想使用的模型,在描述里面描述你想要的图片类型。 现在这个题日词相对简单一些,如果你想要好看绚丽的主图,你就需要明确的详细的题日词, 这里只是给大家演示一下,这里生成了四张图片,大家可以选择自己想用的,然后保存下来即可。现在抖包也做了智能体体验的功能,点击左侧的智能体,你就可以创建属于自己的智能体了,比如输入电商客服智能体, 输入名称,输入详细的设定,我们就就可以创建我们的智能体。智能体的描述是越详细越好,这里只是给大家演示,所以写的就 写了这么一句话,但对于我们在实际的项目操作过程中描述越清楚,智能体越好用,然后我们直接创建就可以了。在这里需要跟大家补充一下,就是 他现在也有了一键生成的能力,可以帮我们详细描述智能体,在这里给大家补充一下。豆包 在线平台免费满足,满足基础需求,高级功能无需开通,零基础,重点掌握对话生成文档、导出文生图三个核心操作,对应的是语言多模态、大模型能力,贴合前十二节课的项目和后续实战需求, 且多端同步功能,可实现电脑、手机无缝切换使用。然后再来看一下我们的 train 核心,掌握在线平台的核心功能, 对应的是多模态的大模型编程专项大模型的能力,了解其优势,为后续本地部署和进阶实战铺垫。同时结合人工智能原声 ide 的 特性, 快速上手核心的功能。登录平台之后,我们就可以直接用抖音账户进行注册,它在这里可以上传我们的图片 啊,各种文件,现在出了 solo 的 这个版本,大家可以尝试一下,对于复杂的场景任务具有明显的优势。我在这里上传了一张让豆包生成的关于 open klo 龙虾的部署问题的图片,然后在这里我让他帮我解析这张图片的内容, 提取核心的信息,并生成适配的文案。指令发送了之后,它会自动分析图片并生成对应的文案,同时可以查看图片的详细解析。然后我们可以看到它已经把我们的 图片进行了分析,并生成了适配各种不同平台的文案。然后我们再来感受一下它的其他的能力。生成一个简单的 python 打印 hello world 代码, 附带注试,要适配 python 三点八的版本。发送之后,它就会显示它会将我们的任务进行拆解,会有代办事项,任务的产物以及参考信息,然后我们等待它把代码部分生成, 然后我们可以看到它已经把任务完成了。生成了代码文件,我们可以保存到本地,然后在 pychoom 里运行,试一下,完成之后它会在右侧这里任务产物,这里 显示产生的这个 py 文件。关于 hello world 的 这个样式,大家看起来会很简单,我们可以在这个切换一下模式,切换到 code, 这个模式可以帮我们完成一个复杂的项目开发。这里我写一个简单的项目, 生成一个简单的个人簿刻页面 demo 样本,包含首页关于页两个页面,用 html 以及 css 进行编辑,我们看一下它会 怎么操作。首先看到他,在我们可以看到他在分析我们的任务,并进行进行了拆解。在代办摄像里,然后我们可以看到他直接给我们生成了这个可以浏览的 网页页面,然后也给我们写了产品的需求文档,然后我们就可以在这里面看到他生成的这个三个文档,大家可以看到他直接生成了财务汇总, 有浏览的页面以及产品需求文档和技术架构文档,这都是我们当时第二个阶段需要写的文档内容,现在完全可以给我们直接生成,而且我们并没有要求它生成这些内容。寸在线平台支持免费使用核心功能,编程调试、 下模生成等技术操作,无需付费。零基础重点掌握突文交互、代码生成等模式的核心搭建,对应的是多模态编程,大模型能力贴合 后续本地部署和进阶编程实战需求。现在春有多个版本,大家可以根据自己的需求进行调整,使用后续的课程,本地部署后 可实现复杂的代码开发与调试。好了,本节课作为第三部分的开课篇,核心完成了认知加实操的双突破。一方面,我们系统梳理了大模型和历史发展脉络,全球的四阶段和国产的三阶段,详细拆解了四大类大模型的核心差异, 全面了解了国内所有主流大模型的定位与优势,建立了大模型全体系认知,掌握了按需选型的核心逻辑。另一方面,我们手把手完成了春豆包在线平台的零基础实操, 掌握了两款核心国产模型的在线使用方法,明确了在线调用、本地部署的进阶路径, 为后续实战牢固基础。核心总结回故事,第一个大模型发展趋势是轻量化、开源化、国产化、多模态。第二个是国内主流模型各有侧重,按需选型即可。第三个是在线平台零门槛,核心操作可快速上手,贴合实战的需求。好了,这节课就讲到这里。