今天我们来说,什么是大模型?为什么现在全是模型大战?在理解 ai 应用之前,还需要解决一个核心概念,什么是大模型?过去几年,几乎所有主流 ai 产品背后都在强调一个词,模型。而今天的竞争本质上已经演变为模型能力的竞争。要理解这一现象,首先要弄清楚大模型究竟是什么。 从技术角度讲,大模型是一种经过海量数据训练的通用人工智能模型,它不针对某一个具体任务,而是具备处理多种任务的能力。例如既能写文章,又能回答问题,既能生成图片,又能分析数据。因此,大模型的本质不是某个功能模块,而是一个智能底座。 大模型之所以被称为大,并不是因为体积大,而是因为它拥有极其庞大的参数规模。参数可以理解为模型内部的认知连接点,参数越多,模型对语言、逻辑和现实世界的理解能力越强。 这就像人类的教育程度,接受的信息越多,形成的判断体系越复杂,解决问题的能力也越强。在大模型出现之前,大多数 ai 系统属于专用模型,它们往往只擅长一件事,例如只做语音识别,只做图片分类,只做推荐算法。 而大模型的突破在于从专用智能走向通用智能。原因只有一个,模型能力已经成为 ai 产品竞争的核心壁垒。 在应用层面看起来是各种软件在竞争,在底层结构上,实际上是不同大模型之间的能力比拼,谁的模型更强,谁的产品上线就更高。 目前全球范围内的大模型竞争可以简单分为两大阵营,第一类是国际主流模型阵营,代表包括 gpt、 cloud、 gemini 等。它们的优势在于 语言理解能力强、通用能力成熟、生态体系完善。第二类是国内主流模型阵营,代表包括文心、一言通、一千问、 deep seek、 kimi 等。它们的优势在于 本地话适配好,中文语境理解更自然,应用场景落地速度快。需要特别强调的是,模型之间的差异并不是简单的谁更聪明,而是体现在三个层面,理解能力、稳定性、适配场景。有的模型擅长长文党处理, 有的模型更适合搜索整合,有的模型更适合代码和结构化任务。因此,选择模型本质上是在选择最适合任务的智能引擎。在这里还需要澄清一个常见误解,很多人认为大模型越多,对普通用户越没有意义,因为大家用到的都是界面相似的聊天窗口。实际上恰恰相反, 模型竞争带来的最大受益者正是普通用户。模型能力越强,工具越好用,成本越低,应用场景越丰富。今天我们能在手机上免费使用多种 ai 工具,正是模型大战的直接结果。理解大模型的意义,并不是为了记住技术参数,而是为了形成一个正确认知。今天的 ai 产品不再只是软件, 而是能力接口。你使用的每一个工具,本质上都是在调用某个模型的能力。因此,真正重要的不是界面长什么样,而是背后接入了什么样的模型。从应用者角度看,大模型时代带来了三点根本变化。第一,能力通用化。一个模型可以解决过去需要多个系统才能完成的任务。 第二,门槛平民化,复杂技术通过简单交互形式进入普通人的工作流程。第三,创新去中心化,不再只有大公司才能开发智能应用,个人和小团队也能基于模型能力创造产品。本节课的核心结论可以归类为三点, 第一,大模型是一种通用智能底座,是今天所有 ai 应用的能力来源。第二,所谓模型大战,本质是智能底座之间的竞争,而不是表面产品的竞争。 第三,模型能力的提升最终转化为普通用户更低成本、更高效率的使用体验。下一节课将进一步理清一个实际问题, ai 能做什么?不能做什么,帮助你建立对 ai 能力边界的清晰判断,为后续应用学习砥砺现实基础。
粉丝1.2万获赞3.3万

就在两三年前,曾有项目参与者对我说,这件事能不能干成,是在赌未来几十年的国域。 今天,官媒终于公开了新华社消息,四月二十八号,中国科学院发布磐石一百模型体系,这一体系以聚焦共性科研需求的磐石科学基础大模行为智能底座。磐石一百科学基础大模型体系 是全球首个专业级的人工智能大模型体系。专业级和咱们日常知道的通用型人工智能有什么区别呢?区别就在于学习的渠道。通用型大模型是从互联网中学习知识,就好像过去开玩笑说一个人是从社会大学毕业的一样, 这种复杂渠道学来的知识,最大的问题就是不一定是正确的。这是为什么现在不断爆出通用型人工智能给出的结果出现错误的新闻。而磐石一百大模型体系则是相当于上了专业的大学,而且他的老师们还非常厉害, 他的知识是来自于六百五十万条高质量的各学科推论,以及一点七亿篇科学文献,覆盖了八大学科领域。基础学科包括数学的磐石大眼治正大模型, 主要用于突破定力证明与方程求解的瓶颈,解决人类数学领域离一流的问题。物理的磐石赛博式大模型,能够提升粒子物理的分析效率。 医用学科则包括材料领域的磐石助熔大模型,能够实现新材料的按需设计、精准制备,加快我们新材料领域的研发速度。空天领域的磐石凌空大模型,也是首个面向临近空间领域的专业 ai 模型, 让人工智能在咱们高超音速飞行器、空天飞行器等等新装备的研发领域具备了深度认知与复杂推理的能力。 特别要说的一个就是生命领域的磐石数字细胞大模型,这对我们研究人体健康治疗药物都是有着极大的助力。这个大模型已经在三十天内就发现了三个过去不知道的药物靶点,并且通过实验证明找出来靶点都是正确的。 另外还有天文领域的磐石金屋大模型,环境领域的磐石宇恒大模型以及地理领域的磐石昆元大模型, 这些都与我们未来的气象预报、环境保护、生活舒适等等有着非常大的关系。现在知道为什么盘石一百大模型体系能成为影响未来科技发展的重要利器了吧? 而且大家可以放心的是,这个大模型目前只开放给我国的相关科研机构和特定合作单位内部使用,好东西咱们要留着自己用,我是雷哥亮工业朋友的国,一起复兴!

很多人一提到大模型训练,脑子里会自动出现一个画面,工程师把很多知识塞进去,模型就慢慢学会了回答问题。这个画面不算完全错,但非常不准确。 大模型最开始学到的不是怎么当一个助手,而是更基础的一件事,在大量文本里学会根据上下文预测接下来最可能出现的头肯。这个阶段就叫预训练,你可以把它理解成模型上正式做任务之前的一轮大规模语言基本功训练。 之所以叫预训练,是因为它不是针对某一个具体任务来的,它不是先教模型写邮件,也不是先教模型做客服、写代码或总结文档, 而是先用非常大规模的数据把模型训练成一个通用语言底座。这个通用很重要,因为如果一开始就只针对某个小任务去练模型会很窄,只会那一类事。而预训练的目标是先让模型掌握大量语言里的统计规律、表达模式和上下文关系, 这样它后面无论做写作、问答、代码还是别的任务,都会有一个足够强的基础盘。对今天大多数生成式大模型来说,预训练最核心的任务就是 next token prediction, 也就是根据前面已经给出的内容预测下一个 token。 比如一句话,前面已经出现了今天天气很好,我想去 模型要做的就是对后面可能接什么给出概率分布。这里最关键的是,模型不是在背答案,而是在大量文本中不断练习这种预测,他会一次又一次的看上下文,猜下一个 token, 算自己猜的有多偏,再通过训练慢慢调整参数。 也就是说,预训练最表面的任务看起来很简单,但他逼着模型在海量文本里反复学习语言结构搭配规律和上下文依赖。 很多人第一次听到预训练就是预测下一个 token 时,会觉得这也太简单了,怎么可能靠这个练出后来那么强的能力?关键就在于,想把下一个 token 预测准并不是件简单事, 模型要面对的不是几句固定模板,而是海量真实文本。这里面有语法、语义、逻辑风格、常识、长距离依赖,还有各种不同领域的表达习惯。换句话说,如果模型想把下一个头肯猜的越来越准,他就不得不逼自己学会更多东西。 很多人会说,预训练就是把互联网知识、书籍知识、代码知识都喂给模型。这个说法有一部分直觉是对的,因为训练数据里确实包含大量知识性内容,但更准确的说法不是知识被原样装进去,而是模型在大量文本中学出了对预测有用的统计规律和内部表示。 如果训练数据很少,模型学到的语言规律就会很薄。如果训练数据很单一,模型学到的能力就会很偏。预训练之所以往往依赖大规模、多来源、多风格的数据,就是因为他的目标不是让模型会某一种表达,而是让他尽可能形成通用的语言能力。 这是很多人最容易误会的地方。预训练完成以后,模型通常已经很强了,他会续写、会模仿、会组织文本,甚至表现出不错的常识和推理味道。 但这不等于他已经天然会当一个好助手。因为预训练阶段练的是语言预测能力,不是遵循人类指令,有礼貌的回答问题、安全的拒绝风险请求这些更贴近产品体验的能力。 预训练最后留下来的不是一张知识表,也不是某个具体题目的标准答案,而是模型参数被大规模更新后的结果。 也就是说,模型在大量预测任务里不断调整内部参数,最后把语言模式、表示能力和很多通用规律呈到参数里。 所以从结果上看,预训练真正产出的是一个底座模型。如果预训练底座很弱,后面再怎么微调,再怎么对齐,也很难把模型拉到很高的水平。 因为后面的训练大多是在已有能力基础上做定向强化,而不是无中生有。你可以把它理解成预训练,决定了模型能学到多厚的底子,后续步骤决定的是这层底子被打磨成什么样子。 预训练的本质是让模型在海量数据上通过反复预测下一个 token, 先练出通用的语言底座。它不是直接把模型训练成一个成熟助手,也不是把知识一条条原样塞进去,而是通过大规模预测任务,把对语言和模式有用的能力沉淀到参数里。 预训练发生在具体任务之前,它最核心的任务通常是 next token prediction 模型为了把这个任务做好,会被迫学会大量语言规律。预训练得到的不是答案库,而是能力底座,后续的微调和对齐,都是建立在这个底座之上的。 所以预训练不是小热身,而是大模型真正学会语言基本功的起点,我是未来摸鱼伴,感谢观看。

中国第一个有国家自主底座的大模型,今天走上了世界舞台啊!就在今天,至此, ai 发展又多了一条新的路径。 四月二十四号, deepsea 微四预览版版本正式上线,并且开源。他这一次上线的这个模型有百万字超长上下文,在 i 建的能力、世界知识和推理的性能上, 全部实现了国内与开源领域的领先,遥遥领先!这是真的遥遥领先!我刚刚自己测试了一下 duc 微四版本,超级快,超级好用, 超级推理强,关键是百万字长文!百万字长文!各位朋友们,超级 ai 时代已经到来了,赶紧赶紧把 ai 给调用起来,让他为你干活,让他帮你解决问题, 把你的时间,把你的大脑,把你的双手解放出来,提高效率,赶紧去试一试 ibac 微四版本!

微调到底是什么?为什么同一个底座能变很多版本?预训练练出通用底座?微调决定他最后更像哪一种成品模型预训练做完以后,模型已经有了很强的语言底座,但这时候的模型往往还比较通用,不一定特别擅长某一类具体任务,也不一定特别符合某个产品场景。接下来常见的一步就是微调。 微调的本质不是从零重练一个模型,而是在已有底座上继续训练,让他更擅长某一类任务或更符合某种使用目标。微调到底是什么?他是在已有模型基础上,再做一轮更有针对性的训练。微调可以理解成,模型已经练过大规模通用数据了,现在再拿一部分更贴近目标任务的数据让他继续学。 和预训练不同,微调通常不追求什么都学一点,而是更强调方向性。比如你想让模型更适合克服、更适合写代码、更适合医学文本,更适合听指令,这时候就会用相应的数据和目标继续训练它。所以,微调不是把模型推倒重来,而是在现有能力上继续拧方向盘,它保留底座能力,同时把模型往更具体的目标方向拉近。 为什么同一个底座能变很多版本?因为底座提供通用能力,后续训练决定具体风格和任务。偏向一个预训练底座通常已经会很多通用语言规律,但会很多和更擅长某一类事不是一回事。 只要你用不同的数据、不同目标、不同后续训练流程去继续优化同一个底座,就可以被塑造成很多不同版本。这也是为什么你会看到同一家底座模型后面可以长出聊天版、代码版、行业版、轻量版、对其更强版等。不同变体底座像通用发动机平台,后续微调像装上不同调校和部件,最后开的感觉就会不同。 微调和预训练最本质的区别是什么?预训练追求通用,底座微调追求定向能力。预训练用的是大规模、广覆盖的数据,目标是先练出一个能处理通用语言的模型。底座 微调则更像定向强化,它往往使用更聚焦的数据。目标是让模型在某类任务上表现的更稳定、更可用。所以两者不只是数据规模不同,更重要的是目标不同。预训练问的是怎么让模型先会语言,微调问的是怎么让他更像我要的那种模型,一个更像打地基,一个更像做功能装修。 微调是不是一定会让模型更强?不一定,它更常见的是让模型更适合某种目标。很多人会误以为微调一定意味着全面升级。其实更准确的说法是,微调通常会让模型在某类任务上更合适,而不一定让它在所有方面都更强。因为当你把训练重点放到某个方向时,它就会朝那个方向更贴近。 比如,一个模型被微调的更会写法律文书,不代表它所有开放式推理都会更强。所以微调的关键词不是无脑增强,而是有目标的塑形。 微调用的数据和预训练数据有什么不一样?他通常更小,但更贴近目标任务和目标风格。预训练数据追求的是海量和广度,而微调用的数据通常更小、更精、更有方向。因为微调的重点不是在给模型灌一遍全世界,而是让他更适应某个特定任务、某个行业、某种表达方式。所以微调数据往往更像高针对性训练级。 它可能是问答队、任务样本、行业文本代码、指令、对话示意等。这些数据不一定量,很夸张,但它们和目标任务的贴合度很高。对微调来说,方向对比单纯在堆更多杂数据更重要。为什么微调会改变模型风格?因为它会持续强化某种回答方式、任务格式和输出偏好。 模型的风格感并不是凭空来的,而是在训练中慢慢被塑出来的。如果微调数据里大量样本都呈现某种回答格式、语气偏好、任务结构,模型就会越来越倾向于学成那种风格。比如你给他很多简洁分点回答的样本,他就更容易朝那个方向收敛。 你给他很多客服是安抚加流程引导的样本,他就更容易像一个客服。风格不是装饰层,而是训练目标和样本分布在输出行为上的体现。 为什么不是所有场景都要从头训一个模型?因为底座已经很贵,从底座上继续改通常更现实。从领域训练一个大模型,成本非常高,数据要求也很恐怖。对大多数团队来说,真正可行的路径不是从头造轮子, 而是在已有底座模型之上做微调,让它更适合自己的场景。这也是为什么底座加微调会成为一个非常主流的路线。底座负责提供通用能力,微调负责把这份能力拉到具体场景里,这样既省资源,也更容易做出真正可用的产品版本。 微调之后,模型还是原来那个模型吗?底层底座还在,但行为表现已经可能明显变了。从结构上说,微调后的模型还是建立在原来的底座之上。他没有突然换掉整套架构,但从行为表现上说,他已经可能和原来很不一样。 因为参数经过继续更新以后,模型对某些任务的偏好、表达方式和输出稳定性都会发生变化。所以更准确的说法是,他还是同一个底座谱系里的模型,但已经被塑成了新的具体版本。这也是为什么同源不同位会成为大模型世界里非常常见的现象。 最后总结,微调到底是什么?为什么同一个底座能变很多版本?微调的本质是在已有底座模型上继续做有方向的训练,让模型更适合某类任务、某种风格或某个具体场景。他不是从零开始重炼,而是在预训练练出的通用能力基础上继续塑形。 第一,预训练练通用底座微调做定向优化。第二,同一个底座可以因为不同微调而长出不同版本。第四,微调数据通常更小,但更贴近任务。 第五,很多实际落地场景都是靠底座加微调完成的。所以微调不是边角料,它是把底座模型变成具体产品能力的关键步骤。我是未来墨玉半,感谢关。

十年传统产品经理怎么逆袭进入 ai? 来,大家跟我一块学习了,今天继续开始学习。 你了解国内哪些底座的大模型,它们的能力相优势都有什么区别?有没有护城河 这一块的话,是属于 ai 产品经理最基础的问题,主要考察的是对于不同大模型的优势能力的一个基础认知。注意啊,除了讲饭饭的内容以外啊,一定要去收敛到你的行业和业务领域, 比如你面试的是金融 ai 叉米经理可以讲一下哪家底座大模型在金融行业的优势。第一个需要掌握结论能够讲得出。第二个需要时刻地关注大模型发展动态,比如杀出来的黑马 deepsea 为什么火遍海外。 第三个大模型在特定的行业里面的应用状况。那么今天这一个问题的话给到您回答思路啊, 我目前经过我目,我目前经常使用的是国内的大模型。豆包,文新一言,讯飞星火通,一千万 dusic 智谱会员。这几家虽然啊,都是底座通文大模型,但是它们各有但是它们 但他们有各自的能力优势,在文本生成多语言支持应用场景情感与创意表达都有些许的这个差异。豆包他是擅长学术论文刊写和日常的对话一托,最大的流量平台,但是啊,文本生成的创意不够。 第二是文新一言,他适合新闻创作,呃,跟翻译服务适合新闻的创作, 但是呢,在专业领域的知识深度上稍显不足。第三个是讯飞星火生成的能力极强,二零二四年的时候位列大魔星公司企业中, 二零二四年的时候位列大模型公司企业中标金额和数量之首,语音识别多种情感风格,能力非常的好。第四个是通易签问,适合复杂任务和长文本的一个处理 参数,规模灵活。 deepsea 奉行开源的策略,具备非常强的数学和代码生成能力,超过 gpt 四和科奥的三点五。 deepsea 微三的一个训练成本仅为五百五十万美元, 远低于其他顶级模型的数亿美,远低于其他顶级模型的数亿美元,目前可能是最具国家影响力的中国大模型。第六个是质朴 模型结构有创新,使用了多层次的编码器、解码器框架,能够更好地理解和生成复杂的语言结构,而且发布了 auto gel, 而且发布了 auto, 而且发布了 auto g l m 的 一个智能体,可以模拟人类在手机上的一个操作行为,具备很强的执行,具备很强的任务执行和决策能力。第七个是腾讯混元大模型, 如果你想搜索到高质量的内容,那么混元最合适了,因为一托微信的公众号平台,内容质量非常的高。对于我所在的金融海岸来讲,文新一言啊,讯飞、星火的大模型能力比较突出,一方面是因为这两家大模型 公司在二零二四年的时候中标的这个大模型的项目,金融机构的项目数,金融机构的项目数量位列前二, 客户用脚投票。另外的话就是百度、讯飞都有基于这个通用大模型之上的一个领域的大模型,比如说同行大模型、财富大模型等等大模型。对于金融行业的这个数据理解的和这个处理的能力会非常的强, 其次的话,在这个弊端落地的这个实操中,大模型的能力之间呢一个差异是,嗯,比较小的。我觉得啊, 影响大模型能够最重要的一个因素是数据的质量,其次才是算法。大模型公司的一个护城河,除了人才团队 跟他的一个大模型的一个基础能力以外,更重要的是大模型产生的业务价值,对业务的一个深度的理解,解决方案的能力,包括他的个 no 及其一个数据才是真正的一个护城河。

指令微调为什么让模型更像在听懂人话?模型不是突然变懂事了,而是被专门训练成更会响应人类指令。 很多人会有一个很强的直觉,有些模型明明底层原理差不多,但为什么一旦变成聊天助手,就好像突然更懂人话,更会按要求办事了?这里面很关键的一步就是指令微调。他不是让模型凭空长出新脑子,而是在已有底座能力上,专门训练他去理解和响应人类常见的任务指令。 什么叫指令微调?它是让模型在任务指令到合适回答这种样本上继续训练。普通预训练主要在练语言预测能力,而指令微调更像是在链接任务, 它会给模型大量形容用户指令加理想回答的数据,让模型逐步学会当用户提出一个请求时,什么样的回应方式更符合人类预期。比如,请帮我总结这段内容,列出三个重点,把这段话改的更正式。这些都属于典型指令 模型在大量这类样本里继续训练后,就会越来越擅长把人类的自然语言要求映射成一种更合适的输出格式。 为什么只做预训练还不够?因为会续写不等于会按人类要求办事。只做预训练的模型通常已经很会续写,很会模仿语言模式。但当你对他说请帮我列三点,或者请按表格输出时,他不一定会稳定照做。因为预训练时,他主要学的是下一个 token 怎么接,而不是用户提这个要求时,最合适的回应规范是什么。 也就是说,预训练让模型有了语言能力,但没有系统的训练,他去当一个听指令干活的助手。指令微调就是在弥补这一层,让模型不只是会说,还更会按要求说。 指令微调到底改变了什么?它改变的不是底层语言能力,而是任务响应方式。指令微调通常不会把模型从不会语言直接变成会语言,因为这层底子在预训练里已经有了,它更像是在原有能力上重新调教输出行为。看到一条自然语言请求时,应该优先理解为任务,而不是普通续写开头。 这会带来一个非常明显的体验变化,模型更容易按要求组织输出,更容易理解格式约束,更容易给出任务导向的回答。你感受到的,他更像在听懂人话。本质上是模型被训练的,更会把自然语言视为指令,而不只是文本片段。 指令数据为什么这么关键?因为模型会从这些样本里学会人类提要求的方式和理想回应的形式。 指令微调的数据通常不是普通原始文本,而更像一组组任务范例。这里面不仅有用户会怎么提问,怎么要求,怎么描述任务,也有相对理想的回答,应该怎么展开,怎么组织、怎么收束。模型在这些样本里反复训练以后,就会逐渐形成一种新的偏好。 看到帮我总结,请解释一下列一个清单。这类表达时不再只是顺着文本往下接,而是更倾向于进入某种任务执行模式。这也是为什么指令数据的质量和分布会直接影响助手感强不强, 为什么会让人觉得他听懂人话了,因为他开始更稳定的把自然语言理解成需要执行的请求。人类在日常交流里,很多任务都不是用程序命令那种方式表达的,而是用自然语言说出来, 比如帮我改的更简洁一点,把这个解释给小白听,用三点总结。这些话在形式上很口语,但对一个经过指令微调的模型来说,他们已经被训练成一类可识别、可执行的任务信号。 所以你会觉得他更懂人话,其实是因为他更会把口语化表达转成任务框架,然后再按这个框架生成结果。他不是突然有了人类意识,而是被训练的更适合处理人类自然提要求的方式。 指令微调和普通微调有什么区别?普通微调偏任务方向,指令微调更强调用户请求到合适执行。普通微调的范围很广,他可能是为了行业适配、风格塑形、分类能力增强、代码能力强化等。 指令微调则更具体,它重点优化的是面对人类给出的自然语言要求,模型如何更稳的理解并执行。所以你可以把指令微调看成微调里的一个非常重要分支。它不是完全脱离微调,而是在让模型更适合某种目标这件事上,重点瞄准了听指令做任务的能力。指令微调是不是等于对齐? 不完全等于,但它通常是模型变得更像助手的重要一步。很多人会把指令微调和对齐完全混成一回事,其实它们有关,但不完全相同。 指令微调更像是在训练模型怎么更好地执行人类任务。而对齐的范围通常更广,还会涉及安全性偏好、边界控制和更符合人类预期的行为规范。 所以更稳的说法是,指令微调通常是模型变得更像助手的关键步骤之一,但它不是全部对齐工作的总和,后面为什么还会有 r、 l、 h、 f 和其他对齐流程?就是因为会接任务和更符合人类偏好之间还差一步。 指令微调最直接带来的产品体验是什么?模型更听话,更会按格式,更像在完成一个明确任务。 从用户体验上看,指令微调最直接的效果就是助手赶上来了。模型不再总是散着说、乱着接,而是更倾向于围绕你的要求来组织输出。你让他分点,他更容易分点,你让他总结,他更容易抓重点。 你让他按步骤,他更容易按步骤。这也是为什么很多用户第一次明显感觉模型变好用了,往往不是在底层能力突然暴涨的时候,而是在他开始更会执行任务,更会顺着人类表达来回应的时候。这个变化背后,指令微调通常功劳很大。 最后,总结,指令微调为什么让模型更像在听懂人话?因为它不是单纯继续练语言,而是专门用用户指令到理想回答这类数据去训练模型,把自然语言请求识别成任务,并更稳定的按人类预期来输出结果。它改变的不是底座语言能力本身,而是模型面对任务时的响应方式。 第一,预训练让模型先会语言。第二,指令微调让模型更会接任务。第三,他依赖大量指令样本来塑造任务响应方式。第四,他会显著增强模型的助手感和格式执行能力第五,他很重要,但不等于完整对齐, 所以指令微调之所以让人觉得模型更懂人话了,不是因为模型突然有了意识,而是因为他被专门训练成更会响应人类自然语言请求。我是未来摸鱼伴。感谢关。

还分不清火山方舟和火山引擎的关系,一个是平,搞明白,让我们从上到下一层层拆解他们的关系。最底层是火山引擎字节跳动旗下的企业技术服务平台, 定位云家 ai 双引擎,所有大模型能力的底层基础设施都由火山引擎提供。火山引擎旗下的大模型服务平台叫火山方舟,提供模型的精调推理、评测和部署。企业客户在方舟上调用豆包模型 a p i 完成业务落地。豆包是面向 c 端用户的 ai 助手品牌, 而它的底层基座是 seed, seed 是 自己 ai 实验室自研的大模型系列。豆包就是 seed 的 能力封装。最新的 seed 二点零 对应的就是豆包大模型二点零代号豆包 seed 二点零, seed 加 dance 就是 seed dance。 豆包的视频生成模型,它支持文本、图像、音频、视频四模态输入,生成影视级视频。最新版 seed dance 二点零在全球视频生成评测中登顶第一。 seed 加 dream 就是 c dream。 豆包的图像创作模型支持深度推理和联网解锁,精准解析复杂指令。最新版 cdr 五点零 light 已在纹身图领域跻身全球第一梯队。总结一下,火山引擎是底层云基础设施, 火山方舟是模型服务平台,豆包是 c 端品牌, seed 是 底层基座。 seed 衍生出三大产品线, do 包 seed 做通用大模型, c 单词做视频生成, c gym 做图像创作。它们通过火山方舟平台提供 a p i 服务,由火山引擎统一承载,这就是字节跳动大模型的完整产品矩阵。

兄弟们啊,不知道大家玩精品有没有类似的情况啊?就是我们打开那袋的时候,看到一些袋上有制造番号啊,这个是螺的几个时代的螺 sp, 这个有一个制造番号啊,是八二五零二零七三零。 这个制造番号啊,然后还有这个手办啊,手办底座啊,手办底座上面会有一排数字啊,这个数字和制造番号是不一样的啊。 啊?这个数字是二八零五七二四啊,然后同样他俩是一套的嘛。然后这个也是啊,制药贩号,他俩的制药贩号是不一样的啊,这个是尾号,是七三零,这个尾号是幺五零啊,但是这个我发现一个小秘密啊,就这个他俩不是一组的吗?他底座底座这个号码啊。

大模型技术本身不是壁垒,真正的壁垒在数据。所谓算法,本质上就是用代码去实现川字方块架构,在海量文本里寻找词与词之间的统计规律。这件事拼的是工程优化能力,而工程问题从来都是可解的, 各家厂商最终一定会趋同。真正的差距在于你拥有什么样的数据,够不够独特,够不够鲜活。把这个逻辑记住,我们再来看华为盘古的超级风波,很多问题就清晰了, 华为在大模型上的起步并不晚。二零二零年十一月,盘古正式立像,二零二一年四月首次对外发布,到二零二五年六月,宣布开源部分模型,前后投入了近五年时间。 二零二五年三月,王云鹤全面负责盘古大模型研发,这个九零后 ai 专家从实习生一路做到技术负责人,学术履历亮眼。 但谁也没想到,他上任仅仅四个月,风暴就来了。二零二五年七月初, github 上有人发布技术报告,指出华为刚开园的盘古 pro me 模型,与阿里千万模型的参数结构相似度高达零点九二七, 而一点零是完全一致,业内正常范围在零点七以下。华为紧急声明否认抄袭,但承认部分代码参考了业界开源事件,强调以标注版权,声明遵循开源协议。随后更有自称内部员工的人爆料,直指团队存在套壳絮絮的行为。 这场风波迅速发酵。二零二五年八月底,华为云启动大规模组织调整,盘古相关部门被裁撤,资源全面回撤到升腾芯片和算力产业。到二零二六年三月二十八日,王云鹤正式离职,结束近九年华为生涯。 为什么会走到这一步?回到开头那个逻辑,华为的基因是什么?是通信设备?是政企服务,是硬件层的深厚积累。 这些领域产生的数据设备、日制项目文件、工业参数,能限制出懂人的通用大模型吗?显然不能。大模型需要的是真实用户互动数据、商业交易数据、开源社区代码数据,这些才是训练强推理能力的水源。而华为恰恰缺乏这些。 当一家公司试图在自己不擅长的数据土壤上硬核通用大模型,结果就是投入多年却迟迟看不到突破。团队在持续高压下选择了走捷径,用开源的铅汞做底座,再包装成自研交差,他们赌的是不会被人发现,结果被开源失去最擅长的透明性。反思 这件事对华为品牌的伤害远比表面看起来深渊。华为在中国公众心目中一直是硬核自研的代表,从五 g 到鸿蒙,从芯片到通讯设备,每一次趋势都是从零做起。公众对他的期待不是你能做出来,而是你必须是自己做出来。 所以,当套壳之一出现时,对品牌信用的透支远比小米这类本就以整合为标签的公司要严重的多。 这个裂缝可能需要很多年才能修复。但公平的说,华为的战略回调是清醒的,他没有在错误的道路上死磕 盘古。从通用大模型退回到行业专用智能体,这些场景需要的是真正能落地的 ai 能力,而这恰恰是华为的舒适区。更关键的是,华为把资源重操到了自己最擅长的层面。 黄仁勋最近提出了一个 ai 五层蛋糕的理论。 ai 产业从下到上依次是能源、芯片、基础设施、模型、应用。底层是上层的基础,而上层的成功会拉动整个产业链的需求。华为的升腾芯片正卡在了芯片这关键的第二层。 去年九月,华为全连接大会上首次公布了升腾芯片未来三年的迭代路线,二零二六年一季度推出升腾九五零 pr, 二零二六年四季度推出升腾九五零 d t, 二零二七年四季度推出升腾,九六零,二零二八年推出升腾九七零 一年一代算力翻倍。阿里字节、腾讯三家大厂已经大规模采购升腾九五零 pr。 deepsea 和 v 四的底层代码也从英伟达的库达全面迁移到了华为的 cana。 黄仁勋自己说出了一句意味深长的话, deepsea 和 v 四在华为芯片上首发,对美国将是灾难。所以你看, 华为在大摩车上退了一步,但在更底层的芯片和算力底座上,它的护城河正在飞速加深。它不是在认输,它是在认清自己的基因边界之后,把资源压到了自己最擅长也最不可替代的地方。韩国的抄袭风波,本质上是一次逆基因强攻的必然。风车 是一个团队的长期投入没有结果后的短视行为。王云鹤的离职,是他必须为这场损害品牌利益的风波承担的责任。一个警流后,技术天才被推到了一个需要赌上的职业声誉的位置,结果赌输了。 而华为的处理方式是让他自己体面的离开,这既是对个人的保护,也是对公司形象的止损。这场风波对华为品牌的损伤是长远的,但他的战略回调是清醒的,认输不丢人, 在错误的道路上死磕才丢人。最后,自己最擅长的物理世界,把升腾芯片和算力底座做大做强,这才是华为在 ai 时代最务实也是最正确的选。

大家好啊,今天想跟大伙聊个挺有意思的话题,咱们每天都在用的通信网络,是怎么喂饱那些聪明的 ai 大 模型的?可能有朋友会好奇, ai 不是 电脑里跑的程序吗?跟咱们打电话上网有啥关系?其实啊,这里面学问可大了去了。 你想啊, ai 大 模型就像个特别能吃的学霸,要学的知识多着呢,这些知识从哪来?很大一部分就是通过咱们的通信网络,从世界各地的服务器数据库里运过来的。 我身后这些服务器机柜和光纤光缆就是给 ai 送外卖的。高速公路蓝色和橙色的光纤光轨就像一条条数据的小河,不停地把文字、图片、视频这些信息循环着输送给 ai。 打个比方吧, ai 学习就像咱们盖房子, 通信网络就是运输建材的卡车队,把水泥、钢筋源源不断的运到工地。没有这些建材, ai 这个学霸就算再聪明,也巧妇难为无米之炊啊。而且这个运输队还得特别给力,速度快,容量大,不然 ai 学知识就跟咱们用拨号上网似的,慢的让人着急。 现在咱们用的五 g 光纤网络,就像给这个运输队升级了装备,能更快更多的把数据送给 ai。 这些数据在 ai 的 大脑里通过复杂的神经网络处理,就变成了它回答问题生成内容的能力。 所以说,咱们平时顺畅的上网打电话,其实也在间接帮着 ai 变得更聪明呢。最后想问问大家,你们觉得未来通信网络还能给 ai 带来哪些新变化?欢迎在评论区一起聊聊。

某天,阿布突发奇想,手办底座是不是可以用别的什么代替一下?因为很多手办底座都比较大,很占地方,因此就有了这期视频。跟着我一步一步来,先把圆底座扔掉,然后用钳子把装剪掉, 再用刻刀修剪一下本次我们登场的主角,亚克力原片撕膜 再撕给手拌,脚底上热熔胶, 一口坐气按上去,这样固定的更紧实, 尺寸完美,正正好对比一下原来的大小,是不是省了很多空间? 当然,如果有强迫症的朋友觉得会弄花手办,那就不要学我这么干, 总之还是很不错的一个小技巧, 亚克力原片尺寸我放评论区了,适用于大部分中小比例的手办。觉得本期视频有用的话,可以给主播投投币吗?爱你们呦!

我们首先回顾一下,当大模型出现之后,其实大家都希望大模型能够解决困扰了我们工业各行各业各个领域他的一些非常专精的一些痛点的问题。但这些问题呢,其实经过我们的长期探索之后发现不管是大圆模型还是任何一个通用的大模型,其实都不能很好的解决,这主要是因为通用的模型他其实不太能理解我们的领域知识,或者说不太能知道我们设备之前的一些机理,一些过去的一些状态的变化。 同时当我们去用模型去不管是做训练还是推理的时候,其实数据库里面的数据质量都在影响着我们的模型效果,这两点是致于我们将智能应用到我们的工业里面的一个最大的拦路虎。 那么怎么样去弥补这样的一个缺陷,就是我们一个解决思路,这里面主要有两点。第一个就是高质量的领域数据,那么经过 l、 t、 d、 b 过去十多年的打磨,我们其实通过我们的数据节点,已经能够把我们的业务数据进行一个高质量的管理,包括他的统一的建模,他的数据质量的提升以及数据的处理,这些都是一个基建工作,其实已经完成了 l、 t、 d、 b 离给用户直接解决他的业务的领域的问题,只缺一个就是模型的微调。那么模型微调呢?能够将一个通用的大模型定设成或者说聚焦成一个领域专有的问题的一个模型,这个模型才有可能去帮我们工业用户解决实际的问题。 那么接下来我们看一下 l、 t、 d、 a、 n、 o 的 它的数据智能的架构,在 data node 的 右面就是我们 a、 n、 o 的 架构,它里面包括几个部分,最关键的是一些模型管理的这一层。我们说模型微调,我们调的到底是什么模型?因为现在市面上大家一听大模型就是大语言模型,它的应用场景呢,更多的就是问答助手。 但是在工业里面,我们分析的更多的就是设备的运行状态,它的持续数据,所以我们微调的基础呢是我们自然的持续大模型 camera, 一 会龙老师也会进一步分享 camera 的 一些关键的技术。那么在这个大模型基础上呢,我们其实做了两步,第一个就是数据的预处理, 数据处理在做什么事情,其实就是在把我们收集到的这些原始的低质量的数据进行进一步的规整和整合,包括将它的时间进行对齐,让它的频率变成这个规整,以及将一些缺失值进行补齐的这些操作。那有了数据处理,我们才有可能将这个数据集变成一个模型可用的数据集。 那再进一步,上层我们又扩大了一个大规模的引擎,就是叫训练引擎,这个训练引擎呢,能够将我们的持续大模型包括一些其他的模型进行一键的微调。微调过程中呢,可能会进行多轮的训练,我们在这多轮的微调过程也会进行模型的评估,来去选择哪一轮的微调的效果是最好的,来去得到我们的一个最佳的这一轮的微调的这个模型。 通过这种方式我们就能够实现一句 c 口进行模型的微调,我们可以看一下这个 c 口里面其实有两个重要的信息,一个就是 from model, 这个 from model 就是 我们用哪个模型算法来去进行微调,下面就是一个数据集,这个数据集呢,我们可以指定一个数据库里面我们关心的想用来微调的这些数据, 它可能是某个设备某一天的一些增量的数据,这样的话就实现了一个模型在库里面。比如说我的过了一周,我把这一周的数据微调来实现模型的在线上的增量的阶段更新,这样的话模型始终能够去跟进我们设备最新的一个状态,能够不忽略它每一天的变化。 那有了 anno 的 一键微调之后,我们就能够快速构建你的领域持续大模型。这样的话,其实我作为一个数据库的开发者,模型的训练和微调之前对我来说都是比较繁重的,一些手工的工作,我需要去在外面写一些他的代码,将数据从数据库里读出来,可能还要转正 csv, 再去做各种各样的处理和清洗,最后再去训练一个模型,回来再去把模型做一个推理, 整个流程对我来说是非常繁琐和不便捷的。但是有了 annote 的 一键微调之后,对于我来说这个事情有一个声音一直在我脑海里回想,就叫手可摘星辰,也就是实时大模型不再那么遥不可及,它变成了一件触手可及的事情,每一个我们拥有数据的人都可以去拥有一个自己领域的实时大模型,那么这样一个能力就是 l t d b annote 为大家提供了一个非常便捷的一个能力, 那我们看一下微调的效果和效率,那么在一个秒级点为一天的增量数据,我们用单卡微调仅仅耗时五分钟或者更低的时间就能够完成一个增量的学习。也就是说当我们数据过了一天,仅仅需要五分钟以内,我们就能够获得一个更新的模型,那这个模型在一个全量数据级的统计指标 m i c 这个均方误差能够下下降到高达百分之二十以上,这样也是一个比较好的一个效果。 那我们看一下直观表现,微消前它的预测可能跟真实的距离偏差是比较大的,几乎在生产的理论是不可用的,其实也是非常好理解的,因为实际数据它跟语言数据不一样,实际数据更多的反映的是设备积累的变化,而不是前后一个语言的逻辑。我前面到底说了这句话,下面一句话其实大家一般能猜到,但是实际数据不一样,它下一秒到底怎么变,其实是完全不太可预测的,只能通过它过去的一些数据来进行学习才得到。 微调之后呢,就能够比较考的你和真实的这种数据的变化趋势。那我们看一下 l t d b 二点零 ai 时代的工业数据智能底座的全景图,里面主要包括一个数据基建 daytona 的, 这里面就是我们管各种各样的像实际数据、静态数据以及多模态的数据,甚至外部数据源的读取。那么还有一个 ai ai 的 部分,这里面就是包括管理我们的实时大模型,以及对它进行数据的处理和模型的微调。 那么在这两者之上呢,是我们的系统管理的部分,也就是 control node, 它其实在 l t、 d、 b 的 系统里面处于一个背后的默默工作者来帮我们管理这两个节点的一些协助的工作的状态。那么在上呢,我们去支持了更多的工业智能的一些应用,包括一些智能体的构建,智能的运维以及实时预测和检测呀等等这些场景。 那么产品组建呢,主要有三个部分,第一个就是专业的实时数据库,它作为一个完整的产品,还有两个就是扩展组建,一个联盟查询的组建,一个这个智能分析的组建,这两个是可以即插即用。

你现在用的 chat, gpt, cloud, 豆包, gemini, 不 管界面多花哨,扒开看,里面跑的都是同一个东西,叫 transformer。 二零一七年,谷歌八个人写了篇论文,标题很狂,叫 attention is all you need。 翻过来就是,你只需要注意力。这篇论文发出来没几年,把 ai 圈用了三十年的老架构直接送走了。我用大白话给你拆一下, 听完你也能跟人白话两句。先说老 ai 怎么读一句话。以前的模型叫 rnn, 读句子的方式像挤早高峰地铁,一个字一个字排队过闸机,前面的人不走,后面的别想动。读到我今天去公司开了个会, 然后下午又去咖啡店,还碰见了老王,等他读到老王前面那个我基本已经忘了,所以早期的翻译软件一翻长句子就飘。不是他笨,是他记不住 transformer 上来就掀了这个桌子,凭什么要排队?他让一整句话里所有的字同时上场, 一起被处理,这个叫并行,但你想啊,一堆词哗一下全冲进来。模型怎么分清谁跟谁有关系?这就是那个核心武器注意力机制。举个最经典的例子,小猫追着小狗跑,它累坏了。这个它到底指猫还是狗?人一秒就懂, 机器得算。 transformer 的 做法是把句子里每两个词配一对,挨个算分数,这个分数叫注意力权重。它跟小猫分数高,跟跑分数也高,模型一合计,哦,它指的是在追的那只。说白了,注意力机制就是开卷考试还能抄全班卷子, 每个字下笔之前都先扫一眼别的字再写啥信息一点不丢。而且不是瞎抄,是有侧重的抄,跟我相关的我多瞄两眼, 不相关的扫一眼就过。这就是为啥 transformer 能啃超长文本,几万字塞进去都不晕。那他怎么一步步变聪明的?答案就俩字,叠层。一层。 transformer 顶多看出猫和跑是个主位关系, 比较表面,但你叠十二层,二十四层,九十六层之后,他开始摸到门道了。语法逻辑,隐喻,反讽,一层比一层抽象。 gpt 四,据说上百层,每一层都在做更深一点的理解,跟人脑其实挺像。视觉皮层,第一层识别线条,第二层识别形状, 到第十层你就能认出你妈了。中间我插一句,你琢磨琢磨 transformer 到底是真懂了人话,还是只是把概率算到了变态精确? 这个问题吵了好几年没定论。评论区说说你的看法。再补一个关键点, transformer 不 光会读,他还会写。他生成下一个字的办法就是根据你前面说的所有字,算出哪个字接下来出现的概率最高,然后吐出来。你以为他在思考, 其实他在做一道超大规模的填空题。但神奇的事来了,当这道填空题做到极致,量变真的引起了质变。这就是大模型,那个被神话的词涌现。某一天,他突然会写代码了,会解数学题了,会角色扮演了,会帮你吵架了, 谁也没专门教过他,这些自己就会了。到现在为止,连 open ai 自己都说不清楚这些能力具体是哪一层哪一步蹦出来的。我一直觉得这事挺玄乎的,既兴奋又有点发毛,好,收一下。 transformer 凭啥火遍全球就三点, 跑得快看得准,堆得高。跑得快是病情处理,看得准是注意力机制,堆得高是多层叠加之后涌现出复杂能力。你今天点开任何一个 ai 聊天应用,底层逻辑都是这套 open ai、 anthropic、 谷歌字节、豆包这些公司卷的。不是要不要用 transformer? 是谁能把他训得更聪明,还能跑得更便宜?顺便说个冷知识,那篇开山论文的八个作者,到现在一个都没留在谷歌,全跑出去创业或者加入别家了。其中一个叫 iden gomez, 创立了 cohere, 估值干到几十亿美金。八个人写一篇论文,各自裂变出几家公司,改写了整个行业, 这种事几十年才发生一次。最后留个话题给你, transformer 从二零一七年到现在已经八年了,按 ai 圈的迭代速度,八年已经算老家伙了。最近学术圈冒出来一堆挑战者,什么 mamba、 r w k v 状态、空间模型, 都说自己更快更省内存,你觉得再过十年, transformer 会不会被新架构拍死,在沙滩上,重演当年他干掉 r n 的 剧本?觉得 transformer 还能再战十年的扣二,咱评论区见。

出来混最重要的是什么?是出来数据分析,最重要的是什么?是你得有数据!上一期我们说到,我们是按照这个思路流程去研发的,从最终结果基于 ai 大 模型的预测推演系统倒推 现在数字孪生场景装备、设备、数字人都有了。第一步是要生产源源不断的数据,为此我们搭建了两套数据管理系统,一套是资源配置数据管理系统,一套是数字孪生场景数据管理系统。 资源配置数据管理系统是集装备模型格式化呈现、多维度参数化配置、运行效能实时预演于一体的专业化配置平台,支持安军兵种合作战功能等维度进行分级切换与联动。显示 系统采用标准化交互布局,选定装备后,左侧为装备三维格式化展示模块,支持三百六十度全域浏览、缩放、视角定位等交互操作。 点击配置入口,进入参数配置界面,以无人机为例,可对驱动力、灵敏度、负一翻版等核心性能参数进行精细化定 义。参数配置完毕后,可直接预演运行效果,点击应用指令,即可将参数方案实施同步至三。为推演系统,实现装备参数的一体化配置和壁环联动推演。 孪生场景数据管理系统作为 ai 大 模型推演的核心数据底座,汇聚了建筑、武器、装备、人员、车辆仓储、道路任务训练以及使用记录等全要素数据,构建统一标准的孪生数据资源池。 系统采用现代化、扁平化界面布局,左侧为功能菜单导航区,右侧为结构化数据展示与操作区,层级清晰,交互高效。系统提供完备的数据全生命周期管理能力,支持数据新增、编辑、删除、查询等标准化操作, 并具备模糊解锁、批量导入、导出、删除等高效运维功能,可大幅提升数据更新、治理与管理效率,为 ai 大 模型推演提供高质量、高可靠的数据支撑。 后期我们要搭建基于 ai 大 模型的预测推演系统,我们会在一数据收集,二训练模型、三配送模型三者反复迭代更新,逐渐达到产品的完善。

用一百期讲懂 ai 大 模型架构,今天带大家了解支撑 ai 大 模型研发和落地的核心生成工具。开源模型作为 ai 大 模型产业的核心基础设施,开源模型早就已经成为了技术研发和产业落地的关键主体。 首先明确定意,开源模型是指将模型结构、训练代码、预训练权重和推理部署方案按照 ipatch 等开源协议公开共享的 ai 模型,本质是一套可付用、可二次开发、 可工程化落地的大模型。基础底座区别于币源模型,它允许开发者自由地下载、修改、微调,甚至商用。当然它要遵循相应的协议。核心的价值主要是降低了模型研发的门槛, 可以避免从零去训练巨额的算力数据成本。研发者只需要在预训练开源的模型上微调,就能快速的去迭代专属的大模型。二是构建开放的技术生态,全球开发者携手优化架构,修复漏洞,推动前沿算法的快速落地。 三是支持私有化的部署,数据不出域,适配金融、政务等敏感场景,解决开源模型的安全合规。比如说维塔的莱模型, 国内的清华大学智普 ai、 阿里巴巴通、易千问是对话文案生成类的大模型,核心底座二呢,是开源计算机视觉模型。三是高效协调工具类的模型,比如说 lora。 最后我们总结一下,开源模型不是简单的代码片段,而是连接算法、理论、算法硬件和产业应用的桥梁。没有开源模型的硬件和产业应用的桥梁,就没有开源模型。今天 大语言模型的全面爆发,既是研究者的实验工具,也是产业生产的工具。未来呢,会朝着更高效、更全面,然后更轻量化的方向进行发展,持续关注 ai 大 模型的技术突破与场景的落地。