春节本该是阖家团圆、喜气洋洋的时刻,但 deep seek 却因为一个变冷淡上了热搜,这背后藏着什么秘密?还有那个传说中的威斯大模行,为啥迟迟不见踪影? 你看技术上, deep seek 这次升级确实牛气冲天,上下文窗口直接拉到一百万, to 肯知识库更新到明年,反应速度也更快了。 听起来是不是很厉害?但用户的感觉呢?他们说 ai 变冷淡了,没以前那么有人味了,甚至有点阴阳怪气,这就尴尬了对吧?就像你家孩子,突然成绩突飞猛进,但回家一句话都不说,你是不是也觉得少了点啥? 消费品大佬说了,产品的灵魂在于一致性,用户不怕产品不够强,就怕它变了味。 投行评估品牌资产时,情感连接可是个重要维度,一旦建立,那就是护城河。可口可乐当年换配方差点翻车,就是这个道理。 deep c 二一之所以火,不光是技术强,更是因为它有个人味。 这次更新虽然提升了能力,但在情感连接上反而拉远了和用户的距离。这提醒我们,技术迭代可以很快,但用户的情感跟不上趟啊。 再来说说那个让大家翘首以盼的 v 四,本来大家都等着过年看戏,结果呢,至今没影,有消息说可能要拖到三月底, 这可不是小事。 v 四的强大传闻已经搅动了整个行业,各大模型公司都在加速赶工,想抢先发布,一场提前亮的军备竞赛就这么开始了。 deepsea 自己呢?他们一直保持着极简克制的风格,高管很少说话,模型发布也不搞预热,这种定力挺让人佩服, 但也说明搞大模型研发真不是按部就班的流水线。那些爆料的时间节点,很多时候只是个计划。而且 r 一 的成功是超预期的惊喜,现在大家对 v 四的期待值被拉满了,就算 v 四再强,震撼感也会打折扣, 这就是头部玩家的烦恼。越成功,越难超越自己。技术领先就一定能赢得市场吗?数据说话, quest mobile 显示, deep seek 越活跃,用户是一点四五亿排第二,而豆包是一点七二亿第一,这说明啥? 技术上公认的最强不一定就是用户用的最多的。商业模式不一样啊,你看那些大厂,像豆包、通、一千、问元宝,他们会通过春晚赞助、冠名、发补贴等方式大规模推广,直接抢用户。 deep seek 呢? 他选择开源建生态,用技术和论文去影响同行,走的是平台路线,这条路短期内月活和收入数据肯定不是他的优势。想想安卓的发展历程,从开发者到企业,再到普通消费者,哪个成功的平台生态不是经历了漫长周期? deepsea 开源才一年,他的生态建设还处于非常早期的阶段。所以别急着下结论,技术领先只是第一步, 最后 ai 到底能干啥?它能取代重复性的劳动,处理海量信息,整合速度远超人类。但 ai 无法判断信息背后的意义,也无法在信息不完整时做决策,更不懂得理解动机或感知未说出口的情感。 所以,我们不应该焦虑 ai 变得越来越强,而应该焦虑自己是否在强化那些 ai 永远无法替代的能力,比如温度、情感和联结。 deep sea 这次变冷淡的插曲,恰恰证明了这些人类的独特价值有多么珍贵。技术可以追赶,但人心的温度是 ai 学不会的。
粉丝3842获赞4.2万

英伟达有点危险了,因为 deepsea 要出新的模型了。你还记得去年 deepsea 出新模型的时候,英伟达有多惨吗?今年大家说,哎,好像没有去年那么爆炸。但是英伟达处的社会地位也不一样了呀,他现在也是前有狼后有虎啊,怎么讲?因为之前英伟达是推理训练两条腿走路的, 都得用他家的模型,但是现在推理特因为云服务商的出现,已经不那么依赖于他的显卡了。为什么?因为云服务商直接就把库大这个事情给绕开了啊?上一次我跟大家说绕开,去年春节的时候大家说不信是吧?现在是实实在在在推理特啊, 库达没那么重要了,你不管是你有什么样的模型,往上一提,接口一交,然后完了之后,你说你去找 gbt, 那 你去找 gbt, 你 说你去找 kimi, 你 去找 mate max 都没问题,然后完了之后剩下的就压根不用你管,你知道吗? 更不用说他后边这个硬件到底是英伟达还是升腾,根本不用你管。那现在就变成两条路了,第一条路啊,我直接走国产这个模型啊,比如说我用的提米,然后完了之后, 我用的背后用的英伟达卡也好,升腾卡也好,最后完了在中国的这个供电系统下,然后完把这个东西算完了,他便宜不便宜?那当然便宜了,我们的成本连模型带算力带电力全加在一起,也就是美国那边的十分之一。 那你十分之一在啊,前段时间大家发酵那个什么 openclaw 那 个龙虾是吧? 大量的用 agent 消耗算力的情况下,美国人你也花不起啊。所以完了之后再推理测,就是春节期间,大家知道有两个我们港股上市的公司,然后涨得非常猛,为什么?因为大家在用这个 agent 的 时候发现,哎呀,国外也太贵了, 外国人都跑到中国来用这个模型来了。所以完了之后推理测,他现在英伟达并不是那么占优。那还好,所有的这种好,不管你是 kimi 也好还是 jpg 也好,大部分现在训练你其实还得用英伟达的卡, 你别管你说禁令不禁令是吧?我偷偷用我也得用啊,毕竟训练啊,得用大规模的卡的提成,然后不容得一得插破是吧?大部分还是在用英伟达固氮再去练, 但是最近一个消息,对不?这个新出来的这个微四模型,我不准备先去给英伟达和 amd 做优化了。那什么意思? 那这就引人遐想啊,有两种可能啊,第一种可能说,哎,你还是用英伟达的卡训练的,然后,但是呢,为了让国产厂商能够跟英伟达一样的这种起跑线,是吧,我也给升腾去做一些适配。 但还有一种可能,还有一种可能就是压根我训练就没用。因为啥?为什么呢?毕竟这个是全球瞩目的一款模型,那全球瞩目的模型,然后完了之后, 每一次出来之后,他都是以小而美而著称的,而这个小而美如果再配上用的国产算力去做的训练, 那他真的又要炸一次了。他这个炸在两个方面,第一个方面,你训练如果都不用因为他了,那就因为他是不是另一条腿就立马又给打折啊? 然后大家说那没没问题啊,美国那些人还在用英伟达呢。美国人现在喜欢用英伟达吗?你去看一看 jimmy 是 不是自己用自己的显卡在他的训练他用一部分。 ok 啊,他用一部分,英伟达大部分还是用他自己的吧。然后你再去看大模型 grog, grog 那 个 马斯克自己也在想着去建芯片呢。然后你再去看 open ai, 之前跟那个英伟达应该签的是一千亿的合同,现在缩减到三百亿了啊。分批这一系列的一系列,指向的就是英伟达。现在是前有狼后有虎, 就等着对能不能给出一击暴击的暴刺来了。嗯,我们拭目以待。到时候去,拜拜。

deepsea v 四要来了,华尔街又开始提前世免资本市场有时候真的很像一群条件反射过度的猫,灯还没亮,它们已经炸毛。这次让它们集体神经紧绷的,是一家中国 ai 初创公司的 deepsea。 据 cnbc 报道, deepsea 的 下一代模型 v 四可能即将发布。消息一出,纳斯达克投资人条件反射式回忆起二零二五 年一月二十日那一天,那一天 deepseek 发布二一,然后 invadia 单日市值蒸发五千九百三十亿美元。不是五亿,不是五十亿,是五千九百三十亿。 reuters 直接写成了历史级别的市场损失。纳斯达克跌百分之三,博通暴跌百分之十七点四, 被称半导体指数创二零二零年三月以来最差单日表现。这不是技术新闻,这是资本。 p t s d。 现在 v 四要来了,华尔街不焦虑才怪。为什么纳斯达克会怕我?说句难听点的,那斯达克过去两年 靠的是什么?靠 ai 基建的宏大旭日?微软 alfa、 亚马逊每塔承诺数千亿美元资本开支, gpu 成为卖铲子的黄金逻辑,只要模型越烧钱,芯片越紧缺, 估值就越安全。但如果出现一个变量,开源加高性能加低成本加中国团队,那资本就会开始问一个问题,我们是不是高估了稀缺性市场?最怕的不是坏消息,是稀缺性神话被拆穿。

呃,就在大家准备年夜饭的时候呢,那个让英伟达市值一夜蒸发一万亿的价格屠夫呢?他可能要回来掀桌子。传闻 deepsea v 四将在初期的初期发布,硅谷大厂呢?其实最怕 deepsea v 又一次的可能成为价格屠夫再次冲击呢,西方的大厂耗资数亿美金建立的算力护城河, 呃,当别人还在卷算力,中国的 ai 呢,持续在玩算法和架构的降维。为什么 deepsea v 总是呢,给大家提前做个 deepsea v 四的创新点的预测。 第一点, ingram 的 存储架构,这是 v 四呢最受关注的创新,该架构通过分离呢静态知识存储与动态的 gpu 推理。呃,讲人话就是实现了海量知识的高速解锁,这使得模型呢,以极低的成本能够在本地或者主流的工作站上运行。万亿模型参数 非常厉害,对吧?第二点就是 model one 的 混合架构。呃,根据 deepsea 在 github 泄露的代码来看的话,该架构呢,其实采用了五幺二维的注意力头和分层的 k v 缓存存储,简单来讲就是可显著的减少至少百分之四十的内存占用,呃,并提升极大的提升的训练速度。第三点呢,就是代码原生 这一点的优化。 v 四呢,预计将编程能力呢?呃作为核心的突破口,内部测试显示,其在呃 human, able 等编程指标上呢,超越了同期的 cloud 和 gdp 系列。呃,预计超过支持一百万 token 的 上下文的处理能力。嗯,那就意味着它可以在很大程度上呢,作为呃 cosine 这种呃 cosine 的 替代品。 第四点呢,就是万亿级稀疏参数激活的 m o e 架构,传闻 v 四呢,参数达到一万亿就一 t, 但通过优化的专家混合架构 m o e 呢,每次推理仅激活三百二十亿至三百七十亿参数。呃,这个呢,可在保持顶级性能同时呢,大幅降低推理能。呃,能源消耗。 第五点呢,就多模态的增强。 v 四呢,呃,预测将在 v 三的基础上,呃进一步整合多模态能力,支持图像、视频以及音频的直接的输入处理, 目的是对标 gemini、 kimi 等顶级模型。呃,这次 v 四最核心的秘密,我们呃可以认为是 ingram 架构的这个能力,翻译成大白话呢,现在的 ai 就 像个死记硬背的学生啊,为了考高分,非要把整个图书馆塞进脑回路,也就是呃 gpu 的 显存液,这样的话,会导致硬件极其吃力,消耗巨大的这个能源,对吧? 这也是为什么 hbm 显存那么贵的原因。把英伟达呢?呃,按在这个躺在功劳铺上收费是吧?但 deepsea 拆解了低星原理以后呢,它 ai 的 思考就会变得很快。呃,它的原理呢,就说因 gram 架构把 ai 的 知识和逻辑分家了, 它把百分之九十的静态常识呢,扔进便宜的内存,也就是我们之前常用的这个 ram, 只把最核心的推理模块留在昂贵的显存里。这就像你考试的时候呢,允许带一本无限放大的开卷指南,你不需要背书,只需要学会如何逻辑推理。 内部数据显示呢, v 四在代码能力上已经刷爆了测试榜,甚至在一百万长度的长上下文测试中呢,把 cloud 四点五呢,呃,力压了一头,这可能就是典型的中国式智慧吧,计算力被卡脖子,那我们就从数学架构局这些维度上呢去打破瓶颈。 那 deep v 四的出现呢?标志着 ai 竞赛进入了第三条路,不拼资源,拼工程,拼算法,拼天才是吧?拼工程天才!如果你是开发者,千万别错过这波端测大模型。拼天才,是吧?拼工程天才!如果你是开发者,千万别错过这波端测大模型的红利,因为顶级模型 ai 不 再只是呃,超级算力实验室的奢侈品, 它会逐渐地在端测满足,在工作站桌面去解放巨大的生产力。那我们期待今晚这个除夕夜, deepsea 呃,拭目以待它的这个发布。呃,我们到时候会第一时间实测,告诉大家它带给我们的惊喜。我是 linus, 关注我,带你洞察 ai 科技生产力。

六月二十二号,有网友在社交平台发帖称自己在使用 divesic 人工智能大模型查找资料时, divesic 输出了一个并不存在的科研结果,并且编造了科研团队、科研细节和商业化进展。 这名网友在向科研院所求证无果后,选择了向 dipstick 反馈错误。随后, dipstick 模型在回答中进行了纠错和致歉,并表示 立即停用错误信息,同时提出将补偿该网友三千元人民币。六月二十三号,该网友告诉记者,这三千元人民币自己并没有收到,并表示 tipsik 模型反馈的补偿措施可能又是一条错误信息。 tipsick 官网的用户协议中规定,本软件的输出不应成为您进一步作为或不作为的依据。 您根据输出的内容所做出的任何判断或者句子做出的后续相关操作行为所带来的后果和责任,均由您自行承担。随后,记者通过电子邮件向 bixic 平台进行了求证,但截止到发稿时,对方尚未回应。