我去,梁文峰 deepsea 新年再出王炸在社交媒体发布 deepsea 将带领 ai 走向改革, deepsea v 四版本将做出重大更新,我的两成仓的 deepsea 相关概念股要起飞了。
粉丝8428获赞4.8万

太卷了, deepsea 又开始在假期里放大招了。二六年元旦的第一天, deepsea 就 带来了他们在大模型架构上的一大创新,梁文峰再次出现在了作者栏, 这一次是用一个叫做流行约束超连接的组建来解决目前大模型在 skyline 道路上的棘手难题。 而更加值得关注的是这一次的工程优化, deepsea 没有在依赖英伟达的库达架构,而是采用了来自北大计算机系的开源框架 terilun 来进行绝大部分融合算子的开发。 而关于 terilun 呢,我们在 deepsea v 三点二版本的视频里介绍过,你可以将它理解为 deepsea 模型接下来要适配和迁移到国产算力上的一座重要桥梁。 这同时也意味着 deepsea 这一次提出的架构创新可以无缝适配到深腾、海光、韩五 g 等这些已经兼容它要烂的国产算类平台上。要讲清楚流行约束超连接的概念呢,我们还得先回溯一下它的两个前身,残差连接和超连接。 开篇的时候,我们已经提到了目前大模型在训练稳定性和内存开销上存在普遍的痛点,也就是说,我们在让模型的结构越来越复杂和性能越强的同时,却不得不牺牲训练过程当中的稳定性和计算效率。 而这个问题之所以存在呢,就在于 transformer 架构当中的核心组建残差连接,它是目前业界为了确保神经网络能够进行深度拓展的同时保持训练稳定性的主流方向。 他就像一条信息高速公路,能够让信息无损的传递到下一层的神经网络上,而为了进一步突破传统残差连接的性能呢?超连接的概念在最近几年开始流行起来, 他相当于将信息传递的高速公路宽,从而允许多条线路并行,并让他们之间通过一个可以学习的矩阵来自由组合控制信息的交换。那这种方法呢,确实能够提升模型的表达能力,但也同时带来了两个致命的瓶颈, 一个是训练的稳定性崩塌,也就是训练中常见的由于梯度的爆炸和消失而导致信号传达失控,模型收敛失败。第二个问题呢,便是硬件效率的拉垮, 加宽的通信道路会直接导致内存访问的成本急剧增加,同时也会加速训练过程当中的通信延时,从而导致模型吞吐量的明显下降。那么针对这样的问题呢, deepsea 提出了一种新的超连接组建, 他们的核心思想啊,非常巧妙,就是与其完全开放道路,不如把他们约束起来,也就是用一种流行约束来确保模型训练的稳定性,同时用硬件级的优化来提升效率。 首先,为了解决稳定性,他们强制要求用于信息混合的矩阵必须属于一个特定的数学集合,也就是流行双向矩阵。 而这里的 memfud, 也就是流行啊,是一个数学空间的概念,它指的是啊,双向随机矩阵的集合。换句话说呢, deepsea 就是 将原来可以自由发散的参数矩阵通过算法强制投影并锁定到这个流行空间里面,使其成为一个合规的双随机矩阵。 而这里的特定算法就是论文中提到的 signal knob 算法,从而让信息的交互过程中不产生信号的抵消。 其次呢,为了解决系统开销的问题,论文还进行了一系列底层的工程优化来将额外的内存开销降到最低,比如基于贪婪框架的算子融合、混合精度选择性重计算、通信计算重叠等等, 使得这个超连接在实际训练中只带来了约百分之六点七的额外时间开销。从实验数据来看呢,二十七 b 参数的流行约束超连接模型在常识推理、代码数学等任务上全面碾压了机械模型,并且训练过程当中极其平稳, 而且这样的优越性还体现在三 b、 九 b 的 不同尺度模型上,也就证明了这样一套算法是具备多模型的拓展能力的。 整体而言,这一次的创新成果延续了 deepsea 惯用更少的资源做大模型的技术风格,为优化超连接的约束提供了新的思路。 更重要的是,从这一次的创新架构里我们可以看到, deepsea 现在会更看重对国产硬件的特性适配和兼容, 那么这不仅是从模型公司层面来为我们国产炫丽的性能提升提供动力,同时也是国产模型和国产炫丽融合创新的重要一步。我是思远, ai 不 伤脑,茶歇刚刚好,关注我, ai 路上一起思考。

太卷了兄弟们,二零二六年的第一天,别人都在跨年倒数, deepsea 在 干嘛呢?他在发论文,而且这一次梁文峰本人亲自署名,你可能会说,又是论文,我看不懂啊。不要着急,我今天用最大的白话来给你讲明白,为什么这篇论文直接让整个 ai 圈都炸了。 首先你知道吗?拆的 g、 p、 d 跟 kol 的 这些大模型,它们底层最关键的一个零件,其实是十年前就已经做好的。二零一五年,一个叫何凯明的大神发明了一个东西,叫做残差连接,你可以把它想象成这个是 ai 大 脑里面的信息。高速公路什么意思呢?就是信息从第一层传输到第一百层, 它是不能丢的啊,这条高速公路就保证了信息的一路通畅,正是因为这个东西,我们现在的那个大模型才能够无限的叠加成数。平时我们听到的什么?六百七十一比七十 b 的 大模型,为什么它能够训练这么大呢?其实底层都是靠它,这个设计厉害到什么程度呢?就是 过去十年,几乎所有的大模型都在用,而且没人敢动它。终于啊,到了二零二四年,字节的团队说,一条路它不够宽,咱们把它拓展成四条并行的高速公路,信息跑得更快了,效率就能提高。 想法是很好的,在小模型上试了一试,确实很牛,但一放到大模型上面,直接就崩了。为什么?因为四条路的信息可以互相的交互,但是交换的规则完全的放开,没有任何的约束, 一层没关系,两层也行,但是如果叠加到几十层啊,信号直接放大了三千倍,训练到一万多步,模型直接梯度爆炸了 啊,前功尽弃! deepsea 是 怎么来解决这个问题呢?说出来你可能不信,他们用了一个五十八年前的老算法 啊,一九六七年,两个数学家发明了这个算法,大家看一下,那个时候别说 ai 了,连整个个人电脑都没有啊。结果五十八年之后, deepsea 把这个老古董给翻了出来,解决了二零二五年最前沿的一个工程难题。他们的思路是这样的,问题呢,其实就出现在 没有约束啊,那就给他直接加约束。那么这个约束特别妙,就是信息在四条路上 互相的交换,但是它的总量是不变的,你可以把它想象成一个封闭的一个水渠系统,水呢,是从这条沟流流到另外一条沟,但总水量是永远守恒的,不会越流越少,也不会越流越多。 我们信息的放大的倍数直接就是从三千倍降低到了一点六倍。这样看来呢,不管你的模型有多少层信息,他都不会爆炸,也不会消失。 结果呢,就是二十七倍的大模型,训练的过程就非常的稳,而且性能还提升了百分之二,而且额外的时间成本只增加了百分之六点七,这在论文当中都能看到, 你看,没有什么惊天动地的理论,其实就是工程师的智慧,找到问题的本质,并用最简单的方法去解决它。五十八年前的老算法,解决了二零二五年训练的新的难题,这就是 deepsea。 那 么这件事情为什么重要呢?第一点, deepsea 其实动的是 transformer 最古老的那块砖头,这就相当于汽车行业的人今天跳出来说,我重新设计了电机。第二, 这篇论文透露了一个信号, deep stack, 他 有可能正在憋大招,他们下一代模型 deep stack 鄙视或者是 r two 很 有可能会用上这个技术。第三,最让我佩服的是什么嘛?就是这帮人用数学的优雅解决了一个工程上的难题。你看有很多的公司,他是堆算力堆资源, deep stack, 他 是动脑筋去省资源省算力,这其实就是技术自信啊。 所以你看这篇论文的意义,其实早就超过了技术本身啊。他证明了一件事情,在 ai 的 这条赛道上,中国的团队不是只会跟跑,我们也能够定义规则,我们也能够改写底层,这才是真正的技术流 啊。好了,兄弟们,如果你觉得这期有收获呢?点个赞,让更多的人看见。你觉得 deepsea 在 二零二零年会如何发展?欢迎在评论区留下你的想法和我交流。

大家好啊,一月二号被迫加班哈, deep six 又发论文了啊,梁文峰梁大臣啊,就是不让对手过好,过好自己的这个新年啊。一月一号新年那天直接甩出一个论文。先说结论,这个论文 主要是干嘛?把整体大模型数据传输这件事解决了,最终会产生什么效果啊?那些疯狂推算卡的这些大模型企业,可能发现自己的算卡会吃灰,因为用不了那么多了。好,然后我们翻过来说,这是什么意思啊? 都知道大模型的训练是一个啊算力和算卡集成的工作,但真正在里边起到核心作用的其实是什么?是数据。 大模型就是把数据进行深度的计算和存储,最终让模型产生功能的一个过程,这是大模型训练,所以呢,数据传输在里面是非常非常重要的。那么好了,现在有一个,就是之前咱们就发现在这个数据传输过程中呢,它会失真。你举个简单例子啊,就小朋友玩那个,说悄悄话都玩过吧, 第一个人到第十个人,那可能意思都完全相差级别了。大模型这个也是一样的,他每个层次咱们第一个层次可能有三张卡,第二层可能五十张卡,现在第三个层次可能一百张卡,但这个这些卡之间传输的数据都会产生失真, 怎么办?哎,二零一五年有一个大神叫 rezen 啊,他就是一个残差的这样一个数据传输的方法,就是在每一层级干嘛呀?存储数据,这样的话你下一层级叫对头,发现数据失真,就会到上一层级去取,大概这个意思啊,然后呢,这样的话呢,就每个人都备份一份嘛?备份一份这样往下传, 这样解决了数据的存储的准确性,但是数据的每一层都要需要大量的存储空间啊,大量的存储空间他就完蛋了嘛。 好了,那在这种情况下,千亿参数以内还好办,现在都已经万亿参数了,那这个,这个上下传输,这个通道就会堵塞,就会进行不断的进行啊,数据的存储,数据的读写,那在每一层级都会做很多的事,那怎么办? 那我们没办法,我们就得开多个这样的层级,对吧?我就,我就把这个数据拆成三个管道,五个管道,是吧?那我就会不同的运行啊,这样我速度还能提升,对吧?这是我们就对算卡的解决方法吗?啊,那么 这个事儿有没有其他解决办法呢?哎,去年的时候,对吧?字节他们提出来一个叫做 hyper collection, 啊,这样的一个解决办法叫 h z, 这 h z 的 话呢,我直接把这个通道拉宽了, 通道拉宽了,哎,我给它变成,比如说三百倍,三千倍啊,那一下子,哗,数据量就下来就非常通畅了嘛,对吧?那通畅,通畅以后怎么样呢?哎,那么二十七 b 模型的反应速度都非常的好, 非常棒,可问题是这个数据不是单向的呀,但数据还有结果要往向上反馈呢,那这样一下子,那反馈的东西也多了,那么整体的这个系统的撑支撑度就不够了,那就产生了混乱啊,产生整个结果的混乱,然后自己就想办法就加了一系列的控制,那这个事呢?调的呢?就最后勉勉强强,但是 提升的这个能力呢?不是那么明显。到了 deepsea 这儿啊,这个,这今年的一月一号啊,这天 deepsea 发这 mhc 的 这个论文,这个论文干嘛呢?就在这个 hc 的 这个架构基础上,怎么着加了一个智能阀啊? m 是 一个智能阀的意思啊?加了个智能阀,这个智能阀就有点像我们水那个,就是流水泵溶那个阀, 自动去调节,让所有的接口怎么样?总量横定,就是你传输数据的总量是横定的,只要你的整个的这个,你比如说我评估啊,我这是千卡还是万卡?我这万张卡传输这个数据的处理总量是多少?那我横定它 横定以后的话,我不会超过这个处理的这个这个效率,那这样的话使得它往回返的数据不会让整个这个东西受影响。这是第一个第二话,但是 它可以并行多个水管,也就是说我在这个总量之内,我可以并行多个水管,提升这个总量之内的数据处理的速度和处理的效率, 但这个东西就产生效果了。第三个什么,就是我不用再去开新的通道了,我就在原有通道之内把这个数据用最短的时间传输和解决好,那这个过程中的话,我就可以不用再开新的通道。那会这样会怎么样?会把我之前堆的荣誉的这些啊,这个算卡 淘汰掉,我只要保证我的原有这个数据传输通道的稳定性和它的速度能匹配,我这个万亿参数我能在规定时间内传完,并让它规定时间计算完。那我还要增加那么多的卡干什么?所以呢,据推算啊,这这是好几个硅谷大神的推算,大概一千到一千五百张卡 就可以, a 一 百啊, a 一 百就可以,什么训练万亿参数的大模型在这个体系之下,当然了,这个还后,这只是其中的对于数据处理的这个部分啊,那后面这东西算法呢?你还要做深度的优化才行,但是这已经给出了一个非常强的通道, easy, 干脆从底层,哎,又把数据处理这块给你挖掘了,他之前做了算法对吧?之前做了那个算力的,这个算力就是算卡的调整的这部分,然后现在又把数据传输这部分,这就全都完成了整个大模型的所有的优化,它全部都做了。那么我们期盼 春节前恐怕 v 四就要跟大家见面了,那个一定是一个用最少的卡解决出最强性能的东西,而一定是让 oppo, ai 等相关的厂商最难受的一个玩意儿。好吧,简单给大家说这事了啊,如果你们对这感兴趣,哎,咱们说几个事啊,一个这玩意儿在这个声嘶啊,能不能用 c n n 华为的啊,能不能用 第二个问题是吧,这玩意跟那个英伟达提出来那套逻辑有什么区别啊?这个东西大家如果想听的话,点赞啊,点赞,点赞过五万啊,这个老张喝脸皮,我去找人家啊, 我能抓到谁?只要是跟那相关的人,我能抓过来,咱们直播间就详细聊这事,好不好啊,当然了,如果想更多的去了解老老张的之前的很多深度的这样的,呃,这个数据的内容啊,可以看看 我们的小程序啊,我们小程序已经上线了啊,这个瑞克老张科普课啊,中文的啊,当然你搜完了以后,标题叫奥德豆豆与瑞克老张科普课,因为那个是我的公司的名字,现在国家要求第一家公司名好不好,如果你需要可以看一下啊,我们有一个专门的免费的专栏,就是我们啊,开始把老张的这个公开发的内容精选,然后放在里边 这底供大家查询,当然了,我们还有很便宜的这个会员的内容,九块九啊,会员的直播你们可以看一下啊,这是属于不定期的给大家福利啊,如果在这买会员的朋友呢,就可以享受会员的服务好不好?如果需要可以好好看一下,咱们十二月份的这个,包括一月份,一月八号,我们就讲 啊,这个会员的这个直播就讲这个,呃,大模型,尤其是国产大模型和国产钻力的进步了。好,如果需要可以好好看一下啊,今天就到这,我给大家看中国科技的高度和温度,我们下期见,拜拜拜。

就在二零二六年的第一天, deepsea 创始人梁文峰亲自署名发布了重磅论文。这不是简单的模型更新,而是一场对 ai 底层架构的降维打击。过去十年,大模型一直跑在 risknet 这种单车道高速上, 虽然之前的超连接想通过拓宽车道来提速,但由于缺乏交通规则,车多了反而会导致信号爆炸,系统瘫痪。 deepsea 提出了 mhc 架构, 它就像是给加宽的信息水管装上了智能调节阀,通过数学上的双随机矩阵约束,彻底解决了训练不稳定的顽疾。这篇论文带给我们三大启示。启示一, 拒绝蛮力,算法创新才是硬通货。别迷信堆算力,底层创新能省大钱 tipsy 仅增加约百分之六点七的开销,就换来了显著的性能飞跃。这告诉我们,与 与其靠蛮力硬科,不如在算法架构上寻找四两拨千斤的解法。其实二,硬核工程能力是定海神针,极致的工程优化是创新的基石。论文不仅有高深的触觉,更有内核融合、选择性、重计算等暴力优化手段。没有这种把硬件压榨到极致的极客精神, 再好的理论也难以落地。其实三,敢于质疑常识,向行业基石开刀。哪怕是用了十年的残差连接,只要有瓶颈,就敢于去重构它。这种不吃技术老本, 失去探索本质的精神,正是 deepsea 能够从中国走向全球巅峰的秘密。这场架构革命,或许会成为 deepsea v 四的核武器。 在 ai 的 无人区里,真正的差距不是算力,而是原创的勇气。二零二六年,算法创新将成为 open ai、 ansaurpic、 google 等大模型厂商的核心关注点。 hipstick 这次通过流行约束技术,不仅提升了模型能力,更把算力成本压到了极致,这标志着大模型正在告别传统的 scaling law, 进入算法红利期。算力股确实该瑟瑟发抖了。

动力好,迪拜斯基新年亮剑,给大家送了一个新年礼物,发布了一篇论文,但没有发布会,甚至连一条微博都没有,但是整个 ai 社区直接炸锅了。 原文有点复杂,就搞了一个新的升级,记住三点就行,一的话就是把整个 ai 的 效率和那个训练模型效率提升了,三分之一,就是百分之三十二的话就是显存的占比减半,就是对内存大幅减半, 三的话就是泛化能力暴涨,对于数学推理和代码数字这些任务上面,有望提升百分之十五的准确率。这是梁老板元旦送给中国 ar 的 礼物,也非常期待他后期发布的那些新品。第一个二月份震惊全世界,希望今年再来一次。

今天聊一下梁文峰,有人恨他收割散户,有人夸他是国运级天才。梁文峰到底是什么样的人?外界对他的传说玄乎其玄, 有人说他八十万起家,有人说他把一千八百五十亿做到三千三百亿。但很少有人知道, 这个量化大佬,能缩在十平方的出租屋,口袋里只剩三十七块钱。一九八五年,梁文峰出生在广东湛江吴川的小城,父母都是小学老师,满柜子的书是家里最珍贵的财富。 初中没毕业,他就自学完高中数学和部分高数,二零零二年,更是拿下吴川高考状元。班主任劝他冲清华,他却毅然选了浙大电子信息工程,一呆就是八年。在这里, 他遇到了竹可真学院的天才师兄徐济,这是他人生中的查理芒格。二零零八年金融危机,没人看好这两个抱着学校淘汰服务区的年轻人觉得他们魔症了。 可梁文峰和徐济硬是靠这台破机器,折腾出全自动量化模型,赚到了人生的第一桶金。 二零一五年六月,中证五百股指期货刚上市两个月,他们成立换方量化,紧接着就撞上 a 股千股跌停,无数交易员溃不成军。唯独他们的模型,成了金融风暴里的诺亚方舟, 从十亿到千亿,二零二零年换方拿下最值得信赖的私募基金。所有人都以为他要打造东方桥水,梁文峰却突然掉头缩规模, all in ai。 二零二一年, 他砸十亿建了占地十个篮球场的超算萤火二号,摆满 a 一 百显卡,自己亲自写代码,凌晨就在机房打地铺。别人财富自由就退休,他却财富自由后拼命还放出狠话, 全球前五十的顶尖人才不在中国,我就自己培养。他的团队没有海外大牛,全是中国本土程序员。二零二四年十二月二十六日, 幻方子公司发布 deepsea 可 v 三训练成本只有 jpt 四的二十分之一,直接让英伟达股价单日暴跌百分之十七。硅谷震动,全球媒体都在追问这个中国团队到底是什么来头? 从出租屋到震动全球的科技圈,梁文峰用实力证明,外国人行的,中国人也行。觉得这个故事固然的点个赞,收藏我是房哥,关注我,下期深挖更多大佬的逆袭内幕!

元旦假期, deepsea 又出神作,发表了新论文,梁文峰还署名了,进一步彰显了公司浓厚的技术氛围。 医院的人士评价这篇论文创新硬核指数五颗星。要完全理解透这篇论文,需要花数周时间,他颠覆了过去十年来一直沿用的技术架构,实现了三方面的重大突破。一、训练更稳定。传统技术在训练超大规模数据时会发生混乱而撞车,而新技术 相当于给多条高速通道安装了智能信号灯,避免撞车,保证了信号传输的稳定性。二、效率更高,把模型通道从一条拓展了四条, 训练时间只增加了百分之六点七,这意味着增加一点点额外成本,获得了四倍宽的信号通道能力。三、效果更优,复杂推理准确率提升了百分之两点三。这篇论文的发布,让我们对 pc 新版本的实力充满了更多期待, 他能够再次改写中国大模型追赶者的状态,再次比肩美国顶尖大模型呢,并且使用成本更低,用的是中国算力。影迷常说我们欠周星驰一张电影票,是不是也可以说,中国科技公司欠 deepsea 一 声谢谢?在那之前, 中国大冒险一直是模仿者的角色,仰人鼻息。而人工智能是国营之争,落后了就挨打,中国科技公司升值空间也将被压缩。 deepsea 横空出世,一下让中国科技公司挺直了腰杆,拓宽了深层空间,股价也蹭蹭上涨,这也便有了二零二五年的科技牛。 从这个角度,我们股民一边痛恨泛黄为代表的量化基因,但同时,我们是不是也应该对 deepsea 说一声谢谢?

梁文峰的量化基金凭啥横扫市场呢?这两天, deepsea 创始人梁文峰又在股市里登上了热搜。这位八五后的年轻人创办的换方量化,今年帮客户狂赚了四百亿,他个人身价直接冲进了新财富五百创富榜的前十。 更绝的是,他左手搞量化投资,年赚百分之五十,右手开发的 ai 大 模型 deepsea, 直接让硅谷颤抖,普通人看着眼红啊!这哥们到底是开了挂,还是掌握了财富密码呢? 今天咱们就用大白话拆解他的三大杀手锏。他的第一招啊,是用军火库级别的算力砸穿了对手。 二零一九年,当同行还在比拼交易速度的时候啊,梁文峰干了一号算力集群, 装了一千一百块英伟达显卡。两年后又砸了十亿搞了萤火虫二号,直接上了一万张英伟达显卡,算力相当于七十六万台个人电脑同时工作。当时很多人都骂他人傻钱多,结果二零二五年,全市上都傻了眼。一是微秒级的抢单 换放的交易系统,能在零点零零一秒内完成下单,比散户快了一千倍。二是因子迭代快三倍,每天能测试上万种交易策略,传统公司得干半年。 三是成本碾压,自检算力比租云计算还要便宜百分之六十,每年省下了上亿的开支。这就好比别人用菜刀打仗,他直接掏出了加特林机里的印钞机。 他的第二招是把 ai 大 模型变成了印钞永动机。二零二三年,梁文峰突然转行搞 ai, 很多人都认为他疯了。结果二零二五年, deepsea 二一模型一公布啊,直接就炸了锅, 五百五十万美元干翻了拆的 gpd。 四,训练成本只有对手的十四分之一,性能却差不多。二是他变成了定价的杀手,每百万 t 只要一元,比坐地铁还便宜。 二是用户疯抢,上线三个月,全球用户就突破了三千万,连美国人自己都用。最狠的是,他搞了个 ai 氧量化的骚作 用大模型,每天扫描全球新闻财报、社交媒体,挖出了人类想不到的交易信号,实时监控两千家上市公司,自动预警风险,开发了 ai 操盘手七乘二十四小时的盯盘,连春节都不休息。 有投资者吐槽啊,梁文峰的模型比我家的 wifi 还稳定,雄狮都能偷偷赚钱。第三招是闷声发财的商业核武器。 表面看梁文峰低调的像隐形人,实际每一步都下着大棋。一是他左手倒右手, 换方量化赚的钱,反补 deepsea 的 研发 ai 技术,又反补量化策略,形成了越赚越投、越投越赚的死循环。二是它卡位了国产芯片,提前投资了摩尔现成等国产的 gpu 的 企业, 上市当天就付赢了两千八百万,彻底摆脱了对英伟达的依赖。三是他利用政策套利。二零二五年量化新规出台后啊,资金疯狂涌入了头部机构换方,凭借技术硬实力收割市场。 更觉得是他搞了个科技慈善,免费开放万卡。算力啊,给高校培养 ai 人才,用 deep sleep 帮老人去预警疾病,帮心理疾患者去做情绪疏导, 捐了一点三八亿支持教育,被网友称为最懂人心的资本家。时代在变,定位要变,咱们普通人在这场大潮中啊,也不是完全没机会的, 关注量化 e t f 基金就可以了,用 deepsea 免费版做投资辅助,顺便学点 ai 和编程,未来就可能是财富的新密码。说到底,梁文凤的成功是技术加资本加耐心的胜利。 就像他说啊,别人在赌运气,我们在造印钞机。在这个 ai 颠覆一切的时代,或许真正的财富密码,早就藏在那些看似不务正业的技术投入里了。老银财经谈历史,论时事,说财经。

又有谁知道,二零二五年初让英伟达市值一夜缩水六千亿美元的梁文峰,在十五年前也跟普通大学生一样,蜗居在成都九眼桥的一个月租八百元的出租屋里。 他的起点跟无数大学生一样,毕业即失业,蜗居出租屋。但跟大多数初入社会的迷茫不一样,梁文峰从最开始就知道自己要干啥。时间回到二零零八年,全球金融危机爆发, 当时梁文峰还在浙江大学攻读硕士,面对股市的风云变幻,他敏捷的察觉到机器学习技术在量化交易中的应用潜力,于是带着辛苦积攒的八万元本金,这其中包括了他自己的积蓄,甚至还有父母为他准备的相亲基金。 在浙江大学的一间普通宿舍里,与伙伴们用旧电脑开启了全自动量化交易系统的探索。他们的起点非常朴素,宿舍里用 a 四纸打印着代码,是唯一真理的标语,这成了他们最初的信条。 白天上课,晚上写策略跑回策,通宵工作是家常便饭。然而,理想很丰满,现实却很骨感。 没过多久,梁文峰和他的团队就遭遇了严峻的挑战。当他们满怀期待的将经过大量模拟测试的模型投入真实的市场实操时,发现现实情况远非想象的顺利, 第一天可能赚了百分之二,第二天又亏了回去,两年下来几乎没有任何盈利。二零一零年,伴随着硕士毕业,同学们开始各奔东西,只有梁文峰坚信这两年没有白干。虽然没有挣到钱,但是机器学习技术在量化交易中一定大有可 为。为了专注于研究二零一零年,梁文峰选择独自去了成都,蜗居在九眼桥一处廉价的出租屋里,租金只有每月八百元,但需要忍受楼下散不进的火锅味和蟑螂的困扰。 为了节省开支,他甚至开创了一套独特的生存算法,每天二十元的伙食费要精准覆盖四千大卡的热量根据蟑螂出没的频率来决定开灯时长以省电。成都夏季闷热,他却舍不得开空调,夜里热的实在受不了了,就冲一冲凉水,然后肆无忌惮的坐到电脑面前核对交易数据。 最艰难的时候,八万元本金几乎损失殆尽。在交易中,他发现了两个关键问题,一是市场中的干扰信息太多,容易导致模型误判。二是市场波动容易触发大量交易,产生的交易摩擦费会吃掉大部分利润,同时还有实际成交价与预设成交价的偏差问题。 面对重重挫折,梁文峰没有放弃,而是展现出了卓越的技术洞察力和解决问题的韧劲。他不断的优化算法模型,针对模型误判问题,他给模型设置了过滤器,过滤掉大量的干扰信息, 另外又设定了较高的波动幅度溢值,只有超过这个溢值才会触发交易,从而减少了不必要的交易摩擦。他还将交易频次从每天几十次逐渐提升到每天两千次,通过高频交易放大获利空间,收益才逐步趋于稳定。 转折发生在二零一零年,沪深三百股指期货推出这一金融衍生品,为量化投资带来的前所未有的机遇。梁文峰凭借前期的技术积累和市场的灵敏洞察,迅速的抓住了这股东风。 他精心研发的量化投资策略在市场中不断得到验证,持有的财富开始节节攀升。终于在二零一五年,经过七年熊市、牛市的大轮回,梁文峰以每年超过百分之百的复合收益赚了五个亿,完成了惊人的原始资本积累。随着资金的快速增长和策略的有效验证,梁文峰开始从个人交易者向机构化运营转变。 二零一五年,他预见中国量化交易将迎来私募基金时代,于是正式成立了杭州幻方科技有限公司,专注于通过数学和人工智能进行量化投资。这就是后来著名的幻方量化,也为十年后诞生 deepsea 并搅动全球 ai 风云埋下了至观重要的伏笔。

二零二六年,当所有人还在回味跨年钟声时,全球 ai 圈被一篇来自中国的论文彻底点燃。发布者杭州的 deepsea 署名者、创始人梁文峰。这不像一篇普通的论文,更像是一封递给未来的技术战书。 他选择在最热闹的日子谈论最底层的技术。这种反常的操作背后,藏着一个可能改变 ai 游戏规则的关键信号。 当下的 ai 战场,一边是 open ai 这样的巨头正把战火引向音频硬件,打造伴侣式消费狂欢。另一边,国内不少玩家仍困在参数内卷里,试图用算力堆砌换取短暂光环。而 deepsea 却在新年第一天,一头扎进了最深最暗的架构深海。 这篇论文的核心,是一个名为 mhc 的 新架构,它解决了一个根本性难题,如何让 ai 模型这个庞大的计算链条既高效又稳定。 传统方法像窄水管易堵塞,后来的改进像狂野的宽水管,又容易冲垮系统,而 mhc 就 像给水管装上了智能调节阀。关键是,这不是纸上谈兵。内部测试显示,在将计算效率提升四倍的情况下,只增加了百分之六点七的时间成本, 这意味着他在工程上高度可行。读懂这篇论文,更要读懂背后的操盘手梁文峰。他不是一个典型的学院派, 从浙大实验室到创立千亿私募换方量化,再用 ai 做量化交易赚到第一桶金,最后在二零二三年全身心投入通用 ai。 他兼具资本家的成本控制和科学家的务实落地。这种独特的跨界基因,让 deep seek 从诞生起就刻着两个词,效率与务实。他把患方时期锤炼到极致的算力优化和成本控制能力,完全迁移到 deep seek 的 发展中。 过去两年的 ai 竞赛,巨头们用天量资金和芯片优势筑起了高高的技术壁垒,让中小企业难以企及。 但梁文峰团队走的是另一条路,不比谁堆的柴多,而是比谁生的火更旺、更省柴。 从将推理成本打到 gpt 四 turbo 的 七十分之一,到用少量 gpu 实现集群效果,再到今天的 mhc 架构,它们所有的突破都指向一点, 降低大模型研发的核心门槛、成本与稳定性。这不仅仅是省钱,更可能松动有少数巨头主导的行业格局,让更多玩家有机会参与高端竞争。 所以, mhc 架构的深层意义远超一次技术迭代,它是一个强烈的信号,中国 ai 正在从过去的应用场景跟随,尝试向底层架构引领转身。 过去我们谈论国产 ai, 多是说应用场景的优势,现在 deep seek 用论文证明,我们在最核心的底层架构领域,也能拿出让全球同行正视的成果。二零二六年的 ai 赛道注定更加激烈,但我们更期待看到的是更多像 deep seek 这样的企业, 用扎实的原创突破,让中国 ai 的 故事从规模扩张真正走向价值创造。这不仅是一家企业的成长路径,更是一个国家科技产业升级的必然选择。

中国 ai 公司 deepsea 在 二零二六年元旦梁文峰发布了一篇突破性论文,这项底层创新技术或将改变 ai 发展逻辑。当前,顶尖 ai 模型都基于 transformer 架构,就像不断长高的智能摩天大楼, 工程师们不断增加层数和宽度,但这却带来了神经信号混乱的副作用,信息传递时会被异常放大或堵塞,导致训练过程极不稳定。为了让大楼更聪明, deepsea 的 科学家们没有选择在旧路上修补,而是重新思考了连接的设计。他们提出的 mhc 技术核心思想是给每一道新增的连接都是加数学约束,就像为整座智能大厦的电路和水管系统安装了稳压器和流量调节阀, 这个稳压器确保信息在传递过程中总的能量保持恒定,既不会爆炸也不会消失。而且他们找到了一种高效的方法来实现这种约束,额外计算开销极小。 这项基础研究的成功将影响整个 ai 产业乃至社会应用层面,为产业界降低智能基建门槛,让普通人更快遇见更可靠的超级助手,为科研界打开更强大 ai 的 安全通道。这项技术是否会开启 ai 新篇章?快来评论区分享你的看法吧!

山姆奥特曼怎么也想不到,那个时刻威胁签 gbt 的 deepsea, 居然最开始只是梁文峰用来炒股的。二零一五年,梁文峰终于把八万块钱本金变成了五个亿。这个时候,他做的事还远远谈不上伟大,因为说好听点是量化交易,但是说难听点就是个炒股的。 此时,距离他第一次把机器学习算法用到量化交易上,已经过去了七年。预见到中国量化交易将迎来私募基金时代,他成立了杭州换方量化,很快管理的资金就达到了百亿级别。由于不差钱,梁文峰挥下聚集了一大批来自浙大和清华计算机专业的高材生。彼时正值 a 股牛市, 传统量化策略大放异彩,但梁文峰却力排众议,决定全面转向人工智能驱动。当时的首席风控官认为 ai 模型是黑箱,风险不可控。梁文峰却说,如果我们不敢用最好的技术,就不配在这个行业生存。 个决定导致了两名资深交易员的离职,却也吸引了更多年轻 ai 人才的加入,也为最终诞生 deepsea 埋下了种子。到了二零一七年,随着策略复杂度的提升,算力平局日渐明显,当时猪肉云算力的成本已经占到换方利润的百分之三十。于是梁文峰做出了一个被内部称为疯狂的决定,自荐操算中心。 在一次董事会上,有投资人质疑,一个私募基金为什么要建超算中心,我们又不是搞科研。梁文峰的回答成为后来被反复引用的名言,我们不是一家基金公司,我们是一家用 ai 解决复杂问题的科技公司,只是碰巧在金融领域找到了一个应用场景, 你们相信我就跟着我干,不相信我可以撤职。这句话掷地有声,也一锤定音。二零一八年,投入数亿元的萤火一号在杭州落成,一下子变成了国内民用领域顶尖的 gpu 集群。但这次投入也直接导致当年分红减少百分之四十,再次引发内部争议。 而梁文峰不仅顶住了所有的压力,还秘密启动了一个代号探月的计划。他从炼化团队中抽掉了五名最顶尖的 ai 研究员,组成独立小组,跟他们说,不要管金融了,去研究全球最前沿的 ai 技术,特别是自然语言处理。这个小组的负责人后来回忆, 梁总给我们的指令很模糊,只是说我相信 agi 会改变一切,我们要参与其中。然而,早期的探索并不顺利,团队尝试了多个方向,包括知识图谱、推荐系统等等, 但进展缓慢。二零一九年,美国的 gbt 二发布换房,团队经过连夜测试后,得出了一个激动人心的结论,基于 transformer 的 大语言模型,可能就是通向 a g i 的 正确路径。得知消息的任文峰决定加大投入。 二零二零年,他提出要建设一个更强大的萤火二号,预算高达数十亿。这一次反对声达到了顶峰,股东们强烈反对梁鸿峰把钱不断投入这个无底洞。就连他的共同创始人徐静,也在二零二一年选择了带领部分团队离开。因为徐静认为应该专注量化投资主业,挣钱才是王道。 而梁文峰却坚持,必须为更宏大的 ai 研究布局做点真正有意义的事情。这次分裂对梁文峰打击巨大。在二零二一年春节后的内部信中,他写道,有人选择在已知的道路上继续辉煌,而我选择走向未知的黑暗森林。这没有对错,只有选择。 二零二一年六月,分裂后的患方梁文峰彻底掌控了方向。他将探月小组升级为独立部门,正式命名为深度求索下长成了一个独立的科研项目, 也开创了中国企业家中用搞金融的快钱来支撑做科研的先例。此时, deepsea 团队的所有人都不知道,他们做的事将在我们民族的科技发展中书写多么波澜壮阔的篇章。

的量化是怎么收割散户的啊?先使用量化软件,提前三天锁定了一只流通市值四百亿元的题材股,当前股价呢是二十二元,散户持仓百分之六十五。 通过后台分析呢,散户密集止损区是在二十一元,量化先提前融券,二点二万首,早上九点十五分集合进价,量化挂出一点九万首,二十二点八元的虚假买单,盘口瞬间呈现出大单脱底的假象。 散户见状的跟风挂出二十二点六到二十二点八元的试价买单来抢筹,短短五分钟内,买单量突破了四万手。九点十九分五十五秒,量化在零点三秒内全部撤单,开盘价被虚顶至二十二点五元, 散户追涨买单呢全部以高价成交。九点三十分开盘后,量化用四千手小单分六笔慢推,十二分钟内呢将股价拉至二十三点二元,同时在盘口持续挂出小单拖底, 营造出这个稳涨突破的走势。散户见股价攀升,纷纷加仓追涨,盘口满单量突破六万手。九点四十八分,散户追涨情绪达到峰值, 量化立即启动砸盘程序,瞬间抛售二点二万手融券筹码,股价一分钟之内从二十三点二元跌至二十二点五元。此时散户以为是短期回调,不仅没有止损,反而有三成散户选择抄底补仓。十点二十分吸引散户接盘。 十点二十五分,量化突然撤单,再砸一万手,股价快速砸破二十一点五元,逼近散户二十一元的止损线。十点四十分,量化再砸八千手,股价直接砸穿二十一元止损线,触发散户批量止损, 股价瞬间跌至二十点八元。此时量化开始在二十点八到二十一元区间分批接回二点二万手筹码,完成低位吸筹。四日九点半开盘,量化先在二十一点二到二十一点五元区间挂出二点二万手的卖单, 同时用卖出资金完成满券还券,结清负债。至此,全城散户单票亏损达百分之六,量化单股盈利一点四到二点四元,收割完成闭环。

爆了爆了,全民怒赌量化收割梁文峰狂赚三百五十亿,散户亏到哭,这边整治太解气了。 现在 a 股的散户真是太难了,指数看着蹭蹭涨,自己账户亏的底朝天,百分之八十亿的散户都得赔钱, 钱全被量化机构给薅羊毛薅走了。尤其是以换方量化为代表的,今年直接狂赚三百五十亿,手握八百亿量化资金,靠高科技把散户割的透透的。 这哪是投资啊,纯纯的名强。还说他是科技英雄, 左手搞科技公司装样子,右手操控量化机器,在股市吸血,管着三百七十六只私募产品,平均收益超过百分之五十,里面每一分钱都是散户的血汗钱。 他那量化产品的门槛是三百万,普通人根本就够不着,这是有钱人的盛宴, 有时候你就是有三百万,你没有特殊的关系引荐,现在他都不收你的钱。他们是靠着毫秒级的算法,专属高速通道精准猎杀散户, 这是纯纯的技术作弊。为啥现在全民都抵制量化?因为他根本不是正经投资,就是钻空子。收割散户的利器,机器能高频提加零,反复倒等,零点八秒就能挂单撤单骗散户,咱们散户只能提加一, 被动挨揍。量化算法摸透咱们的止损位,精准砸盘,逼你割肉,转头就拉升赚钱,每天涨停变折,跌停板块轮动比电风扇还快,散户根本就跟不上,纯属被拿捏, 一年卷走上千亿,全是老百姓的养老钱,辛苦钱。有人说量化能够提供流动性纯属扯犊子,这种靠收割散户堆出来的虚假繁荣就是股市的毒瘤,成熟市场对量化监管严的很, 就咱们这浪,量化及其期待,三户头上作威作福。最寒心的不是亏钱,是这种不公平一直被默许没有人去整治,监管层也是睁一只眼闭一只眼, 现在才出手,高频量化被重拳整治,清退专属设备加交易延时,就是要打破量化的速度垄断。但这还远远不够啊,散户必须抱团,要么给散户公平的提加零,要么就严控量化 市场,能淘汰弱者,但不能欺负弱者。这个量化收割该停了,别让散户的血泪未肥。那帮资本支持限量限制量化的,在评论区顶起来,让公屏的声音 炸穿屏幕。我的看法是尽量不要去做短线的,因为时代已经变了。嗯,时代已经变了,就是说 原先做短线,甚至一五年之前,包括一九年我做短线都没问题,是可以的,但现在做短线真正赚钱能有几个?研究盘面,包括操盘的工具都已经变了。现在已经是量化悲哀的时代了,我们的苦民是不具备这种能力的, 你面对的往往不是人了。你面对的什么是人工?我们普通散户在人的时代,你未必能赚钱,那么在面对着人工时代这种智能时代,你能赚到钱吗?把它自身沉下来好好的就说尽量至少做一个波段。