哇塞, oppo ai 当地时间一月十五日宣布启动美国本土招标,计划通过投资美国制造业来强化人工智能供应链,重点覆盖数据中心设备、消费电子和机器人领域。 这一动作不仅体现了全球 ai 巨头对供应链安全的重视,也将直接立好算力,硬件、消费电子及机器人板块。记得关注我,等你找一手消息。
粉丝2605获赞1.4万

openai 最近动作非常大哦,不再砸钱堆大语言模型,而是转向机器人和 ai 设备,这个动作很不简单, 他可能会重塑整个 ai 硬件行业,因为 openai 决定放弃国际化模式,转向美国本土制造,从消费设备到机器人再到数据中心,寻找的都是美本土供应商, 就连代工也和富士康达成协议,要在美国本土设计和制造下一代 ai 基础硬件设施,那这个企要是下成的话, ai 行业格局将发生天翻地覆的变化。 open ai 的 终极目标是通用人工智能,也就是 agi, 而 agi 的 核心能力在于理解和影响物理世界当前的大元模型,就连它的 gp 也局限在数字领域, 缺乏实体环境的直接交互。而机器人呢,作为物理世界的感官和身体,是填补这一空白的必经之路。机器人需要处理实时感知,比如说视觉触觉力反馈、环境适应和物理推理线负责任务, 这些挑战远超文本生成。能够推动 ai 向更高通入性进化,那像 openai 的 多模态模型, g p 思维就已经具备视觉理解能力。 所以说 open i 的 战略目标是利用机器人抢占未来生态制高点,定以下一代人机交互,并且巩固市场地位,就像 g p 刚面试啊,成为引领全球语言大模型一样。而机器人不只是算法的问题,也不是单纯拼代码,它需要完整的产业链供给, 在这点上欧美都要依赖我们,看看我们机器人的表现就知道了。硬件上的差距弥补了算法的算力差距,马斯克也不得不承认,我们的机器人领先美国。 所以说 open i 现在急迫的不是继续升级模型,而是寻找优质稳定的硬件供应商。那除了我们的竞争,美国科技巨头也在围着 open i, 谷歌、特斯拉、 metta 都在做同样的事情。如果不参与,那 open i 可能错过定义 ai 形态的先机。 市场已经有消息了,前苹果设计总监 jennifer 要和 open i 合作,意味着硬件设计对用户体验的重要性。 open i 的 核心竞争力在于 深度合作加模型输出提供 g p t del e 作为机器人感知和决策引擎,规避了机械工程短板。二零二六年招聘的机器人专家,重点研发巨深 i 算法、 人机交互优化等领域,和 figure 等伙伴的合作,可以形成 open i 模型加第三方硬件的共赢模式。乍一看呢, open i 的 战略非常清晰,但是风险也很大。目前 open i 已经烧了几百亿美元,如果在过度投入硬件, 很可能稀释核心模型研发资源,影响 a g i 进度,以至于被同行赶超。总结起来啊, open i 发力本土机器人和 ai 设备,是 ai 愿景的逻辑延伸。自从纯软件实验室向全站生态构建者的转 型,规避硬件短板,抢占交互入口和垂直市场,这么大的战略和投入,无论是失败还是成功,影响都是全球 ai 格局。成功了 a g i。 美本土全产业链供给加全球领先算力大模型失败了, 巨额投入打水漂, ai 模型没有跟上同行发展速度, open ai 就 会沦为二流 ai 企业。

说实话,当我看到 openai 官方团队悄悄发了这份报告的时候,我第一反应是他们破防了。你们知道吗?这不是什么自媒体写的,是 openai 官方全球事务部门的内部通讯,专门给华盛顿的政客,华尔街的投资人,还有各国政府顾问看的, 平时发的都是一些四平八稳的东西,但这次在 deep six 发布二万整整一周年的节点,他们发了一份相当实诚的报告。我看完之后第一感觉就是,这是我见过最体面的认怂方式。今天咱们就来扒一扒,这份报告里到底藏了多少他们不敢明说的真相。 先别划走,这份报告最后有三个问题直接决定了未来三年中美 ai 谁能笑到最后。我放到最后给你们讲, 首先咱们得搞清楚这份报告是谁写的, openai 全球事务团队说白了就是他们专门用来做政策、邮税和舆论引导的部门。这个 通讯平台叫 the prompt, 订阅的都是什么人呢?华盛顿的政策制定者,微股的投资大佬,还有各国政府的科技顾问。你想啊,如果是对外宣传,他们会找华尔街日报、纽约时报这种大媒体发稿。但这一次,他们选择在自己的小圈子里悄悄说,这意味着什么? 意味着这些话是说给自己人听的真心话。报告开篇第一句就很有意思,说 deepsea r one 去年的发布震动了整个 ai 竞赛, 你们品,这可是 open ai 自己说的, deepsea 去年的航空枢纽把整个行业给卷到了。接着他们说美国在模型能力上继续领先,尤其是在科学研究和复杂推理方面, 但是注意这个转折。他们紧接着说,中国在大规模部署和低成本方面取得了实质性进展。 这句话翻译过来就是,你们可能跑得快,但我们已经在全国铺路了。咱们看几个关键数据,这些数字比任何话都有说服力。 第一个数据,有个叫 openroot 的 全球开发者平台,中国开源模型的使用量从去年初的百分之一点几涨到了今年峰值时的快百分之三十。什么概念?一年时间翻了二十多倍。这个平台是干嘛的?它是全球的程序员在上面选 ai 模型用这说明什么?说明真金白银做选择的时候,开发者用脚投票了。 第二个数据更狠,报告里提到啊,像智普、 ai 这种国家队企业,已经把大模型接近了政府部门的日常工作流程,而且人家上周刚在香港上市,这意味着什么?意味着国家已经把 ai 模型公司当成水电煤那种基础设施来建了?我 以前做投资的时候,看过很多企业战略规划,但坦白说,把一个技术路线直接拉到国家基建层面来砸钱,这个力度是我之前没见过的。第三个数据,藏在字里行间里,报告说,中国现在有一大片接近世界顶尖水平的模型, 什么叫一大片?就是不是一两家能打,而是一整个军团都能打。阿里字节、百度、智普、月之暗面、 mini max, 再加上 deepsea, 这是集团军作战。 但这份报告最有意思的地方不是夸中国,而是他们字里行间里透露出的焦虑。报告用了很大篇幅在强调一件事,中国的算力受限。他们说训练延迟、系统宕机、下一代模型发布推迟,都指向了一个瓶颈,就是算力不够。 然后他们画风一转,说中国 ai 公司对美国先进芯片的需求依然很高。哎,你们发现没有,这整段话的潜台词就是在喊老大,芯片究竟管用,千万别松。但问题来了,如果真的管用,他们为什么还要专门写一份报告来强调?这就像你跟别人说,我真的不在意,恰恰证明你很在意。 因为他们看到了一个残酷的现实, deepsea 用上一代芯片,跑出了接近甚至某些方面超过 gpt 四的效果。这意味着什么?意味着如果算力限制有一天突破了,或者咱们在算法效率上继续优化,这个差距会以他们想象不到的速度抹平。 而更狠的是啊,报告里还提到一个细节,说中国政府正在限制国内新建的数据中心用西方芯片,同时给钱补贴国产芯片。 这是什么战略?就是断奶战略,短期可能疼,但长期来看,一旦国产算力能跑起来,那就再也不会被卡脖子了。我有个朋友的公司,去年就开始测试国产芯片,他跟我说,虽然现在性能确实还有点差距,但进步速度快的吓人,每隔几个月就能看到明显的提升。 咱们客观分析一下,基于这份报告,中国在 ai 这块到底什么段位呢?先说强的地方,第一,部署能力。报告里反复提到大规模部署,这是咱们的绝活。为什么?因为中国有完整的产业链,有政策支持,有庞大的市场需求, openai 做出国税的 gpt 可能要花一年时间去说服企业用,咱们这边呢?政策一出,国企一带头,整个产业链就动起来了。就像前两天我看到有人在用文心一言写政府报告,用通一千问做数据分析,这要是在美国,光是合规审查就得搞半年。第二,成本控制, dp 二万的训练成本据说不到六百万美元,而 gpt 四是多少?外界估计至少上亿美元。这个成本差距意味着什么?意味着咱们可以快速迭代,可以容错,可以大胆试错。 第三,开源生态。报告里面专门提到中国的开源模型价格战打的极其激进,阿里的通一千问自己的豆包基本都是开源或者超低价策略,这是什么打法?这是当年滴滴打优步,美团打饿了么的那套玩法,搬到了 ai 时代,先用低价甚至免费占领市场,再做生态 再说弱的地方。第一,算力天花板。这个确实存在,报告里说的很直白,虽然咱们在算法效率上做了很多优化,但如果要训练更大规模的模型,算力瓶颈还是硬伤。 第二,应用深度。报告里提到美国在那种能自己写代码,自己干活的 ai 工具方面还是领先的,比如 github, coppola 这种已经深入到了程序员日常工作的工具,咱们虽然有类似的产品,但渗透率和用户粘性还有差距。 第三,科学研究场景。报告说美国模型在科学研究和超复杂推理方面保持领先,这其实是数据和场景的问题,高质量的科学数据及实验室的应用场景,这些美国确实积累的更久, 但你们注意啊,这些弱的地方没有一个是绝对跨不过去的,算力可以补,应用可以铺,数据可以慢慢积累好。现在到了这份报告最核心的部分,他们在最后抛出了三个问题。我认为这三个问题直接决定了未来三年谁能赢。 第一个问题是,美国模型能不能在实用性上继续领先呢?他们说的是真实世界的有用性,什么意思?就是不看跑分,看谁能真正帮企业赚钱,帮政府提效,帮普通人解决问题。 这个战场其实刚刚开始,就像最近大家都在用 ai 写文案,做 ppt, 分 析数据,那么谁的模型真正好用,真正省时间,用户自然是知道的。第二个问题,中国能不能造出足够的算力?这是最直白的一个问题。 报告说,美国那些云计算巨头还在继续扩张数据中心,而中国面临芯片限制,但这个问题的答案可能就在这一两年内见分晓。华为的升腾,阿里的寒光,还有一堆你们在新闻里看不到的国产算力项目,都在玩命的干。 第三个问题,中国能不能真正大规模铺开?这个问题其实问的挺微妙的,因为报告里自己也说了,中国政府正在通过采购、制定标准、给补贴的方式,加速 ai 在 重点领域的普及。他们的担心是,如果中国真的把 ai 铺进制造业,铺进所有重点行业,那生产力的提升会有多恐怖? 而且报告最后还提到,中国正在把基础设施、云平台模型、国产硬件打包出海,从东南亚到中东测试。所谓的数字主权方案,说白了就是新时代的一带一路科技版。所以你们看,这份报告表面上是在分析 dp 一 周年,实际上是 open ai 在 给华盛顿写求救信, 大意就是老大咱们还领先,但对手追的太快了,钱要给足,限制要加紧,不然真的要被抄了。 但我读出来的是另一层意思,中美 ai 已经进入真正的短兵相接的阶段了,以前可能还有代差,现在基本就是同一个赛道上的你追我赶。 而且最关键的是,游戏规则还没定,到底是拼参数规模,还是拼部署效率,是拼算力堆叠,还是拼算法创新,这些都还没有标准答案。 所以对于咱们普通人来说,这意味着什么呢?意味着未来几年你会用上越来越多的便宜好用的 ai 工具,你的工作方式会被 ai 彻底改造,你如果现在开始学会用 ai, 三年后你和同龄人的差距会大到你自己都不敢信。 好了,这期就到这,如果你觉得这些内容有点东西,一键三连支持一下,让更多的人看到这些藏在官方报告里的真相。评论区说说你觉得三年后中美 ai 谁会领先?或者说说你现在在用哪些 ai 工具?我挺想看看大家的判断和实际使用情况的。我是杜宇,咱们下期见,拜拜!

openai 很多这个 model release 都有我的名字,这个就是因为我在 openai 的 内部搭了整个 post training 的 r o info, 所以 整个 post training 的 r o info 你 是最核心的贡献者了。是的,因为我觉得应该打破信息差。 信息差是一个,就是如果你在清华生存的话,是一个很有用的东西。但是我应我觉得每个人都应该平等地拥有这个信息,哪怕当时有了现在的认知,那还是做不出来。没有,我不想发 paper, 我 觉得发 paper 完全没有意义。换方,当时说要搞一个呃, ai lab, 就是后面的 deepsea。 对, 我当时是拿了 offer。 如果你想进工业界,那么读 p h d 就是 浪费生命。教一个 researcher 如何做好 engineering, 要远比教一个 engineer 如何做好 research 来得难。每家的 infora 都有不同程度的 bug, 然后谁修 bug, 谁修的 bug 越多,那谁的模型训的就越好。 hello, 大家好,本期嘉宾汪嘉译,他于二零二二年加入 open i, 并且是 open i 一 系列模型背后的核心贡献者。从切 gpt、 gpt for o, 再到 gpt five, 你 能看到的每一个模型跃迁背后都有他的身影。而他的核心贡献可以被总结为三个关键词, 强化学习、 post training、 inforce。 但对我来说,温家义不只是把模型做得更强的人。在加入 open i 之前,他就已经用开源和代码影响过无数人。从在清华开源作业与资料,试图打破信息差,到开源强化学习框架,天授做出免费签证查询系统, 他把代码工具视作一种慈善。在这期播课,我们会从温家义的童年聊起,到清华与 c m u 的 求学之路,再到二零二二年加入 open i 之后的亲身经历,站在世界 ai 风暴中心的他看见了什么?这里是 whynot tv podcast, 现在请和我一起进入温家义的世界。 hello, 嘉怡,欢迎你来到 whynot tv podcast。 hello, hello。 啊,这,这个我觉得这期很奇妙的一点就是我在给你准备这期的 outline 的 时候,我用的是 gpt5 的 deep research, 然后这相当于是你自己在背后作为核心开发者的产品和模型, 然后他们自己在做 deep research, 想这些问题来采访你是背后他们的生产者,是他们的 developer。 我 觉得这个是一个比较奇妙的闭环。今天我们会谈到很多部分,从你的童年成长, 清华的本科经历,到 cmu 读研,再到二零二二年加入 open i 至今的所有的核心开发的经历。我想先从最早你的童年开始, 能不能给我讲讲你,你觉得你小时候是一个什么样的小孩?我小时候特别喜欢这个学奥数,奥数。对,我,我从一年级开始就开始学奥数。嗯嗯,就是因为 开始的时候,呃,我爸妈让我去听了这个进修校的一个奥数课跟语文课,然后我对语文完全不感兴趣,但是我对奥数就非常感兴趣,然后我就进去了,然后从一年级开始就一直上到六年级,然后初中也是,然后我发现就是我做数学题做的比谁都快。 小学的时候,对,小学的时候就是,比如说别别人口算题,像二年级的时候,口算题可能还没做完,就可能写到一半,然后我就已经做完了。嗯,就是那种不用过脑子的, 嗯,可能用现在时髦话说就是 c 三 one 啊。对,直接直接表层意识直接过,然后直接看一眼出来答案那种,然后,然后就是这个让我这个做数学题非常有成就感,因为我觉得我是一个就是学习还算 相比于其他人算比较偏慢的人。呃,怎么说呢?就是学一个新的东西,我经常要花 别人呃两到三麦的时间,但现在其实还是这样,就是比如说我读一段代码,我我就是要比别人花很多的时间去理解这整个整个内容,整个 contacts, 呃,然后 但是我一旦理解之后,我用的就非常快。呃。有一个呃不太恰当的例子,就是比如说我,我这个小时候 经常不是要背书吗?嗯,背一个课文,嗯,然后我就是,呃,在睡觉之前我想想尽所有方法,然后能能够磕磕巴巴的就是呃完整的背出来,然后哪怕有很多停顿,然后你只要想起来都好,然后睡一觉, 然后第二天醒来发现这个倒背如流。嗯,我当时想法是,就是因为我,我需要花更多的时间,所以说我需要呃比别人提前学东西啊,所以,所以当时我就是在 啊初中的时候开始干高中数学,然后就是直接直接问这个初中的数学老师这个说各种高中数学的一些问题,然后他也非常热心呃回答我,然后我也非常感激,初二的时候就已经把高中考完了,然后初三就开始学微积分 数学,你,你天生就觉得你做的快,然后比别人都快,但同时呢你又觉得你学东西慢,我感觉应该就是,呃,我需要更长的时间构建我的知识数。 就是,呃,正常来说这个知识数是比如说有个根,然后往上拓展,然后再往上拓展,然后好几层,然后你每次比如说拿这个最顶层的这个这个 结论去应用到这个题当中,然后你要从头到尾过一遍,然后你要慢慢慢慢想出来,但我可能就直接建立一个链接刷卡,然后直接上去,然后就不用反应了。所以你是从小就意识到我好像比别人更聪明。 呃,没有没有,没有这种感觉,没有,所以你只是说你好像,你只是觉得你对这事感兴趣,那你愿意提前学数学这个事的这个,这个里里面的核心兴趣是哪来的?呃,我想投资未来。哦,我想投资我自己的未来。 所以你在初二的时候你就意识到我这个时候学提前学高中数学是一种投资未来。对,呃,对于我的未来的一些学习生涯是有帮助的。呃,与其说我现在浪费时间在这个刷题上面,那不如学一点对未来有用的东西,然后后面的收益可能更多。 这个是你父母跟你讲过了不是? ok, 我 父母无所谓,我父母就根本 不不是,怎么不是,怎么关心我是怎么学的。但我还是特好奇为什么你初中的时候就有投资未来的这种想法?因为你你,我相信你那时候肯定学有余力,对吧?对啊,你为什么不去玩啊?为什么不去打篮球、打游戏?你为什么想的我要学高中数学,我要怎么怎么样啊?首先是因为对这个感兴趣, 就是我我觉得这个,呃,这个,这个初等数学太无趣了。然后这个稍微 怎么说?稍微稍微有意思一点的数学更,呃,能引起我的兴趣。那是谁让你有了这种兴趣吗?是天生的吗?对,数学, 呃,可以算是吧,或者说还是说是小学的时候你因为这事有成就感,所以你就,呃,你可以这么认为,就是有一个促使的成就感,然后促使的 reward, 然后慢慢慢慢慢慢的,然后你就会慢慢慢慢把这个你数学这方面的这个技能数慢慢慢慢开始点,因为你每点一次你都会有个正反馈, 然后再点一次,再有正反馈,然后你就会一直在这个上面走。嗯,但像比如说打篮球,我我试过,但是没有什么正反馈,就是我竟然被我舍友这个按着打,哈哈, 然后,然后,然后体育,呃,我练过跆拳道,我觉得跆拳道还可以,但是这个跆拳道一打实战我就被对手揍着了。 对,所以反而是这种正反馈相你本身也擅长,然后你对这个也不排斥,慢慢慢慢就变成了一种自发的内升的兴趣了。对,嗯, 所以其实倒不是家庭环境,而是就是你自发二产生的。是了是了是了。那这是数学,你初中的时候提前学高中的数学,那你高中的时候为什么又对编程产生了兴趣呢?哦,我编程是初一开始的。对,初一对编程,初一开始是因为那个就是小升初的时候我去了时代中学, 然后他是个私立校,然后但是私立校的话有一个这个编程兴趣班,然后然后我,然后然后就抱着玩。 我,我能理解高中有兴趣的金色,但其实初中搞编程是应该不对,升学没有太多用,对不对啊?是的是的,没有太多用。那这个事也是你自己找的?兴趣班还是你父母给你找的?我父母觉得这个可能对我挺有意思的, 然后我就试了试,然后我觉得还可以。好,那我们聊你高中啊。高中我觉得其实我最感兴趣的是你 o i 省选 o i 的 经历,能给我们讲讲吗?为什么要搞竞赛呢?因为 升学压力还是有的。嗯,呃,你如果不搞竞赛,那这个对于非北京的人员来说,想上清华北大是非常难的,这个难如登天。所以当时是因为升学压力搞的 o i 啊。是的是的,就是,呃,大部分是因为升学压力。因为我之前就已经在搞 数学竞赛跟 o i 了,然后我高一的时候其实花了一点时间去做数学竞赛跟 o i 了,然后我高一的时候其实花了一些还可以的名次,但是如果在网上的话,就是, 呃,审选数学竞赛的审选,然后我们学校是没有那个基础的,然后自己学也很困难,所以说我就放弃了,并且我对这个再往上的这个就审选往上的数学题。 啊,我觉得我非常困难,因为我没有那么早去接触,然后我觉得学习起来非常累。你说你哪怕初中就开始学高中数学都不够早。呃,初中开始学高中数学竞赛可能够早一点。 嗯,对,就是我没有那么提前。对,所以,所以说我掂量一下还是放弃了。你就搞呃 o i 新学期竞赛。哥搞 o i 了,能跟我们介绍一下?就是,呃, 靠兴趣学竞赛,然后升学,这个一般是要经过什么什么步骤?先审选,然后是什么样的流程?呃,先 n i p, 然后就是相当于一个普及组,呃,不是提高组, n i p 提高组的一个。这个省里面的一个 选拔赛差不多是十月,然后后面是。呃,弄完是每个省都有每个省不同的选拔标准,要选出来省队去参加国赛。然后省省选的话,福建是有两轮,一轮在寒假一,然后还有一轮在四月份, 然后选完之后,然后就是五六月,应该有一个清华或者北大夏令营,可以二选一。呃,可以拿一些这个优惠条件,至少当时是这样的。然后是在七月到八月去搞 n i 的 这个国赛。 来跟我们讲讲你在这个过程中啊,是怎么样的?第一轮,第二轮,第三轮,这个 nyp 还好吧?这个 nyp 就是 已经因为因为这个从初中开始搞的,所以说还好,然后审选,审选,这个高一的时候就是连审选都没过,就是完全不会做, 几乎不会做,然后高二的时候会做一点点,就是会乱搞,然后会一些这个这个 theory 的 方法。 就比如说这个有一题叫这个最小双元覆盖,然后我当时搞出来七十分,我刚刚好像是全场最高,因为我做出来这一题后面就是进了省队,但是进完省队之后就是,呃, 后面的就是清华夏令营,感觉还可以,就是拿到一个降六十,无条件降六十,有条件本一线。这个怎么理解?就是高考的成绩直接会给你加六十,如果你没有保送的话,然后 如果这个线过了清华当年的录取线,那么清华就会要你,然后有条件本一是说,呃,如果在 n o i 比赛里面,呃考到了前一百五十名应该是银牌的线, 那么就有本一你。如果你只要高考的成绩过了本一,那么就无条件录取,但是如果你是金牌的话,那你就连这个都不用了,你直接保送你当时拿的 n y 的 那个有条件本一了吗?呃, unfortunately? 没有, 就因为就是呃,这个是又是一个黑历史,就是我是当时的福建省队倒数第一, 嗯哼,福建省内就只有当年只有一个铜牌,就是我,然后剩下的人都银牌以上。这事的失利对你的升学有影响吗?但是,嗯,还是有挺多影响,因为我当时毕竟高二下半年 没有搞文化课,然后我对于我的未来也不是很确定,我不知道我到底能高考考多少分,呃,有些之前的例子,比如说像 有有学长就是把六十分加分全部用完了,然后,然后就这真的是一点都不剩,然后我觉得这个万一我也这样怎么办?就很危险, 然后我对于这种不确定性非常害怕,呃,但是想了想,我觉得,呃我应该也没有那么差吧, 然后还是还是就咬牙选了这个六降六十。所以你当时另外一个选择是更保险一点的,呃,更保险的原因就是直接可以在呃 o n i 现场,然后签一个上海交大的 本一线录取,所以当时这个是一个呃很艰难的决定了。也还好吧,就是主要是,呃,首先心态方面,这个当时毕竟很 很难过,然后对未来不确定性,呃,就是自己感到很害怕,然后但是这个家人鼓励还是让我选择了这个。呃,选这个清华六十, 那当时是不是弄完 o i, 搞完竞赛之后到高三你就不碰这些东西了?就 o 英高考,呃,也没有,就是会,可能会偷偷的碰。就是像比如说 我觉得我对这个代码的优化有特别的追求,就是我会呃我,我当时甚至练成了,就是比如说在 i i 那 个 ipad 上面直接 呃,因为 safari 它是没有代码编辑器的,然后我就直接这个用 ipad 键盘直接挪打代码,然后直接教,然后没有编辑,然后 那个那一堆的经历,其实我觉得也很锻炼自己的思考能力,因为啊他需要你对于整个整个题目或者整个逻辑有个完整的认知,然后哪里错了,你要能快速的定位到是哪里错了, 然后他会很锻炼你的这个反应能力的。呃,然后我觉得这个对于我来说是一个很好的锻炼,但对你来说当时其实不需要这种锻炼。呃,是的是的,只是只不过这就是自己很感兴趣。就比如说当时这个 o i 还有一个叫常数优化, 嗯嗯嗯啊,就比如说这个,呃,有一个算法,这个虽然时间复杂度可能都是 n 平方,然后但是这个十一的它的这个前面是带了个常数的, 然后这个 o i 的 这个评测都是会有这个结果。就比如说按照这个跑测试点的时间来排序,然后跑得最快的,那么就就排第一,然后如果跑一样快,那么按照代码长度的长短, 然后所以说这个我会同时 optimize 这两个指标然后然后这个刷这个东西就感觉很有意思。很有意思虽然说没什么用但是很有意思。嗯 你真是搞这个的圣体。因为你真喜欢这个东西是吧从中获得快乐。对嗯嗯嗯。那我们来聊聊清华啊如果我跟你说你在清华一六年开始读本科 你直接跟我说有没有什么现在想起来哇特别比如说大一大二刚进去值得回忆的事。第一个浮上你脑海的是什么。真有的话就是我我把我所有的作业都开圆了。 因为不同的人对这件事情有不同的看法。呃像比如说有些学长学姐是比较反对这件事但是我觉得我应该做这件事我当时做一个把这个我所收集到的所有的 呃这个上古作业上古材料然后全部在 github 上开源了除了那些有版权问题的我没开源然后剩下的没有版权问题的都开源了。为什么?因为我觉得应该打破信息差。 信息差是一个就是如果你在清华深层的话是一个很有用的东西但是我应我觉得每个人都应该平等的拥有这个信息。你现在回去你现在回去。随便我抓个计算机的学弟问 问这个你认不认识这个捐这个新戏楼的人哪怕他把他的名字放在戏楼上面你认不认识?温家义 应该认识因为毕竟这个大家都看我的作业火的哈哈哈。这个这个这个比捐比这个捐楼有用哈哈哈。此处弹幕应该闪过加一如果我用过看过你的作业就应该在这时候发个弹幕啊。 呃但为什么为什么你会把你的作业开源?这个里面本质为什么和信息差有关系?呃。我想打破这个信息差,就是我不想让后人重蹈覆辙,就是经常疲于奔命,就是很多人其实他不是很擅长搜集东西, 但是他其实很有能力的。但我,呃其实,呃就如果能够给这些人有一个信息评权的机会的话那他可能在清华会活得更好。所以你的信息评权是指知不知道往年的作业?这种信息和学长学姐问过以前会考什么重点这种信息,呃以及作业 以及老师没有规定不能放出来的作业。嗯呃。不然的话你会经常会花可能十几二十个小时,然后你又不敢问猪叫,然后你就不知道怎么做, 然后你就会花一些巨大巨大块的时间,然后去一直在钻牛角尖,然后反而对整个学习是很没有帮助的,收益很低。 但这样的话就是如果我我当时觉得如果我把做我自己的作业开源的话那么我可能会帮到一些这样的例子,然后可能会帮后面更多的一些学弟学妹用更多自己的时间来去做他们更想做的事情,而不是 要脑就是做这些没有什么比较浪费生命的事。对,所以你这事做成了。现在你的作业应该在清华已经成为一个很广为流传的 guitar rap 啊。是的。嗯 那这个之外呢?我看到你应该大一大二大三多久开始入门科研啊?这些什么什么时候开始的?呃这个应该是大二吧。 然后后面就是,呃就是问学长说这个有没有哪个推荐的实验室?呃。当时有就学长跟我说三个名字,呃。朱军老师, 然后谭杰老师还有崔鹏老师,呃。我默认这个按排序,按按照每个人牛逼程度排序,呃。但可能不是这样的,但是我当时就是按照这个这个排序。啊,对对,我以为先后顺序,然后 就报了一个计算机的学术新新星计划,然后后面就是应该是全录取了,然后我就选了朱军老师,然后大二的时候就跟朱军老师,呃。就是先见了一面,然后就是问说有什么方向?有三个方向, 呃。贝叶斯,呃。对抗网,对抗顺城网络,就干,还有一个强化学习,强化学习,对啊,就是三个方向,然后我当时其实想搞的是干,我觉得这个这个图像非常有意思。呃,但是我不知道哪个是干, 然后我就选了 r o。 什么叫不知道哪个是该?我当时真的什么都不知道,我就是个小白。对,然后然后我就误打误撞选了 r o。 没有什么特别的,就是我觉得我觉得 r o 应该是搞那个图像的东西,就就这样, 对,所以是个相当 random 的 你,对,是的是的是的。但是后面搞 r o, 呃。发现这个这个是个打游戏的东西,嗯, 呃。觉得挺有意思的,然后就一直搞下去了。嗯,对,但是实际上,呃,就是我最开始想法是,我其实有三个大的方向,我其实都挺喜欢的,一个是人工智能,就是 ai, 然后另外一个是徒心学,还有一个是网络安全,呃。网络安全,我觉得这个哈克非常酷。那我在大学的时候其实业余时间也搞了很多网网络安全的相关的东西, 然后还给学校修了不少的这个校园网的 bug, 比如说,呃,比如说这个修了一下这个,这个 免费下成绩单的这个,这个一分钱下成绩单的这个事儿,就是成绩单下一次要这个十块钱。就是我跟另外一个学长发现了一个 bug, 然后,然后呃,就是可以一分钱也可以不要钱下载,然后后面就是 呃下载几次之后,然后把这个 bug 给修了,对,就是直接反馈给这个学校教务部门,所以你是很享受这种 hacking 的 过程,对,所以网安是一种 hacking。 我 其他的呢?呃图形学的话,我感觉也是个 hacking。 对, 现实世界的 hacking, 就是你可以以自己的呃视角去构建你脑中想象的场景,然后这样会让你觉得你是上帝,你是神。我其实当时最感兴趣的还是图形学,因为我我在呃初中的时候看过一个电影叫创, 呃 t r o n。 就是 呃那个,那个什么创战记的那个,那个,他是一个那个, 呃科幻片,然后他的那个电影特效就非常厉害,然后就就把我当时看的非常震撼,然后我我想着如果有一天我能做出这种 特效,或者说我可以像创意这样构建一个自己的虚拟世界,那是,呃,就是我觉得图形学是实践这个的一种手段, 对,然后所以说我当时就特别感兴趣图形学,然后呃我在大二的时候就上图形学,呃,然后 我当时就是因为特别喜欢,所以说我花特别多时间去做图形学的大作业,然后当时应该是拿了呃全班唯一唯二的 a 加 对,然后发明了一个新算法,能够减少这个呃迭代的这个收敛的次数,以及这个用了一堆这个算力来跑来,就选一个巨高清的图,就应该十六 k 的 图,然后,然后当时就是 在我之前是完全没有人选一个十六 k 的 图的,然后并且十六 k 的 图完全没有噪点, 那当时那么感兴趣途径学后来继续下去了吗?嗯,没有,因为我觉得就是如果你要搞科研的话,那还是 专心比较好,不能这个脚踩两条船,因为你当时已经去朱老师那,我也已经去朱老师那。 对,有有个项目是搞那个呃 vs 动,就是一个动,是一个差不多九十年代一个游戏,然后当时是有一个比赛想把这个呃用用一个神经网络来去 在一个固定的地图里面,然后把这个游戏打通关,就是有个出生点,有个有个终点,然后你要去在这个 地图里面去杀怪,然后去捡血包,然后避障,然后去最终到这个呃终点,然后去通关。所以这个其实是你强学习的入门第一个 project 是 拿了冠军,是了,所以当时你是很享受做强学习科研了,没有?为什么?呃,很不享受,因为这个, 因为首先这个,这个这个 task, 这个环境呃太过于单一了,然后你要疯狂地去 overfit, 嗯,然后呃就是就是你要用各种各种技巧防止他训练的时候崩了, 以及呃你即使训练没崩,然后你也不知道你怎么调餐,这个这个比 cba 来说,这个这个他的这个调餐难度可能要难上十倍、一百倍, 然后都是玄学,你必须要用一些非常 heuristic 方法去避免一些 corner case。 所以 你当时就意识到那段时间的 r o 研究全靠 heuristic 和调参。是的是的,就是改算法其实没有那么本质。然后,呃,因为,因为我,呃当时的那个任务呃过于单一了,然后 大部分大部分情况下都是不能 work 的。 当时的任务第一个当然是 visoom, 那 后面是不是什么?像 atari d mind control suit? 呃,呃,我觉得某种跟 atari 要比 visoom 还要简单, 对, visoom 算难的了。但是,呃,在这种 case 上面,就对于人类而言,它是一个简单的 task, 但是对于 r o 而言,它是一个非常非常难的 task, 因为他需要大量的知识需要。就比如说这个什么是障碍物,这个对于人来说这个不需要反应的,但是对于 r 来说就是,呃,或者对于 ai 来说,这个是完全两个不同的难度了。对, 对,所以你在当时这个很清晰的认知,认识到环境太单一,算法不是瓶颈, 这个是你做中你就会发现是太多挑衅害太多。对,所以说我不是很享受这个科研的过程,嗯,我,然后我会,就是我有意识的把我的重心放到了如何帮助这一类的科研更顺利进展的 过程上,所以我会,呃,就是在大四的时候,我会想着这个造一套这个 r o 的 inforce, 嗯,呃,或者说 r o 的 小小 library, 能够更方便地让这些想在这个领域卷的人去卷。 对啊,这样的话就是,呃,我觉得我非常擅长这个事,我非常擅长这个,这个,呃,类似软件工程的这个这个方面的东西,然后可以重构代码,让代码看的更好,更好用,然后用户体验做好。嗯,但是,呃,至于这个东西怎么调, 我非常有有这种生理上的反应,你不是不擅长,你就是不,不喜欢,不想排斥做这个事,是吧?是的,这也就是你大四做天寿,天寿我们等会着重聊。是的,所以你大二开始搞科研,搞了 vsto, 然后到了大三是不是面临一个申请暑研?是的,当时是什么样的节奏和状态?申请暑研?为了为了还是为了大四的申请? 然后,呃,发了一堆的套磁信,然后但是也没有什么结果,然后后面还是这个,我导师帮我联系了,呃,联系到了 u s 班主,然后,然后我就过去了。 对,其实我那段时暑研做的也没有那么的成功。我们当时是在 mila 对 吧?对,是在 mila, 当时是一八年。呃,不对,一九年,一九年的暑假。 一九年的暑假的时候,首先,呃,优莎是一九年的,应该是四月还是五月拿的兔领奖,然后我是在那个之前升的,呃,所以还好。然后后面的话就是 优莎给我们,呃,给我跟带我的 postdoc 的 任务是做一个类似于 mo e 的 东西。 m o e? 对, 呃,当时还没有 m o p 的 m o e 的, 嗯,跟。首先这个跟 r o 没有任何关系。嗯,呃,其实这是纯这个 language model 就是 transformers, 然后并且当时没有 m o e, 我 们不知道 m o e 是 什么,怎么 work, 但是他有一个 m o e 的 idea, 就是, 呃,有一个这个 router, 然后可以选择不同的这个 pass, 然后,然后让我去实现, 所以他招了一个做 r l 的 人去做 n o p 啊?是的,我觉得很奇怪,但然后我需要花,呃,更就是我,我不擅长学东西,然后我花了很长时间去入门这个全聪儿 n o p 这个东西,然后,然后, 然后看着这个搓一个东西,但是搓一个东西出来也没有什么好效果,然后因为现在回过头来看这个,你这个东西要 work, 首先你要有算力,你要有很强的这个工程能力,然后你要 skill up, 当时这个一个人就就几块卡,这个这个搞不出来 skill up 的 东西,所以说你肯定搞不出来,哪怕方向是对的,那你也是搞不出来。但其实你有没有觉得好像冥冥之中命运就是在把你往 open i 现在的这条技术路线上推?你先搞了 r l, 然后优秀让你搞 n l p 这两个 pieces, 你 全部就冥冥之中就你,就在 open i 之前你就全部都有过经验。呃,你要真这么说,强行这么说也可以啊,哈哈哈, 就,就是马后炮是没有用的。嗯,对,但当时其实我知道你完全 get 不 到。对,嗯,未来。所以你当时对 nlp 什么看法?在经历了那个暑假之后,嗯,我觉得 nlp task 都是太分散了。然后, 呃,当时其实很多人就在想如何把 r o p 在 这个 language model 圈影上面,因为当时这个问题是还没有解的, 因为 transformers 直接在强化学习上面跑的话,它会崩,它很容易崩, 然后大家都没有想出来这个东西到底该怎么防止它不崩,然后后面证明了就是你的环境要呃是一个这个纯的一个环境,然后,呃你的 reward 需要一个?是,是一个很强的 reward。 什么叫纯的环境?呃,比如说 taxony, 嗯,纯文本,嗯,那那之前大家做的不纯的环境是指,比如说你用 transformer 做一些 atari decision 啊,比如说你把图像弄成一一些 embedding, 但是或者说你把这个 atari 的 这个内部的游戏的音这个信息结构化表示,然后塞到 transformer 里面,然后再跑。 对,而且全书网是一个这个随机数据化的全书网嘛?我当时首先我没有足够多的 contacts, 我 对于这个领域没有足够多认识,所以啊,我做起来就是非常挣扎。 呃,这个我觉得我,我如果现在回过去来帮助我,到时候我呢?还是这个样子,你是觉得就是当时 就处在一个怎么都不可能把东西搞 work 的 一个?是的是的是的,因为算力不够,然后这个对于这个当时的一些认知 m o e 的 认识也不够。然后,呃,你哪怕就这么说啊,哪怕当时有了现在的认识,那还是做不出来, 因为 engineering 不 够,然后 uh compute 也不够。对,嗯,受限于当时的这个资源,嗯,就是做不出来。那当时可能 暑研结束了,然后就回到清华开始准备申请。对,当时,那,那当时是什么样的状态?就是会压力很大吗?当时,嗯,其实挺, 就是整个人状态其实不大好,因为署研没搞出来这个周围的同学,这个比如说去 seven 啊,去 c m u 署研,然后都搞出来很多东西,然后发 paper 都有 e 作 paper。 呃,通常来说你是要发个 e 作 paper 的, 不然的话你会被别人刷下去, 这个就很简,没有办法。所以说,呃。我做完书,然后其实只拿了个一个推荐信,但是我也不知道推荐信里面写的什么样。呃。然后, 呃,就是挺没有底的。这里结果怎么样?后来,呃,我是对着 p a p d 申请的,嗯,但是我只拿到 master, 因为那个时候我大二, ok, 你 申请的时候我应该刚刚刚刚大一大二,然后每年知乎上都有那种一九 four, 你 的申请结果怎么样?二零 four 当然我就看到了你的回答啊, 然后我印象还挺深刻的,当时你就因为我看你履历啊,说屠龙奖强推怎么怎么样,结果最后我当时看到你申请结果不好就没升到 psd。 当时我觉得,哇,这么竞争这么激烈,你自己作为当事人经历那样的申请期对你来说是一种挫败吗? 呃,可能还有一点吧,但是后面来看也还好就是, 嗯,首先我在当时的那个环境,我确实会很大程度上受当时的小环境的影响, phd 是 要比 master 好 的, 这个应该是整个清华内部的那种氛围那种比例。是的,这个,这个是没有很这个如果你身在其中,你是很难摆脱这个影响的。 然后,呃,即使是国外的 phd 跟 master 跟国内的 phd 跟 master 都是一样的,就是 phd 要好于 master, 因为大家会有一种固有的认知,说这个学历越高越好,对于今后的这个发展会更好。呃,但是很多时候这个是不成立的。 呃,真的取决于你到底干了什么。呃。然后当时的话我确实是有一点失望的。然后,嗯,我我其实也花了一段时间来调整自己,然后面觉得我 我一直以来应该是都是想做一些就是呃让自己与众不同的事情,就说你当时在可能在尽力的挣脱出固有的那种评价体系。是的是的是的。嗯,是的。 呃,就是我我我一直以来就是觉得就是 gpa 不是 唯一的一个评价体系,你需要自己在大学里面找到适合自己的评价体系,然后为这个评价评价体系去去奋斗, 呃,去让自己开心。你即使在 g p a 拿到第一,那么你可以跟往年比一比,跟这个就是其他学院比一比,跟其他学校比一比。这个这个反正有的是人, 就是他并不能说你有多么好。我觉得应该这么看,就是从一个需求方向角度看,就比如说,呃,如果,如果你的最后目的是找工作,那么 找工作的人会看重什么?他会看重更看重你的这个相关的经验,他不会看那么看重你的 gpa, 因为这个对他来说没有意义。如果你是有呃当前这份工作很匹配的经验,那么可以,其实可以抵好好几年的工作经历, 哪怕你是一个 new grad 都没有问题。嗯,因为因为招人最主要的目的是招进来能用能干活, 所以你在本科时候认识到这一点。呃,我在后面认识到的这一点,就是我在 master 的 时候 认识到这一点。但你本科其实还是在那个评价体系下面。我本科我尝试挣脱这个评价体系,但是我挣脱了一点,还没有完全挣脱出来那一点是什么?呃,就是我意识到了应该要创造自己的评价体系,而不是用其他人提供的评价体系。 我采用了非官方的评价体系,呃,就是我的导师给我推荐的评价体系,就是 我,我一直记得这句话就是计算机系的评价体系,就他认为的有三个指标,呃。一个是论文,一个是比赛,还有个是 github 的 star, 三位数以上。然后我觉得这个这个是确实是有意义的,因为他给我了一个完全不一样的想法,就是不一样的领域。我,我其实可以在开源社区搞一些事情,然后让我有一些跟别人与众不同的地方。 嗯,这样对于自己的长期的发展是更好的,而不是说这个。你,你就是花很多时间去学 gpa。 呃,就是刷 gpa 这种事情。这个我有同感。我觉得我在本科的时候我也是很早我就意识到 gpa, 特别是本科的 gpa 是 一个三年之后,四年之后你都不用写在简历上的东西。是,但是呢,那三年四年里面的本科生又不得不把自己百分之八九十的精力放在这上面,因为无论你是找工作还是申请出国还是要保研, 都是看 gpa。 对 你是怎么处理这个矛盾的?就是一个三年内重要无比的东西和一个三年之后完全不重要的东西。呃。我会最低限度的投入投,就是我会花时间, 最低限度的时间来让他达到我想要的这个要求,这个标准,呃。再往上一点我都不愿意投。 对,多一分都不想花时间啊。对,多一分都不想花。够用就行了,够用就行。就是就你,你这个,这个其实挺简单,你就算一下这个,就比如说在期末考之前算一下这个你,你现在已经多少分了,然后你就,你就可以安排一下这个,这个考试到底要复习要不要复习? 对,比如说你觉得如果现在 gpa 够了,你宁愿那个科考六十分你不管?啊?啊?是的,这个是我,我一直以来都是这样。 对,然后,呃,可能六十分不太够,就是比如说这个八十七分,八十七分是必加,然后这个我就很满足了。对, 我,你觉得你挣脱了这种吗?因为比如说你出国这种选择是那种评价体系给你带来的,是那种氛围给你带来的。呃,不是当时的氛围,其实已经是,就是。呃,在国内读书比国外好。 一一八一九年。呃,一九年已经是了。嗯,对,一九就是差不多,清华会有百分之,只有百分之二十左右,但我们那届更少,因为科委的,然后只有百分五去出国。 你应该是一九年十二月申请期,对不对?对,所以你应该是还在等 offer 的 时候就科委的吧?对,然后你应该比如说拿到 offer 之后美国领事馆就关了。对, 你还是坚持要出国。呃,是,这个是个很难的选择,因为当时应该是有科委,有有疫情,然后,呃,国际政治局势又不很动荡。 嗯,那你个人的未来还要和这两个息息相关。对啊,那种不确定性下,你当时是什么样的状态? 嗯,我觉得我当时可能更专注于手头上的事,比如说,呃,在家里写天授, 在下面写这个退学昂莱写这个 visa 查询系统,这个,这个,我,我就是只是把转移注意力,不要天天去关注一些宏大的国际趋势,而是专注于手头上的事情,这样可能让自己内心更平静一些。 好,那我们就聊聊那段时间的两个项目,第一个是天兽,第二个是退学昂莱,我们先聊聊天兽吧。天兽,刚刚其实你已经讲了,天兽 啊,你说动机是因为你觉得当时环境太 overfit 了,然后 r l 其实算法的创新没有那么重要啊,反而是这个 inforce, 或者说这个好的一个 implementation, 给我们讲讲为什么做天寿秦?是,就是首先我在一九年十二月,我就有一个 很内心有一个强烈的冲动,就说我其实已经写了很多的 r o 的 一些实验的代码了,我为什么不把它们整合一下,然后让自己的实验跑的更好? 这个是出发点。然后我在二月,就二零年二月份的时候,一月一月放假,然后二月就看了一下这个,呃, r o leb 的 代码,就是在瑞下面的 r o leb, 然后我本来 第一步想的是用 arlib 来看看能不能改改,然后来去支持我自己的实验,然后我看了一个月,太复杂了, 抽象太多了,然后这个这个这个一个 arlib 有 快几十万行单吧,然后就是完全不够人接受,然后我就根本不知道我要改的东西我该怎么实现,然后然后就 决定,哎,不干了就直接重新首撸,推倒重来。对,推倒重来,我,我特想知道,就是你当时做这个事儿 其实还有功利的考虑嘛,因为很多人那段时间就是想做一个不拉不拉 policy optimization 的 new europe's paper, 没有,我不想发 paper, 我 觉得发 paper 完全没有意义。跟我们讲讲为什么?为什么你已经挣脱出这种评价体系了?首先我已经有 paper 了 啊,我我我觉得多一篇少一篇对我而言没有任何意义。然后,呃,并且我申请已经够用了, 然后呃比赛我也有了。呃,吉他的三位数可能算有,就比如说我自己搞那个课程 rap, 但是那个是不是正儿八经的?那我还是想有个正儿八经的三位数 好,那就是天兽当时看了二幺 leave 之后不好用。然后你当时对 paper 没兴趣?对啊,但你对开源代码是很有兴趣的,你对一个好用的,能够推动这个领域前进的一个开源代码非常感兴趣。对啊,做这个事有多难?当时做天兽很简单,两周 只要两周,第一版没有。第一版有什么算法?好多算法啊。就是就是,你对着那个那个就 paper 实现一下就好了, ok? 对, 就就是如果你把抽象搞对的话,那么时间算法就是可能就是呃二十行不到后,二十行不到一个算法,那为什么你两周就能搞出来一个第一版? are you live 能写几十万行? 我觉得可能是因为他最开始设计有有一点问题,然后因为可能像呃合作的人多了,然后大家都往里面贡献代码,然后最后就变成了项目,这个项目会 逐渐的腐化,所以你是一个人守路的?对,所以这种一个人高效的迭代,然后做,做好一个顶层设计之后就去执行。对,你觉得反而会迸发出更更大的力量。是的,就是我觉得代码可能,呃,或者说一个项目啊,这个更多的 有用的东西是 consistency 一 一致性。如果这个项目是从头到尾都是一致性的话,那他们就是一个,他就是个好项目。 像比如说很多这个项目的腐化都是由于呃不一致性,就比如说两个人或者说十个人,十个人的话就是每个人写的点代码,但是每个人其实都不太知道对面到底写了什么东西。 嗯,然后有一些 assumption, 有 些假设就是没有办法去及时的传递,然后会导致比如说像这个代码在很多地方去 复制、粘贴或者说一些不好的行为,然后不断导致这个代码越越变越膨胀,然后去孵化。你觉得当时天兽啊,一炮而红吧,可以说挺受欢迎的。你觉得天兽做对了什么事?我觉得他抓住了用户需求, 就是 researcher, 或者说当时的呃科研的、干活的人, 呃,其实都有一个需求,说这个有没有好用好改的二维框架,他能直接用, 然后因为天寿整个代码短,呃,然后抽象做的还可以,就是你知道如果研究一下,然后你会发现你如果改这个地方就一定会对,呃,而且只有这个一个地方能够 改,并且呃就是如果你要支持你的这个飞雪的话,你只有改这个地方才能支持。 对啊,就是说别人想改什么地方,你的设计已经把它设计好了,对,就只能改,这是的,嗯,是的。然后然后像这个呃就是应用信做的还可以,然后想跑什么算法都有。 所以当时拍拖是第一版,是你一个人写的。对,后面他们会慢慢变成一个更多人的 project 了吗?他就变成一个开源的东西了?还是组内在维护?呃。变成开源的东西,组内其实没什么人来维护。对,就是直接 open source 了。那那那你是怎么避免天兽 不发生你刚刚所说的很多人在一起就有不一致这种腐化的问题了。呃初期的话是因为我有足够的时间,所以说我可以一个人把所有东西全部包了,然后这个肯定是一致的。嗯,虽然说这个现在看来不太好,呃对于长期发展不太好,但是 对于当时的还是说还是够用的。然后后期的话就是因为我的重心,因为呃我入职之后可能就没什么时间了,然后我会直接转移给把把整个 呃维护权转移给就是社区的人,然后如果他们觉得是对的,那他们就做。就是如果有一个拍板的人, 那么这个事情应该就是考察。现在看五年了,天寿。对,成为一个社区的 faker。 你 觉得现在腐化了吗?有一点,确实有一点,因为呃我的 我的 context 跟呃继任继任者的那个 context 还是有点不一样的,所以说他会呃重写我的一份代码,嗯,就是我们俩其实没有那么的一份的,所以说还是会有一些浮夸的问题,但是我觉得为就是长远来看这是可以接受的。 嗯,对,第二个 project, 哈哈。我也是用户退学。你你为啥?你你你不是当时我大二吗?但后来我属羊,对,我属羊的时候也要月月天正, 然后当时也是需要找最近的时间, ok, ok。 然后对当时为什么做这么一个这么一个事,我自己有需求啊。就是就是,跟这个做天兽差不多,就是我觉得我我的需求,我应该 我找了一圈,我不知道有有什么东西能够满足我的需求,所以说我就手露了一个,就是,不然没有办法, 因为当时你应该处在一个一会这个临时管员,管那个临时管员。对啊对啊对啊,要实时的知道是哪有签证的,然后然后我,我觉得我我有这个需求,就像比如说最开始我,我有收集这个上古学长的这个作业的需求, 我觉得很多人应该有这个需求,所以说我就开源了,然后就我我有查签证的需求,然后我就这个写了一个这个签证的这个爬虫,然后我就开源了,然后然后直接免费给大家使用。 这个很受欢迎啊,我昨天晚上看总点击量一百多万,还是当时当时就一百多万,现在现在肯定一千多万了,一千多万了,嗯,但是很很早之前就已经关了,就是 因为 kobe 过了之后,然后也没有那么需,没有,没有那么多需求了,所以啊,并且这个美国领事馆升级了这个网站,然后当当时的这个爬虫用不了,然后我我也没时间写了,嗯,对,嗯,所以他完成了他的使命。 其实某种程度上这俩都不是太功利的 project, 是 的,对吧?是的,第一个你也不是为了申请,那是已经发生在你申请之后了,对,你大可以那段时间虽然说扣费不能旅游,但是你大可以干点其他的放松的。对啊是啊是啊,然后退学也是一样,对吧?也可以自己弄完之后。所以你还是 有一种很内在很强烈的冲动想要去创造一些你觉得有用的,自己需要的事,然后把这个东西分享给所有人。是的,就是我想做一些就是,呃能够这个 产生影响力的事情,就是哪怕是亏钱也行。嗯,就是比如说做慈善 啊,我觉得这个,做这个,这个天寿跟做这个退学 online 都是做慈善。嗯,对,就是完全 non profit。 嗯,然后做这种慈善项目让我感觉非常满足, 所以相比钱,其实 impact 会让你更满足。是的,你觉得你对 impact 的 这种 这种追求多久来的?高中的时候。高中的时候为什么会和 impact 相关系?可能说来有点奇怪,就是我高中的时候突然某一天高三的时候有个 idea 就是 突然从我脑子蹦出来,有可能是, 呃。就是未来的某个时候这个网过去的我发送一些信息,然后我意识到一些东西,就比如说如果人生是一场游戏的话,那么你的游戏的解散分数是,呃,记得你名字的数量的人 没了。没了那意味着什么?意味着你需要被更多的人认识, 所以你是高中突然有一天你就意识到了。是的,这个东西很重要,我想要让在我死之后,在我死的那个瞬间记得我的名字,人越多越好。是的,直到今天你还是以这个度量标准。嗯,可以算是。 那我想再往深了问问,为什么这个重要呢?呃。我当时不觉得这个很重要,但是我尝试了一次发现这确实是我想要的东西, 就是如果我的做的东西能够给他人带来好处的话,那么我我就是 首先我自己认可做我做的东西其实他人也认可我做的东西,然后我会从他人那边得到一些正反馈。这个可以和直接和名望、名气、 fame 打画画画等号吗?呃不太行,因为有一些名望名气可能是不好的。 嗯就比如说你你坐上了什么什么位置,那你确实很有名望,但是实际上就是这个名望。呃在别人看来可能对别人的收益可能不是那么多就是有可能是负面的。 呃。我想要的是那种就是。呃当然我我觉得这个你不可能对所有人都好,这个是个很难做到的事情,但是我就是我可以尝试的利索能记得。对。呃。我身边的人好 做一些对大家有益的事,所以这个度量标准是做一些对大家有益的事让更多的人记得你。对。 如果我要挑战一下这个观点我会说那你为什么不自己过得开心就好呢?你为什么需要别人记得你?你你觉得自想让别人记得自己想让很多人用你觉得你造出来有用的东西这个冲动 本本源是什么?是你害怕被忘记吗?不是。嗯 我觉得人生其实也可以算作一种体验,就是你既然都已经来到这个世界上了那你为什么不就是 就不要浪费了这段旅程。对,但是为什么不浪费这段旅程得让别人记得你。 嗯我我发现这有一种很很有趣的张力啊。因为你刚刚第一点说你想挣脱一些外部的评价标准。嗯比如说 gpa 啊,比如说高考或者怎么怎么样别人觉得 phd 比 master 好, 但另外方面你给自己的这个内升的这个 intrinsic 的 这个标准 又是外界的对你的认同,但这个认同并不是官方的认同,就是不是既有评价体系的认同,是,是 共识。 ok, 所以 你想要摆脱的是,呃,现有体系和成规的那种评价体系。对,但你更想要的是每一个人发自内心的给你点赞。是的, 所以这个点赞可以变成你的 github 的 那个 star。 对, 可以变成退学的点击量。对,可以变成,比如说你现在 google scholar 的 citation, 也可以变成你现在 open ui 的 model 每天做多少次 inference? 对, 嗯, 你会担心你的这样的标准会变成新的一种成规吗?嗯,就是。那可能以前上一辈的人是拿 gpa 评价年轻人。嗯,那当你成为再上一辈的时候,你就拿 impact 评价下一辈的年轻人。 我只是对我自己这么要求的,我不会对别人这么要求。所以你并不觉得你的标准是可以放之四海而接准的。是的,所以你不喜欢那种被外部的标准推着走。是的, 那会不会出现你自己的标准推着你走了?这种情况目前还没有吧。就是你如果发出现这种情况,你可以改,你可以改自己的平衡标准。 所以你,虽然你有你的标准,但是你不是这个标准的奴隶。就你有你 impact 的 标准。是的,就是哪怕会为他所困。对,但就比如说我,我其实在,呃很长一段时间我其实都没有这个开项目了,但是我也不会觉得这个是一个很困扰我的事情。 我倒觉得不担心,我觉得 openid model 就是 最好的。是,某种程度上你可以这么认为。对, 嗯,因为评价体系是一个很简单直接的一个操作,能够快速筛选人,所以说,呃他这个社会发展方式就会收敛到这种呃策略上,所以说短时间内是无法改变的,哪怕你是这个评价体系, 在绝大多数人看来你都是胜出者和受益者,其实你也不喜欢这个评价体系。是的,就是其实应该更个性化。这是清华,然后 在一个风雨飘摇的疫情的那段时间啊,你申请到 cmu 应该本来预计是应该要二零年九月入学的。对,当时应该疫情第一学期过去了吗?上网课就直接在家?上网课一直在家上上了一年。 对啊,但当时其实你是不是一入学就得想着找工作的事啊?对, 那个过程是什么样的过程?那过程就是我开始的时候吊儿郎当的,然后就投了,应该是投了十八家,然后最后只收到这个 google 跟这个 auto ml 就是 陈天琪老师的公司。 然后当时想着如果我手上只有这两个 offer, 那 我肯定去 oppo 那 边,我不想去 google, 因为去 google 没什么意思。这个意思是怎么评判呢?嗯,就是你在大厂当螺丝钉,然后做一些自己不是那么喜欢的事,就比如说前后端,然后后面就 稍微想明白一点,然后后面就再去面试,然后拿了当时的幻方。幻方当时说要搞一个呃, ai lab, 就是 后面的 deep seek。 对, 我当时是拿 offer。 对, 然后但是我没有去, 没有去。然后你去了 open ai? 是 的,所以其实现在看起来,如果开天眼的话,你当时面临的选择是 deep seek, versus, open ai。 是 的, 所以当时哪怕是换方那个也不是去搞量化,而是搞 ai。 呃,换方那个就是搞 r o inf 啊?对,如果我没有其他 offer 的 话,那我会选择换方。其他 offer 是 指 octo 之外的其他?呃,不是,是比如说 open ai 跟我当时应该还有英伟达,英伟达,英伟达也是搞 r o c s 的, 然后费尔其实也是,但是费尔最后由于一些流程原因把我拒了。 ok, 所以 你当时面临的选择应该是换方 open ai, 英伟达 tiktok 啊?对,呃,费尔可能有,然后在这样的选择下面,你最后选择了 open ai, 对, 这个选择是怎么做的? 嗯,我觉得就是因为因为我要强调的是这个是 before chat gpt。 对 对,所以你当时其实你是不知道 chat gpt is coming 的 啊。对对对对,所以这个选择是怎么做的?呃,首先我觉得这个 open i 之前一直在做强化学习, open i 跟 deepmind 是, 就是当时 ro 里面搞得最好的两两个 research lab, 然后我觉得如果我能进,那是就是也,我我我其实当时没有想着这事,我没有想着这个,我能进这事,然后, 呃,我能进我觉得就已经非常好了。然后,呃,然后我觉得就是我能够有一个机会来体验, 就是世界上最前沿的一些 research, 它是到底是怎么做的?而不是像这个,呃,就是 小作坊一样。就比如说在学校里面,然后就几个 phd 手搓一个东西,然后然后没有一些方法论,然后去做一个项目,就我感觉非常别扭,然后我想去学习它到底是怎么样有个方法论去进行一些工业界的研究的。那你当时去 opai 的 话 应该是直接是樟树们的组。是的,就是樟树们招的。我啊,是他面试的你。对,就我非常感激他,就是我非常感激他能给我这样个机会,哪怕他离职了。就他离职的那一天我还难过了一个下午,然后把电脑关了,然后什么都不干。 嗯嗯,所以他当时其实很欣赏你的。对。嗯。为什么为什么?你有问过他吗?有,就是因为他觉得就是,呃,首先呃他觉得我给他我非常漂亮 啊,他他其实也认可我这个评价体系。嗯,对,然后呃因为因为他这个应该是他的评价体系的一个指标,然后之前也没有人意识到, 然后并且就是招这么一个有良好的呃工程能力的一个,这么一个人进来的话对于任何的项目都是有益的。 所以你们面试有什么有趣的故事吗?你又怎么 impress 他? 嗯,就是可能最后一轮面试就是他出了道题,然后出了一道非常 end to end 的 一个题,然后很开放性,然后然后他给我三个小时,然后我花了两个小时就做完了, 就从头开始写一个东西,然后然后然后我就做完了,然后然后我就跟他说就展示了一下,然后说这个就 虽然展示的过程中出现了个 bug, 然后但我现场修了一下,然后也没什么问题。然后反正就是呃可能他认为我既有一些工程能力,然后同时确实呃实力还可以,呃,然后就把我招了。嗯,对, 然后然后他的这个面试题只给两个人测过,一个是我,还有一个是应该,还有一个是 angela, 就是 现在做 codex 那 个人。嗯,对,你们俩都通过了?对,都通过了,所以通过率是百分之百啊。是的,哈哈哈哈。 好,我我我们马上聊 oki。 但是在 oki 之前,我其实特好奇,你当时找工作的时候考虑过读 phd 吗?没有。为什么?因为你接触的一些工业界的人会发现就是读 phd。 就是 如果你想进工业界,那么读 phd 就是 浪费生命。 你完全可以以 master 为跳板,然后来凑够 p h d 进工业界的标准。比如你可以在 master 或者说你可以在本科时候攒够材料选,然后做出一些能够让你与众不同的一些项目, 然后让你可以跟同时期的 p h d 开这种通态晋级, 然后再看看有什么你可以做的能够让对方挑选 master 的 你,而不是 p h 另外一个 p h d。 嗯,呃,我觉得是想清楚差异化,这个是很关键的,所以你很早就想清楚我未来一定是工业题。 对,因为我觉得学术界教书或者当教授太卷了,然后不是我想要的东西,然后我还要去为了一个项目去拉 party 啊然后。 嗯,那还不如就是感觉限制很多,那比如说我们是,我们是个公司,我们要招,然后有同样的 master, 有 同呃有 psd, 你 会不会觉得这两种 他其实培养的能力都不太一样?因为 psd 更多要培养你的学术的能力,对吧?对,你要怎么写好一个 paper? 把故事讲圆?对,然后图画的漂亮?对,把这个宣发做好,你觉得这事重要吗?对于一个公司来说,嗯,在某种程度上有锻炼,但是那如果和像你这样比较极致的工程能力相比 你,你觉得这两种能力在现在这个 ai 的 时代会怎么评判?这两种人谁更有价值啊?呃,现在的时代呢?当然是工程能力越好就更有价值。呃,但是放在当时那个时间点的话,那还真不好说。 就是,所以我当时的做法是我两个都尽量去满足你记忆,反正也发过 paper 了,对工程能力也够强。 那为什么现在你觉得已经很明显了,工程能力是第一位了。呃,我来引用一句我同事说的话就是, 呃,我同事之前也是 ro 的 一个 p h d, 然后搞了一个很出名的 ro 的 framework, 然后他说的一句话就是 教一个 researcher 如何做好 engineering 要远比教个 engineer 如何做好 research 来得难。 呃,是因为是这样的,就是呃目前的一些,这个就是 research lab 的 一些这个探索前沿探索,它其实拼的都是呃 excel 的 正确性,如果你 excel 正确,那么就是看你单位时间内你能迭代多少次, 因为你反正 idea 你, 大家大不大不了找人讨论一下,然后 idea 就 出来了,然后你就验证,你只要能验证好,然后你就相当于这是你的 research work。 然后你其实不要又动那么多脑子,就是动脑子的人可能是因为已经在这个领域浸染了很久的人,就比如说呃 alec, 然后他在呃这个领域从一开始 gpt 一 的时候就开始弄了,然后他可能有很很很强的这个 research 的 直觉,那他动脑子比普通的 phd 动脑子更有用, 然后你就找他讨论就好了,就是 idea 非常便宜。然后你要做的就是你在单位时间内能够验证多少有效的 idea, 并且要是正确的 inforce, 对, 正确的结果,对,快速的迭代。是的,而现在的 psd 不 具备这个能力,或者说,呃,没有以这个为重点,因为 这个对他来,这个对他们而言不重要,因为我认为目前的学术培养体系在于如何有好的一个学术的方向, 但是这个方向其实公司里面也有人会有,因为你只要在这个领域工作比较长的一段时间,你就会有一些研究直觉,然后你就会意识到什么是好的,什么是不好的,什么是该做的,什么是不该做的。 so idea is cheap, yeah。 而有一个很强的 engineering skill, 把那个 inforce 打对快速的迭代这个事你有了之后,你验证 idea 可能 agent 都能搞。是,嗯,因为 我的认知范围内是每家的 inforce 都有不同程度的 bug, 然后谁修 bug, 谁修的 bug 越多,那谁的模型修的就越好。 所以拉玛劝不过 gpt 是 因为拉玛的 bug 太多。没比。我不知道,但是我,我可能会这么猜测。所以你很清楚的,在很早的时候,你有意识到了 整个这个 pie plan 要 work, 关键不是你的那些算法的创新,而是正确的超餐,正确的 inforce。 好 的 system 的 让你快速的迭代。是的。然后,呃,并且我不是很愿意去做这个 research 调餐这个事儿, 对这个这个来说没有,对我没有任何吸引力。我,我信,我就是,我更喜欢卖铲子。你喜欢有一个 playground, 你 把根基搭好,让别人去玩,别人去发论文,对,你不管。对,然后别人发论文的时候可以可能可以带上我 啊,然后,然后你就发现就是欧派爱很多这个 model release 都有我的名字。这个就是因为我在欧派爱的内部搭了整个 post training 的 r o e f r, 所以整个 post training 的 r o info 你 是最核心的贡献者了。是的,然后大家,因为大家在之前都是用这个整个 post training r o info 来去训这个 r h f 的 模型,所以每发一个大的 release, 每发一个大的这个模型的话,这个我的名字就得放上去,所以你可以算是哦,每一个 open ui 的 model 都有你啊,因为你喜欢卖铲子,对,然后,然后,并且我是卖卖铲子这个最面向客户的那一位,因为这个二是这个整个 infora 的 最顶端 生态位很高。对,所以说这个如果太底层的话,你也这个这个名字可能也不太。你如果写个 data loader 或者 storage, 是 的,可能没有那么那个是的,但你 are 每个人都想要的一个东西。是的,是的,是, 好聪明啊,我,我之前也想过,就是我的这个职业生涯应该怎么发展,然后我,我当时定了,又定了一个指标,我要最大化我在 open i blog 上出现名字次数。 你真的很会给自己写 reward 啊。对,然后然后这个 reward, 那 你,你需要做什么呢?那你肯定是先 inforce, 因为你如果做这个单个的 research, 这个这个不能 scale up, 然后如果你做 inforce 的 话,大家都用你,所以说你可以 scale up。 嗯,对,然后,并且我又擅长写 inforce, 那 所以说这个这个非常非常适合的机会。这事基本上你进了清华之后,这事就是你的主线 inforce。 对, 在今天你还会鼓励,因为你你已经过了这个选择了,但我们这个播客的很多观众 可能还在本科,可能在说是他们还在犹豫工业节 vs 学术节的这个选择,你会怎么帮他们去思考这个过程,特别是在二零二五年, 在这样的格局下面,长远来看,我还是觉得学术界没有,就是现代学术界应该要被重构,但现在对自己的未来有抱负的那波年轻人,他们希望像你这样做出 impact 啊。 那他到底是去读个 phd 还是尽早进入工业界?我觉得还是尽早进入工业界比较好,因为读 phd 的 话,你不知道你 phd 毕业之后会发生什么事情,有可能毕业之后,呃,这个这个饭食已经来了,然后你会发现这个你做的东西可能就没什么用了。 如果你的你的目标函数就是进这个 a 这个 ai lab 的 话,那么你要先弄清楚一点是 ai lab 到底需要什么样的人, 如果他们更需要 infora 的 人,那么你就多做一些 infora 的 活,哪怕你没有 ppt 底柜也没有关系,因为更重要的是看你的这个经验,呃,能不能 match, 有 没有用。 所以现在你觉得 ai lab 最需要什么样的人?我觉得还是英法对,英法是一个无底洞。就是,呃, research 的 话,就是有 research 直觉的,就那些人,因为 你从拆批出来之后,然后这个在这个行业里面干了,比如三年以上的人就屈指可数。 然后,呃,当前的问题还是在于 inforce, 你 能不能 skype, 你 skype 有 多少?就是单位时间内你能抵达多多少次,然后这取决于了就直接决定了你的这个这个生产效率。那听起来 不是对 p s d 特别友好的一个环境,现在是的,可能这个也牵涉到一个 gap。 我 觉得这个你有你我们俩都有很深的体会,就是因为 r l 的 研究,学术界 就是对着 atari, mojoko 这几个 task。 是 了, overfit 是 的,调过来调过去就是比你我在一百 k 的 时候谁分数高?对,但是工业界完全不 care 这个,工业界做的事是用 r l 去解决真实的问题。是啊, 然后我意识到这一点,然后当我在二二年的八月意识到这一点的时候,我就已经逐步的停止了天兽的开发了,因为因为天兽还是针对这些 toy benchmark。 对, 然后我觉得我应该投入更多的时间到更有意义的事情里面,比如说在会安内部搞好 r 英法, 所以我就主要的精力都是在呃,就是维护啊,或者开发这个二维码。 其实啊,你这个认知其实在二二年是很算是很超前的,绝对不是共识。对,你为什么当时没有打破信息差写一篇 vlog 来劝我别搞, 我害怕我把这个东西说出来。这个 open i 会说我这个泄密之类的东西,哈哈,万万一呢?就,虽然说也没有那么泄密,但是,嗯,对吧哈哈哈。好,呃,我们聊 open i。 我,我特别好奇啊,就是刚刚咱们已经提了很多了,但是你在 opai, 呃,你是世界上极少数,从切 gpt 三点五, gpt 四, gpt 四 v, gpt four o, gpt four point five 到 gpt five 背后所有的核心贡献者都有你 可能有的人贡献了前半部分,有的人贡献了后半部分,但是你是从头到尾一直都在。哦, 你最主要的贡献我会说是三个词,强化学习、 post training 和 inforce。 对, 呃,这些技术和背后的故事我们等会细聊。但是我想先问第一个问题,可能会很好回答,也很不好回答。什么是强化学习?如果有反馈, 如果你可以把一个环境建模,然后去环境中得到反馈,那这个这个循环就是强化学习,通过那个反馈让他越学越好。是的, 那么第二个关键词是 post training。 什么是一个大圆模型的 post training 啊?当时还没有 post training 呢。当时这个这个,我这这个,当时这个 team 叫 r o。 然后当时根本没有什么窥觑 post training 的 这个区分啊。所以你刚进 open i 的 时候还没有这个事儿。对, 但是你刚进 open i 的 时候 k g p t 已经是主线了吗?不是,当时刚进 open i 的 时候就是。 呃,就只有那个教书们下面的 r o t。 然后再去做一个这个 web g p t 之后的一个版本。 web g p t 是 一个用呃一个三点五的模型去做,应该是做这个 browsing, 但是当时这个 browsing 如果直接用三点五做的话呢?效果可想而知,就很不好,因为这个 browsing 需要托 call, 然后,所以说我们当时就退而求其次,先把这个用户交互的这个体验先做好,那唯一的要解决就是 chat, 然后 chat 就 可以通过这个 instruction following 这个方式去解决,用 r h。 呃, r h f 的 方式。对, 所以你当时进去的时候,三点五这个模型已经内部都有了啊。对,然后有,但是当时的 ppu 的 那个派派非常不好用。然后,呃,当时其实我们用的最广的是三点五的 sft, 然后在那边迭代好几次, 然后后面后面才有四,然后后面后面这个四。呃, greg 写了一个专门的这个,呃, inforce 来去支持如何用这个四 g b 四的这个训练的 inforce 去支持强化学习的训练。 所以你加速入职的时候是二二年七月?对,那个时候三点五已经是整个 open en 了嘛,因为距离 release 还有几个月,对吧? 对,你们内部当时能想象宪宪宪宪 ppt 有 这么大规模的成功吗?没有,你当时能够,当然你可以内测那个 model, 对 吧?对,你有意识到这个是要 game changing 的 东西吗?没有, 你也没有当时感觉到,因为我觉得就是我呢可以看,看的出来很多不足的东西。就是,呃,我第一次用可能会觉得说,哦, ok, 这个是个会说话的模型,那也就这样吧。 然后用了几次发现这可能能够帮我解决一点代码上的问题。那也就这样吧,但也不能帮我解决那么多。然后我用了几次也没有那么想用,因为 他能帮我解决的问题有限,因为你已经提前知道了这个东西,然后就是你有一个循序渐进的这个过程,然后你也不觉得他那么突然,但是,呃, 比如说我,呃,后面展示给,就是发布之后展示给身边的人看之后,然后他们就觉得很突然,然后这个我这是我没想到。嗯,对。嗯。 那当时 open 啊,已经整个公司在二二年七月 all in 叉 gpt 了吗?没有,就只有我们组在做。就是你,你可以看这个就是叉 gpt 的 这个那个 vlog, 它往下拉,然后它有一个 contributor, 然后后面的十二个人一直到招商加 呃,然后为止这个招商价之前,然后这上面应下一个是 barret, 然后 barret 到招商价的名字就是我们组的所有人。那是什么时候你意识到 我在 openai 的 工作真的引爆了这个东西?呃,可能就是发叉 g p, 当时我在开 nyrp, 他 十一月三十号发的,然后十二月,然后,然后当时就是过了几天之后,然后发现这个 就我周围身边的人都在讨论这个拆 g p 这个这个事情,然后他们觉得很有用,然后,然后并且还把这个 oppo 的 服务器打爆了好几次。对,那 就是跟我当时退学一样,就是我退学的服务器也被打打爆好几次,然后那,那可能就是产生了这种那个自需求对自宣发的效应。嗯,对,就是就是大家都都是自来水, 会自发的为你宣传产品。那,那这个是肯定是一个很好的投入的东西,就投入值得你投入精力的一个东西。其实听起来这个从你加入 o p i 做这个事,包括 o p i 内部能够推出叉 g p t 这种东西好像都不是谁计划出来的。是的,可能是一系列的半偶然半必然的因素,就,而且化学反应。是的,而且当时就是发那个叉 gpt 也只是为了就是能够看看能不能收集一些这个 这个真实的数界的这个用户数据,然后搜完之后可能五天之后关了,如果没人的话,就我,我们期待可能是一开始有有什么一万,两万,然后后面就跌回,然后就没了,就这样。然后 c g 的 curve 呢?是啊, c g 的 指数。对, 好,这是,这是切 gbt 突然当时的爆款的成功啊。我还特好奇你刚去 opin 的 时候什么体验?这个公司给你的出出出印象是什么样?我感觉是一个大号的一个一个一个实验室吧。 没有,其实没有,我想象中那么这个这个有方法论,但是很多,就是有很多很强的 research 直觉的人在里面,然后他可以指明方向,然后就做就好了。 但是从从这个 barrett, luke 跟 liam 来之后,这三个人从谷歌来之后,然后加入装修们的 r o team 之后,然后我们组就变了,就开始这个引这个,引进这个谷歌的先进生产力来开始迭代。 对,就是谷歌还是非常牛逼的。就是,呃,有一张图是这个,这个单位时间的迭代次数以及成功率,然后这个东西是一个这个正比,所以单位时间迭代的越多,你的成功率就限性的往上走。对,这个其实也是一个 ro 的 克法, 因为 r 不 就是不断 trial and error and trial 嘛。对,呃,你不断尝试,然后尝试到一定次数,然后你就可以达到你的那个目的。那其实很多生活中的这样 case 其实都是 r, 所以当时你们引进的那个先进的是一种哲学理念。是的,就是说我们先不要去想什么天才的 idea, 天才的算法。是的,我们把英菲尔打好。对,英菲尔让我们从一周迭代三十次到一周迭代三百次。对,差不多。 我看到有个采访,有人问 samo, 奥特曼 opion 成功的原因是什么?他说在一个我们之所以 opion 呢,可以做出杰出的科技创新,是因为在一个人才密度极高的小团队里面,任何平庸的表现都是不能被容忍 的。是,你赞同这样的说法吗?呃,我赞同,因为人才密度如果上去的话,然然后你可以自发的涌现出一些意想不到的东西。 然后但是如果比如说换一个环境,就比如说这个大家都是很平庸的话,那可能就是个人自扫自扫门前雪,然后就做完自己的就好了,然后就。呃,可能会拖延。 对,当时你去的时候 ok, 应该是个几百个人的公司。呃。我是二百八,你是二百八。对,现在 ok 应该上几千人了。呃。三千多了。三千多,所以十倍了。对啊,三年的时间。是的。 那你觉得欧片还能保持曾经的这种小而美的团队做出硬核创新的风格吗?我觉得 这个概率是下降,但是没有下降那么厉害。对,但你总是可以划分出来一个小团队,然后去专门去做一些研究。 但你觉得 o p i 的 领导层有什么比较有意思的努力能够在这方面避免的比较好吗?还是能够让小团队,然后人才密度,然后硬核的创新?呃,比如说简化一些这个组织架构啊,然后把一些不合理的一些 meeting 全部给取消掉。 然后。呃,就是我觉得主要还是组织架构更重要一些。什么是一个高效的利于硬核创新的组织架构?信息流通通畅,怎么理解?比如说 今天有一个决策,然后可以无损的传达到下面,然后下面有有做什么资讯的进展,然后可以无损的传达到上面, 不然的话你可能上面做决策的跟下面干活的这个可能就是想往完全不同的两个方向,然后进不往一出使。 o p i 是 怎么做到这个好的信息流通呢?首先像 sam 跟 greg, 呃,他们会有专门的 呃,就 sam 的 话,会之前是会有专门的一个呃研究助理来去帮他去了解最新的一些公司内部的研究进展。 greg, 那 不用说了,就是他 infora, 整个 infora 这个底下几乎都是他参与过的。 对,所以说他他们俩对于这个技术是非常熟悉的,然后所要做的就是保持技术的敏感性。呃,知少,要知道这个当前做这个东西到了什么地步了,然后有什么最新的进展,然后会有什么用,所以这个事得是 一把手二把手,这样的人他得愿意栽进去。钻研到细节里面,是了解到公司的每一个毛细血管,我觉得管公司跟管代码库其实也有很很类似,就是 consistency, 嗯,你如果不 consistent 的 话 就不一致的话,那么你可能就是就,就像一个人,这个比如说就像一个拼砖的人类,这个他的身子动了,但是脚没动,那就很奇怪。好,那我们聊聊 pos training, 我 们从先从三点五开始聊吧,但是实际上三点五的这个 p p o 其实也没有调通那么多,我是先调通了四, 因为三点五当时是用旧的那套 emui, 然后新的 emui 是 这个二四年八月刚刚好,然后我就先在新的 emui 上调通了这个第一版的 ppo, 然后用四跑的,然后就是应该是二二年九月的时候啊,这个很有意思,所以当时三点五出来的时候,其实 内部四早就有了。对,而且 r o h f 是 先在四上调 work 的。是的,然后再在三点五上成呃,成立的 啊。是的,但是实际上其因为其他组其实也帮我们踩了不少坑,我们就用了这个已有的一些 pipeline 能能怎么用怎么用, 但是主要还是自己就主要的一些东西,还是像比如说如果 model 怎么圈啊,还是自己圈,然后数据怎么收集也是自己收集的,然后像这个 excel 到底出什么问题也是我们自己好。 那在当时想把 r o h f 搞 work 有 什么关键的挑战和突破?我觉得就是 你应该怎么去衡量这个性能是什么样的?因为谁都不知道这个性能应该是什么样的。 你的意思是你训练了很多个 checkpoint 之后,你不知道是不是变得更好了?对,就比如说这个单一的 reward 是 会发生这个 reward hacking 的, 有可能它的这个 reward saturate 就 变成一条直线,就慢慢慢慢长上来,然后变成一条直线。但是真实的情况是,这个人如果人类有个 reward 的 话,那它可能先上去,然后再慢慢往下掉,这就是 reward hacking。 然后,所以说,呃,你没办法知道哪一个 checkpoint 是 真的比其他的 checkpoint 好。 嗯,所以说,呃,选 checkpoint 其实也是个技术吧。但是我,我们其实没有花太多时间去选 checkpoint, 就是 直接呃建了一堆这个 sampling based evo, 然后来看一下每个 benchmark 上面到底是什么样的,然后 但是更多的就是那个那个 bitmark 其实只是个数,然后如果它过了一个数就就就就好了,就呃,也没有,也不能说它好,也不能说它坏,因为你每次跑一个 model, 然后它的那个这个这个方差就非常大,嗯,就很 呃,很有很多噪音,那最后是怎么解决的?最后就还是就是你真的拉下来看一看,然后看一下,就比如说对于自己的一些这个体验 是什么样的,然后多找几个人来看,然后来大家投票,所以就是 evo, r l h f 还是用 h f 来 evo? 是 的是的,只能是这样,就没有办法,因为当时 技术就是就是没有办法。嗯嗯嗯。所以这个是你相当于第一次在工业级的 level 上打 r l info, 对, 你觉得这样的就是大模型需要的。这种大规模的 r l inforce 和你曾经搭过的像天寿这样的 single task 或者 toy task, r l inforce 的 区别在哪?呃,我觉得区别非常大,因为呃, toy task 的 model nike 在 于环境, 因为它的模型很简单,你不管是训练还是采样,这个 action 呃,都是非常便宜的。但是 r o info 的 话就是你的模型很大,但是环境非常简单,环境就是一个 prompt, 然后但是模型采样的话,你要考虑如何高效的采样了, 然后训练的话你要考虑高效的训练,因为这个东西是可能对于提供环境,提供这个 prompt, 这个可能就几微秒,但是这个跑一遍,这个 inference, 跑一遍 training, 那 可能就是好好几百秒或者几千秒,也有可能就是如果你 gpu 少的话, 那你觉得未来的这些猫的比起三点五比起四有什么新的挑战?嗯,就对于 r o inforce 这一块来说,我觉得还是性能上面,或者说 sky up 如何? sky up 就是 说怎么能够用更多的 gpu, 怎么能够更高调的吞吐啊?对对,是的是的, 那就是牵扯到不单单是 r u 的 部分,还有模型的 inference, 对, 就可能更 end to end 的 一些,就,呃,并且就是会深入到一些这个实现细节当中,然后去做一些 end to end 的 优化。那其实你做的是一个相当 intersection 的 一个部分,就是既有 r l, 你 得懂 r l, 然后你得懂 mlcs, 对 吧?这些你得明白。是的。嗯, 可能不在那个位置,说实话学校的学生是学不了这种东西的啊。是的,就对吧,那个位置非常锻炼人,然后还很累啊,然后,然后,然后后面就是就是我,我其实有一段时间就是做的确实非常累, 然后还进了 e r, 就是 这加班加太狠,然后脑子疼,然后受不了,然后就到 e r 看了一下,但 e r 医生说没什么事。你那个时候工作强度有多大?就是早上醒来一直写的 bug, 或者说处理一些问题,然后一直到晚上睡觉, 一周七天,一周可能平均六天,对吧?但是就经历一段时间之后,你会发现这个是不不能持久的。嗯,所以说还是,呃,首先你要有这个 这个这个这个身体,你要确保你身体是健康的。所以说,呃,我现在养成一习惯就是每每周两次跑三千,但是我之前这个在清华的时候上体育课是 就是三千不及格,然后完全不会跑三千,但是我现在就是自发的去,就意识到这件事是很重要的。 对,我觉得好羡慕你过去两年在 o p i 干的事,因为你能够 explore 的是世界上大部分百分之九十九点九九这方面的 research 和 infine engine, 完全它没有没有资格去碰的东西。你有先天那个得天独厚的优势,你在最先进的 model 上,然后可以 可以做这个优化,然后你每天都在在未知的领域探索,而且你知道你的探索一定是人类历史上第一个找到这个。但,但是我,我觉得我做也是一些很有趣的事情,就是我觉得我的工作就是日常维护,并不需要 那么多这个这个这个智商就不需要太多智力上的。是的,那就就就是你只要把事情做好做对就好了,然后方向很重要, 然后你只要在对的方向上,呃,做一些你自己认为正确的事情就好了。那你觉得 r o four 大 模型这个东西还需要 breakthrough 嘛?还需要那种大的突破吗?还是说你觉得这个饭市已经在那了?就是咱们把东西 inforce 拉上去?呃,我觉得还是有的,就是你 ok, 就是 不能以当前的这个状态来预测下接下来会发生什么事,就接下来什么事情都可以可能会发生, 有可能有新的范式,有可能有新的 r o 的 范式,也有可能有 prane 的 范式,都有可能。所以说每天都是得面对一些未知的挑战。但是话又说回来,就是我,我觉得就是, 其实我很幸运在这个位置,但是如果把我换做任何一个人,如果他有我的 contacts 的 话,他应该也完全可以胜任。 对,所以说我不觉得这个是。呃,只有我能够做什么东西。这个,这个事情就是你换任何一个正常的人类,他应该也可以做。 你太谦虚了,哈哈哈。展望未来五到十年,你觉得还有什么有待探索的地方呢?就最大的挑战会在哪?现有的模型的能力的瓶颈,然后我们需要看到什么样的突破?我觉得目前的这个状态就是 还没有 scale up 完全,先等它这个慢慢 hill climb, 先等它慢慢地从 large, scale, r o 的 一些,呃, 一些实验里面,然后看一下它最多能到多少性能,然后再去看之后还有什么要做的东西。 所以你的意思是没有 scale 完全不是说 compute 不 够,而是说现有的性能我们还没有榨干,等先把它现有的方法,现有的 compute 给它榨干了,我们再看看我们退到多久了再说。并且还有很多 inforce 的 bug, 哪怕你们现在的 inforce 你 也很确信是有 bug 的。 对,这这这个这个,你不能说百分百没有 bug 啊。就是,对,就是,毕竟是人类嘛,然后每个人都有可能犯错,然后, 呃,就是你还得修一下这个,比如说你因为人多了,然后 context inconsistent, 然后每个人都会 写一些奇怪的东西。嗯,那未来大模型,然后加强学习 post trend, 这个,这个 pipeline, 你 觉得最大的瓶颈会发生在哪?我觉得瓶颈在于修 input 的 support 吞吐量,你单位时间内能修多少 bug, 然后以及单位时间内能叠代多少次?嗯,能正确的叠代多少次。剩下不重要, 这个可以赋能剩下的所有的东西。是的,算法也好,环境也对,就如果,如果你把 bug 全修了,那你有可能算法连改都不用改,就很好,就是很好。 那怎么样把英富尔的这个效率提上来呢?需要什么样的架构?需要什么样的人?需要什么样的资源?这个我们还在探索。对,就我,我现在做的事情就是我其实已经不在那个最核心的位置了,但是我觉得,呃,我应该做一些更重要的事情。 就我,我们组再重构这个未来内部的英富尔,然后再做下一代英富尔, 你们的每一代的英菲尔是会推倒重来,大家再根据现在的认知再做一个好的顶层架构,然后我们再像你写偏瘦那样写还是会很, 就是小修小补。目前是推倒重来,因为之前那代英菲尔已经三年多了,然后它堆积的问题其实已经很多了。然后, 呃,我们希望就是用新的一个 typeahead, 然后 能够在单位时间内能够给一些 researcher 更好的一些。呃, iteration speed 的, 所以 researcher 是 不会参与到这个 infab building 的 过程中的,他们可能会给一些需求。对,然后但具体写扣的怎么搞? distributed training, 这个不是他们负责的。是的。 嗯,然后他们可能到时候就改一个 flag 就 好了。那听起来 open air research 可能是第一个被 ai 取代的工作啊。对,我感觉是的。就是,反正就是单位时间内你能实验多少?它就是 idea 嘛?对,就是 idea, idea, idea, 反正你可以 很便宜的生产,就是你一个人坐在那边写了多少个就,哈哈。然后,然后你你,你是不是生产 idea 这个事,事情也可以维 i 建模。对,然后下一步取代。就我觉得优先会取代 researcher, 然后再取代这个 infora engineer, 然后就就都取代了就好了。 但是,但是这个 sales 可能不太会那么期待,因为 sales 还是你要说服对面人买单,你在对面什么人?然后 ai 可能没有办法那么收动人,这可能还是要人与人之间的沟通比较重要一些。 ok, 那 我们刚刚聊 taxonlie 的 三点五,然后聊了多莫泰了。你觉得 agent 和 r o 的 post train 这个东西会有多大的?没有本质差别,没有本质差别本身就是同一个东西,就是中间多加了几步脱扣,可能就是环境会多。对,就环境,环境方面的改变。所以你觉得比起标准的 l o m 加 r o post train, agent 加 r o post train 谈不上新的挑战。对,因为本身上是同一个东西。你个人对于 agi 的 定义是什么?你觉得现在我们达到 agi 了吗?如果你觉得还没有达到,或者说还差一点,你觉得 pre trend 叫 are you post trend? 这条路能不能带我们去到那个你定义的 agi 就是 open i 内部有个笑话,你抓十五个人可能有二十种定义 agi 的 方法。对对,然后 我之前定义的方法是这个东西能够如果能够完成呃,百分之八九十的这个我自己认为有意义的 task, 那 他可能就 agi 了。 嗯,我目前,我觉得目前还没有,因为目前的话就是我,我至少从我的角度来看,我还是不放心他直接上手改我的 excel 代码。 因为这个非常奥妙的地区优选就是 ai inforce, 在 于它就占占,相对于它的这个数据级的占比是几乎为零。而而且 ai inforce 你 验证的这个,这个这个反馈太长了, 你需要成本也太高了。对,成本太高了,就是目前还是没有办法去触及到这一块的。 good for you, 听起来你短期内不会被 ai, 嗯,是,但,但是就是反正, 呃,在这个 strawberry 出来之前,然后就是我们内部其实已经呃用 strawberry 一 段时间了,在那个时候,然后, 然后大家都觉得啊,我的工作要被取代了,然后或者说我们,我们就写一堆十三吧,然后后面这个因为 strawberry 熏完之后会帮我们清理。呃, 现在看来就是可能一两年过去了,这还是这样,就是时长还在那儿。嗯,就是并不会 真正的改变什么东西,就是每个人都会 over react, 就是 觉得这个这个技术来了,哦,我们要怎么怎么样,但实际上并不会这样的,它是一个很慢很慢的循序渐进的过程。 你现在在 open ai? 以前在啊,学术机构清华 cmu 待过,然后可能在科研的 lab 也待过,但是现在很多人啊批评 open ai 已经和 open 没什么关系了。然后你自己之前你的一大爱好也是开源,打破信息差。 呃,你觉得这事会对你的个人目标和偏好产生冲突吗?我觉得这是个缺道。呃, 我其实还是很热爱开源的,如果幻亚有开源的东西,我可能会是参与一些,但是我觉得就是我应该去做我自己认为更重要的事情,而且并且这个开源对于幻亚来说它是一个吹倒伏, 就是你没有办法直接把最好的模型开源,因为公司要生存,如公司如果不能生存的话,那么,呃,之后你可能就没有办法去继续融资,做一些实验,然后有一些突破性的进展, 这个都是很现实的问题,所以我认同这个吹倒。但是 opin 在 一开始建立的时候,它的架构其实是很特殊的。对,它不是以一个商业盈利的公司的架构对来一开始初创的,它一开始的 至少公开资料上的 slogan 是 让通用 agi 平等地造福全人类。对, 你觉得避源是让这个目标更近了还是更远啊?呃,首先这个通用 a g i 造福全人类这个东西是一直是拆成两个部分看的,第一个是实现 a g i, 第二个是造福全人类。 通用 a g i 这个就很好说,就直接这个堆这个 i o, 或者说堆 pruning, 堆三粒,然后 scale up 造物全人类。呃,目前的拆解是做产品,然后以尽可能便宜的价格,就比如说有免费的拆批批的用户,然后他们可以直接接触到,能够更容易的去接触到这个技术。 呃,比如说这个免费应该也可以用这个语音模式,然后然后做一些就是就体验, 这样可能是更有利于这个造福全人类的,而不是直接开源。你丢一个这个裸的模型权重,那他也不知道怎么用。所以你的意思是 open i 的 open 不是 对其他的大公司、大模型公司的 open, 而是对普通人的 open。 是 的, 但这样的 strategy 可能如果,我觉得如果这是最后一英里了,咱们是百米冲刺了,要到 agi 了。我觉得 make sense 我 也认同,但如果说 agi 还是一个不说马拉松吧,但是不是一个一时半会儿明年就能解决的事儿的话, 会不会在技术上更开放、更透明,也会让 open i 本身 更有利于达到尽快地达到 agi 了?还是说你觉得其实 openai 现在其实不太需要把自己的技术细节公开出来,拿社区的反馈,也不需要社区任何的帮助, openai 已经 self contained 可以 实现 agi 了。 让我想想,我觉得就是存在一种路径,就是你可以开源,然后你并且可以接受这个社区的反馈, 然后更好实现一些,这个是可可以做到的,理论上可以做到,但实际上执行很多困难。就比如说其他其他人这个就是因为你是第一, 如果你开远了,那么其他人马上就变低,然后其他人这个再训一下,然后但其他人又避远,然后然后就会导致你的这个就不是所有人都是同向心的, 然后就会导致。比如说这个 open ai 在 当前这个环境下,他可能容不到资, 然后没有人持续的为他输送。这个是有点博弈论的意思了,哪怕我是想为了 agi 造福全人类,但是可能有人不这么想,有人就是想挣钱。对,所以为了防着这样的情情况发生, opan 不 得不避远。至少我在我看来是这么认为的。 那这个是公司存活的考虑对不对?是的,那如果现在 opan 假如说就是无限资源,永远不用担心死的事, 那你觉得你会很开心的把你现在这两年两三年的 r u inforce 开园出去,你会很开心吗?我当然会很开心啊,就是,呃,其实这个装修们还问过我这事要不要开园,然后我当时觉得不太好吧。就是, 哎,因为这为了公司的考量,但是他还问了我这个事。对,所以是不是 deepsea, 至少它 open weights 这个事让 open i 重新有一轮内部评估?是的是的,你刚说 open i 的 使命要拆成两部分,首先实现 agi, 再造福全人类。 嗯,更深的说,我们要理解这个使命的话,你觉得真要实现这个过程最大的机遇和挑战是什么? 执行,对着正确的方向执行,只要能执行就好,就不要再出现一一次。就比如说二三年十一月公司快倒闭了,是 sam 奥特曼被开除那次。对对对, 就你希望这个整个组织架构越稳定越好?是的,能够有利于你快速的往前进。是的,所以从内部的视角看,当时 sam 被开除,你们内部是什么样的接收到的信息?因为我们在外部接收到的信息都是很玄幻的,说什么伊利亚到底看到了什么?没有,那就是 随便谣传的,就是捕风捉影,然后很多人在这边造造谣。对,所以你内部的视角是什么?内部的视角就是,嗯, 应该是,就是不信任,就是伊利啊,跟其他的一些董事会成员不信任 sam, 然后投票把他投出去了, 然后,然后,但是我们底下干活的人就觉得非常 surprise, 非常震惊,不知道发生了啥,因为董事会之前是对底下的人缺乏透明度的,然后我们也不知道这个决策是怎么做的, 然后这个不信任是不信任他什么?呃,不信任他这个人,因为你可以去看这个官方公开的那个调查报告。 对,这是一致的。但其实最后的结局是伊利要走。对这个化学反应是怎么发生的?就是明明已经把他开除了,他也不信任 sam, 但最后好像 sam 是 更得人心的那一个。因为 因为很多员工就觉得如果有一个纯技术出身的人领导的话,那可能没有那么多原件。就是 ag 二实现并不只是因为技术, 你技术实现了就好了,但还是有很多商业的因素参杂在里面,就比如说你要融资,你要,你要算力,你要如何去说服一些人去给你愿意投钱,这个其实也是很重要的一部分。 然后如果你只有一个呃,很好的一些这个研究经验的话,那可能还不是不是很支持你走这么长的路。 就是从成语来看,还是需要 sam 这样的人,所以 sam 哈可能反而是 ai 最难替代的那个人,因为他需要在商业,甚至在地缘政治。对,在资源上都就是就是你可以把 sam 抽象成一个 personality 车,车上要成一个 identity, 然后这个 identity 短时间内如果你用一个 ai 来替代的话,那就是这个敌人对这个这个这个这个 id 的 认同感就会缺失,所以说这个是不能离开的。嗯,对,嗯, 你刚说张书门走的那天下午你难过了好久。但其实张书门不是唯一一个离开 openai 的。 对, openai 在 取得巨大的成功之后,有无数的团队成员都走了。你觉得一个极度成功的一个组织, 像 openai 这样最后大量的人才流失是必然的吗?是不可避免的吗?一个健康的组织是所有人都是可以替代的, 就是你只要能够持续的培养新人,有造血能力,然后能让这个组织正常运转 就是可以的。哪怕虽然走了很多人,但是还是可以花一一些时间精力,然后再培养一波新人,然后持续的造血,相当于干细胞一样。所以 opi 现在没有谁是不可替代的。是的, 那是不是也就意味着 open 要做的东西,外面的人也不是说难如登天不能复刻了?你可以这么认为,因为其实就是把最简单的东西做好就好了, 没有什么黑魔法,现在我们可能这个世界在发生人类历史上最激烈的一次科技竞赛, open 是 点燃这个一这一切的那个公司。我想知道你们现在内部的氛围有多 intense, 就是 你们会有很大的压力吗?看组,看 deadline, 看这个 project timeline, 就是比如说 posturing, 呃,目前这个压力还是挺大的。然后,然后像其他组,比如说我们现在在重构 inforce, 那 可能有压力,但是没有像 posturing 那 么大,因为他们是有很明确的待赖, 然后我们可以稍微演一演,因为我们需要更就着眼于更长远的考虑,我们要把这个事情弄对。 所以其实外部的激烈的竞争,不管是来自 x a s r p, 还是中国的大摩星公司,会传达到你们内部的公司的日常开发的。嗯,不太会。除了 deepsea 那 一波,就是因为他们声称推特上声称这个他们的底袋速度非常快, 然后这个还是引起了很多人的这个警觉的,因为内部的速度、迭代速度其实相比于其他是有点慢的。所以说这就是为什么我们要通过 win 版。所以其实对于 opi 这样的 基作模型大模型公司来说,生死线是 infora 的 cycle time, 对 其他的一些,比如说 data 呀,或者说什么算法,有多少 researcher, 这就投人就好了。嗯,这是人力,单位成本是人力。 ai infora 不是 人力吗? 好问题。呃,但是 ai inforce 需要更多的 context, 但是如果你是数据的一些 operation 啊,像这个跑跑些实验啊,那这个就是不要那么多 context 的 人,你就直接很简单的就是你进来,然后 然后写个 for loop, 然后把这个这样 copy 弄好,然后跑就完了。嗯,对,这个这个其实都可以自动化。所以你们真正警觉的点是意识到 deepsea 内部的 inforce 很好,他们迭代的很快。对,这个是引起了你们注意。对,其实你们不 care 哪个 model 在 哪个榜上又比 gpt 高了多少,是,这个根本不是你们 care 的 东西。就是就是,我,我们很长时间以来都没有在 特地的去为了刷 mcs 而做什么事情,而你们真正 care 的是那个单位时间内的,呃,迭代速度和成功率的那个东西。对, 你觉得 o p i 现在在这个指标上是全世界第一吗?不是,肯定不是,就是这个跟组织架构有很大的关系。其实就你,比如说你抽出一个这个团队,然后去搞个 star up, 然后那他们的抵债速度肯定是 斜率远比 o p i 高。因为你首先你代码库小,然后沟通成本少,然后你只要 集中于你的这个 usk, 那 你就可以讲。对,但是 open i 的 话就是他要考虑同,同时考虑很多的 usk, 然后各方面吹倒 这个组织大的。就是有这样的问题,那如果这样的生死线 open i 已经不是第一了,那未来 open i 还能做 ai model 的 第一吗?每个公司都有这个问题,你的意思是每个公司做大了,做成功了,都会变慢这个速度?是的, 然后就是取决于,呃,就是大家都很都很都很差,然后看哪一个不差。 不是那么差,这个差是相对于这个初创公司而言,初创公司可能在这个指标上更好,它其他的指标可能很难和 open i 记着,比如说拿用户的反馈。对,所以这都是吹倒。 这个就是人类发展,人类人类组织发展到这个规模之后必然会面对的问题,你没有办法避免。 也不是说难以维持高的人才密度,是说就是难以保持组织架构的 context sharing 的 一致性, 这个会导致你的这个首先 excel 不 一致,然后 excel 开始臃肿,然后组织结构也开始臃肿, 这个人多就是这样,所以说 contact sharing 理论上应该有一个拥有无限长的 contacts 的 agent 来替代。听起来这个是一个刚需。是的,因为这个会解决人类历史上这种臃肿的 组织架构,不管是携带码还是干其他的事都面临的一个问题。对,因为人脑的 context 是 有限的,你没有办法一下子存这么多 context, 但是 ai 可以, 可能未来会每个公司有一个这样无限 context 的 一个 agent, 然后来当 ceo 就 好了。对,他负责所有的 sharing, 负责所有的 decision。 对, 可能没有比这样的 a 证更适合的 decision maker 了。对,那么再讲完未来,如果你希望 ai 可以 解决一个 decision maker 了。对,那么如何预测未来? 你说的未来肯定不会是杯子怎么掉下这种未来,而是整个人生世界格局所有的这些东西。嗯,对, 为什么这个事是你觉得最想做的?我个人对于就是比如说追求一个这个自己造一个世界还是呃,很有吸引力,就是很有一些追求的。然后, 呃,但是如果你在高维度空间来看的话,你需要有一个, 你去,你需要提前生成剧本。我的理解是你觉得我们的命运是可以被预测的,是这个世界是个确定的,所以我们生活在一个确定性的马尔克夫过程里面。是的, 那往深了说的话,你觉得人是没有自我意志、自由意志的。是的,我现在脑子里面在想什么,我下一个单词说什么,我下一个问题问什么,全都是一开始宇宙大爆炸那一刻就定好了。是的, 这个是我已经验证了无数遍的,就在我听起来是一个相当悲观的世界观。是的,因为可能这是真的吧,但是我自己内心深处我不愿意接受,我也不愿意接受。来,就好像我就变成了一个在被模拟的原子。是, 为什么你会这么想?呃,有些我的个人经历了,就是不太方便说,但是我这个确实是事实, 所有东西都是可以被预测的,所以理论上它是可以用 ai 解决的。但是如果你拿到一个能够预测未来的机器的话,那么 它对个人而言其实是一个灾难,我觉得这会导致所有的价值体系的崩塌。是的,就如果有这样的 ai model, 它做到了,可能对人类社会来说 最好的选择是毁掉这样的 ai model, 让他永远不要出来。对,但是, 呃,有些人就非常愿意去开发这种 model, 就是 不然的话这个他会被宿命论操纵的走。也就是有人喜欢这样的 model 是 因为他想 jell break。 所以 你的意思是有了这样的 model 之后,我要做那个和模和那个 model 预测的不一样的事,这里称之为逃脱。不是。呃。只是为了搞清楚这个世界背后运行的规律,或者说这个这个世界为什么要确定? 为什么这个世界是宿命论。所以你觉得上帝不掷骰子?对。呃。宏观不掷骰子,微观掷骰子。这个成立嘛?如果说在量子力学的观测里面这个成立,因为你可以在后台修改 一些世界线,虽然你可以把我说的话认认为这个是扯淡没有问题,但是我没有认为是扯淡。我在尝试 reason behind it。 我 觉得这个我也想过很久,就是到底 这个世界是不是确定性的,我们是不是有一个剧本?我们只是提现过在这个世界的歹 namex 下完成我们的一次随机过程。我觉得是,而不是随机过程是确定过程。我觉得是的。 你对这个事毫无怀疑。呃。我很怀疑,但是我尝试着去政委,发现政部委, 我非常想让他政委我,我有这个疑问,我很感兴趣,我觉得我六七岁的时候就和我爸妈提过这个事,我就感觉你怎么知道我说的这句话不是早就确定型的?你怎么知道你的反应不是确定型的?我小时候就在想这个问题,但我后来发现如果是这样的话, 我,我都不觉得我是人,就是,或者说所以最好的方式就是忘掉这一切,然后假装你不知道这个事, 然后去体验当前的一些经历。你已经这么做了吗?我一直都是这么做的,我没有办法。还有一个解释是世界不是这个时间线不是限性的,它是可以跳跃的。所以说你可以 用一个理论来解释,就是未来的我帮助过去的我来完成某些决策。你刚说过一个瞬间,说你在小学还是初高中的时候,突然未来的你告诉曾经的你,你说你要什么? 要 make impact? 对, 这个只是,呃,我脑子里一蹦出来就这样这样一句话,但是我不知道是不是未来我告诉我的。 那为什么你觉得世界线不是连续的,可能有未来的什么穿插来穿插去的?我觉得三维生物都是有他自己的局限性的,在三维的认知里面这个时间就是一个限性的单向流动的,但是有可能在四维的时间里面,他这个时间并不是单向流动的,他可以任意跳跃, 这是我找到的迄今为止合理的解释。所以你觉得真的你过去有无数个时刻,有一个未来的你像星际穿越的 morphe 一 样在后面推那个柱子。对,这是可能性之一,因为这个无法证伪,而他推这个柱子 又会导致你在未来又会再过去推那个柱子。对,所以你现在最好的解决方案就是忘掉这个事。对,还坚信西西福寺是幸福的。对 啊,这个聊下去我们可以再聊半小时,我们先过了这个话题吧。啊,我相信现在每一个 ai 的 从业者, openai 的 从业者,特别是可能内心里面都有一个创业的种子,你有过这方面的考虑和想法吗?呃,可能有,但是现在我觉得我还没有看到很好的 idea, 然后并且我觉得 openai 还是对我而言还是一个不错的 地方待着。你会喜欢什么样的 idea? 是 偏 product 的 还是什么样的?我会觉得我更喜欢 product, 就是比如说像天寿,像退学。我,我,其实我搞 research 英法,我其实也是 用有用户的,因为你的用户就是 researcher, 然后你可以根据 researcher 的 一些反馈来实时的进行迭代,所以你会希望类似这样的一个大家需要,反正就是有需求,然后你又你的天赋又能很好的施展的地方,然后,然后技术什么样不重要。 你你比如说举个例子就是,嗯,退学的话,它就是一个很简单的这个通知系统,一些也不不能算系统,就没几行代码,写个 p h b 就 好了。嗯,然后甚至你连 p h d 都不要,就是你直接搞一个,那个就是你,哪怕每天这个 退学第一版就是白天更新一次时间,晚上更新一次时间,我是手动的,但是即使这样就有很多需求。嗯,技术不重要,重要的是就是抓住,抓住需求, 你会希望十年后的冯嘉仪是什么样的,他会在一个什么样的地方做什么样的事?我会希望他做自己那个时候想做的事, 然后有足够的资源,足够的能力做自己想做的事,你都不去干预他那时候想什么?对,因为想法是会变的,可能你想什么也不重要,反正是确定性的过去了啊,是现在怎么希望不太重要,然后我,我现在所能做的就是投资,那那个时候的我 还是投资未来,让他有选择的权利。那你为什么还要投资呢?反正投不投资你都会到那个点。嗯,但是我觉得就是 投资一下还是会更好的吧,就万一你不投资,那你这不是在骗自己吗?投资一下不会有任何影响的,我们是确定性的过去了,但就是每天在家里睡大觉,你也可以到那个地方投资未来可能也是确定性的,所以你投不投资也不是自己的自由意志。是的, 你之前的投资未来都是提前学高中数学,或者说怎么怎么样,你现在除了技术上的、 ai 上的,你有什么其他的想投资未来了?提前退休, 然后有足够的资本想做自己想做的事,给你无限的钱,你现在想退休去干嘛?花一点时间找到自己想做的事。有人说你觉得你现在手头上的事不是你很想做的,你只是迫于生计,你想要赚到足够能够退休的资本,然后再去找那个事。我手头上的事,比如说阿尔法 在很长一段时间都是我想做的事,但是随着时间的推移,像比如说逐渐稳定之后,或者说这个发生了一些事情之后,然后 每因为每个人的这个重心是会变的。我曾经想通了我想要什么这个事情,但是我现在又想不通了,你现在又想不通了。对,我觉得这个,这其实也很正常, 所以你现在反而是在人生的某个迷茫期。是的,曾经觉得很喜欢的二幺 inforce 也好,做有 impact 的 事也好。对,因为因为已经看到头了, 然后剩下都是很确定性的事情, a g s。 板上钉钉的事了。对,好,嘉怡,我没有更多的问题了。然后我希望你在二零二五年这个时间节点上,在这个 podcast 最后留下你的一段话,去探索说到底自己想要什么。 嗯,虽然我对这个问题我曾经一度想通了我自己想要什么,但是我其实还是没有那么想通。就是这个问题值得一生去思考。