粉丝5415获赞2.8万

这周李菲菲发布的世界模型 marbo 刷屏,一句话就能生成一个可编辑的三 d 世界,无数从业者机构都在蹲着他们开放 api, 白鞋的 ceo 呢,也毫不掩饰对他的看好。为什么呀?这意味着 ai 打破了在文字、图像和视频这些二维空间的局限, 甚是向着三维空间进发了。欢迎来到夏博财经,今天我们就彻底说透 marble。 首先,李飞飞为什么要做这个?一 是过去两年来, ai 其实已经很会聊天了,写文案,写个代码,生成个图片视频,都随手就能干,但在这块的发展其实已经快撞墙了。他认为现在的大语言模型是黑暗中会写诗的人,难言善辩,但没经验,知识广但又很脱离现实。 and even today's most powerful language based or llm based models are failed at rudimentary spatial intelligence tests。 我们的世界是俯峡三地的,现在的大模型它看不见也 理解不了。就像你让人坐在一把椅子上是很容易的,但你让一个 ai 去操作机器人坐在椅子上就非常的困难哦,因为他理解不了真实世界,根本就不知道椅子在三 d 空间里到底意味着什么。 第二点,菲菲切入空间智能领域并不是一时兴起,他一直以来的终极目标呢,其实就是追求视觉和空间智能。在他的观念里呢,真正的智能是巨深的和进化的,人类之所以能进化,小孩之所以能学习,都是因为我们是在真实的三 d 世界里, 用自己的眼耳鼻喉这些感官去真实的感受学习,才有可能进步。 humans and animals have incredible ability to perceive reason interact with and create that goes far beyond language。 想让机器真正拥有智能,就不能只教他读书识字,还要教他现实世界里的形状、规则、颜色、空间等等。李菲菲也是从让机器会看图开始的 方式呢,也非常的激进。 you know if you look at the evolution or development of intelligent animals like humans we were inundated with data in the early years of development, but our machines were starved with data so we decided to do something crazy at that time to create an internet scale data set over the course of three years called image that included fifteen million images hand curated。 后来他就成为了所有做图片识别团队的基本数据库。 哎,这个数据库呢,就为算法团队提供了燃料,二维世界就搞定了,下一个目标自然就是把 ai 从会看图片推进到会生世界。因为现在这只是第一步, mobo 才是他的目的地,这个产品就是他定义的新前沿了。空间智能,他能感知深层推理,并与三 d 世界进行互动,这就是把看见变为行动的关键。 但哪怕是李菲菲啊,也不可能靠申请科研经费就把空间智能这么耗人力财力资源的事情轻松搞定。毕竟当时为了做成一面之耐,才能靠着亚马逊众包标注等方式呢,就已经耗资巨大了。 by people around the world across twenty two thousand categories。 他亲身感受过谷歌这些大厂的财力,他知道必须要找到更好的路径。于是他创建了 worlaps, 亲自担任 ceo, 全面投入空间智能。重点是这家公司在二零二四年四月成立,短短就几个月内,筹集了超过二点三亿美元的资金,估值超过十亿美元, 迅速成为了科技行业的焦点。为了实现空间智能的这个宏伟愿景啊,李菲菲组建了一支全明星团队,和兴联合创始人,还有三位扎心张森,他是 ai 和计算机视觉领域的顶尖研究员了,曾经也是李菲菲博士实验室的学生。但 mate 号是 nerf 技术的发明者,这是一种从二 d 图像生成三 d 场景的基础性技, 输了他的加入就堪称是重量级的。还有 christophe lesnar, 也是一位资深人士,曾经在 mata 和 epic games 等顶级研究实验室任职。然而最引人注目的除了技术团队啊,还有他背后的投资名单,顶级风头 a c k z n e a 都投了。但更值得注意的是这两个名字, interest, 这是英伟达的风险投资部门 jeffrey hinton, 星盾以个人身份进行了支持,是不是?以下就看懂了,还是那个熟悉的配方。二零一二年,李菲菲的 image net 数据库做了染料,星盾团队的 alex net 搞定了算法, 华人勋的 gpu 提供了算力。现在呢,李菲菲和无数使用抹布的用户又可以来提供新的燃料,星盾也再次认可。而华人勋啊,他精明的很,他知道要跑得动更多三 d 世界模型,全球的算力都得再翻几番。 on the one hand amount of computation necessary to produce an answer has grown tremendously on the other hand the amount of usage of these ai models are growing also exponentially these two exponentials are causing a lot of demand on compute。 老黄头的是他自己产品的下一个万亿市场,而且就在今年二月呢。李菲菲、新顿黄人君、杨丽坤、本杰奥这群人呢,在伦敷同台拿了伊丽莎白女王工程奖。 站在台上,他们并没有追忆往昔,而是还在激变,在争论 ai 到底是不是泡沫,这些疯狂的估值到底是不是过高了? ai 的下一个突破又是什么?资本的动作比辩论更诚实?这里面已经有巨头用前投票,他们占了李菲菲的空间智能路线。那 word labs 推出的这个 marble 到底有啥用? 先看看它到底是啥?它的核心功能是生成空间一致、高保真且持久的三 d 世界。你可以用文本、图像、视频等多模态创建三 d 世界。而且这个三 d 世界并不是给你个演示视频,还可以导出成各种格式再次编辑,比如导出到 unity、 on, real 等主流游戏引擎继续加工,上线后就明码标价,从免费版到每月九十五美元的 max 版,你现在就能去用了。一个可以投入市场、实现商业化的世界模型,完成度其实已经非常高了,适当的功能再看应用就很清楚了。 妈宝这类空间智能的短信用,和大部分人能想到的一样,就是做影视、游戏、建筑设计等等。评论区讨论最热烈的也是这些行业的从业者们,他们可能不用再费劲建模,把创意丢给妈宝就行。长期来看呢,就是屈身智能机器人了。你得先在妈宝这种空间模型里造出无数个虚拟厨房、街道、商场, 让 ai 机器人在里面二十四小时的训练,他才有可能在现实世界里给你干杯水。还有医疗啊,教育啊,都需要对这种三 d 空间的理解。从 in which net our labs, 这就是 ai 从描述世界走向模拟世界的必然一步。毕竟 ai 发展到今天,最笨拙的动物都比现在最先进的机器人更聪明。 以李菲菲为代表的业内顶尖的科学家们就在努力向那个世界再看一部。
