2024年,著名人工智能专家、斯坦福大学教授李飞飞创办的初创公司World Labs迅速成为行业瞩目的焦点。公司专注于开发具备“空间智能”的下一代AI系统,并在短短几个月内获得了超过2.3亿美元的融资,迅速成为AI领域的新独角兽。在公司成功融资的同时,李飞飞也在与a16z的合伙人Martin Casado和Eric Torenberg的对话中,深入阐述了World Labs背后的宏大愿景,表达了她对未来AI发展的独到见解。
从语言到空间:AI发展的下一阶段
李飞飞在对话的开篇便提出了核心观点:“我不需要大语言模型(LLM)来说服我,真正重要的方向是世界模型。”她明确表示,尽管大语言模型已经在许多领域取得突破,真正能改变世界的将是具备空间智能的AI系统——即能够理解和操控三维世界的模型。
空间智能的意义
李飞飞指出,空间智能的核心在于对三维世界的理解和再现,而这比语言能力更为古老。她分享了一个亲身经历:几年前,由于角膜受伤,她一度失去了立体视觉。那段时间,她发现即使在熟悉的街道上,也很难判断与周围车辆的距离。她深刻体会到,三维感知系统对于人类日常行动的基础性作用。李飞飞强调,若AI无法有效构建三维世界的模型,就无法真正理解或操作现实世界。
机器人面临的挑战:缺乏空间感知
在对话中,a16z的合伙人Martin Casado补充道,正是缺乏三维空间感知,导致了机器人和具身智能系统始终无法广泛应用。他举了一个通俗的例子:假设你带着一个人进入一个陌生房间,蒙住他双眼,让他依靠语言描述空间,完成任务几乎是不可能的。而一旦人类睁开眼睛,大脑就能自动重建空间模型,进而完成任务。当前的语言模型无法具备这种能力,而这正是AI要走向全面智能的关键一步。
从NeRF到世界模型:技术的突破
李飞飞回顾了世界模型技术的进展,提到了2019年提出的NeRF(神经辐射场)技术,这一研究成果为三维视觉建模开辟了新天地。NeRF的提出者正是World Labs的联合创始人Ben Mildenhall。此外,Christopher等创始人在高效三维表示方面的研究,也为这一领域带来了重大突破。
通过将NeRF与图形渲染、空间重建的工程体系相结合,World Labs将目标明确为构建AI的“世界模型”能力。这不仅是AI模型、数据与架构的融合,更是图形处理与空间重建工程的深度协同。
世界模型:理解世界的未来
李飞飞强调,虽然LLM在文本生成和语言理解方面取得了突破,但语言模型本质上是一种“有损压缩”的认知方式,它只能抽象化世界中的某些信息,而无法完美复现世界的复杂性。她举例道,世界并不是由单纯的单词和语法组成的,现实世界充满了物理法则、运动和三维结构,这些信息是语言所无法传达的。
李飞飞的这一观点深刻地影响了她从斯坦福教授转型为创业者的决策。她认识到,要真正实现对空间智能的建模,仅仅依靠学术研究远远不够,还需要通过工业化的算力投入、系统级的架构设计以及跨学科团队的协作,才能推动这一愿景的实现。而这正是World Labs成立的核心驱动力。
空间智能的应用:超越机器人
对于大多数人来说,世界模型仍然是一个抽象的学术术语,主要局限于自动驾驶和机器人领域。然而,李飞飞与Martin Casado指出,世界模型的应用远远超出了这一范畴。空间智能不仅仅能够使机器人和自动驾驶系统更为精准,它还可以广泛应用于设计、创作、建筑、游戏开发等多个领域。
AI赋能创意产业:构建与操控虚拟空间
Martin举了一个例子:假设你展示给AI一张桌子的照片,AI模型能够推断出桌子的形态、材质等信息,并在此基础上构建出完整的空间场景。用户可以对该空间进行测量、重新设计,甚至进行改造。这种基于三维空间的直觉性交互,打开了设计、创作和模拟实验的新维度,突破了传统语言指令的限制。
数字空间与多重宇宙的构建
李飞飞进一步提出,数字空间将为人类创造一种全新的变革机会:“人类迄今为止只活在一个三维物理世界中,但数字世界将让我们进入多重宇宙。”她指出,不同的“宇宙”可以专为机器人、创意工作者或者虚拟旅行而设计。这些曾经只存在于幻想中的空间,随着AI的进步将变得可以实现、理解与改造。
三维建模:下一场技术革命
回到技术本身,李飞飞强调,World Labs的目标不仅仅是打造一个“会看”的AI,更重要的是让AI能够理解世界的三维结构、动态和组合逻辑。这不仅仅是工程技术的挑战,更是一种新的表示哲学。她认为,像DNA的双螺旋结构、巴基球等科学发现,都是空间智能的体现。这类几何构造不能仅靠语言来推导,而必须依赖空间智能的建模与理解。
语言与空间:智能的终极目标
在对话的最后,Martin提出了一个哲学性的问题:“我们其实正在倒着走进化之路。”他指出,语言虽然是人类大脑进化过程中最晚出现的模块,但空间感知系统自节肢动物以来就已经存在。现代AI如果仅仅依赖语言能力,它只能模仿智能,而无法真正理解世界。只有通过构建类人的空间模型,AI才能实现真正的“具身智能”,进入智能的下一个阶段。
李飞飞坚定地总结道:“我一直在等这一天。不是因为我不信语言模型,而是我深知,真正的世界,并不是由文本构成的。”而世界模型,正是让AI理解和构建这个世界的钥匙。
总结:AI计算范式的转变
李飞飞与a16z的对话不仅揭示了她对世界模型的深刻信念,也让我们看到了AI未来的巨大潜力。随着技术的进步,AI不再局限于文本和语言的处理,而是迈向了更为复杂的三维空间感知与建模。这场由World Labs引领的技术革命,或许正是推动下一代AI飞跃的关键所在,改变的不仅是机器人与自动驾驶领域,更将为创意产业、科学研究乃至我们对世界的认知带来深远影响。