AI / 机器人

世界顶尖机器人研究员 纵论AI、大模型与机器人智能

对话 Physical Intelligence 联合创始人谢尔盖·莱文,深入探讨机器人基础模型、莫拉维克悖论、通用机器人的未来,以及这场将重塑物理世界的AI革命。

嘉宾
谢尔盖·莱文(Sergey Levine)
频道
Invest Like The Best
时长
约 75 分钟
观看完整访谈

核心洞察

01

物理智能——打造机器人基础模型

就像GPT成为自然语言处理的通用基座,Physical Intelligence正致力于构建能控制任意机器人、完成各类任务的通用人工智能基础模型。

02

通用机器人——引发"寒武纪大爆发"

一旦通用机器人基础模型研发成功,将彻底释放人类的想象力,引发机器人领域的"寒武纪大爆发"——正如个人电脑的出现催生了无数创新应用。

03

人形机器人——沟通工具而非终极形态

人形机器人的最大优势是"吸睛"——能直观展现未来的可能性。但它只是机器人众多形态之一,未来的机器人将根据任务场景优化形态。

04

机器人学习——从端到端控制到常识获取

机器人学习的核心难点在于兼顾三大特性:经济高效的训练方式、应对长尾场景的常识判断能力、快速可靠的执行效率。多模态语言模型为常识获取提供了可行路径。

05

AI融合——生成式AI+强化学习

生成式AI擅长复刻人类既有能力,深度强化学习能突破人类认知边界。机器人领域的核心挑战,是如何融合二者优势,创造超越人类水平的表现。

06

莫拉维克悖论——为何简单事最难

人类眼中的"难事"(如微积分)对机器而言易如反掌,而人类觉得"简单"的事(如拿起杯子)对机器却难如登天。这是因为这些"简单"的能力是人类数百万年进化的产物。

深度洞察

01

何为"物理智能"

00:02:39 - 00:05:19
核心观点

物理智能的核心目标,是研发能够控制各类实体系统、完成任意物理任务的机器人基础模型。正如语言模型已进化为能处理所有语言任务的通用系统,物理智能要打造的,是能胜任一切物理交互任务的AI。

深度解读
看似复杂、实则更易实现的底层逻辑

这一愿景看似宏大,但莱文的解读揭示了其"看似复杂、实则更易实现"的底层逻辑。在语言模型领域,我们见证了一个关键趋势:曾经针对特定场景的专用系统(如机器翻译、情感分析),最终都被通用语言模型取代。究其原因,通用模型能利用更广泛的数据源——并非简单整合不同任务的数据,而是通过学习弱标注数据(如全网文本)建立对世界的理解,在此基础上开发各类应用会变得事半功倍。

机器人领域的相似逻辑

机器人领域遵循相似的逻辑。尽管我们尚未拥有"互联网规模"的机器人数据集,但"理解世界"在机器人领域的重要性更为突出。如果机器人能从不同任务、不同机型、不同场景中学习,就能建立对物理交互的底层认知——就像人类能快速掌握新技能一样,因为我们理解物理互动的核心规律。

关键洞见

通用性最终可能比专用性更易落地;核心是建立"物理认知",而非记忆特定任务的操作流程;跨任务、跨机器人的数据融合能产生1+1>2的协同效应。

个人思考
莱文的这一观点极具启发性。我们通常认为"专注某一领域"更容易成功,但在本轮AI革命中,最强大的系统恰恰是通用性最强的。这一现象挑战了我们对"专业化"的传统认知。
延伸思考
这种逻辑是否适用于其他领域?在商业实践中,我们是否有时过度追求垂直专业化,而忽视了搭建通用平台的价值?
02

押注通用机器人:未来的无限可能

00:05:19 - 00:06:59
核心观点

一旦通用机器人基础模型研发成功,将彻底释放人类的想象力,引发机器人领域的"寒武纪大爆发"——正如个人电脑的出现催生了无数创新应用一样。

深度解读
个人电脑的发展史类比

莱文用个人电脑的发展史做了生动类比。个人电脑之所以成为划时代的发明,是因为它让任何人都能"拼凑"出有趣的创新,从上世纪90年代开始,各类应用层出不穷,互联网的出现更是加速了这一进程。

当前机器人领域的困境

而当下的机器人领域尚无法实现这一点:若想开发一款新的机器人应用,你需要搭建一整套"庞大的技术栈",并且几乎要独立解决所有智能控制问题。但如果有一个可复用的基础模型——一个能通过指令调用、具备基础功能,且可微调适配的平台——那么无数个人、企业都将能尝试开发各类机器人应用。

机器人的形态多样性

莱文特别强调,机器人绝不会是"单一形态"的产物——并非简单的"金属人形机器"。它更像一套工具包,可通过多种方式组合创新。比如有人可能研发一款拥有五条机械臂、悬挂在天花板上的机器人,专门解决某一细分领域的问题。

关键洞见

基础模型的核心价值在于降低创新门槛;机器人的形态将高度多样化,人形只是其中一种;核心目标是让更多人能参与机器人的实验与创新。

"我认为机器人领域可能会重演这一历程,但当下还做不到——因为如果你想开发一款酷炫的新机器人应用……你得搭建一套极其复杂的技术栈,而且基本上要自己解决所有智能控制的难题。"
延伸思考
这让我们联想到移动互联网时代:iOS和Android作为基础平台,让无数开发者得以创造各类应用。机器人基础模型,或许就是下一个这样的平台级机会。
03

人形机器人:噱头还是未来?

00:06:59 - 00:08:46
核心观点

人形机器人的最大优势是"吸睛"——能直观展现未来的可能性,激发大众想象。但它只是机器人众多形态之一,所有机器人面临的核心智能挑战都是相通的。

深度解读
莱文的有趣看法

莱文对人形机器人的看法颇具趣味。他承认"酷炫感"有其价值——能让大众理解技术愿景、激发想象力,但同时强调,人形只是机器人众多形态中的一种。

通用化的解决方案

更重要的是,他认为所有不同形态的机器人,面临的智能挑战本质上是一致的。我们不应局限于特定的"身体形态"去解决智能问题,而应追求通用化的解决方案。

避免绑定特定形态

"如果把智能问题绑定在特定身体形态上,其实会让问题变得更难。我们需要海量数据支撑研发,而机器人的魅力在于,它们最终完全不必长得像人类。"

极端案例

莱文举了一个极端例子:未来或许能用一万架四旋翼无人机协同建造房屋。届时,我们会有一个通用的机器人基础模型,能适配各类应用场景——从推土机到人形机器人,再到机械臂。模型可能需要针对不同形态微调,但"如何与物体交互""物体的运动规律""因果关系的底层逻辑"——这些核心原理对所有系统都是通用的。

关键洞见

人形形态更多是"沟通工具",而非技术最优解;物理交互的核心原理适用于所有机器人形态;未来的机器人将根据任务场景优化形态,而非模仿人类。

延伸思考
这让我们想到自然界的启示:人类不会飞,却造出了比鸟更高效的飞机;人类不善游泳,却造出了远超鱼类的潜艇。技术演进的路径,往往不是模仿自然,而是找到适配场景的最优解。
04

机器人研究的历史里程碑

00:10:12 - 00:15:31
核心观点

机器人学习的核心难点在于:需要系统兼顾三大特性——经济高效的训练方式、应对长尾场景的常识判断能力、快速可靠的执行效率。直到近年多模态语言模型的出现,才为"常识获取"这一难题提供了可行路径。

深度解读
端到端控制的历史

莱文回顾了机器人学习的发展历程。端到端控制其实是个由来已久的想法——早在1980年代,名为ALVINN的自动驾驶系统就已采用神经网络,直接通过摄像头数据控制车辆行驶。

三大核心条件

但长期以来,研发满足以下条件的系统异常困难:1. 针对具体应用具备成本效益(无需为每个应用收集海量专属数据);2. 能依靠常识处理异常场景(遇到突发情况时做出合理反应);3. 对核心任务具备快速、可靠、稳健的执行能力。

数据效率的挑战

要同时满足这三点难上加难,因为机器学习的效果高度依赖数据量。如果用"朴素"的方式解决机器人任务(比如洗盘子),直观的做法是收集海量洗盘子数据,但这极不经济——换一个任务又要重复这一过程。莱文强调,这正是研发能处理多任务的通用模型的核心意义——如今新任务所需的数据量已大幅减少。

常识从何而来?

而过去几年最大的突破在于:系统还需应对从未经历过的异常场景。此时需要依托其他渠道获取的知识,在新场景中落地应用。人类在这方面极具优势。比如开车时,若路面出现障碍物,且有警示牌提示"此处煤气泄漏,禁止通行",即便从未遇到过这种情况,你也能整合信息、做出正确判断——这正是常识的作用。

长期困扰的核心难题

这是长期困扰机器人学习领域的核心难题:常识从何而来?而近年的技术变革给出了答案:多模态语言模型擅长提取并表达各类知识。尽管它们尚不擅长将这些知识"落地"到物理场景中,但具备海量的知识储备。

落地的挑战

因此,如今可通过复用多模态大模型的知识来获取常识,不过仍有一个挑战——需要找到正确的连接方式:不能简单给模型看一张图片就问"该怎么做",因为模型缺乏上下文,不知道自身是机器人、不清楚自身形态,也不了解当前场景的背景。

关键洞见

通用模型是解决数据效率问题的核心;大语言模型为常识获取提供了新路径,但需解决"落地适配"问题;这是近年机器人领域的重大突破。

"这一直是机器人学习领域的一大谜团:常识究竟从何而来?……而过去几年的变化在于,多模态语言模型确实擅长整合各类知识。"
05

生成式AI与深度强化学习的融合之路

00:15:31 - 00:21:24
核心观点

过去几十年AI领域的两大里程碑成果——生成式AI(如大语言模型)和深度强化学习(如AlphaGo)各有所长。机器人领域的核心挑战,是如何融合二者优势:既借助生成式AI获取海量知识,又通过强化学习实现超越人类水平的表现。

深度解读
莱文的研究历程

莱文分享了自己的研究历程。他2014年投身机器人研究,此前主攻计算机图形学。他一直试图解决的核心问题是:如何让AI系统在实践中持续进化?"如果一个系统能通过不断执行任务实现自我优化,且始终保持进步,那么它的能力将没有上限,最终能掌握所有你期望的技能。"

从零开始的尝试

最初,他尝试"从零开始"的思路——让系统从空白状态练习特定技能,直至精通。这种方式在限定场景下有效,但很难拓展为适用于开放世界的通用系统。

并行化训练的探索

后来,他在谷歌尝试并行化训练——将20台机器人置于同一空间,让它们协同学习。这一方法确实有效且具备泛化能力,但难以处理边缘场景,因为系统会变成特定任务的"专家",只掌握这一种技能。

核心挑战

莱文认为,下一步的关键是将"技能练习"能力与海量先验知识融合——这是个极具挑战性的难题,不仅限于机器人领域,而是整个AI领域的核心课题。

两大里程碑的对比

"若要找一个例子概括生成式AI,那就是大语言模型;而深度强化学习的代表则是AlphaGo。两者都令人惊叹,但背后的原因截然不同:生成式AI的厉害之处,在于能复刻人类的能力——画出像人类创作的画作、写出符合人类表达习惯的文本;而深度强化学习的惊艳之处恰恰相反——它能做出人类从未想到的决策,比如AlphaGo在围棋中走出的第37手。"

融合的路径

核心挑战在于如何融合这两种技术路径:如何借助生成式AI获取海量知识,同时通过强化学习实现超越人类水平的表现。Physical Intelligence的解决方案:1. 先搭建基础框架——"视觉-语言-动作模型"(VLAM),本质是适配机器人控制场景的大语言模型;2. 再沿两个方向深化研究:如何通过"思维链"让系统用常识处理异常场景;如何通过强化学习持续优化系统表现。

关键洞见

生成式AI = 复刻人类既有能力;深度强化学习 = 突破人类认知边界;机器人的未来,在于融合二者的优势。

延伸思考
这种"二元融合"在技术发展中十分常见。有的技术擅长模仿,有的技术擅长创新,而真正的突破往往来自二者的结合。
06

莫拉维克悖论:为何简单的事对机器人最难?

00:21:24 - 00:25:41
核心观点

人类眼中的"难事"(如微积分)对机器而言易如反掌,而人类觉得"简单"的事(如拿起杯子)对机器却难如登天。这是因为这些"简单"的能力是人类数百万年进化的产物,早已内化为本能。但机器学习正逐步改变这一格局。

深度解读
机器人领域的核心概念

这是机器人领域的核心概念,也是理解AI发展瓶颈的关键。莱文解释道,我们存在一种认知偏差:认为对人类简单的事,对机器也该如此。比如解微积分对多数人来说很难,但拿起杯子却轻而易举,因此我们想当然地认为机器也该轻松做到后者——但事实恰恰相反。

进化的作用

"人类觉得简单的事之所以简单,是有进化层面的原因的——否则我们无法生存。比如我们能快速发现丛林中的老虎,因为不具备这种能力的祖先早已被淘汰。"

技术改变格局

但技术正在改变这一局面:机器学习让这一"难易方程"发生了变化。若靠手工编程让机器拿起任意位置的任意杯子,难度极大;但如果有足够数据,让机器学习系统自主学习,这件事反而没那么难。

未来的趋势

莱文认为,随着技术发展,我们会看到一个趋势:数据收集难度低的领域,最终会被归为机器的"易区",即便这些任务涉及复杂的物理操作;而那些数据收集困难、需要大量常识判断、需在多个抽象层面推理,且要将物理技能与网络知识结合的任务,仍会是难点,需要更多技术突破。

关键洞见

莫拉维克悖论解释了机器人"易事难办"的核心原因;机器学习可通过数据积累部分破解这一悖论;真正的挑战在于需要常识和多层推理的任务。

延伸思考
这一悖论提醒我们:我们对"难度"的定义可能存在偏差。真正的难题,或许是那些我们无需思考就能完成的事——因为这些能力早已被进化"预装"进人类的大脑。
07

厨房机器人与常识科学:让机器人听懂指令

00:25:41 - 00:29:36
核心观点

在机器人学习领域,"常识"可定义为:将其他领域学到的知识,应用于当前物理任务的语义推理能力。常识与肌肉记忆恰恰相反——肌肉记忆是通过反复练习形成的自动化反应,而常识是将通过观察、阅读、交流获取的知识,应用于新场景的能力。

深度解读
常识的清晰定义

莱文给出了一个清晰的定义:在机器人学习中,常识可理解为利用跨领域知识,对当前执行的物理任务进行语义推理的能力。"你可以把常识看作肌肉记忆的对立面:从事某项运动时,通过大量练习,你无需思考就能做出动作,这就是肌肉记忆;而常识……是当你通过看、读、听掌握了某个事实,当身处相关场景时,能将这一事实与当前任务关联,做出正确决策。"

重大突破

一个有趣的发现是,Physical Intelligence的模型在约6个月前迎来了转折点:系统可通过高级指令监督实现能力提升。具体来说:将机器人置于全新的厨房环境中,让它完成清洁任务,若系统在某个环节失败,传统做法是补充更多远程操控数据,以覆盖更多厨房场景;但他们尝试了一种新方式:不新增远程操控数据,仅用语义指令标注机器人的操作过程。

显著提升泛化能力

"这一方法确实有效,显著提升了系统的泛化能力。这意味着,系统的瓶颈已从底层的物理执行能力,转移到了中层的语义理解能力——如今系统的表现,更多受制于场景解读和下一步决策的能力,而这一能力可通过语言监督来提升。"

教练式训练

这是一项重大突破,因为这意味着人类可通过自然语言与机器人交互,以"教练指导"的方式训练机器人。

关键洞见

常识 = 跨领域知识的迁移应用能力;肌肉记忆 = 重复练习形成的自动化行为;机器人AI的瓶颈正从物理技能转向语义理解。

"这是个重大突破,因为如今人类真的可以通过对话,以教练的方式训练机器人。"
延伸思考
这一发现意义重大——机器人不再仅能从"动作演示"中学习,还能从"语言指导"中进化,这大幅降低了机器人的训练门槛。
08

机器人奥运会:真正的挑战是日常小事

00:30:48 - 00:38:02
核心观点

机器人真正的挑战,并非跑跳、翻跟头这类运动技能,而是人类觉得"不值一提"却让机器人束手无策的日常任务。Physical Intelligence用一套"机器人奥运会"任务测试其通用系统,结果几乎完成了所有任务——且未针对这些任务做任何专项开发。

深度解读
有趣的背景故事

莱文分享了一个有趣的故事。曾任职于Everyday Robots的Benji Hson在博客中指出,中国举办的机器人奥运会聚焦于机器人的跑跳等运动能力,但这些并非真正的技术挑战。他提议打造一套以日常任务为核心的"机器人奥运会"——这些任务人类轻松就能完成,却难倒了当前所有机器人系统。

典型的日常任务

他列出了十几个典型任务,例如:开门、清洗油腻的煎锅、用塑料袋捡拾宠物粪便。这些任务人类并不觉得有难度,但目前没有任何机器人系统能完成。

Physical Intelligence的测试

Physical Intelligence决定以此测试自家系统。这并非专项研究项目,更多是对内部流程和模型训练体系的验证,结果却出人意料:"我们几乎完成了所有任务。唯一没做到的是把衬衫翻面——因为夹具无法伸进袖子里,我们需要改进夹具设计;剥橙子的任务也略有遗憾——要求用手指剥,但我们的机械指力量不足,最终不得不借助小刀这类工具。除此之外,所有任务都完成了。"

通用系统的价值

对莱文而言,真正值得关注的是:他们并未针对这些任务做任何专项开发,只是将其作为"任务适配流程"的测试案例。"这一结果充分体现了通用系统的价值——当拥有通用基础模型后,你能快速适配各类看似复杂的任务,无需进行繁琐的专项开发。"

关键洞见

机器人的核心挑战是日常任务,而非运动技能;通用系统的核心优势是快速适配新任务的能力;Physical Intelligence的系统展现出了惊人的泛化能力。

延伸思考
这一测试设计十分巧妙——用"普通人的日常任务"而非"机器人专家的技术指标"来验证系统,更贴近真实的应用场景。
09

身体延伸:工具即身体的生理本质

00:36:31 - 00:42:17
核心观点

"工具是身体的延伸"并非比喻,而是真实的生理现象——实验表明,猴子大脑中的神经元会根据工具尖端(而非手部)的位置激活。这意味着优秀的基础模型应能控制任意形态的"身体"和工具——本质上这是同一个问题,而非多个独立问题。

深度解读
物理智能的"顿悟"时刻

莱文的联合创始人Locky曾描述,人类的"物理智能"就像学骑自行车:某一刻突然从"不会"到"会",那种豁然开朗的感觉,就是物理智能的体现,是对物理规律理解的"顿悟"。

明确的生理学依据

莱文补充道,这一感受有明确的生理学依据。针对猴子使用工具的研究发现,可通过监测神经元激活情况,判断猴子对自身手部位置的感知。"实验结果显示,当猴子使用工具时,神经元会根据工具尖端的位置激活,而非手部位置。这说明'工具是身体的延伸'是真实的生理现象,人类的大脑也是如此运作的。"

研究方法的启示

这一发现对研究方法的启示是:物理智能应与具体的身体形态解耦。一个优秀的基础模型,应能适配并控制任意形态的"身体"和工具。本质上,这是一个通用问题,而非一系列独立的细分问题。

通用问题的价值

"不存在'人形机器人专属问题''汽车专属问题''推土机专属问题'或'桌面机械臂专属问题'——只有一个通用问题。若能以完全通用的方式解决这个问题,其价值将无可估量。"

关键洞见

"工具即身体"是真实的神经科学现象;机器人智能应脱离具体形态的束缚;通用性是终极目标,因为所有控制问题本质上是统一的。

延伸思考
这一观点极具深度——如果智能真的具备通用性,那么它应能像人类操控工具一样,驾驭任意形态的"身体"。
10

机器人领域的学术之争:分歧与共识

00:38:56 - 00:48:27
核心观点

机器人领域的核心争论包括:学习是否有价值?端到端学习是否是正确路径?仿真数据与真实数据孰优孰劣?这些争论推动了领域进步。而最难的机器人任务,可能是涉及人际互动的场景,比如照顾老人和儿童。

深度解读
争论1:机器学习在机器人AI中是否必要?

早期这一问题极具争议。传统工程视角下,机器人与软件产品差异巨大——它们是物理实体,能影响周边环境,存在安全风险,还可能陷入各类异常状态。"机器人研究界花了很长时间才真正接受一个观点:不必将物理知识硬编码进系统。机器人做决策时,无需内置物理模拟器,而是可通过学习系统自主掌握这些规律。这一观点在很长时间里都极具争议。"

争论2:端到端学习是否是最优路径?

莱文认为,"苦涩教训"(The Bitter Lesson)尚未成为行业共识——即应从数据中学习规律,而非按照人类的认知逻辑为机器编程。"我对这一观点的辩护是:若想在复杂的开放世界中实现可靠的机器人控制,就必须利用人类已掌握的物理知识。我们有厚厚的物理教科书,为何不直接将这些知识融入系统?"

争论3:仿真数据vs真实数据

这是当前最具争议的话题之一。观察人形机器人的杂技视频会发现,其背后的技术路径高度依赖仿真数据,真实世界数据的占比极低,甚至为零。而在机器人操作领域,效果最佳的方法往往相反——仿真数据用量极少,主要依赖海量真实世界数据和大型基础模型。

值得深思的现象

"同一领域内,两个细分方向的主导方法差异如此之大,这一现象令人深思。或许最终某一种方法会胜出,也可能需要融合两种思路的优势。"

最难的任务是什么?

莱文认为,给婴儿换尿布会是极具挑战性的任务。"这再次印证了莫拉维克悖论:人类擅长某些能力,既包括物理操作,也包括人际互动。涉及人际互动的任务——比如协助老人下床——难度远超想象。""照顾老人、看护儿童这类任务,难度会比人们预期的大得多。"

关键洞见

学术争论是推动领域进步的核心动力;仿真与真实数据的方法差异值得深入研究;涉及人际互动的任务,可能是机器人领域的终极挑战。

延伸思考
这些争论表明,即便在同一技术领域,也存在不同的方法论和哲学理念——这种多样性对领域发展而言是健康的。
11

何为优秀的研究者?平衡与激情

00:44:18 - 00:54:09
核心观点

优秀研究者的核心能力,是判断何时尝试新方向、何时坚持现有路径。过早放弃可能错失突破,过晚转向则可能浪费时间。不存在统一的"研究者特质",激情的来源可以多种多样。

深度解读
研究与工程的区别

莱文对"优秀研究者"的思考极具洞见:"研究与工程截然不同——研究的核心是找到问题的答案,这往往需要走捷径。"

最难的核心决策

"研究者最难的决策之一,是判断何时尝试新方向、何时坚持现有路径。这一决策极其微妙,一旦出错,可能错失重大突破。""如果过早放弃,可能离答案仅一步之遥却半途而废,这无疑是遗憾的;但如果过度坚持,数年执着于无解的问题,同样是浪费时间。因此,判断何时微调方向、探索新可能性,何时坚守原有路径、直至找到答案——这往往是研究者最重要的能力。"

优秀研究者的特质

关于优秀研究者的特质,莱文表示:"很难用一套固定的性格特征来定义。唯一的共性,就是没有共性……或许有一个共同点:要做好科学研究,必须对其充满激情。但即便这份激情,也可来自不同的源头。"

不同类型的研究者

"我合作过许多优秀的研究者:有人纯粹为探索新奇想法驱动——不在乎技术的应用场景,也不在乎是否有实际价值,只追求酷炫的新点子;也有人专注于解决特定问题——搭建系统、验证实验、反复调试,无论形式如何,只要能解决问题就倍感满足。这些不同类型的研究者,都能做出卓越的贡献。"

关键洞见

平衡"坚持"与"转向",是研究者的核心能力;不存在统一的"研究者性格模板";激情的来源多元:对新奇的渴望、对问题的执着等。

延伸思考
这一洞见适用于所有创造性工作——无论是创业、艺术创作还是科学研究,平衡坚持与灵活调整都是成功的关键。
12

企业如何迎接机器人时代?协作而非替代

00:48:27 - 00:57:02
核心观点

企业当下难以精准布局机器人领域,因为技术迭代速度极快。编码工具的发展提供了参考模板——AI工具与人类协作提升生产力,而非简单替代。机器人时代也将呈现类似的"人机共舞"格局。

深度解读
技术快速迭代的不确定性

莱文坦言这是个难题,因为技术变化实在太快。他用一个具体例子说明这种不确定性:"机器人研发应更多依赖演示数据,还是自主强化学习数据?我们两个方向都有布局,且显然二者都很重要。但企业的备战策略,会因数据依赖比例(是90%演示+10%自主学习,还是10%演示+90%自主学习)而截然不同。"

未来的技术路径

"这一比例的答案,是我们未来几年希望厘清的问题,而它将彻底改变最优的技术路径。"

编码工具的参考模板

关于机器人对劳动力的影响,莱文认为编码工具的发展提供了绝佳参考:"编码工具的出现,并未让软件工程师消失,而是提升了工程师的个人生产力。要让这些工具发挥价值,需要帮助人们掌握使用方法;同时也需要持续的技术迭代,让工具适配更多场景——这是一个协同进化的过程,且仍在持续。"

"人机共舞"的未来图景

"这一历程可为机器人领域提供借鉴:AI工具与人类协作,共同提升生产力,同时带来新的挑战。机器人时代的图景,不会是'人形机器人取代人类',而是更复杂的协作模式。""未来,工作的部分环节可由机器人完成,部分环节需人机协同;人类需做一些特殊工作来提升机器人效率,反之机器人也能助力人类——这将是如同编码工具与程序员之间的'共舞'关系。"

关键洞见

技术的不确定性让企业备战变得困难;编码工具的发展,为人机协作提供了参考模板;机器人更可能"增强"人类能力,而非简单替代。

延伸思考
"人机共舞"的比喻十分贴切。技术的影响往往不是简单的"替代",而是重新定义角色,创造新的协作模式。
13

下一步:聚焦中层推理,突破泛化瓶颈

00:57:02 - 01:02:00
核心观点

Physical Intelligence当前的研究重点,是深入理解"中层推理"问题。团队已掌握底层物理行为的控制方法,但要实现行为的泛化,需融入海量常识知识,而知识的表示形式可能是关键。

深度解读
当前的核心重点

莱文分享了团队当前的核心研究方向:"可以明确的是,我们当前的核心重点是深入研究中层推理问题。我们已清晰掌握底层物理行为的控制方法,但要让这些行为具备泛化能力,必须融入大量常识知识——而知识的表示形式,可能是解决问题的关键。"

文本表示的局限

"大语言模型让文本类知识的表示变得便捷,能轻松实现文本到文本的转换,但这未必是机器人系统的最优表示方式。有时系统需要空间化的思维,有时需要语义化的理解,有时则需要其他形式的表示。因此,构建适配机器人的内部推理过程,是一个至关重要的问题——而这一问题的答案,可能与大语言模型领域截然不同。"

如何追踪领域进展

关于如何追踪机器人领域的进展,莱文建议:"大部分成果会发表在研究论文中。但论文并非易获取的信息源,需要花心思梳理、辨别哪些是真正有价值的突破……"

关键洞见

中层推理是当前的核心研究方向;文本表示未必适配机器人的需求;需融合空间、语义等多种表示形式。

延伸思考
这暗示机器人AI可能需要区别于大语言模型的架构。尽管语言模型提供了强大的推理能力,但物理世界的交互可能需要全新的知识表示框架。
14

最珍贵的善意:那些"赌"我的人

01:02:00 - 结束
核心观点

莱文最感恩的,是职业生涯中那些愿意"赌"他的人——在他几乎毫无经验时给予机会的人。同时,波士顿动力(Boston Dynamics)和那些赋予研究者实验自由的组织,也让他深受启发。

深度解读
三个关键时刻

当被问及"他人对你做过的最善意的事是什么"时,莱文分享了三个关键时刻:1. 英伟达实习经历:大学期间获得实习机会,接触到前沿技术,"招聘经理愿意在我身上下注";2. Peter Abhel的博士后机会:开始博士后研究时,他毫无机器人领域经验,仅做过虚拟角色动画和计算机图形学研究,"我觉得这更多是对我潜力的认可,而非基于已有成就";3. 谷歌"手臂农场"项目:2015年与同事启动的项目,用数十台机器人收集数据,"我特别感谢Jeff和Vincent愿意相信我和我的团队,为我们下注"。

深远的影响

"这些经历对职业生涯至关重要。或许当时我并未充分感激,但回头看,它们产生了深远影响。我也希望能为他人的职业生涯带来同样的帮助。"

关于启发

波士顿动力:"反复展示'不可能'的事情,具有巨大的价值";赋予实验自由的组织:"OpenAI在这方面一直做得很好……ChatGPT最初只是John Schulman的个人项目,并非经过精密规划的企业战略,没有繁杂的报表和饼图,只是一个随心探索的项目。"

关于乐观程度

莱文表示,在资深机器人研究者中,他属于偏乐观的一派;但在机器人创业者中,他却偏悲观。"机器人领域的历史,是成功案例寥寥无几的历史,尤其是机器人AI领域。坦率地说,当前多数实用的机器人,仍在运行上世纪80年代的核心技术。这并非因为我们不够努力,而是机器人问题本身极具挑战性。"

关键洞见

愿意"赌"潜力的导师,对个人发展至关重要;波士顿动力通过突破认知边界,为行业带来启发;允许研究者自由实验的组织文化,是创新的土壤。

精华收获

🔧

通用性 > 专用性:新的技术范式

Physical Intelligence的核心判断是:在机器人领域,构建通用基础模型可能比开发专用系统更易成功。这与语言模型的发展轨迹一致——通用模型能整合更广泛的数据,建立对世界的底层认知,进而更易衍生出各类应用。

启示:在商业和技术战略中,有时"打造通用平台"比"聚焦单一功能"更具价值——前提是找对实现路径。

🤔

莫拉维克悖论的深层启示

人类觉得简单的事(如拿杯子、叠衣服)对机器最难,因为这些能力是数百万年进化的产物。这提醒我们,用人类的直觉判断机器的难度,往往会产生偏差。

启示:评估技术挑战时,需跳出人类的认知框架,客观分析机器的能力边界。

🔗

生成式AI + 强化学习:未来的核心路径

AI领域的两大突破——生成式AI(复刻人类能力)与深度强化学习(超越人类水平)——的融合,是机器人领域的核心方向。

启示:真正的技术突破,往往来自看似对立的两种路径的结合。

🤝

人机共舞:机器人时代的劳动图景

机器人不会简单取代人类,而是像编码工具一样——提升生产力,创造新的协作模式,形成"人机共舞"的格局。

启示:思考技术影响时,应聚焦"增强"和"协作",而非单纯的"替代"。

⚖️

研究者的核心素养:平衡坚持与变通

判断何时坚持、何时转向,是研究者最重要的能力。过早放弃可能错失突破,过晚转向则浪费时间。

启示:所有创造性工作中,平衡坚持与灵活调整都是成功的关键。

🎲

机遇的价值:那些"赌"你的人

莱文强调,职业生涯中最宝贵的,是那些在他缺乏经验时愿意"赌"他潜力的人。这种早期机会,对个人发展至关重要。

启示:若你处于能给予机会的位置,不妨给有潜力的新人一次机会;若你寻求机会,记住最宝贵的不是"完美匹配",而是有人愿意相信你的潜力。

🌱

创新的土壤:自由实验的文化

从谷歌的"手臂农场"到OpenAI的ChatGPT(最初的个人项目),伟大的创新往往源于允许自由实验的组织文化。

启示:组织若想激发创新,需为研究者创造宽松的实验环境,允许"非规划内"的探索。