世界顶尖机器人研究员纵论AI、大模型与机器人智能

01

何为"物理智能"

00:02:39 - 00:05:19

核心观点

物理智能的核心目标，是研发能够控制各类实体系统、完成任意物理任务的机器人基础模型。正如语言模型已进化为能处理所有语言任务的通用系统，物理智能要打造的，是能胜任一切物理交互任务的AI。

深度解读

看似复杂、实则更易实现的底层逻辑

这一愿景看似宏大，但莱文的解读揭示了其"看似复杂、实则更易实现"的底层逻辑。在语言模型领域，我们见证了一个关键趋势：曾经针对特定场景的专用系统（如机器翻译、情感分析），最终都被通用语言模型取代。究其原因，通用模型能利用更广泛的数据源——并非简单整合不同任务的数据，而是通过学习弱标注数据（如全网文本）建立对世界的理解，在此基础上开发各类应用会变得事半功倍。

机器人领域的相似逻辑

机器人领域遵循相似的逻辑。尽管我们尚未拥有"互联网规模"的机器人数据集，但"理解世界"在机器人领域的重要性更为突出。如果机器人能从不同任务、不同机型、不同场景中学习，就能建立对物理交互的底层认知——就像人类能快速掌握新技能一样，因为我们理解物理互动的核心规律。

关键洞见

通用性最终可能比专用性更易落地；核心是建立"物理认知"，而非记忆特定任务的操作流程；跨任务、跨机器人的数据融合能产生1+1>2的协同效应。

个人思考

莱文的这一观点极具启发性。我们通常认为"专注某一领域"更容易成功，但在本轮AI革命中，最强大的系统恰恰是通用性最强的。这一现象挑战了我们对"专业化"的传统认知。

延伸思考

这种逻辑是否适用于其他领域？在商业实践中，我们是否有时过度追求垂直专业化，而忽视了搭建通用平台的价值？

02

押注通用机器人：未来的无限可能

00:05:19 - 00:06:59

核心观点

一旦通用机器人基础模型研发成功，将彻底释放人类的想象力，引发机器人领域的"寒武纪大爆发"——正如个人电脑的出现催生了无数创新应用一样。

深度解读

个人电脑的发展史类比

莱文用个人电脑的发展史做了生动类比。个人电脑之所以成为划时代的发明，是因为它让任何人都能"拼凑"出有趣的创新，从上世纪90年代开始，各类应用层出不穷，互联网的出现更是加速了这一进程。

当前机器人领域的困境

而当下的机器人领域尚无法实现这一点：若想开发一款新的机器人应用，你需要搭建一整套"庞大的技术栈"，并且几乎要独立解决所有智能控制问题。但如果有一个可复用的基础模型——一个能通过指令调用、具备基础功能，且可微调适配的平台——那么无数个人、企业都将能尝试开发各类机器人应用。

机器人的形态多样性

莱文特别强调，机器人绝不会是"单一形态"的产物——并非简单的"金属人形机器"。它更像一套工具包，可通过多种方式组合创新。比如有人可能研发一款拥有五条机械臂、悬挂在天花板上的机器人，专门解决某一细分领域的问题。

关键洞见

基础模型的核心价值在于降低创新门槛；机器人的形态将高度多样化，人形只是其中一种；核心目标是让更多人能参与机器人的实验与创新。

"我认为机器人领域可能会重演这一历程，但当下还做不到——因为如果你想开发一款酷炫的新机器人应用……你得搭建一套极其复杂的技术栈，而且基本上要自己解决所有智能控制的难题。"

延伸思考

这让我们联想到移动互联网时代：iOS和Android作为基础平台，让无数开发者得以创造各类应用。机器人基础模型，或许就是下一个这样的平台级机会。

03

人形机器人：噱头还是未来？

00:06:59 - 00:08:46

核心观点

人形机器人的最大优势是"吸睛"——能直观展现未来的可能性，激发大众想象。但它只是机器人众多形态之一，所有机器人面临的核心智能挑战都是相通的。

深度解读

莱文的有趣看法

莱文对人形机器人的看法颇具趣味。他承认"酷炫感"有其价值——能让大众理解技术愿景、激发想象力，但同时强调，人形只是机器人众多形态中的一种。

通用化的解决方案

更重要的是，他认为所有不同形态的机器人，面临的智能挑战本质上是一致的。我们不应局限于特定的"身体形态"去解决智能问题，而应追求通用化的解决方案。

避免绑定特定形态

"如果把智能问题绑定在特定身体形态上，其实会让问题变得更难。我们需要海量数据支撑研发，而机器人的魅力在于，它们最终完全不必长得像人类。"

极端案例

莱文举了一个极端例子：未来或许能用一万架四旋翼无人机协同建造房屋。届时，我们会有一个通用的机器人基础模型，能适配各类应用场景——从推土机到人形机器人，再到机械臂。模型可能需要针对不同形态微调，但"如何与物体交互""物体的运动规律""因果关系的底层逻辑"——这些核心原理对所有系统都是通用的。

关键洞见

人形形态更多是"沟通工具"，而非技术最优解；物理交互的核心原理适用于所有机器人形态；未来的机器人将根据任务场景优化形态，而非模仿人类。

延伸思考

这让我们想到自然界的启示：人类不会飞，却造出了比鸟更高效的飞机；人类不善游泳，却造出了远超鱼类的潜艇。技术演进的路径，往往不是模仿自然，而是找到适配场景的最优解。

04

机器人研究的历史里程碑

00:10:12 - 00:15:31

核心观点

机器人学习的核心难点在于：需要系统兼顾三大特性——经济高效的训练方式、应对长尾场景的常识判断能力、快速可靠的执行效率。直到近年多模态语言模型的出现，才为"常识获取"这一难题提供了可行路径。

深度解读

端到端控制的历史

莱文回顾了机器人学习的发展历程。端到端控制其实是个由来已久的想法——早在1980年代，名为ALVINN的自动驾驶系统就已采用神经网络，直接通过摄像头数据控制车辆行驶。

三大核心条件

但长期以来，研发满足以下条件的系统异常困难：1. 针对具体应用具备成本效益（无需为每个应用收集海量专属数据）；2. 能依靠常识处理异常场景（遇到突发情况时做出合理反应）；3. 对核心任务具备快速、可靠、稳健的执行能力。

数据效率的挑战

要同时满足这三点难上加难，因为机器学习的效果高度依赖数据量。如果用"朴素"的方式解决机器人任务（比如洗盘子），直观的做法是收集海量洗盘子数据，但这极不经济——换一个任务又要重复这一过程。莱文强调，这正是研发能处理多任务的通用模型的核心意义——如今新任务所需的数据量已大幅减少。

常识从何而来？

而过去几年最大的突破在于：系统还需应对从未经历过的异常场景。此时需要依托其他渠道获取的知识，在新场景中落地应用。人类在这方面极具优势。比如开车时，若路面出现障碍物，且有警示牌提示"此处煤气泄漏，禁止通行"，即便从未遇到过这种情况，你也能整合信息、做出正确判断——这正是常识的作用。

长期困扰的核心难题

这是长期困扰机器人学习领域的核心难题：常识从何而来？而近年的技术变革给出了答案：多模态语言模型擅长提取并表达各类知识。尽管它们尚不擅长将这些知识"落地"到物理场景中，但具备海量的知识储备。

落地的挑战

因此，如今可通过复用多模态大模型的知识来获取常识，不过仍有一个挑战——需要找到正确的连接方式：不能简单给模型看一张图片就问"该怎么做"，因为模型缺乏上下文，不知道自身是机器人、不清楚自身形态，也不了解当前场景的背景。

关键洞见

通用模型是解决数据效率问题的核心；大语言模型为常识获取提供了新路径，但需解决"落地适配"问题；这是近年机器人领域的重大突破。

"这一直是机器人学习领域的一大谜团：常识究竟从何而来？……而过去几年的变化在于，多模态语言模型确实擅长整合各类知识。"

05

生成式AI与深度强化学习的融合之路

00:15:31 - 00:21:24

核心观点

过去几十年AI领域的两大里程碑成果——生成式AI（如大语言模型）和深度强化学习（如AlphaGo）各有所长。机器人领域的核心挑战，是如何融合二者优势：既借助生成式AI获取海量知识，又通过强化学习实现超越人类水平的表现。

深度解读

莱文的研究历程

莱文分享了自己的研究历程。他2014年投身机器人研究，此前主攻计算机图形学。他一直试图解决的核心问题是：如何让AI系统在实践中持续进化？"如果一个系统能通过不断执行任务实现自我优化，且始终保持进步，那么它的能力将没有上限，最终能掌握所有你期望的技能。"

从零开始的尝试

最初，他尝试"从零开始"的思路——让系统从空白状态练习特定技能，直至精通。这种方式在限定场景下有效，但很难拓展为适用于开放世界的通用系统。

并行化训练的探索

后来，他在谷歌尝试并行化训练——将20台机器人置于同一空间，让它们协同学习。这一方法确实有效且具备泛化能力，但难以处理边缘场景，因为系统会变成特定任务的"专家"，只掌握这一种技能。

核心挑战

莱文认为，下一步的关键是将"技能练习"能力与海量先验知识融合——这是个极具挑战性的难题，不仅限于机器人领域，而是整个AI领域的核心课题。

两大里程碑的对比

"若要找一个例子概括生成式AI，那就是大语言模型；而深度强化学习的代表则是AlphaGo。两者都令人惊叹，但背后的原因截然不同：生成式AI的厉害之处，在于能复刻人类的能力——画出像人类创作的画作、写出符合人类表达习惯的文本；而深度强化学习的惊艳之处恰恰相反——它能做出人类从未想到的决策，比如AlphaGo在围棋中走出的第37手。"

融合的路径

核心挑战在于如何融合这两种技术路径：如何借助生成式AI获取海量知识，同时通过强化学习实现超越人类水平的表现。Physical Intelligence的解决方案：1. 先搭建基础框架——"视觉-语言-动作模型"（VLAM），本质是适配机器人控制场景的大语言模型；2. 再沿两个方向深化研究：如何通过"思维链"让系统用常识处理异常场景；如何通过强化学习持续优化系统表现。

关键洞见

生成式AI = 复刻人类既有能力；深度强化学习 = 突破人类认知边界；机器人的未来，在于融合二者的优势。

延伸思考

这种"二元融合"在技术发展中十分常见。有的技术擅长模仿，有的技术擅长创新，而真正的突破往往来自二者的结合。

06

莫拉维克悖论：为何简单的事对机器人最难？

00:21:24 - 00:25:41

核心观点

人类眼中的"难事"（如微积分）对机器而言易如反掌，而人类觉得"简单"的事（如拿起杯子）对机器却难如登天。这是因为这些"简单"的能力是人类数百万年进化的产物，早已内化为本能。但机器学习正逐步改变这一格局。

深度解读

机器人领域的核心概念

这是机器人领域的核心概念，也是理解AI发展瓶颈的关键。莱文解释道，我们存在一种认知偏差：认为对人类简单的事，对机器也该如此。比如解微积分对多数人来说很难，但拿起杯子却轻而易举，因此我们想当然地认为机器也该轻松做到后者——但事实恰恰相反。

进化的作用

"人类觉得简单的事之所以简单，是有进化层面的原因的——否则我们无法生存。比如我们能快速发现丛林中的老虎，因为不具备这种能力的祖先早已被淘汰。"

技术改变格局

但技术正在改变这一局面：机器学习让这一"难易方程"发生了变化。若靠手工编程让机器拿起任意位置的任意杯子，难度极大；但如果有足够数据，让机器学习系统自主学习，这件事反而没那么难。

未来的趋势

莱文认为，随着技术发展，我们会看到一个趋势：数据收集难度低的领域，最终会被归为机器的"易区"，即便这些任务涉及复杂的物理操作；而那些数据收集困难、需要大量常识判断、需在多个抽象层面推理，且要将物理技能与网络知识结合的任务，仍会是难点，需要更多技术突破。

关键洞见

莫拉维克悖论解释了机器人"易事难办"的核心原因；机器学习可通过数据积累部分破解这一悖论；真正的挑战在于需要常识和多层推理的任务。

延伸思考

这一悖论提醒我们：我们对"难度"的定义可能存在偏差。真正的难题，或许是那些我们无需思考就能完成的事——因为这些能力早已被进化"预装"进人类的大脑。

07

厨房机器人与常识科学：让机器人听懂指令

00:25:41 - 00:29:36

核心观点

在机器人学习领域，"常识"可定义为：将其他领域学到的知识，应用于当前物理任务的语义推理能力。常识与肌肉记忆恰恰相反——肌肉记忆是通过反复练习形成的自动化反应，而常识是将通过观察、阅读、交流获取的知识，应用于新场景的能力。

深度解读

常识的清晰定义

莱文给出了一个清晰的定义：在机器人学习中，常识可理解为利用跨领域知识，对当前执行的物理任务进行语义推理的能力。"你可以把常识看作肌肉记忆的对立面：从事某项运动时，通过大量练习，你无需思考就能做出动作，这就是肌肉记忆；而常识……是当你通过看、读、听掌握了某个事实，当身处相关场景时，能将这一事实与当前任务关联，做出正确决策。"

重大突破

一个有趣的发现是，Physical Intelligence的模型在约6个月前迎来了转折点：系统可通过高级指令监督实现能力提升。具体来说：将机器人置于全新的厨房环境中，让它完成清洁任务，若系统在某个环节失败，传统做法是补充更多远程操控数据，以覆盖更多厨房场景；但他们尝试了一种新方式：不新增远程操控数据，仅用语义指令标注机器人的操作过程。

显著提升泛化能力

"这一方法确实有效，显著提升了系统的泛化能力。这意味着，系统的瓶颈已从底层的物理执行能力，转移到了中层的语义理解能力——如今系统的表现，更多受制于场景解读和下一步决策的能力，而这一能力可通过语言监督来提升。"

教练式训练

这是一项重大突破，因为这意味着人类可通过自然语言与机器人交互，以"教练指导"的方式训练机器人。

关键洞见

常识 = 跨领域知识的迁移应用能力；肌肉记忆 = 重复练习形成的自动化行为；机器人AI的瓶颈正从物理技能转向语义理解。

"这是个重大突破，因为如今人类真的可以通过对话，以教练的方式训练机器人。"

延伸思考

这一发现意义重大——机器人不再仅能从"动作演示"中学习，还能从"语言指导"中进化，这大幅降低了机器人的训练门槛。

08

机器人奥运会：真正的挑战是日常小事

00:30:48 - 00:38:02

核心观点

机器人真正的挑战，并非跑跳、翻跟头这类运动技能，而是人类觉得"不值一提"却让机器人束手无策的日常任务。Physical Intelligence用一套"机器人奥运会"任务测试其通用系统，结果几乎完成了所有任务——且未针对这些任务做任何专项开发。

深度解读

有趣的背景故事

莱文分享了一个有趣的故事。曾任职于Everyday Robots的Benji Hson在博客中指出，中国举办的机器人奥运会聚焦于机器人的跑跳等运动能力，但这些并非真正的技术挑战。他提议打造一套以日常任务为核心的"机器人奥运会"——这些任务人类轻松就能完成，却难倒了当前所有机器人系统。

典型的日常任务

他列出了十几个典型任务，例如：开门、清洗油腻的煎锅、用塑料袋捡拾宠物粪便。这些任务人类并不觉得有难度，但目前没有任何机器人系统能完成。

Physical Intelligence的测试

Physical Intelligence决定以此测试自家系统。这并非专项研究项目，更多是对内部流程和模型训练体系的验证，结果却出人意料："我们几乎完成了所有任务。唯一没做到的是把衬衫翻面——因为夹具无法伸进袖子里，我们需要改进夹具设计；剥橙子的任务也略有遗憾——要求用手指剥，但我们的机械指力量不足，最终不得不借助小刀这类工具。除此之外，所有任务都完成了。"

通用系统的价值

对莱文而言，真正值得关注的是：他们并未针对这些任务做任何专项开发，只是将其作为"任务适配流程"的测试案例。"这一结果充分体现了通用系统的价值——当拥有通用基础模型后，你能快速适配各类看似复杂的任务，无需进行繁琐的专项开发。"

关键洞见

机器人的核心挑战是日常任务，而非运动技能；通用系统的核心优势是快速适配新任务的能力；Physical Intelligence的系统展现出了惊人的泛化能力。

延伸思考

这一测试设计十分巧妙——用"普通人的日常任务"而非"机器人专家的技术指标"来验证系统，更贴近真实的应用场景。

09

身体延伸：工具即身体的生理本质

00:36:31 - 00:42:17

核心观点

"工具是身体的延伸"并非比喻，而是真实的生理现象——实验表明，猴子大脑中的神经元会根据工具尖端（而非手部）的位置激活。这意味着优秀的基础模型应能控制任意形态的"身体"和工具——本质上这是同一个问题，而非多个独立问题。

深度解读

物理智能的"顿悟"时刻

莱文的联合创始人Locky曾描述，人类的"物理智能"就像学骑自行车：某一刻突然从"不会"到"会"，那种豁然开朗的感觉，就是物理智能的体现，是对物理规律理解的"顿悟"。

明确的生理学依据

莱文补充道，这一感受有明确的生理学依据。针对猴子使用工具的研究发现，可通过监测神经元激活情况，判断猴子对自身手部位置的感知。"实验结果显示，当猴子使用工具时，神经元会根据工具尖端的位置激活，而非手部位置。这说明'工具是身体的延伸'是真实的生理现象，人类的大脑也是如此运作的。"

研究方法的启示

这一发现对研究方法的启示是：物理智能应与具体的身体形态解耦。一个优秀的基础模型，应能适配并控制任意形态的"身体"和工具。本质上，这是一个通用问题，而非一系列独立的细分问题。

通用问题的价值

"不存在'人形机器人专属问题''汽车专属问题''推土机专属问题'或'桌面机械臂专属问题'——只有一个通用问题。若能以完全通用的方式解决这个问题，其价值将无可估量。"

关键洞见

"工具即身体"是真实的神经科学现象；机器人智能应脱离具体形态的束缚；通用性是终极目标，因为所有控制问题本质上是统一的。

延伸思考

这一观点极具深度——如果智能真的具备通用性，那么它应能像人类操控工具一样，驾驭任意形态的"身体"。

10

机器人领域的学术之争：分歧与共识

00:38:56 - 00:48:27

核心观点

机器人领域的核心争论包括：学习是否有价值？端到端学习是否是正确路径？仿真数据与真实数据孰优孰劣？这些争论推动了领域进步。而最难的机器人任务，可能是涉及人际互动的场景，比如照顾老人和儿童。

深度解读

争论1：机器学习在机器人AI中是否必要？

早期这一问题极具争议。传统工程视角下，机器人与软件产品差异巨大——它们是物理实体，能影响周边环境，存在安全风险，还可能陷入各类异常状态。"机器人研究界花了很长时间才真正接受一个观点：不必将物理知识硬编码进系统。机器人做决策时，无需内置物理模拟器，而是可通过学习系统自主掌握这些规律。这一观点在很长时间里都极具争议。"

争论2：端到端学习是否是最优路径？

莱文认为，"苦涩教训"（The Bitter Lesson）尚未成为行业共识——即应从数据中学习规律，而非按照人类的认知逻辑为机器编程。"我对这一观点的辩护是：若想在复杂的开放世界中实现可靠的机器人控制，就必须利用人类已掌握的物理知识。我们有厚厚的物理教科书，为何不直接将这些知识融入系统？"

争论3：仿真数据vs真实数据

这是当前最具争议的话题之一。观察人形机器人的杂技视频会发现，其背后的技术路径高度依赖仿真数据，真实世界数据的占比极低，甚至为零。而在机器人操作领域，效果最佳的方法往往相反——仿真数据用量极少，主要依赖海量真实世界数据和大型基础模型。

值得深思的现象

"同一领域内，两个细分方向的主导方法差异如此之大，这一现象令人深思。或许最终某一种方法会胜出，也可能需要融合两种思路的优势。"

最难的任务是什么？

莱文认为，给婴儿换尿布会是极具挑战性的任务。"这再次印证了莫拉维克悖论：人类擅长某些能力，既包括物理操作，也包括人际互动。涉及人际互动的任务——比如协助老人下床——难度远超想象。""照顾老人、看护儿童这类任务，难度会比人们预期的大得多。"

关键洞见

学术争论是推动领域进步的核心动力；仿真与真实数据的方法差异值得深入研究；涉及人际互动的任务，可能是机器人领域的终极挑战。

延伸思考

这些争论表明，即便在同一技术领域，也存在不同的方法论和哲学理念——这种多样性对领域发展而言是健康的。

11

何为优秀的研究者？平衡与激情

00:44:18 - 00:54:09

核心观点

优秀研究者的核心能力，是判断何时尝试新方向、何时坚持现有路径。过早放弃可能错失突破，过晚转向则可能浪费时间。不存在统一的"研究者特质"，激情的来源可以多种多样。

深度解读

研究与工程的区别

莱文对"优秀研究者"的思考极具洞见："研究与工程截然不同——研究的核心是找到问题的答案，这往往需要走捷径。"

最难的核心决策

"研究者最难的决策之一，是判断何时尝试新方向、何时坚持现有路径。这一决策极其微妙，一旦出错，可能错失重大突破。""如果过早放弃，可能离答案仅一步之遥却半途而废，这无疑是遗憾的；但如果过度坚持，数年执着于无解的问题，同样是浪费时间。因此，判断何时微调方向、探索新可能性，何时坚守原有路径、直至找到答案——这往往是研究者最重要的能力。"

优秀研究者的特质

关于优秀研究者的特质，莱文表示："很难用一套固定的性格特征来定义。唯一的共性，就是没有共性……或许有一个共同点：要做好科学研究，必须对其充满激情。但即便这份激情，也可来自不同的源头。"

不同类型的研究者

"我合作过许多优秀的研究者：有人纯粹为探索新奇想法驱动——不在乎技术的应用场景，也不在乎是否有实际价值，只追求酷炫的新点子；也有人专注于解决特定问题——搭建系统、验证实验、反复调试，无论形式如何，只要能解决问题就倍感满足。这些不同类型的研究者，都能做出卓越的贡献。"

关键洞见

平衡"坚持"与"转向"，是研究者的核心能力；不存在统一的"研究者性格模板"；激情的来源多元：对新奇的渴望、对问题的执着等。

延伸思考

这一洞见适用于所有创造性工作——无论是创业、艺术创作还是科学研究，平衡坚持与灵活调整都是成功的关键。

12

企业如何迎接机器人时代？协作而非替代

00:48:27 - 00:57:02

核心观点

企业当下难以精准布局机器人领域，因为技术迭代速度极快。编码工具的发展提供了参考模板——AI工具与人类协作提升生产力，而非简单替代。机器人时代也将呈现类似的"人机共舞"格局。

深度解读

技术快速迭代的不确定性

莱文坦言这是个难题，因为技术变化实在太快。他用一个具体例子说明这种不确定性："机器人研发应更多依赖演示数据，还是自主强化学习数据？我们两个方向都有布局，且显然二者都很重要。但企业的备战策略，会因数据依赖比例（是90%演示+10%自主学习，还是10%演示+90%自主学习）而截然不同。"

未来的技术路径

"这一比例的答案，是我们未来几年希望厘清的问题，而它将彻底改变最优的技术路径。"

编码工具的参考模板

关于机器人对劳动力的影响，莱文认为编码工具的发展提供了绝佳参考："编码工具的出现，并未让软件工程师消失，而是提升了工程师的个人生产力。要让这些工具发挥价值，需要帮助人们掌握使用方法；同时也需要持续的技术迭代，让工具适配更多场景——这是一个协同进化的过程，且仍在持续。"

"人机共舞"的未来图景

"这一历程可为机器人领域提供借鉴：AI工具与人类协作，共同提升生产力，同时带来新的挑战。机器人时代的图景，不会是'人形机器人取代人类'，而是更复杂的协作模式。""未来，工作的部分环节可由机器人完成，部分环节需人机协同；人类需做一些特殊工作来提升机器人效率，反之机器人也能助力人类——这将是如同编码工具与程序员之间的'共舞'关系。"

关键洞见

技术的不确定性让企业备战变得困难；编码工具的发展，为人机协作提供了参考模板；机器人更可能"增强"人类能力，而非简单替代。

延伸思考

"人机共舞"的比喻十分贴切。技术的影响往往不是简单的"替代"，而是重新定义角色，创造新的协作模式。

13

下一步：聚焦中层推理，突破泛化瓶颈

00:57:02 - 01:02:00

核心观点

Physical Intelligence当前的研究重点，是深入理解"中层推理"问题。团队已掌握底层物理行为的控制方法，但要实现行为的泛化，需融入海量常识知识，而知识的表示形式可能是关键。

深度解读

当前的核心重点

莱文分享了团队当前的核心研究方向："可以明确的是，我们当前的核心重点是深入研究中层推理问题。我们已清晰掌握底层物理行为的控制方法，但要让这些行为具备泛化能力，必须融入大量常识知识——而知识的表示形式，可能是解决问题的关键。"

文本表示的局限

"大语言模型让文本类知识的表示变得便捷，能轻松实现文本到文本的转换，但这未必是机器人系统的最优表示方式。有时系统需要空间化的思维，有时需要语义化的理解，有时则需要其他形式的表示。因此，构建适配机器人的内部推理过程，是一个至关重要的问题——而这一问题的答案，可能与大语言模型领域截然不同。"

如何追踪领域进展

关于如何追踪机器人领域的进展，莱文建议："大部分成果会发表在研究论文中。但论文并非易获取的信息源，需要花心思梳理、辨别哪些是真正有价值的突破……"

关键洞见

中层推理是当前的核心研究方向；文本表示未必适配机器人的需求；需融合空间、语义等多种表示形式。

延伸思考

这暗示机器人AI可能需要区别于大语言模型的架构。尽管语言模型提供了强大的推理能力，但物理世界的交互可能需要全新的知识表示框架。

14

最珍贵的善意：那些"赌"我的人

01:02:00 - 结束

核心观点

莱文最感恩的，是职业生涯中那些愿意"赌"他的人——在他几乎毫无经验时给予机会的人。同时，波士顿动力（Boston Dynamics）和那些赋予研究者实验自由的组织，也让他深受启发。

深度解读

三个关键时刻

当被问及"他人对你做过的最善意的事是什么"时，莱文分享了三个关键时刻：1. 英伟达实习经历：大学期间获得实习机会，接触到前沿技术，"招聘经理愿意在我身上下注"；2. Peter Abhel的博士后机会：开始博士后研究时，他毫无机器人领域经验，仅做过虚拟角色动画和计算机图形学研究，"我觉得这更多是对我潜力的认可，而非基于已有成就"；3. 谷歌"手臂农场"项目：2015年与同事启动的项目，用数十台机器人收集数据，"我特别感谢Jeff和Vincent愿意相信我和我的团队，为我们下注"。

深远的影响

"这些经历对职业生涯至关重要。或许当时我并未充分感激，但回头看，它们产生了深远影响。我也希望能为他人的职业生涯带来同样的帮助。"

关于启发

波士顿动力："反复展示'不可能'的事情，具有巨大的价值"；赋予实验自由的组织："OpenAI在这方面一直做得很好……ChatGPT最初只是John Schulman的个人项目，并非经过精密规划的企业战略，没有繁杂的报表和饼图，只是一个随心探索的项目。"

关于乐观程度

莱文表示，在资深机器人研究者中，他属于偏乐观的一派；但在机器人创业者中，他却偏悲观。"机器人领域的历史，是成功案例寥寥无几的历史，尤其是机器人AI领域。坦率地说，当前多数实用的机器人，仍在运行上世纪80年代的核心技术。这并非因为我们不够努力，而是机器人问题本身极具挑战性。"

关键洞见

愿意"赌"潜力的导师，对个人发展至关重要；波士顿动力通过突破认知边界，为行业带来启发；允许研究者自由实验的组织文化，是创新的土壤。

世界顶尖机器人研究员纵论AI、大模型与机器人智能

核心洞察

物理智能——打造机器人基础模型

通用机器人——引发"寒武纪大爆发"

人形机器人——沟通工具而非终极形态

机器人学习——从端到端控制到常识获取

AI融合——生成式AI+强化学习

莫拉维克悖论——为何简单事最难

深度洞察

何为"物理智能"

押注通用机器人：未来的无限可能

人形机器人：噱头还是未来？

机器人研究的历史里程碑

生成式AI与深度强化学习的融合之路

莫拉维克悖论：为何简单的事对机器人最难？

厨房机器人与常识科学：让机器人听懂指令

机器人奥运会：真正的挑战是日常小事

身体延伸：工具即身体的生理本质

机器人领域的学术之争：分歧与共识

何为优秀的研究者？平衡与激情

企业如何迎接机器人时代？协作而非替代

下一步：聚焦中层推理，突破泛化瓶颈

最珍贵的善意：那些"赌"我的人

精华收获

通用性 > 专用性：新的技术范式

莫拉维克悖论的深层启示

生成式AI + 强化学习：未来的核心路径

人机共舞：机器人时代的劳动图景

研究者的核心素养：平衡坚持与变通

机遇的价值：那些"赌"你的人

创新的土壤：自由实验的文化