OpenAI早期员工David Luan最新访谈：DeepSeek并未改变AI技术的叙事

来源：明亮公司

2025-02-25 18:23:03

（原标题：OpenAI早期员工David Luan最新访谈：DeepSeek并未改变AI技术的叙事）

作者：MD

出品：明亮公司

近日，在红点创投（Redpoint Venture）的播客“Unsupervised Learning”上，红点创投合伙人Jacob Effron与David Luan进行了一次访谈。他们从技术视角出发，探讨了DeepSeek给大模型领域的研究和实践带来的启示，并围绕AI模型当下瓶颈的思考和潜在的突破方向做了分享。

David Luan是OpenAI的早期员工，他从2009年从耶鲁大学毕业，先加入了iRobot从事机器人工作，随后曾在多家公司任职（包括微软），直到2017年加入了仍处于早期的OpenAI，当时研发团队只有35个人。在这次的访谈中他也提到，加入一家人工智能公司的原因是来自于对机器人的兴趣，他认为“机器人最大的限制在于底层算法的智能程度”。

2020年，David Luan离开OpenAI加入了谷歌，不过没待多久，他就和谷歌期间结识的两位同事共同创立饿了Adept，并担任CEO。去年8月，他加入亚马逊担任AGI旧金山实验室的负责人。

以下为「明亮公司」编译的访谈正文（略有删节）：

大模型的局限性与强化学习的价值

Jacob：David Luan是亚马逊 AGI 实验室的负责人。他之前是Adept公司的联合创始人兼CEO，该公司筹集了超过4亿美元用于开发AI Agent。他曾在担任OpenAI的工程副总裁任期内参与了许多关键突破。我是Jacob Effron。

今天在节目中，David和我探讨了许多有趣的话题，包括他对DeepSeek的看法，对未来模型进展的预测，我们讨论了Agent的现状以及如何使它们变得可靠，以及它们何时会无处不在。他还分享了一些关于OpenAI早期的有趣故事，以及那里独特的文化。这是一次非常有趣的对话，因为 David 和我已经认识超过十年了。我认为听众们会很喜欢。David，感谢你来参加我们的播客。

David：感谢邀请我。这将非常有趣，因为我们已经认识超过十年了。

Jacob：我记得你最初加入OpenAI的时候，我觉得这似乎很有趣，但我不确定这是否是一个明智的职业选择。然后很明显，你总是比别人更早地看到机会。

David：我真的很幸运，因为我一直对机器人感兴趣，而（当时）机器人最大的限制在于底层算法的智能程度。所以我开始从事人工智能的工作，看到这些技术在我们有生之年取得进展，这真的很酷。

Jacob：今天我想和你探讨很多话题。我想先从最近的热门话题开始。显然，过去几周对 DeepSeek 的反应很大。人们对此议论纷纷，股票暴跌。有人说这对OpenAI和Anthropic不利。我觉得现在人们的情绪已经从最初的惊慌失措中缓和下来了。但我很好奇，人们在更广泛的讨论中，对这一事件的影响有什么看法是对的，又有什么是错的？

David：我还记得那天早上，大家都在关注DeepSeek的消息。我醒之后一看手机，有五个未接电话。我心想，到底发生了什么？上次发生这种情况是在SVB（硅谷银行）倒闭的时候，因为所有投资人都在打电话让我把资金从SVB和第一共和银行撤出来。所以我想，肯定发生了什么糟糕的事情。我查看了新闻，发现股票暴跌是因为DeepSeek R1的发布。我立刻意识到，人们对这件事的理解完全错了。DeepSeek做的非常出色，但它是这个更广泛叙事的一部分——即我们首先学会如何让新的大模型变得更智能，然后我们再学会如何让它们变得更高效。所以这其实是一个转折点。而大家误解的地方在于，仅仅因为你可以在更低的成本下实现更多的智能，并不意味着你会停止对智能的追求。恰恰相反，你会使用更多的智能。所以当市场意识到这一点后，现在我们又恢复了理性。

Jacob：鉴于至少基础模型似乎已经在OpenAI的基础上进行了训练，你可以通过各种方式让基础的DeepSeek模型表现得像ChatGPT。那么，展望未来，鉴于知识蒸馏的原因，OpenAI和Anthropic是否会停止更公开地发布这些模型？

David：我认为会发生的情况是，人们总是想要构建最智能的模型，但有时候这些模型并不总是推理高效的。 所以我认为我们会越来越多地看到，尽管人们可能不会明确讨论这一点，但人们会在内部实验室中训练这些巨大的“教师模型”（teacher models），利用他们能拿到的所有计算资源。然后他们会尝试将其压缩成适合客户使用的高效模型。目前我看到的最大问题是，我将人工智能的用例想象成复杂性的同心圆。最内层的复杂性可能是像与基础语言模型进行简单的聊天对话，我们在GPT-2就已经能够很好地做到这一点。而每一个增加的智能层级，比如能够进行心算、编程，或者后来的Agent，甚至是药物发现等，都需要更智能的模型。但每一个之前的智能层级几乎变得如此廉价，以至于可以被量化（quantize，指降低模型数值精度来降低资源消耗）。

Jacob：这让我想到测试时计算（test-time compute）的趋势。这似乎是一条非常令人兴奋的前进道路，尤其是在编程、数学等容易验证的领域。这种范式能带我们走多远？

David：有一系列论文和播客记录了我多年来关于如何构建 AGI（通用人工智能）的讨论。

Jacob：让我们来给这些讨论加点新的东西。

David：所以现在我们可以证明，我们在这一刻进行了这次对话。但早在2020年，当时我们开始看到GPT-2的出现，GPT-3可能已经在开发中或已经完成。我们开始思考GPT-4，我们生活在一个人们不确定是否只需要预测下一个token（next token prediction）就能解决所有AGI问题的世界里。我的观点，以及我周围一些人的观点实际上是“不”。原因在于，如果一个模型被训练成下一个token预测，那么它本质上会因为发现新知识而受到惩罚，因为新知识并不在训练集中。因此，我们需要做的是，我们需要看看其他已知的机器学习范式，这些范式可以真正发现新知识。我们知道强化学习（RL）可以做到这一点，RL在搜索中可以做到这一点，对吧？是的，或者像 AlphaGo，这可能是第一次让公众意识到我们可以使用 RL 发现新知识。问题一直是，我们什么时候会将大型语言模型（LLMs）与RL结合起来，以构建出既有全人类知识，又能在此基础上进行构建的系统。

Jacob：那么，对于那些不容易验证的领域，比如医疗保健或法律，这种测试时计算范式能否让我们构建出能够处理这些问题的模型？或者我们会变得非常擅长编程和数学，但仍然无法讲一个笑话？

David：这是一个值得辩论的话题，我有一个非常明确的观点。

Jacob：你的答案是什么？

David：这些模型的泛化能力比你想象的要强。每个人都在说，我用了GPT-1，它在数学方面似乎更好，但等待它思考时，它可能有点不如ChatGPT或其他模型。我认为这些只是通往更强大的小波折。今天，我们已经看到了一些迹象，这些迹象表明，通过明确验证模型是否正确解决了问题（就像我们在DeepSeek中看到的那样），确实会导致在类似领域的一些稍微模糊的问题上的迁移。我认为大家都在努力，我的团队和其他团队都在努力解决这些更复杂任务中的人类偏好问题，以满足这些偏好。

Jacob：是的。而且你总是需要能够构建一个模型来验证，比如“嘿，这个输出是好的法律意见”，或者“这个输出是一个好的医疗诊断”，这显然比验证一个数学证明或代码是否能运行要困难得多。

David：我认为我们正在利用的是这些模型的好坏之间的差距——同一组神经网络权重在判断自己是否完成了一项好工作方面的能力，与生成正确答案的能力相比。我们总是看到这些模型在判断自己“是否很好完成了一项工作方面”比“生成好的答案方面”更强。在某种程度上，我们正在利用这一点，通过一些RL工具（stuff），以让它自己对是否做好了一件事有感觉。

Jacob：为了真正推出像这样的模型，需要解决哪些研究的问题？

David：问题太多了，我想我可能只会列举三个我们需要问题。首先，我认为第一个问题是，你需要真正知道如何构建一个组织和流程，以可靠地做出模型。我一直对我团队和我合作的人说，今天，如果你运营一个现代人工智能实验室，你的工作不是构建模型，而是构建一个能够可靠地做出模型的工厂。当你这样想的时候，这完全改变了你的投资方向。在没有达到可复现之前，我认为在某种程度上，没有太多进步。我们刚刚经历了从炼金术到工业化的过程，这些模型的构建方式发生了变化。没有这个基础，这些模型就无法工作。我认为下一个部分是，你必须以慢为快。但我认为这是第一个部分。我总是相信，人们总是被算法吸引，因为它们看起来很酷、很性感。但如果我们看看是什么真正推动了这一切，其实是工程问题。例如，你如何进行大规模的集群计算，以确保它们能够可靠地运行足够长的时间？如果一个节点崩溃，你不会浪费太多时间在你的任务上。为了推动规模的前沿，这是一个真正的问题。现在，整个强化学习（RL）领域，我们将很快进入一个世界，那里会有许多数据中心，每个数据中心都会在基础模型上进行大量的推理，也许还会在客户带来的新环境中进行测试，以学习如何改进模型，并将这些新知识反馈到一个中心位置，让模型学会变得更聪明。

Jacob：有一些像Yann LeCun这样的人对大型语言模型（LLMs）的局限性最近一直在提出批评。我想让你为我们的听众总结一下这种批评，然后谈谈你对那些说这些模型永远无法进行真正的原创性思考的人的看法。

David：我认为我们已经有反例了，AlphaGo是一种原创性思考。如果你回顾早期 OpenAI的工作，我们使用RL来玩Flash游戏，如果你是那个年龄段的人，你可能还记得 MiniClip和类似的东西。这些曾经是中学时代的消遣，但看到它们成为人工智能的基石真的很有趣。我们当时正在研究如何使用我们的算法同时打通这些游戏，你很快就会发现它们学会了如何通过利用漏洞穿过墙壁等方式快速通关，这些是人类从未做过的。

Jacob：在验证方面，它主要是找到巧妙的方法，为这些不同领域找到验证的方法。

David：你就用模型就行了。

如何建立可靠的Agents

Jacob：我想把话题转向Agents的世界。你如何描述这些模型的现状？

David：我仍然对智能体（Agents）感到无比兴奋。这让我回想起2020、2021年，当第一波真正强大的模型如GPT4问世时。当你试用这些模型时，会感受到巨大的潜力——它能创作出优秀的说唱歌曲，能进行精彩的吐槽，三位数加法也基本过关。但当你让它"帮我订个披萨"时，它却只会模仿达美乐披萨客服的对话模式，根本无法完成实际任务。这显然暴露了这些系统的重大缺陷，对吧？

自那时起，我就坚信必须解决Agents的问题。当我在谷歌工作时，我们就开始研究后来被称为"工具使用"的课题——即如何向大型语言模型（LLM）展示操作接口，让它自主决定何时采取行动。虽然学术界一直称之为"智能体"，但当时公众还没有形成统一认知。为此我们尝试创造新术语"大型行动模型"（Large Action Model）来替代"大型语言模型"（Large Language Model），这个概念曾引发过一些讨论。但最终业界还是选择了"智能体"（Agent）这个称谓，如今这个术语已被滥用得失去了本真意义，这令人遗憾，但作为首家现代亚洲公司探索这个领域还是很酷的。

当我们创立Adept时，当时最好的开源LLM都表现欠佳。由于当时也不存在多模态LLM（如图像输入的LLM，像后来的GPT-4v），我们不得不从头开始训练自己的模型\我们不得不从头开始做所有事情，这有点像在2000年创办互联网公司却不得不打电话给 TSMC去制造自己的芯片，这简直太疯狂了。

所以一路上，我们学到的是，大型语言模型在没有今天的RL技术的情况下，本质上是行为克隆器（behavioral cloners），它们会做它们在训练数据中看到的事情——这意味着，一旦它们进入一个从未见过的情况，它们的泛化能力就会很差，行为变得不可预测。所以Adept一直专注于实用智能（useful intelligence）。那么实用性意味着什么？它不是推出一个在Twitter上引发病毒式传播的酷炫演示。而是将这些技术交到人们手中，让他们不必再做那些大多数知识工作者不得不做的繁琐工作，比如在电脑上拖动文件。所以这些知识工作者关心的是可靠性。所以我们的一个早期用例是：我们能否为人们处理发票？

Jacob：每个人都喜欢处理发票（笑）。对于这些通用模型来说，这似乎是一个自然的开始。

David：这是一个很棒的“Hello World”。所以当时没有人真正做过这些事情，我们选择了一个显而易见的“Hello World”用例。我们做了Excel等其他一些项目。如果这个系统每七次中有一次删除了你QuickBooks的三分之一条目，你就永远不会再次使用它。可靠性仍然是一个问题，即使在今天，像Operator这样的系统非常令人印象深刻，它似乎比其他云计算机Agents更胜一筹。但如果你看看这两个系统，它们都专注于端到端的任务执行，比如你输入“我想让你帮我找55个周末度假的地方”，它会尝试完成这个任务。但端到端的可靠性非常低，需要大量的人工干预。我们仍然没有达到一个点，企业可以真正信任这些系统，做到“一劳永逸”。

Jacob：我们必须解决这个问题。也许可以为我们的听众解释一下，如果你从现有的基础多模态模型开始，要将其转变为一个大型行动模型，背后实际上需要做哪些工作？

David：我可以从更跟高维度讨论这个问题，但基本上有两件事需要做。第一是工程问题，即如何以一种模型可理解的方式展示能做的事情。比如，这里是可以调用的API，这里是你可以调用的UI元素。让我们教它一点关于Expedia.com（注：旅行服务网站）或SAP的工作原理。这是一些研究工程的内容。这是第一步，即赋予它一种对自身能力的认知，以及基本的行动能力。

第二部分才是有趣的地方，即如何教它规划、推理、重新规划，并遵循用户指令，甚至能够推断出用户真正想要什么，并为其完成这些任务。这是艰巨的研发难题，它与常规的语言模型工作有很大不同，因为常规的语言模型工作是“让我们生成一段文本”，即使是今天的推理工作，比如数学问题，也有一个最终答案。

所以它更像是一个单步骤的过程，即使它涉及多步思考，它也只是为你提供了答案。这是一个完全的多步决策过程，涉及回溯，涉及尝试预测你采取行动的后果，并意识到删除按钮可能是危险的，你必须在基本设置中完成所有这些工作。

然后你将其放入沙盒环境中，让它在自己的条件下学习。最好的类比是，应该是 Andrej Karpathy（注：OpenAI创始团队成员，2024年创立AI+教育机构Eureka Labs）说过，现代AI训练有点像教科书的组织方式。首先，你有对某个物理过程的全部解释，然后是一些示例问题。第一部分是预训练，示例问题是监督式微调，而最后一步是开放性问题，也许教科书后面有答案。我们只是在遵循这个过程。

Andrej Karpathy对于大模型的描述（来源：X.com、明亮公司）

Jacob：我想你肯定已经对这些智能代理如何真正进入世界进行了很多思考。我想问几个问题。首先，你提到，部分问题是让模型知道自己可以访问什么。那么，随着时间的推移，模型将如何与浏览器和程序交互？这会类似于人类的交互方式吗？还是只是通过代码？还有其他方法吗？

David：如果我要评论这个领域的话，我认为目前最大的问题是，人们在如何与这些越来越智能的大模型和Agent进行交互方面缺乏创造力。你还记得iPhone刚出来时，App Store也出来了，人们开始制作各种应用程序，比如按下按钮发出打嗝声，或者通过倾斜手机将啤酒倒入嘴里的应用。我们的界面如今就像那样，感觉很糟糕，因为聊天是一种超级受限的、低带宽的交互方式，至少在某些方面是这样。比如，我并不想通过七轮对话来决定我披萨的配料。

这种缺乏创造力的情况让我感到很沮丧。我认为部分原因是，那些能够帮助我们解决这些问题的优秀产品设计师，目前还没有真正理解这些模型的局限性。这种情况正在迅速改变，但反过来，到目前为止，能够推动技术进步的人总是将其视为“我在这里交付一个黑盒子”，而不是“我在这里交付一种体验”。

当这种情况改变时，我期待看到像这样的系统，当你与代理交互时，它实际上会为你合成一个多模态用户界面，以列出它需要从你那里获取的内容，并在人类和AI之间建立共享的上下文（Context），而不是像现在的范式那样，你只是在与它聊天。它更像是你和它一起在电脑上做某件事，看着屏幕，更像是并行而不是垂直。

Jacob：我想你提到过，Operator现在虽然令人印象深刻但有时并不完美。那么，你认为我们何时才能拥有可靠的智能代理？

David：我认为Operator非常了不起，只是目前整个领域还缺少最后一块拼图。

Jacob：我想，考虑到自动驾驶的历史，可能早在1995年，他们就进行了自动驾驶的演示，车辆可以横跨全国，完成99%的旅程。

David：是的。

Jacob：我们是否需要再等30年？

David：我不这么认为，因为我认为我们实际上已经有了合适的工具。

Jacob：你之前提到过，AGI（通用人工智能）其实并不遥远。

David：我正在寻找Agents领域的主要里程碑是，我可以在训练期间给这个代理任何任务，几天后回来，它已经100%完成了。是的，就像人类给我们带来了5%的可靠性提升一样，但这个代理已经学会了如何解决这个问题。

Jacob：正如你之前提到的，你创立Adept时，还没有真正开源的模型，更不用说多模态开源模型了。你认为如果有人今天开始一家像Adept这样的公司，一家创业公司能否在这里取得成功？还是说，最终推动球向前滚动的将是基础模型公司和超大规模云服务提供商？

David：我对这个问题有很大的不确定性。但我的当前观点是，我个人认为AGI其实并不遥远。

Jacob：当你提到 AGI时，你是如何定义它的？

David：一个可以在计算机上完成人类所做的任何有用任务的模型，这是定义的一部分。另一个我喜欢的定义是，它是一个能够像人类一样快速学会做这些事情的模型。我认为这些都不太遥远，但我也不认为它们会迅速扩散到社会中。正如我们所知，根据阿姆达尔定律（Amdahl's Law），一旦你真正加速了某一件事情，其他事情就会成为瓶颈，你获得的整体加速效果并不如你想象的那么大。所以，我认为会发生的是，我们将拥有这项技术，但人类能够真正高效地使用这些技术的能力将持续相当长的时间。我的许多同事称之为“能力过剩”（Capability overhang），一种巨大的能力过剩。

Jacob：你有没有对一旦我们拥有这些能力，可能的加速因素进行过任何初步思考？

David：我认为这取决于人。这是关于如何共同设计与模型的交互，以及如何使用这些模型。这将是社会接受度的问题。比如，想象你有一个模型明天就出来了，它说：“我发明了一种全新的做事方式，每个人都应该去使用它。”人类需要与它达成和解，并决定这是否真的是一个更好的解决方案，这并不会像我们想象的那么快。

Jacob：正如你所说，即使实验室是第一个开发出这些模型的地方，也可能存在一个机会，让创业公司真正弥合这些模型能力和最终用户实际想要交互之间的差距。

David：我基本确定这就是会发生的事情。因为说到底，我仍然坚信，在一个拥有AGI的世界里，人和人的关系真的很重要。最终，了解和拥有客户，并更贴近他们了解他们的需求，将比仅仅控制这个被许多其他实验室拥有的工具更重要。

Jacob：你认为未来十年人类将如何使用计算机？所有这些模型都达到了你对 AGI 的定义。我是否还会坐在电脑前？你对未来人类与这些技术的互动方式有何愿景？

David：我认为我们将获得新的工具箱，用于与计算机交互。今天，仍然有人使用命令行，对吧？就像人们仍然使用图形用户界面（GUI）一样。在未来，人们仍然会使用语音界面。但我认为人们也会使用更多的环境计算（ambient computing）。而且，我认为我们应该关注的一个指标是，人类在与计算机交互时，每单位能量所获得的杠杆（leverage）。我认为，随着这些系统的发展，这个指标将继续增大。

Jacob：也许可以稍微谈谈这个未来模型的世界，以及我们是否会最终拥有任何特定领域的模型。

David：让我们看看假设的法律专家模型。你可能希望这个假设的法律专家知道一些关于世界的基本事实。

Jacob：很多人在上法学院之前会先读一个普通学位。

David：没错。所以我认为会有一些特定领域的模型，但我并不想掩盖重点，只是说会有一些特定领域的模型。我认为出于技术原因会有特定领域的模型，但出于政策原因也会有。

Jacob：这很有趣，这是什么意思？

David：这就像有些公司真的不希望他们的数据被混在一起。比如，想象你是一家大银行，你有销售和交易部门，你有投资银行部门，AI员工或LLMs为这些部门提供支持，就像今天这些员工不能共享信息一样，模型也不应该能够通过其权重共享信息。

Jacob：你认为还有哪些需要解决？模型方面，似乎你对如果我们只是扩展当前的计算能力，我们就能非常接近解决我们需要解决的问题充满信心。但是否还有其他重大的技术挑战需要克服，以继续扩展模型的智能？

David：实际上，我并不同意这样的观点：只需将现有技术直接迁移到两年后的算力集群（cluster），一切就能奇迹般地运转。尽管规模仍将是关键因素，但我的信心源自对当前核心开放性问题的研判——我们需要评估这些问题的解决难度。例如，是否存在必须通过颠覆性创新才能攻克的超级难题？比如彻底替换梯度下降算法（注：gradient descent，当前深度学习模型参数优化的核心算法，通过计算损失函数的负梯度方向迭代更新参数。），或是必须依赖量子计算机才能实现通用人工智能（AGI）。但我不认为这些是必然的技术路径。

Jacob：当新的模型出来时，你是如何评估它们的？你有没有一些固定的问题来测试，或者你如何判断这些新模型的好坏？

David：我的评估方法论基于两个核心原则：方法论简洁性（Methodological Simplicity）：这是深度学习领域最令人着迷的特质——当某项研究附带了方法论文档（这在当今已愈发罕见），你只需审视其实现路径，就可能发现一种比传统方案更简洁、效果更优的解法。这类突破往往会载入深度学习经典（deep learning canon），并带来'这确实展现了算法之美'的顿悟时刻。基准测试的误导性（Benchmark Misalignment）：当前领域的炒作（hype）导致大量基准测试与模型的实际需求脱节，却在研发流程中被过度重视。这些测试本质上是一种游戏。评估和测量的复杂性被严重低估——相比当前许多研究方向，它们理应获得更多学术声誉和资源投入。

差异化的技术积累实际上很少

Jacob：似乎每个人都有自己的内部基准，他们并不公开发布，比如他们更相信的东西。就像你可以看到 OpenAI 的模型在许多编程基准测试中表现更好，但每个人都使用 Anthropic 的模型，他们知道这些模型更好。看到这个领域的演变很有趣。我想听听你在亚马逊的近况，你如何看待亚马逊在更广泛的生态系统中的角色？

David：是的，亚马逊是一个非常有趣的地方。实际上，我在那里学到了很多东西。亚马逊非常认真地致力于构建通用智能系统，特别是通用智能Agent。我认为真正酷的是，我认为亚马逊的每个人都明白，计算本身正在从我们所熟知的基本元素转变为对大型模型或大型代理的调用，这可能是未来最重要的计算基本元素。所以人们非常关心这一点，这太棒了。我认为有趣的是，我负责亚马逊的Agent业务，很酷的是你可以看到，代理在像亚马逊这样的大公司中触及的范围有多广。Peter（音）和我一起在旧金山为亚马逊开设了一个新的研究实验室，这很大程度上是因为亚马逊高层的许多人真的相信我们需要进行新的研究突破，以解决我们之前讨论的通往 AGI 的主要问题。

Jacob：你是否关注任何这些替代架构，或者更前沿的研究领域？

David：让我想想。我总是关注那些可能帮助我们更好地将模型学习映射到计算上的东西。我们能否更有效地使用更多的计算？这为我们能做的事情提供了巨大的乘数效应。但我实际上花更多的时间关注数据中心和芯片，因为我发现这非常有趣。现在有一些有趣的动作正在进行。

Jacob：似乎推动模型发展的主要因素之一是数据标注，而且显然，所有实验室都在这方面花费了大量资金。在测试时计算范式中，这是否仍然相关？你如何看待这个问题？

David：我首先能想到的是两个数据标注需要解决的任务，首先是教模型如何通过克隆人类行为来完成一项任务的基础知识。如果你有高质量的数据，那么你可以用它更好地激发模型在预训练期间已经看到的东西。然后我认为第二个任务，是教模型什么是好什么是坏，对于那些模糊的任务。我认为这两者仍然非常重要。……

Jacob：你显然一直处于这个领域的前沿，过去十年。有没有一件事是你在过去一年中改变了看法的？

David：我一直在思考的是团队文化的建设。我认为我们一直都知道，但我变得更加确信的是，招聘真正聪明、充满活力、内在有动力的人，尤其是在他们职业生涯的早期，实际上是我们成功的一个重要引擎。在这个领域，每几年，最佳策略就会改变。所以如果人们过于适应之前的最佳策略，他们实际上会拖慢你的速度。所以我认为，与我之前的想法相比，押注于新来的人会更好。

另一个我改变了看法的是，我曾经认为构建 AI 实际上会有真正的长期技术差异化，你可以在此基础上不断积累。我曾经认为，如果你在文本建模方面做得很好，它应该会帮助你自然而然地成为多模态领域的赢家。如果你在多模态方面做得很好，你应该会成为推理和代理领域的赢家……这些优势应该会不断积累。但在实践中，我看到的积累很少。我认为大家都在尝试相似的想法。

Jacob：言下之意，仅仅因为你率先突破了A并不意味着你就会在B上占据优势。比如，OpenAI 在语言模型方面取得了突破，但这并不一定意味着他们会在推理方面取得突破。 David：它们是相关的，但并不是说你一定会赢得下一个机会。

机器人什么时候进入家庭

Jacob：我想问的是，你最初是通过机器人领域进入人工智能的。所以，你对今天人工智能机器人领域的现状有何看法？

David：与我对Digital Agent的看法类似，我认为我们已经拥有了许多原材料。而且，我认为有趣的是，Digital Agent为我们提供了一个机会，让我们在物理Agent之前解决一些棘手的问题。

Jacob：展开谈谈，在数字Agent 的可靠性如何在延续到物理Agent中？

David：举一个简单的例子，假设你有一个仓库需要重新布置，你有一个物理Agent，你要求它计算出重新布置仓库的最佳计划。如果你在物理世界中学习，甚至在机器人模拟环境中学习，这会很困难。但如果你已经在数字空间中做到了这一点，而且你已经有了所有的训练配方和调整算法的知识，以便从模拟数据中学习，这就像你已经在训练轮上完成了这个任务。

Jacob：这很有趣。我认为当人们想到机器人时，存在两个极端。有些人认为，我们在语言模型中发现的规模法则也会在机器人领域发现，我们正处于巨大变化的边缘。你经常听到 Jensen（英伟达创始人黄仁勋）谈论这个问题。然后还有另一些人认为，这就像1995年的自动驾驶汽车，是一个很棒的演示，但还需要很长时间才能真正工作。你在这个光谱的哪一端？

David：我回到我之前提到的，给我最多信心的是我们构建训练配方的能力，让我们能够100%地完成任务。我们可以在数字空间中做到这一点。虽然有挑战，但最终也会迁移至物理空间。

Jacob：我们什么时候会在家里有机器人呢？

David：我认为这实际上又回到了我之前提到的问题。我认为许多问题的瓶颈不在于建立模型（modeling），而在于建模的扩散（diffusion）。

Jacob：关于视频模型呢？显然，现在有很多人进入这个领域，这似乎是一个新的前沿领域，它涉及到对世界模型和物理学的理解，以实现更开放的探索。也许你可以谈谈你在这个领域看到的内容以及你对这个领域的看法。

David：我对此非常兴奋。我认为它解决了我们之前提到的一个主要问题，即我们之前讨论过，今天我们可以让强化学习在有验证器（Verifier）的问题上工作，比如定理证明。然后我们讨论了如何将其推广到Digital Agents领域，那里你没有验证器，但你可能有一个可靠的模拟器，因为我可以启动一个应用程序的暂存环境，教代理如何使用它。但我认为剩下的一个主要问题是，当没有明确的验证器或明确的模拟器时会发生什么？我认为世界模型（World modeling）是我们回答这个问题的方式。

OpenAI的组织成长之路

Jacob：太棒了。我想稍微换个话题，谈谈 OpenAI 和你在那里的时光。显然，你参与了公司非常特殊的时期，并在许多进步中扮演了类似的角色。我想，未来我们会看到很多关于 OpenAI 文化的分析，关于那个开发了 GPT-1 到 GPT-4 的时代到底有什么特别之处。你觉得那些分析会怎么说？是什么让这个组织如此成功？

David：当我加入OpenAI的时候，研究社区还非常小。那是2017年，OpenAI 成立刚一年多。我认识创始团队和一些早期员工，他们正在寻找一个能够模糊研究与工程界限的人，而我刚好符合这个需求。

所以加入 OpenAI 是一件非常幸运的事情。当时团队只有35人，但都是极其出色的人才，他们在超级计算方面做了很多工作，还有其他很多人，我都可以一一列举出来。他们都是当时团队里非常出色的人。

有趣的是，一开始我的工作是帮助 OpenAI 建立扩展的基础设施，从一个小小的团队扩展到更大规模。但很快，我的工作开始转变成如何定义一个差异化的研究策略，让我们能够为这个时期的机器学习做出正确的判断。我认为我们比其他人更早意识到，之前的研究模式——你和你最好的三个朋友写一篇改变世界的论文——那个时代已经结束了。我们真正需要思考的是这个新时代，我们试图用更大的团队，结合研究人员和工程师，去解决重大的科学目标，不管这个解决方案是否被学术界定义为“新颖”。我们愿意为此担责。当GPT-2第一次发布时，人们说这看起来像一个Transformer，“对，就是一个 Transformer”。而我们为此感到自豪。

Jacob：那么，你当时加入 OpenAI 是出于什么考虑呢？

David：我当时非常兴奋，因为我想要站在研究的最前沿。当时的选择是OpenAI、DeepMind或者 Google Brain。……正如我之前提到的，押注于真正充满内在动力的人，尤其是那些处于职业生涯早期的人，这是一种非常成功的策略，有很多其他在那时定义了某个领域的人其实也没有Phd学位、也没有10年的工作经验。

Jacob：你有没有发现这些出色的研究人员有什么共同的特质？是什么让他们如此出色？你从中学到了什么，关于如何将他们组合成团队以实现目标？

David：很大程度上是内在动力和智力灵活性。有一个人对他在我们团队中所做的研究非常兴奋和投入——我暂且不提他的名字。大约一个月半后，我跟他进行了一次一对一的谈话，他突然提到他搬到了湾区加入我们，但还没来得及为他的公寓安装Wi-Fi也没通电，他把所有的时间都花在办公室里，一直在做实验，这对他来说完全不重要。

Jacob：这种热情真是令人印象深刻。我之前听你提到过，谷歌没有在GPT突破上取得进展，尽管 Transformer是在谷歌发明的。当时很明显，这项技术的潜力有多大，但谷歌作为一个整体很难围绕它凝聚起来。你对此有什么看法？

David：这得感谢Ilya，他是我们在基础研究方面的科学领导者，后来也促成了GPT、CLIP和DALL·E的诞生。我记得他经常去办公室，像一个一样，告诉人们：“伙计，我认为这篇论文很重要。”他鼓励人们用Transformer做实验。

Jacob：你认为现在这些基础模型公司正在做很多事情，会不会有另一种“配方”在未来某个时刻出现？

David：我认为失去专注是非常危险的。

Jacob：你可能是英伟达和Jensen（黄仁勋）最大的粉丝之一了。除了大家都知道的成就之外，你觉得英伟达还有哪些事情没有被广泛讨论，但实际上对这家公司来说非常重要的东西？

David：我非常喜欢Jensen，他是一个真正的传奇人物。我觉得他在很长一段时间里做出了很多正确的决策，过去几年对英伟达来说确实是一个巨大的转折点，他们将互联技术（interconnects）内部化，并选择围绕系统构建业务，这是一个非常明智的举措。

Jacob：我们通常会在采访的最后进行一个快速问答环节。认为今年模型的进展会比去年更多、更少还是相同？

David：表面上看起来进展可能差不多，但实际上是更多。

Jacob：你认为目前AI领域有哪些被过度炒作或被低估的东西？

David：被过度炒作的是“技能已死，我们完全完了，别再买芯片了”。被低估的是，我们如何真正解决超大规模模拟问题，以便让这些模型从中学习。

Jacob：David，这是一次非常精彩的对话。我相信大家会想要了解更多关于你在亚马逊的工作以及你正在做的一些令人兴奋的事情，大家可以在哪里找到更多信息呢？

David：对于亚马逊，大家可以关注亚马逊旧金山 AI实验室（Amazon SF AI Lab）。我其实不太常使用Twitter，但我打算重新开始用。所以大家可以关注我的推特账号 @jluan。

特别推荐

今晚，6家公司发布利空公告

证券之星资讯

2025-02-25

刚刚，多家公司发布利好公告！

证券之星资讯

2025-02-25

A股回调！刚刚，再现重要信号

证券之星资讯

2025-02-25

首页股票财经基金导航

举报专区联系我们

OpenAI早期员工David Luan最新访谈：DeepSeek并未改变AI技术的叙事

相关个股

相关阅读

特别推荐