Meta 的 AI 大师 LeCun:当今的大多数 AI 方法永远不会带来真正的智能

yann-lecun-九月-2022-1

“我认为人工智能系统需要能够推理,”Meta 的首席人工智能科学家 Yann LeCun 说。 当今流行的 AI 方法,例如变形金刚,其中许多都建立在他自己在该领域的开创性工作之上,但还不够。 “你必须退后一步说,好吧,我们建造了这个梯子,但我们想去月球,这个梯子不可能让我们到达那里,”LeCun 说。

闫乐存, 首席人工智能科学家 Facebook、Instagram 和 WhatsApp 的所有者 Meta Properties 的创始人可能会在他的领域中引起很多人的注意。 

随着 XNUMX 月发布的一篇思考文章 在 Open Review 服务器上, LeCun 对一种他认为有望在机器中实现人类智能的方法进行了广泛的概述。 

如果没有在论文中阐明,则暗示当今大多数人工智能大型项目将永远无法达到人类水平的目标。

在本月与 网易科技 通过 Zoom,LeCun 明确表示,他对目前深度学习中许多最成功的研究途径持怀疑态度。

“我认为它们是必要的,但还不够,”图灵奖得主告诉 网易科技 他的同龄人的追求。 

其中包括大型语言模型,例如基于 Transformer 的 GPT-3 及其同类。 正如 LeCun 所描述的那样,变形金刚的拥护者相信,“我们将一切都标记化,并训练巨大的模型来做出离散的预测,人工智能就会以某种方式出现。”

“他们没有错,”他说,“从某种意义上说,这可能是未来智能系统的一个组成部分,但我认为它缺少必要的部分。”

除此之外: Meta 的 AI 大师 LeCun 探索深度学习的能源前沿

这是对完美使用卷积神经网络的学者的惊人批评,卷积神经网络是一种在深度学习程序中非常有效的实用技术。 

LeCun 看到了该学科许多其他非常成功的领域的缺陷和局限性。 

他坚持认为,强化学习也永远不够。 研究人员如 DeepMind 的 David Silver 开发了掌握国际象棋、将棋和围棋的 AlphaZero 程序,他们专注于“非常基于动作”的程序,LeCun 观察到,但“我们所做的大部分学习,我们没有通过实际采取行动来做到这一点,我们通过观察来做到这一点。” 

62 岁的 Lecun 从数十年的成就的角度来看,尽管如此,他仍表示迫切需要直面他认为许多人可能会冲向的死胡同,并试图引导他的领域朝着他认为事情应该发展的方向发展。 

“我们看到很多关于我们应该做些什么来推动人类水平的人工智能的说法,”他说。 “而且我认为有些想法被误导了。”

“我们的智能机器还没有像猫一样有常识,”Lecun 说。 “那么,我们为什么不从那里开始呢?” 

他已经放弃了在预测视频中的下一帧等事情上使用生成网络的先前信念。 “这是一次彻底的失败,”他说。 

LeCun 谴责那些他称之为“宗教概率论者”的人,他们“认为概率论是唯一可以用来解释机器学习的框架”。 

他说,纯粹的统计方法是棘手的。 “要求一个完全概率的世界模型太过分了; 我们不知道该怎么做。”

LeCun 认为,不仅学术界,工业人工智能也需要重新思考。 他说,自动驾驶汽车人群,如 Wayve 等初创公司,一直“有点过于乐观”,他们认为他们可以“将数据投入”大型神经网络,“你几乎可以学到任何东西”。

“你知道,我认为我们完全有可能在没有常识的情况下拥有五级自动驾驶汽车,”他说,指的是“ADAS”, 先进的驾驶员辅助系统 自动驾驶的术语,“但你将不得不设计出它的地狱。”

他认为,这种过度设计的自动驾驶技术将与所有因深度学习而过时的计算机视觉程序一样脆弱易碎。

“最终,将有一个更令人满意且可能更好的解决方案,其中涉及能够更好地理解世界运作方式的系统。”

在此过程中,LeCun 对他最大的批评者提出了一些令人沮丧的看法,例如纽约大学教授 Gary Marcus——“他从未对 AI 做出任何贡献”——以及 Dalle Molle 人工智能研究所联合主任 Jürgen Schmidhuber——“这是插旗很容易。”

除了批评之外,LeCun 提出的更重要的一点是,所有 AI 都面临着某些基本问题,特别是如何测量信息。

“你必须退后一步说,好吧,我们建造了这个梯子,但我们想去月球,这个梯子不可能把我们带到那里,”LeCun 谈到他想要重新思考的愿望时说的基本概念。 “基本上,我在这里写的是,我们需要制造火箭,我不能告诉你我们如何制造火箭的细节,但这里是基本原则。”

这篇论文,以及 LeCun 在采访中的想法,可以通过阅读 LeCun 今年早些时候的采访来更好地理解 网易科技 他在其中主张将基于能量的自我监督学习作为深度学习的一条前进道路。 这些反思让人们了解了他希望构建的核心方法,以替代他声称不会到达终点的东西。 

以下是经过轻微编辑的采访记录。

中德网: 我们聊天的主题是这篇论文,“通往自主机器智能的道路”,其中 0.9.2 版本是现存版本,是吗?

颜乐存: 是的,我认为这是一份工作文件。 所以,我将它发布在 Open Review 上,等待人们提出意见和建议,也许还有其他参考资料,然后我会制作一个修订版。 

中德网: 我看到 Juergen Schmidhuber 已经在 Open Review 中添加了一些评论。

YL: 嗯,是的,他总是这样。 我在我的论文中引用了他的一篇论文。 我认为他在社交网络上提出的论点是他在 1991 年基本上发明了所有这些,就像他在其他情况下所做的那样,事实并非如此。 我的意思是,这很容易做到插旗,然后,在没有任何实验,没有任何理论的情况下写一个想法,只是建议你可以这样做。 但是,你知道,有一个想法,然后让它解决一个玩具问题,然后让它解决一个真正的问题,然后做一个说明它为什么起作用的理论,然后部署它。 有一个完整的链条,他对科学信誉的看法是,它是第一个,有点,你知道,有这个想法的人,应该得到所有的荣誉。 这很荒谬。 

中德网: 不要相信你在社交媒体上听到的一切。 

YL: 我的意思是,他说我应该引用的主要论文没有我在论文中谈到的任何主要思想。 他也用 GAN 和其他东西做到了这一点,但事实证明这不是真的。 插旗容易,贡献难。 顺便说一句,在这篇特别的论文中,我明确表示这不是通常意义上的科学论文。 这更像是一份关于这件事应该去哪里的立场文件。 那里有一些想法可能是新的,但大多数都不是。 本质上,我并没有对我在那篇论文中写的大部分内容提出任何优先权。

yann-lecun-九月-2022-2

LeCun 认为,强化学习也永远不够。 研究人员如 DeepMind 的 David Silver 开发了掌握国际象棋、将棋和围棋的 AlphaZero 程序,他们“非常基于行动”,LeCun 观察到,但“我们所做的大部分学习,并不是通过实际采取行动,我们通过观察来做到这一点。” 

中德网: 这也许是一个很好的起点,因为我很好奇你为什么现在走这条路? 是什么让你想到了这个? 你为什么要写这个?

YL: 嗯,所以,我一直在思考这个问题,关于通往人类水平或动物水平类型的智能或学习和能力的道路。 而且,在我的演讲中,我一直非常直言不讳地谈到监督学习和强化学习都不足以模仿我们在动物和人类身上观察到的那种学习。 我已经这样做了七八年了。 所以,这不是最近的。 许多年前,我在 NeurIPS 发表了一个主题演讲,我从本质上提出了这一点,各种谈话,还有录音。 现在,为什么要现在写论文? 我已经说到点子上了——[Google Brain 研究员] Geoff Hinton 做过类似的事情——我的意思是,当然,他比我更重要,我们看到时间不多了。 我们不年轻。

中德网: 六十是新的五十。 

YL: 这是真的,但关键是,我们看到了很多关于我们应该做些什么来推动人工智能达到人类水平的说法。 我认为有些想法被误导了。 所以,一个想法是,哦,我们应该在神经网络之上添加符号推理。 我不知道该怎么做。 所以,也许我在论文中解释的可能是一种无需显式符号操作就可以做同样事情的方法。 这就是世界上传统的加里·马库塞斯。 Gary Marcus 不是 AI 人,顺便说一下,他是一名心理学家。 他从未为人工智能做出任何贡献。 他在实验心理学方面做得非常好,但他从未写过一篇关于人工智能的同行评议论文。 所以,有那些人。 

世界上有 [DeepMind 原理研究科学家] David Silvers 说,你知道,奖励就足够了,基本上,这都是关于强化学习,我们只需要让它更有效率,好吗? 而且,我认为他们没有错,但我认为使强化学习更有效的必要步骤基本上会使强化学习降级为蛋糕上的樱桃。 主要的缺失部分是学习世界是如何运作的,主要是通过观察而不采取行动。 强化学习非常基于行动,你通过采取行动并看到结果来了解世界。

中德网: 它以奖励为重点。

YL: 它以奖励为重点,也以行动为重点。 所以,你必须在这个世界上行动,才能了解这个世界。 我在论文中关于自我监督学习的主要主张是,我们所做的大部分学习,我们不是通过实际采取行动来完成的,而是通过观察来完成的。 这是非常非正统的,对于强化学习的人来说,特别是对于很多心理学家和认知科学家来说,他们认为,你知道,行动是——我不是说行动不是必要的,它 is 基本的。 但我认为我们学到的大部分内容主要是关于世界的结构,当然也包括互动、动作和游戏,诸如此类,但很多都是观察性的。

中德网: 您还将设法同时勾选 Transformer 人,即语言优先的人。 你怎么能在没有语言的情况下构建它呢? 你可能会设法勾掉很多人。 

YL: 是的,我已经习惯了。 所以,是的,有语言优先的人,他们说,你知道,智力是关于语言的,智力的基础是语言,等等,等等,等等。 但这在某种程度上否定了动物的智慧。 你知道,我们的智能机器还没有像猫一样有常识。 那么,我们为什么不从那里开始呢? 是什么让猫能够理解周围的世界,做一些非常聪明的事情,计划和类似的事情,而狗则更好? 

然后有人说,哦,智力是一种社会性的东西,对吧? 我们很聪明,因为我们互相交谈,交换信息,等等等等。 有各种各样的非社会物种永远不会见到他们非常聪明的父母,比如章鱼或猩猩。我的意思是,它们(猩猩)当然是由它们的母亲教育的,但它们不是社交动物。 

但我可能会勾选的另一类人是那些说缩放就足够了的人。 所以,基本上,我们只是使用巨大的变形金刚,我们在多模态数据上训练它们,你知道,视频、文本、等等等等。 我们,有点,石化一切,标记一切,然后训练巨大基本上,可以做出离散预测的模型,并且人工智能将以某种方式从中出现。 他们没有错,因为这可能是未来智能系统的一个组成部分。 但我认为它缺少必要的部分。 

我将在这篇论文中勾勒出另一类人。 这是概率论者,宗教概率论者。 所以,那些认为概率论是你可以用来解释机器学习的唯一框架的人。 正如我试图在这篇文章中解释的那样,要求一个完全概率的世界模型基本上太过分了。 我们不知道该怎么做。 存在计算难处理性。 所以我提议放弃这整个想法。 当然,你知道,这不仅是机器学习的巨大支柱,也是所有统计数据的巨大支柱,它声称是机器学习的正常形式。 

另一件事—— 

中德网: 你在滚...

YL: ——就是所谓的生成模型。 因此,您可以学习预测的想法,并且您可以通过预测了解很多关于世界的信息。 所以,我给你一段视频,让系统预测视频中接下来会发生什么。 我可能会要求您预测包含所有细节的实际视频帧。 但我在论文中争论的是,这实际上问得太多而且太复杂了。 这是我改变主意的事情。 直到大约两年前,我一直是我所谓的潜在变量生成模型的拥护者,这些模型可以预测接下来会发生什么或丢失的信息,如果预测无法实现,可能会借助潜在变量确定性的。 我已经放弃了。 我放弃这个的原因是基于经验结果,人们试图应用 BERT 中使用的类型的、排序、预测或基于重建的训练和大型语言模型,他们试图将其应用于图像,但完全失败了。 而且它完全失败的原因是,再次,因为概率模型的限制,在这些模型中,预测像单词这样的离散标记相对容易,因为我们可以计算字典中所有单词的概率分布。 这很容易。 但是如果我们要求系统生成所有可能视频帧的概率分布,我们不知道如何对其进行参数化,或者我们知道如何对其进行参数化,但我们不知道如何对其进行归一化。 它遇到了一个我们不知道如何解决的棘手数学问题。 

yann-lecun-九月-2022-3

“我们的智能机器还没有像猫一样有常识,”Lecun 说。 “那么,我们为什么不从那里开始呢? 是什么让猫能够了解周围的世界,做一些非常聪明的事情,计划之类的事情,而狗则更好?”

所以,这就是为什么我说让我们放弃概率论或类似事物的框架,即较弱的基于能量的模型。 几十年来,我一直在倡导这一点,所以这不是最近的事情。 但同时,放弃生成模型的想法,因为世界上有很多东西是不可理解和不可预测的。 如果你是一名工程师,你称之为噪音。 如果你是物理学家,你称之为热。 如果你是一个机器学习的人,你知道的,你称它为不相关的细节或其他任何东西。

所以,我在论文中使用的例子,或者我在谈话中使用的例子是,你想要一个有助于自动驾驶汽车的世界预测系统,对吧? 它希望能够提前预测所有其他汽车的轨迹,其他可能移动的物体会发生什么,行人、自行车、追逐足球的孩子等等。 所以,关于世界的各种事情。 但在路边,可能有树,今天有风,树叶随风飘动,树后有一个池塘,池塘里有涟漪。 从本质上讲,这些在很大程度上是不可预测的现象。 而且,您不希望您的模型花费大量资源来预测那些既难以预测又不相关的事情。 所以这就是为什么我提倡联合嵌入架构,那些你试图建模的变量,你不是试图预测它,你试图建模它,但它通过一个编码器运行,并且该编码器可以消除许多不相关或过于复杂的输入细节——基本上,相当于噪声。

中德网: 我们在今年早些时候讨论了基于能源的模型,即 JEPA 和 H-JEPA。 我的感觉,如果我理解正确的话,你是在寻找 X 和 Y 嵌入的这两个预测最相似的低能量点,这意味着如果一棵树上有一只鸽子,并且在场景的背景,这些可能不是使这些嵌入彼此接近的关键点。

YL: 正确的。 因此,JEPA 架构实际上试图在提取表示最大程度地提供有关输入的信息但也可相互预测并具有一定程度的准确性或可靠性之间找到折衷和折衷。 它找到了一个权衡。 因此,如果它可以选择花费大量资源(包括树叶运动的细节),然后对动态进行建模,以决定树叶从现在开始如何移动,或者只是将其放在地板上基本上只是通过消除所有这些细节的预测器运行 Y 变量,它可能会消除它,因为它太难以建模和捕获。

中德网: 令人惊讶的是,您一直非常支持说“它有效,我们稍后会找出热力学理论来解释它。” 在这里,您采取了一种方法,“我不知道我们将如何解决这个问题,但我想提出一些想法来思考它”,甚至可能接近一个理论或假设,在至少。 这很有趣,因为不管这辆车是否有常识,有很多人花很多钱在可以看到行人的汽车上。 我想其中一些人不会被打勾,但他们会说,“没关系,我们不在乎它是否没有常识,我们已经建立了一个模拟,模拟很棒,我们将继续改进,我们将继续扩展模拟。” 

有趣的是,你现在可以说,让我们退后一步,想想我们在做什么。 业界说我们只是要扩大规模,扩大规模,扩大规模,扩大规模,因为那个曲柄确实有效。 我的意思是,GPU 的半导体曲柄确实有效。

YL: 那里有五个问题。 所以,我的意思是,缩放是必要的。 我并不是在批评我们应该扩大规模这一事实。 我们应该扩大规模。 这些神经网络会随着它们变大而变得更好。 毫无疑问,我们应该扩大规模。 具有某种程度的常识的人会很大。 我认为没有办法解决这个问题。 所以缩放是好的,它是必要的,但还不够。 这就是我要说的。 这不仅仅是缩放。 这是第一点。 

第二点,理论是否优先等等。 所以,我认为首先有一些概念,你必须退后一步说,好吧,我们建造了这个梯子,但我们想去月球,这个梯子不可能让我们到达那里。 所以,基本上,我在这里写的是,我们需要制造火箭。 我不能告诉你我们如何制造火箭的细节,但这里是基本原则。 而且我不会为它写理论或任何东西,但是,它将成为火箭,好吗? 或者太空电梯什么的。 我们可能没有所有技术的所有细节。 我们正在努力让其中一些事情发挥作用,就像我一直在研究 JEPA 一样。 联合嵌入对于图像识别非常有效,但要使用它来训练世界模型,还是有困难的。 我们正在努力,我们希望我们能够让它发挥作用 soon,但我们可能会遇到一些我们无法克服的障碍。 

然后,论文中有一个关于推理的关键思想,如果我们希望系统能够进行规划,您可以将其视为一种简单的推理形式,它们需要具有潜在变量。 换句话说,不是由任何神经网络计算的事物,而是由神经网络计算的事物——其值被推断为最小化一些目标函数、一些成本函数。 然后你可以使用这个成本函数来驱动系统的行为。 这根本不是一个新想法,对吧? 这是非常经典的最优控制,其基础可以追溯到 50 年代末、60 年代初。 所以,这里不主张任何新颖性。 但我要说的是,这种类型的推理必须是智能系统的一部分,该系统能够进行规划,并且它的行为可以指定或控制,而不是通过硬连线的行为,不是通过模仿学习,而是通过一个目标函数驱动行为——不一定驱动学习,但它驱动行为。 你知道,我们的大脑里有这个,每只动物都有内在的成本或内在的动机。 这驱使九个月大的婴儿想要站起来。 当你站起来快乐的成本,成本函数中的这个术语是硬连线的。 但你如何站起来不是,那是学习。

yann-lecun-九月-2022-4

“可扩展性很好,它是必要的,但还不够,”LeCun 谈到巨型语言模型(例如 GPT-3 变种的基于 Transformer 的程序)时说。 变形金刚的拥护者相信:“我们将一切都标记化,并训练出巨大的模型来做出离散的预测,人工智能会以某种方式从中出现……但我认为它缺少重要的部分。”

中德网: 只是为了完善这一点,深度学习社区的大部分人似乎都很好地推进了一些没有常识的事情。 似乎您在这里提出了一个非常明确的论点,即在某些时候它会陷入僵局。 有人说我们不需要具有常识的自动驾驶汽车,因为缩放会做到这一点。 听起来你是在说继续沿着那条路走是不行的?

YL: 你知道,我认为我们完全有可能在没有常识的情况下拥有五级自动驾驶汽车。 但是这种方法的问题,这将是暂时的,因为你将不得不设计出地狱。 所以,你知道,绘制整个世界的地图,硬连线各种特定的极端情况行为,收集足够的数据,让你拥有在道路上可能遇到的所有、那种、奇怪的情况,等等,等等,等等。 我的猜测是,只要有足够的投资和时间,你就可以彻底摆脱它。 但最终,将会有一个更令人满意且可能更好的解决方案,其中涉及的系统能够更好地理解世界的运作方式,并且拥有,你知道的,我们称之为常识的某种程度。 它不需要是人类水平的常识,而是系统可以通过观看获得的某种知识,而不是看着某人开车,只是看着周围的东西移动并了解很多关于世界的知识,建立背景基础关于世界如何运作的知识,在此基础上您可以学习驾驶。 

让我举一个历史的例子。 经典的计算机视觉基于许多硬连线的工程模块,在这些模块之上,您将拥有某种薄薄的学习层。 所以,在 2012 年被 AlexNet 击败的东西,基本上是第一阶段,一种手工制作的特征提取,比如 SIFT [尺度不变特征变换 (SIFT),一种识别图像中显着对象的经典视觉技术]和 HOG [定向梯度直方图,另一种经典技术] 和其他各种东西。 然后是第二层,某种基于特征内核的中级特征,以及某种无监督方法。 然后在此之上,放置一个支持向量机,或者一个相对简单的分类器。 那就是从 2000 年代中期到 2012 年的标准管道。它被端到端卷积网络所取代,你不需要硬连线任何这些,你只有很多数据,你从头到尾训练东西,这是我长期以来一直提倡的方法,但你知道,在那之前,对于大问题来说是不切实际的。 

在语音识别中也有类似的故事,同样,对于如何预处理数据、提取大规模倒谱(用于信号处理的快速傅立叶变换的逆),还有大量详细的工程设计,然后你有隐马尔可夫模型,具有某种预设架构,等等,等等,等等,以及高斯混合。 因此,它的架构有点类似于视觉的架构,你先手工制作前端,然后是一个有点无监督的、经过训练的中间层,然后是顶层的监督层。 现在,基本上,端到端的神经网络已经消除了这种情况。 所以我在那里看到了类似的东西,试图学习所有东西,但你必须有正确的先验,正确的架构,正确的结构。

yann-lecun-九月-2022-5

他说,自动驾驶汽车人群,如 Waymo 和 Wayve 等初创公司,一直“有点过于乐观”,认为他们可以“向它扔数据,你几乎可以学到任何东西”。 ADAS 5 级的自动驾驶汽车是可能的,“但你将不得不设计出地狱”,并且会像早期的计算机视觉模型一样“脆弱”。

中德网: 你的意思是,有些人会尝试设计目前不适用于深度学习的应用程序,例如,在工业中,他们将开始创造一些在计算机视觉中已经过时的东西?

YL: 正确的。 这也是过去几年从事自动驾驶工作的人过于乐观的部分原因,因为,你知道,你有这些,有点通用的东西,比如卷积网络和变形金刚,你可以向它扔数据,它几乎可以学到任何东西。 所以,你说,好吧,我有解决这个问题的办法。 您要做的第一件事是构建一个演示,让汽车自行行驶几分钟而不会伤害任何人。 然后你意识到有很多极端情况,你试图绘制曲线,当我将训练集加倍时,我会变得多好,你意识到你永远不会到达那里,因为有各种各样的极端情况. 而且你需要一辆每 200 亿公里发生致命事故的汽车,对吧? 所以你会怎么做? 好吧,你走两个方向。 

第一个方向是,如何减少系统学习所需的数据量? 这就是自我监督学习的用武之地。因此,许多自动驾驶汽车公司对自我监督学习非常感兴趣,因为这是一种仍然使用大量监督数据进行模仿学习的方法,但通过以下方式获得更好的性能预训练,本质上。 它还没有完全成功,但它会的。 然后还有另一种选择,大多数在这一点上更先进的公司都采用了,那就是,好吧,我们可以进行端到端的培训,但是我们可以做很多极端情况。 t 处理,所以我们将设计系统来处理那些极端情况,并且基本上,将它们视为特殊情况,并硬连线控制,然后硬连线许多基本行为来处理特殊情况。 如果你有足够大的工程师团队,你可能会成功。 但这需要很长时间,最终,它仍然会有点脆弱,也许足够可靠,可以部署,但有一定程度的脆弱性,这可能会出现在未来,汽车将不会有,因为它可能对世界如何运作有一定程度的常识和理解。 

在短期内,某种工程方法将获胜——它已经获胜。 这就是世界的 Waymo 和 Cruise 以及 Wayve不管怎样,这就是他们所做的。 然后是自我监督学习方法,它可能有助于工程方法取得进展。 但从长远来看,这些公司可能等待的时间可能太长,可能会是一种更集成的自动智能驾驶系统。

中德网: 我们说超出了大多数投资者的投资视野。

YL: 这是正确的。 所以,问题是,在性能达到预期水平之前,人们会失去耐心或花光钱吗?

中德网: 关于为什么选择模型中选择的一些元素,有什么有趣的要说的吗? 因为你引用了 Kenneth Craik [1943,解释的本质],你引用了 Bryson 和 Ho [1969, 应用最优控制],我很好奇你为什么从这些影响开始,如果你特别相信这些人已经把它钉在了他们所做的事情上。 你为什么从那里开始?

YL: 嗯,我不认为,当然,他们已经确定了所有细节。 所以,Bryson 和 Ho,这是我 1987 年在多伦多与 Geoffrey Hinton 做博士后时读过的一本书。 但我在写博士论文时事先就知道了这行工作,并在本质上将最优控制和反向传播联系起来。 如果你真的想成为另一个 Schmidhuber,你会说反向传播的真正发明者实际上是最优控制理论家 Henry J. Kelley、Arthur Bryson,甚至可能是俄罗斯最优控制反向理论家 Lev Pontryagin在 50 年代后期。 

所以,他们想通了,事实上,你可以看到它的根源,它背后的数学,是拉格朗日力学。 所以你可以回到欧拉和拉格朗日,事实上,从他们对拉格朗日经典力学的定义中可以找到一点这点,真的。 所以,在最优控制的背景下,这些人感兴趣的基本上是计算火箭轨迹。 你知道,这是早期的太空时代。 如果你有火箭的模型,它会告诉你这里是火箭当时的状态 t,这是我要采取的行动,所以,各种推力和执行器,这是火箭当时的状态 T + 1.

中德网: 一个状态-动作模型,一个价值模型。

YL: 没错,控制的基础。 所以,现在你可以通过想象一系列命令来模拟火箭的射击,然后你就有了一些成本函数,即火箭到目标、空间站或其他任何东西的距离。 然后通过某种梯度下降,你可以弄清楚,我如何更新我的动作序列,以便我的火箭实际上尽可能接近目标。 这必须通过及时向后传播信号来实现。 这就是反向传播,梯度反向传播。 这些信号,在拉格朗日力学中被称为共轭变量,但实际上,它们是梯度。 所以,他们发明了反向传播,但他们没有意识到这个原理可以用来训练一个可以进行模式识别或类似事情的多阶段系统。 这可能直到 70 年代末、80 年代初才真正实现,然后直到 80 年代中期才真正实施并开始工作。 好的,这就是反向传播真正起飞的地方,因为人们在这里展示了几行代码,你可以训练神经网络,端到端,多层。 这解除了感知器的限制。 而且,是的,与最佳控制有联系,但这没关系。

中德网: 这么说来,你一开始的这些影响又回到了反向传播,这对你来说很重要吗?

YL: 是的,但我认为人们忘记了一点,在这方面有很多工作,你知道,早在 90 年代,甚至 80 年代,包括像迈克尔乔丹这样的人 [MIT Dept. of Brain和认知科学]以及类似的人,他们不再使用神经网络,而是认为可以使用神经网络进行控制,并且可以使用最优控制的经典思想。 因此,诸如所谓的模型预测控制,现在称为模型预测控制之类的东西,如果你有一个你试图控制的系统的良好模型,你可以模拟或想象一系列动作的结果以及它所处的环境。然后通过梯度下降,本质上——这不是学习,这是推理——你可以找出可以最小化我的目标的最佳动作序列。 因此,我认为,使用带有潜在变量的成本函数进行推理是当前大规模神经网络所忘记的事情。 但长期以来,它是机器学习的一个非常经典的组成部分。 因此,每个贝叶斯网络或图形模型或概率图形模型都使用这种类型的推理。 你有一个模型来捕捉一堆变量之间的依赖关系,你被告知一些变量的值,然后你必须推断其余变量的最可能值。 这是图形模型和贝叶斯网络中推理的基本原理,诸如此类。 我认为这基本上就是推理应该是什么,推理和计划。

中德网: 你是一个壁橱贝叶斯主义者。

YL: 我是一个非概率贝叶斯。 我以前开过这个玩笑。 几年前我实际上在 NeurIPS,我想是在 2018 年或 2019 年,我被一个贝叶斯主义者拍到视频,问我是否是贝叶斯主义者,我说,是的,我是贝叶斯主义者,但我如果你愿意的话,我是一个非概率贝叶斯,某种基于能量的贝叶斯。 

中德网: 这听起来绝对像是 星际迷航. 您在本文末尾提到,要实现您的设想需要多年的努力。 告诉我目前的一些工作是由什么组成的。

YL: 因此,我将在本文中解释您如何训练和构建 JEPA。 我提倡的标准是采用某种方式最大化提取的表示具有的关于输入的信息内容。 然后第二个是最小化预测误差。 如果你在预测器中有一个潜在变量,它允许预测器是不确定的,你还必须通过最小化它的信息内容来规范这个潜在变量。 那么,你现在有两个问题,一个是如何最大化某个神经网络输出的信息量,另一个是如何最小化某个潜在变量的信息量? 如果你不做这两件事,系统就会崩溃。 它不会学到任何有趣的东西。 它将给一切事物零能量,类似的东西,这不是一个好的依赖模型。 这是我提到的防倒塌问题。 

我说的是人们做过的所有事情,只有两类方法可以防止崩溃。 一种是对比方法,另一种是那些正则化方法。 因此,这种最大化两个输入表示的信息内容和最小化潜在变量的信息内容的想法,属于正则化方法。 但是这些联合嵌入架构中的很多工作都使用了对比方法。 事实上,它们可能是目前最受欢迎的。 所以,问题是如何以一种可以优化或最小化的方式衡量信息内容? 这就是事情变得复杂的地方,因为我们实际上不知道如何衡量信息内容。 我们可以对其进行近似,我们可以对其进行上限,我们可以做类似的事情。 但它们实际上并没有衡量信息内容,实际上,在某种程度上,这些信息内容甚至都没有得到很好的定义。

中德网: 这不是香农定律吗? 不是信息论? 你有一定数量的熵,好熵和坏熵,好熵是一个有效的符号系统,坏熵是噪声。 不是都被香农解决了吗?

YL: 你是对的,但背后有一个重大缺陷。 从某种意义上说,如果您有数据,并且可以以某种方式将数据量化为离散符号,那么您是对的,然后您测量每个符号的概率,那么这些符号携带的最大信息量是对可能的符号求和 圆周率日志圆周率, 正确的? 在哪里 Pi 是符号的概率 一世 - 这就是香农熵。 [香农定律通常表述为 H = – ∑ pi log pi。]

但问题是:什么是 Pi? 当符号数量较少且符号独立绘制时,这很容易。 当有很多符号和依赖项时,这非常困难。 因此,如果您有一个位序列,并且假设这些位彼此独立并且概率在 XNUMX 和 XNUMX 之间相等或其他任何值,那么您可以轻松测量熵,没问题。 但是如果你得到的是高维向量,比如,你知道的,数据框,或者类似的东西,那么什么是 Pi? 分布是什么? 首先你必须量化那个空间,这是一个高维的、连续的空间。 您不知道如何正确量化它。 可以使用k-means等。这就是人们在做视频压缩和图像压缩时所做的。 但这只是一个近似值。 然后你必须做出独立的假设。 因此,很明显,在视频中,连续的帧不是独立的。 存在依赖关系,该框架可能依赖于您在一小时前看到的另一个框架,这是同一件事的图片。 所以,你知道,你无法测量 Pi. 测量 Pi,你必须有一个学习预测的机器学习系统。 所以你又回到了之前的问题。 因此,本质上,您只能近似信息的度量。 

yann-lecun-九月-2022-6

“问题是你如何以一种可以优化或最小化的方式衡量信息内容?” LeCun 说。 “这就是事情变得复杂的地方,因为我们实际上不知道如何衡量信息内容。” 到目前为止,能做的最好的事情就是找到一个“足以胜任我们想要的任务”的代理。

让我举一个更具体的例子。 我们一直在使用的算法之一,我在这篇文章中谈到过,就是这个叫做 VICReg 的东西,即方差-不变性-协方差正则化。 它在 ICLR 上发表的另一篇论文中,并且 它被放在 arXiv 上 大约一年前,即 2021 年。其中的想法是最大限度地利用信息。 这个想法实际上来自我小组的一篇早期论文,名为 巴洛双胞胎. 基本上,通过假设变量之间的唯一依赖关系是相关性,线性依赖关系,您可以最大化来自神经网络的向量的信息内容。 因此,如果您假设变量对之间或系统中变量之间唯一可能的依赖关系是贵重物品对之间的相关性,这是非常粗略的近似,那么您可以最大化来自您的系统的信息内容通过确保所有变量都具有非零方差——比如说,方差一,不管它是什么——然后对它们进行反向相关,这个过程称为白化,它也不是新的。 这样做的问题是,您很可能在任何一组变量之间或什至只是不是线性依赖的变量对之间具有极其复杂的依赖关系,并且它们不会出现在相关性中。 因此,例如,如果您有两个变量,并且这两个变量的所有点都以某种螺旋形式排列,那么这两个变量之间存在很强的依赖性,对吧? 但事实上,如果你计算这两个变量之间的相关性,它们并不相关。 所以,这里有一个例子,这两个变量的信息量实际上很小,它只是一个量,因为它是你在螺旋中的位置。 它们是不相关的,所以你认为你有很多信息来自这两个变量,而实际上你没有,你只有,你知道,你可以从另一个变量中预测其中一个,基本上。 因此,这表明我们只有非常近似的方法来衡量信息内容。

中德网: 所以这是你现在必须做的事情之一? 这是一个更大的问题,即我们如何知道何时最大化和最小化信息内容?

YL:  或者我们为此使用的代理是否足以完成我们想要的任务。 事实上,我们在机器学习中一直这样做。 我们最小化的成本函数永远不是我们真正想要最小化的成本函数。 所以,例如,你想做分类,好吗? 训练分类器时要最小化的成本函数是分类器所犯错误的数量。 但这是一个不可微的、可怕的成本函数,你不能最小化它,因为你知道你将改变你的神经网络的权重,直到其中一个样本改变了它的决定,然后一个跳跃,什么都不会改变在错误中,正面或负面。

中德网: 所以你有一个代理,它是一个目标函数,你可以肯定地说,我们绝对可以流动这个东西的梯度。

YL: 这是正确的。 所以人们使用这种交叉熵损失,或者 SOFTMAX,你有好几个名字,但它是同一个东西。 它基本上是系统产生的错误数量的平滑近似,其中平滑是通过基本上考虑系统给每个类别的分数来完成的。

中德网: 有什么我们没有涵盖的内容您想介绍吗?

YL: 大概是在强调重点。 我认为人工智能系统需要能够推理,而我提倡的这个过程是最小化一些关于一些潜在变量的目标。 这允许系统进行计划和推理。 我认为我们应该放弃概率框架,因为当我们想做诸如捕获高维连续变量之间的依赖关系之类的事情时,它是棘手的。 我主张放弃生成模型,因为系统将不得不投入太多资源来预测难以预测的事物,并且可能会消耗太多资源。 差不多就是这样。 如果您愿意,那是主要信息。 然后是整体架构。 然后是关于意识的本质和配置器的作用的那些猜测,但这真的是猜测。

中德网: 我们下次再谈。 我想问你,你如何对这个东西进行基准测试? 但我猜你现在离基准测试还有一点距离?

YL: 不一定那么远,某种简化版本。 你可以做每个人在控制或强化学习中所做的事情,也就是说,你训练它玩 Atari 游戏或类似的游戏或其他一些不确定的游戏。

中德网: 谢谢你的时间,扬。

来源