DeepMind 的“Gato”很平庸,那么他们为什么要构建它呢?

deepmind-gato-slash-image-closer-in.png

DeepMind 的“Gato”神经网络在众多任务上表现出色,包括控制堆叠积木的机械臂、玩 Atari 2600 游戏以及为图像添加字幕。


DeepMind

世界已经习惯于看到有关人工智能深度学习形式最新突破的头条新闻。然而,谷歌 DeepMind 部门的最新成就可以概括为:“一个在很多事情上做得一般的人工智能程序。” 

DeepMind 的程序被称为 Gato, 本周揭晓 作为一种所谓的多模式程序,它可以玩视频游戏、聊天、写文章、为图片添加字幕以及控制机械臂堆放积木。它是一种可以处理多种数据来执行多种任务的神经网络。 

主要作者 Scott Reed 写道:“通过一组权重,Gato 可以进行对话、为图像添加字幕、用真正的机器人手臂堆叠积木、在玩 Atari 游戏方面超越人类、在模拟 3D 环境中导航、遵循指令等等。”和同事在他们的论文“多面手代理”中, 发布在 Arxiv 预印本服务器上

DeepMind 联合创始人 Demis Hassabis 为团队加油, 在推文中惊呼,“我们迄今为止最总代理!!团队的出色工作!” 

除此之外: 一项新实验:人工智能真的了解猫或狗吗?

唯一的问题是加托实际上在多项任务上表现不佳。 

一方面,该程序在控制堆放积木的机器人 Sawyer 臂方面比专用机器学习程序做得更好。另一方面,它为图像生成的标题在许多情况下都非常糟糕。它与人类对话者进行标准聊天对话的能力同样平庸,有时会引发矛盾和无意义的言论。 

它对 Atari 2600 视频游戏的播放性能低于大多数旨在参与基准测试的专用 ML 程序 街机学习环境

为什么你要编写一个程序,它在某些方面做得很好,而在其他方面却做得不太好?作者认为,这是先例和期望。 

更通用的程序成为人工智能领域的最先进技术是有先例的,并且预计未来计算能力的增加将弥补缺陷。 

通用性往往会在人工智能领域取得胜利。正如作者引用人工智能学者理查德·萨顿的话指出的那样,“从历史上看,更擅长利用计算的通用模型最终也往往会取代更专业的特定领域方法。”

正如萨顿所写 在他自己的博客文章中”,“从 70 年的人工智能研究中可以学到的最大教训是,利用计算的通用方法最终是最有效的,而且效率很高。”

里德和团队在正式论文中写道:“我们在这里测试这样一个假设:训练一个通常能够完成大量任务的智能体是可能的;而且这个通用代理只需很少的额外数据就可以成功完成更多的任务。”

除此之外: Meta 的 AI 大师 LeCun 探索深度学习的能源前沿

在这种情况下,该模型确实非常通用。它是 Transformer 的一个版本,Transformer 是基于注意力的主导模型,已成为包括 GPT-3 在内的众多程序的基础。变压器在给定周围元素(例如句子中的单词)的情况下对某些元素的概率进行建模。 

就 Gato 而言,DeepMind 科学家能够对多种数据类型使用相同的条件概率搜索。 

正如里德和同事描述训练加托的任务一样, 

在 Gato 的训练阶段,来自不同任务和模式的数据被序列化为平坦的标记序列,并由类似于大型语言模型的变压器神经网络进行批处理和处理。损失被掩盖,以便 Gato 只预测动作和文本目标。

换句话说,无论标记是聊天中的单词还是块堆叠练习中的运动向量,Gato 都不会区别对待它们。全部都是一样。 

deepmind-how-gato-is-trained.png

加托训练场景。


里德等人。 2022年

里德和团队的假设背后隐藏着一个推论,即越来越多的计算能力最终将获胜。目前,Gato 受到堆垛 Sawyer 机器人手臂响应时间的限制。 Gato 拥有 1.18 亿个网络参数,比 GPT-3 等超大型 AI 模型小得多。随着深度学习模型变得越来越大,执行推理会导致延迟,这在现实机器人的非确定性世界中可能会失败。 

但是,里德和同事预计,随着人工智能硬件处理速度的加快,这一限制将会被超越。

他们写道:“我们的训练重点是模型规模的操作点,该操作点允许实时控制现实世界的机器人,目前 Gato 的参数约为 1.2B。” “随着硬件和模型架构的改进,这个工作点自然会增加可行的模型大小,推动通用模型在缩放定律曲线上走得更高。”

因此,Gato 实际上是一个模型,通过使通用模型变得越来越大,计算规模将继续成为机器学习发展的主要向量。换句话说,越大越好。 

deepmind-gets-better-with-scale.png

随着神经网络参数规模的增加,Gato 会变得更好。


里德等人。 2022年

作者对此有一些证据。加托似乎确实随着它变得更大而变得更好。他们根据参数比较了三种规模模型的所有基准任务的平均得分:79 万、364 亿,以及主模型 1.18 亿。作者写道:“我们可以看到,对于同等的令牌数量,随着规模的增加,性能有了显着的提高。” 

未来一个有趣的问题是,通才程序是否比其他类型的人工智能程序更危险。作者在论文中花了很多时间讨论存在尚未充分理解的潜在危险这一事实。  

处理多个任务的程序的想法向外行人暗示了一种人类的适应性,但这可能是一种危险的误解。 “例如,物理体现可能会导致用户将代理拟人化,从而在系统出现故障的情况下导致错误的信任,或者被不良行为者利用,”里德和团队写道。 

“此外,虽然跨领域知识转移通常是机器学习研究的目标,但如果某些行为(例如街机游戏打斗)转移到错误的环境中,可能会产生意想不到的结果。”

因此,他们写道,“随着通才系统的进步,知识转移的伦理和安全考虑可能需要大量的新研究。”

(作为一个有趣的旁注,Gato 论文采用了一种由前 Google AI 研究员 Margaret Michell 及其同事设计的方案来描述风险,称为“模型卡”。模型卡简要概述了 AI 程序是什么、它做什么以及做什么影响其运作方式的因素。米歇尔去年写道,她因支持她的前同事蒂姆尼特·格布鲁而被迫离开谷歌,后者对人工智能的道德担忧与谷歌的人工智能领导层发生了冲突。)

加托的普遍化趋势绝不是独一无二的。它是通用化大趋势的一部分,也是使用大量马力的大型模型的一部分。去年夏天,谷歌的“Perceiver”神经网络将文本 Transformer 任务与图像、声音和 LiDAR 空间坐标相结合,让全世界第一次尝到了谷歌在这个方向上的倾斜。

除此之外: Google 的超模:DeepMind Perceiver 是迈向可以处理任何事物的 AI 机器的一步

其同类产品包括 PaLM(Pathways 语言模型), 谷歌科学家今年推出,一个 540 亿个参数模型,利用新技术协调数千个芯片, 称为途径,也是谷歌发明的。 Meta 一月份发布了一个名为“data2vec”的神经网络,它使用 Transformer 来处理图像数据、语音音频波形和文本语言表示。 

Gato 的新颖之处似乎在于,其意图将人工智能用于非机器人任务,并将其推向机器人领域。

Gato 的创造者注意到 Pathways 和其他通才方法的成就,看到了人工智能的最终成就,它可以在现实世界中运行任何类型的任务。 

“未来的工作应该考虑如何将这些文本功能统一为一个完全通用的代理,该代理也可以在现实世界、不同的环境和实施例中实时行动。” 

那么,您可以将 Gato 视为解决人工智能最困难问题(机器人技术)的重要一步。 



来源