Meta 的“data2vec”是迈向一个神经网络来统治它们的下一步

竞赛正在进行中,以创建一个可以处理多种数据的神经网络,这是一种更通用的人工智能概念,它不区分数据类型,而是可以在相同的基本结构中处理它们。

这些神经网络被称为多模态的流派是看到一系列活动,其中不同的数据,如图像、文本和语音音频,通过相同的算法在不同的测试中产生分数,例如图像识别、自然语言理解或语音检测。

这些灵巧的网络正在人工智能的基准测试中获得分数。 最新成果是所谓的“data2vec”,由 Facebook、Instagram 和 WhatsApp 的母公司 Meta 的人工智能部门的研究人员开发。 

正如 Meta 的科学家 Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu 和 Michael Auli 所写,关键是要接近人类思维似乎包含的一般学习能力。

“虽然人们似乎以类似的方式学习,无论他们如何获取信息——例如,无论他们使用视觉还是听觉,”作者写道 在一篇博客文章,“目前神经网络处理不同类型数据的方式存在很大差异,例如图像、语音、文本和其他模态”。

“这种方法的核心思想,”他们宣称 data2vec,“是更广泛地学习:人工智能应该能够学习完成许多不同的任务,包括那些完全不熟悉的任务。”

Meta 的 CEO Mark Zuckerberg 引用了这项工作,并将其与未来的 Metaverse 联系起来:

令人兴奋的突破:Meta AI 研究构建了一个无需标记训练数据即可从语音、视觉和文本中学习的系统。 人们通过视觉、声音和文字的组合来体验世界,这样的系统有朝一日可以像我们一样理解世界。 这一切最终都将被内置到带有人工智能助手的 AR 眼镜中,例如,它可以帮助你做饭,注意到你是否错过了一种成分,提示你调低热量,或更复杂的任务。

名称 data2vec 是对语言“嵌入”程序名称的玩弄 2013 年在谷歌开发 称为“word2vec”。 该程序预测了单词如何聚集在一起,因此 word2vec 它代表了为特定类型的数据(在这种情况下为文本)设计的神经网络。 

除此之外: 请打开吊舱门,HAL:Meta 的 AI 模拟唇读

然而,就 data2vec 而言,Baevski 及其同事正在采用由 Ashish Vaswani 及其同事开发的所谓 Transformer 的标准版本 2017 年在谷歌 并将其扩展为用于多种数据类型。 

Transformer 神经网络最初是为语言任务而开发的,但多年来它已被广泛应用于多种数据。 巴耶夫斯基等人。 表明 Transformer 可用于处理多种数据而无需更改,并且经过训练的神经网络可以执行多个不同的任务。 

在正式文件中,“data2vec:语音、视觉和语言自我监督学习的通用框架,” Baevski 等人针对图像数据、语音音频波形和文本语言表示训练 Transformer。 

Data2vec 是“第一个适用于多种模式(即语音、视觉和文本)的高性能自我监督算法”,Baevski 及其团队在博客文章中写道。

非常通用的 Transformer 成为所谓的预训练,然后可以应用于特定的神经网络,以便执行特定的任务。 例如,作者使用 data2vec 作为预训练来装备所谓的“ViT”,即“视觉转换器”,一种专门为视觉任务设计的神经网络, 去年推出的 作者:Alexey Dosovitskiy 和 Google 的同事。 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta 显示了古老的 ImageNet 图像识别比赛的最高分。


元2022

当在 ViT 上尝试解决图像识别的标准 ImageNet 测试时,他们的结果名列前茅,准确率为 84.1%,优于微软团队预训练的 83.2% ViT,由包航波领导, 去年.

同样的 data2vec Transformer 输出的结果在语音识别方面是最先进的,在自然语言学习方面即使不是最好的,也是有竞争力的:

实验结果表明 data2vec 在所有三种模态中都有效,为 ImageNet-1K 上的 ViT-B 和 ViT-L 设置了新的技术水平,在语音识别方面改进了语音处理方面的最佳先前工作,并且性能与 RoBERTa 相当在 GLUE 自然语言理解基准上。 

关键在于,这是在没有对神经网络进行任何修改的情况下发生的,它是关于图像的,对于语音和文本也是如此。 相反,每种输入类型都进入同一个网络,并完成相同的非常一般的任务。 该任务与 Transformer 网络始终使用的任务相同,称为“掩码预测”。 

除此之外: Google 的超模:DeepMind Perceiver 是迈向可以处理任何事物的 AI 机器的一步

然而,data2vec 执行掩蔽预测的方式是一种被称为“自我监督”学习的方法。 在自我监督的环境中,神经网络必须经过多个阶段才能得到训练或开发。 

首先,网络构建数据输入联合概率的表示,无论是图像、语音还是文本。 然后,网络的第二个版本将这些输入数据项中的一些“屏蔽”,未显示。 它必须重建网络的第一个版本所构建的联合概率,这迫使它通过基本上填补空白来创建越来越好的数据表示。 

meta-2022-data2vec-network-architecture.jpg

data2vec 方法的概述。


元2022

这两个网络,一个具有完整的联合概率模式,一个具有它试图完成的不完整版本,被称为“老师”和“学生”。 如果你愿意的话,学生网络试图通过重建教师已经取得的成果来发展其对数据的感知。

您还可以 在 Github 上查看模型的代码.

神经网络如何为三种截然不同的数据执行教师和学生? 关键是,在所有三种数据情况下,联合概率的“目标”不是特定的输出数据类型,就像针对特定数据类型的 Transformer 版本中的情况一样,例如 Google 的 BERT 或 OpenAI 的 GPT-3 . 

相反,data2vec 正在抓取一些神经网络层,它们是 神经网络,在中间的某个地方,它代表在数据被生成为最终输出之前的数据。 

正如作者所写,“我们方法的一个主要区别 [...] 除了执行掩码预测之外,还使用了基于教师网络中多层平均的目标。” 具体来说,“我们回归多个神经网络层表示,而不仅仅是顶层”,以便“data2vec 预测输入数据的潜在表示”。

他们补充说,“我们通常使用每个块中最后一个残差连接之前的 FFN [前馈网络] 的输出作为目标”,其中“块”是 Transformer 等效于神经网络层。

关键是,输入的每种数据类型都对学生网络构成相同的挑战,即在教师组成的神经网络中重建某些东西。

这种平均方法不同于最近构建一个网络来处理所有数据的其他方法。 例如,去年夏天,谷歌的 DeepMind 部门提供了它所谓的“感知器”,这是它自己的多模态转换器版本。 Perceiver 神经网络的训练是产生输出的更标准过程,该输出是对 ImageNet 等标记的监督任务的答案。 在自我监督的方法中,data2vec 不使用这些标签,它只是试图重建网络对数据的内部表示。 

更雄心勃勃的努力正在酝酿之中。 谷歌 AI 项目负责人 Jeff Dean 在 XNUMX 月份曾取笑“Pathways”,Dean 称其为“下一代人工智能架构”用于多模态数据处理。

请注意,data2vec 对用于多种模式的单个神经网络的非常通用的方法仍然有很多关于不同数据类型的信息。 图像、语音和文本都是通过数据的预处理来准备的。 这样,网络的多模态方面仍然依赖于有关数据的线索,团队称之为“特定于小型模态的输入编码器”。

除此之外: 谷歌推出“Pathways”,一种可以训练多任务的下一代人工智能

“尽管有统一的学习机制,我们仍然使用特定于模态的特征提取器和掩蔽策略,”他们解释说。

因此,我们还没有处于一个训练神经网络而对输入数据类型毫无意义的世界。 我们还没有到神经网络可以构建一个组合所有不同数据类型的表示的时间点,因此神经网络正在组合学习事物。

从双方的交流中可以清楚地看出这一事实 网易科技 和作者。 网易科技 联系了 Baevski 和团队并问道:“作为目标的潜在表示是在任何给定时间步长上所有三种模态的组合编码,还是它们通常只是其中一种模态?”

Baevski 和团队回应说是后一种情况,他们的 reply 引述很有趣:

潜在变量不是三种模式的组合编码。 我们为每种模式训练单独的模型,但模型学习的过程是相同的。 这是我们项目的主要创新,因为之前在不同模式下模型的训练方式存在很大差异。 神经科学家还认为,人类以类似的方式学习声音和视觉世界。 我们的项目表明,自我监督学习也可以在不同的模式下以相同的方式工作。

鉴于 data2vec 特定于模态的限制,一个可能真正的神经网络 一个网络来统治他们 仍然是未来的技术。

来源