Metaの「data2vec」は、それらすべてを支配するXNUMXつのニューラルネットワークに向けた次のステップです

複数の種類のデータを処理できるXNUMXつのニューラルネットワークを作成する競争が続いています。これは、データの種類を区別せず、同じ基本構造内ですべてを処理できる、より一般的な人工知能の概念です。

これらのニューラルネットワークと呼ばれるマルチモダリティのジャンルでは、画像、テキスト、音声音声などのさまざまなデータが同じアルゴリズムを通過して、次のようなさまざまなテストでスコアを生成する活動が急増しています。画像認識、自然言語理解または音声検出。

そして、これらの両手利きのネットワークは、AIのベンチマークテストでスコアを上げています。 最新の成果は、Facebook、Instagram、WhatsAppの親であるMetaのAI部門の研究者によって開発された「data2vec」と呼ばれるものです。 

Metaの科学者であるAlexeiBaevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auliが書いているように、要点は、人間の心が包含すると思われる一般的な学習能力のようなものにアプローチすることです。

「人々は、情報をどのように取得するかに関係なく、同じように学習しているように見えますが、たとえば、視覚と音のどちらを使用するかは関係ありません」と著者は書いています。 ブログの記事で、「現在、方法には大きな違いがあります」ニューラルネットワークは、画像、音声、テキスト、「その他のモダリティ」などのさまざまなタイプのデータを処理します。

「このアプローチの核となるアイデアは、より一般的に学ぶことです。AIは、まったくなじみのないタスクを含め、さまざまなタスクを実行することを学ぶことができるはずです」と彼らはdata2vecについて宣言しています。

MetaのCEOであるMarkZuckerbergは、この作品についての引用を提供し、将来のMetaverseに結び付けました。

エキサイティングなブレークスルー:メタAIの研究により、ラベル付けされたトレーニングデータを必要とせずに、音声、視覚、テキストから学習するシステムが構築されました。 人々は視覚、音、言葉の組み合わせで世界を体験し、このようなシステムはいつの日か私たちのやり方で世界を理解することができます。 これはすべて、最終的にAIアシスタントを備えたARグラスに組み込まれるため、たとえば、夕食を作ったり、材料が足りないかどうかに気づいたり、火を弱めたり、より複雑な作業を促したりするのに役立ちます。

名前data2vecは、言語の「埋め込み」のためのプログラムの名前の遊びです。 2013年にGoogleで開発されました 「word2vec」と呼ばれます。 そのプログラムは、単語がどのようにクラスター化するかを予測したため、word2vecは、特定のタイプのデータ(この場合はテキスト)用に設計されたニューラルネットワークを表しています。 

また: ポッドベイのドアを開けてください、HAL:MetaのAIは読唇術をシミュレートします

ただし、data2vecの場合、Baevskiらは、AshishVaswaniとその同僚によって開発されたトランスフォーマーと呼ばれるものの標準バージョンを使用しています。 2017年にGoogleで 複数のデータ型に使用できるように拡張します。 

Transformerニューラルネットワークは元々言語タスク用に開発されましたが、それ以来、多くの種類のデータに広く適応されてきました。 Baevski etal。 Transformerを使用して、変更せずに複数の種類のデータを処理できること、および結果として得られるトレーニング済みのニューラルネットワークが複数の異なるタスクで実行できることを示します。 

正式な論文では、「data2vec:音声、視覚、言語における自己監視学習のための一般的なフレームワーク、」Baevski et al。は、画像データ、音声音声波形、およびテキスト言語表現のためにTransformerをトレーニングします。 

Data2vecは、「複数のモダリティ、つまり音声、ビジョン、テキストで機能する最初の高性能な自己監視アルゴリズム」であり、Baevskiとチームはブログ投稿に書いています。

非常に一般的なTransformerは、特定のタスクを実行するために特定のニューラルネットワークに適用できるいわゆる事前トレーニングになります。 たとえば、著者はdata2vecを事前トレーニングとして使用して、「ViT」と呼ばれる「ビジョントランスフォーマー」を装備します。これは、ビジョンタスク用に特別に設計されたニューラルネットワークです。 昨年導入されました AlexeyDosovitskiyとGoogleの同僚による。 

meta-2022-data2vec-scores-on-vit-test.jpg

Metaは、由緒あるImageNet画像認識コンペティションのトップスコアを示しています。


メタ2022

画像認識の標準的なImageNetテストを解決するためにViTで使用すると、結果はパックの一番上に表示され、精度は84.1%で、事前にトレーニングしたMicrosoftのチームが受け取ったスコア83.2%よりも優れています。 ViT、HangboBaoが率いる 昨年.

また、同じdata2vec Transformerは、音声認識の最先端であり、自然言語学習に最適ではないにしても競争力のある結果を出力します。

実験結果は、data2vecが1つのモダリティすべてで効果的であることを示しており、ImageNet-XNUMXKでViT-BとViT-Lの新しい最先端を設定し、音声認識の音声処理におけるこれまでの最高の作業を改善し、RoBERTaと同等のパフォーマンスを発揮します。 GLUE自然言語理解ベンチマークについて。 

重要なのは、これがニューラルネットワークを変更せずに画像に関するものに変更することなく行われていることです。音声とテキストについても同じです。 代わりに、すべての入力タイプが同じネットワークに入り、同じ非常に一般的なタスクを完了します。 このタスクは、Transformerネットワークが常に使用するのと同じタスクであり、「マスクされた予測」と呼ばれます。 

また: Googleのスーパーモデル:DeepMind Perceiverは、あらゆるものを処理できるAIマシンへの道の一歩です

ただし、data2vecがマスクされた予測を実行する方法は、「自己監視型」学習として知られています。 自己監視設定では、ニューラルネットワークは、複数のステージを通過する必要があることによってトレーニングまたは開発されます。 

まず、ネットワークは、画像、音声、テキストなど、データ入力の同時確率の表現を構築します。 次に、ネットワークのXNUMX番目のバージョンでは、これらの入力データ項目の一部が「マスクアウト」され、公開されません。 ネットワークの最初のバージョンが構築した同時確率を再構築する必要があります。これにより、基本的に空白を埋めることで、データのより良い表現を作成する必要があります。 

メタ-2022-data2vec-ネットワーク-アーキテクチャ.jpg

data2vecアプローチの概要。


メタ2022

同時確率の完全なパターンを持つネットワークと、完了しようとしている不完全なバージョンを持つネットワークのXNUMXつのネットワークは、賢明なことに「教師」と「学生」と呼ばれます。 Studentネットワークは、教師がすでに達成したことを再構築することにより、データの意味を発展させようとします。

また、ご購読はいつでも停止することが可能です Githubのモデルのコードを参照してください.

ニューラルネットワークは、3つの非常に異なるタイプのデータに対して教師と生徒をどのように実行していますか? 重要なのは、XNUMXつのデータケースすべてにおいて、同時確率の「ターゲット」は、GoogleのBERTやOpenAIのGPT-XNUMXなどの特定のデータタイプのTransformerのバージョンの場合のように、特定の出力データタイプではないということです。 。 

むしろ、data2vecはいくつかのニューラルネットワークレイヤーを取得しています。 内部 最終出力として生成される前のデータを表すニューラルネットワーク(中央のどこか)。 

著者が書いているように、「マスクされた予測を実行する以外の私たちの方法の主な違いの2つは、教師ネットワークからの複数のレイヤーの平均化に基づくターゲットの使用です。」 具体的には、「最上位層だけでなく、複数のニューラルネットワーク層表現を回帰する」ため、「dataXNUMXvecは入力データの潜在表現を予測します」。

彼らは、「通常、各ブロックの最後の残りの接続の前のFFN [フィードフォワードネットワーク]の出力をターゲットとして使用します」と付け加えます。ここで、「ブロック」は、ニューラルネットワーク層に相当するTransformerです。

重要なのは、入力されるすべてのデータ型が、教師が作成したニューラルネットワーク内で何かを再構築するという学生ネットワークにとって同じ課題になるということです。

この平均化は、すべてのデータを処理する2つのネットワークを構築するための他の最近のアプローチとは異なります。 たとえば、昨年の夏、GoogleのDeepMindユニットは、独自のマルチモーダルバージョンのTransformerである「Perceiver」と呼ばれるものを提供しました。 Perceiverニューラルネットワークのトレーニングは、ImageNetなどのラベル付きの監視ありタスクへの回答となる出力を生成するためのより標準的なプロセスです。 自己監視アプローチでは、dataXNUMXvecはこれらのラベルを使用せず、ネットワークのデータの内部表現を再構築しようとしているだけです。 

さらに野心的な努力が翼にあります。 GoogleのAI取り組みの責任者であるジェフディーンは、XNUMX月に「経路」についてからかいました。ディーンは、「次世代AIアーキテクチャマルチモーダルデータ処理の場合は」。

念のために言っておきますが、複数のモダリティに対する単一のニューラルネットに対するdata2vecの非常に一般的なアプローチには、さまざまなデータ型に関する多くの情報がまだあります。 画像、音声、テキストはすべて、データの前処理によって作成されます。 このように、ネットワークのマルチモーダルな側面は、チームが「小さなモダリティ固有の入力エンコーダー」と呼んでいるデータに関する手がかりに依然依存しています。

また: Googleは、マルチタスク向けにトレーニングできる次世代AIである「Pathways」を発表しました

「統一された学習体制にもかかわらず、モダリティ固有の特徴抽出器とマスキング戦略を使用しています」と彼らは説明します。

したがって、入力データ型がまったく意味をなさずにニューラルネットがトレーニングされる世界にはまだ到達していません。 また、ニューラルネットワークがすべての異なるデータ型を組み合わせたXNUMXつの表現を構築できる時点ではないため、ニューラルネットは組み合わせて物事を学習しています。

その事実は、間の交換から明らかになります ZDNetの と著者。 ZDNetの Baevskiとチームに連絡し、「ターゲットとして機能する潜在表現は、任意のタイムステップでXNUMXつのモダリティすべてを組み合わせたエンコーディングですか、それとも通常はモダリティのXNUMXつにすぎませんか?」と尋ねました。

Baevskiとチームは、後者の場合であると回答し、 reply 長々と引用するのは興味深いです:

潜在変数は、XNUMXつのモダリティを組み合わせたエンコーディングではありません。 モダリティごとに個別のモデルをトレーニングしますが、モデルが学習するプロセスは同じです。 これは、モデルがさまざまなモダリティでトレーニングされる方法に大きな違いがあった以前から、私たちのプロジェクトの主な革新です。 神経科学者はまた、人間が音と視覚世界について同様の方法で学ぶと信じています。 私たちのプロジェクトは、自己監視学習がさまざまなモダリティに対して同じように機能することを示しています。

data2vecのモダリティ固有の制限を考えると、真に それらすべてを支配するXNUMXつのネットワーク 未来の技術のままです。

ソース