DeepMind の「Gato」は平凡なのに、なぜ彼らはそれを構築したのですか?

DeepMind の「Gato」ニューラルネットワークは、ブロックを積み重ねるロボットアームの制御、Atari 2600 ゲームのプレイ、画像のキャプション付けなど、数多くのタスクに優れています。

ディープマインド

世界は、ディープラーニング形式の人工知能による最新の画期的な進歩についての見出しを見ることに慣れています。しかし、Google の DeepMind 部門の最新の成果は、「多くのことにまあまあの仕事をする XNUMX つの AI プログラム」として要約されるかもしれません。

DeepMind のプログラムでは Gato と呼ばれています。今週発表されましたいわゆるマルチモーダルプログラムとして、ビデオゲームをプレイしたり、チャットしたり、作文を書いたり、写真にキャプションを付けたり、ブロックを積み重ねるロボットアームを制御したりできるプログラムです。これは、複数の種類のデータを処理して複数の種類のタスクを実行できる XNUMX つのニューラルネットワークです。

「単一セットのウェイトを使用して、Gato は対話に参加し、画像にキャプションを付け、本物のロボットアームでブロックを積み上げ、Atari ゲームのプレイで人間を上回り、シミュレートされた 3D 環境でナビゲートし、指示に従うなどのことができます。」と筆頭著者の Scott Reed は書いています。とその同僚は論文「A Generalist Agent」で述べています。 Arxiv プレプリントサーバーに投稿.

DeepMind の共同創設者である Demis Hassabis 氏はチームを応援しました。ツイートで叫ぶ, 『これまでで最も総合的なエージェント!! チームの素晴らしい仕事です！」

また： 新しい実験：AIは本当に猫や犬、または何かを知っていますか？

唯一の欠点は、ガトーが実際にはいくつかのタスクにおいてそれほど優れていないということです。

一方で、このプログラムは、ブロックを積み上げるロボットソーヤーアームの制御において、専用の機械学習プログラムよりも優れたパフォーマンスを発揮します。一方で、多くの場合、非常に貧弱な画像のキャプションが生成されます。人間の対話者との標準的なチャット対話におけるその能力も同様に平凡で、時には矛盾した無意味な発話を引き起こすことがあります。

また、Atari 2600 ビデオゲームのプレイは、ベンチマークで競合するように設計されたほとんどの専用 ML プログラムのプレイを下回ります。アーケード学習環境.

なぜ、いくつかのことはうまく実行し、他の多くのことはあまりうまくいかないプログラムを作成するのでしょうか? 著者によれば、前例と予想。

より一般的な種類のプログラムが AI の最先端技術になった前例があり、将来的にはコンピューティング能力の増加によって欠点が補われることが期待されています。

AI では汎用性が勝利する傾向があります。著者らが AI 学者のリチャード・サットンの言葉を引用して述べているように、「歴史的には、計算の活用に優れた汎用モデルも、最終的にはより専門化されたドメイン固有のアプローチを追い越す傾向がありました。」

サットンが書いたように彼自身のブログ投稿で, 「70 年にわたる AI 研究から読み取れる最大の教訓は、コンピューティングを利用する一般的な手法が最終的には最も効果的であり、それを大幅に上回るということです。」

リード氏とチームは正式な論文として次のように書いています。そして、この一般的なエージェントは、追加のデータをほとんど使用せずに、さらに多くのタスクを成功させるために適応させることができます。」

また： Meta の AI 著名人 LeCun が深層学習のエネルギーフロンティアを探る

この場合のモデルは、確かに非常に一般的です。これは、GPT-3 を含む多くのプログラムの基礎となった、注目をベースにした主要な種類のモデルである Transformer のバージョンです。トランスフォーマーは、文内の単語など、周囲の要素を考慮して、ある要素の確率をモデル化します。

Gato の場合、DeepMind の科学者は、多数のデータ型に対して同じ条件付き確率検索を使用できます。

リードと同僚がガトーを訓練する任務について説明しているとき、

Gato のトレーニング段階では、さまざまなタスクやモダリティからのデータがトークンのフラットシーケンスにシリアル化され、バッチ化され、大規模な言語モデルと同様のトランスフォーマーニューラルネットワークによって処理されます。損失はマスクされるため、Gato はアクションとテキストターゲットのみを予測します。

言い換えれば、Gato は、トークンがチャット内の単語であっても、ブロックを積み重ねる演習における移動ベクトルであっても、区別して扱いません。それはすべて同じです。

ディープマインド-ガトーの訓練方法.png — ガトーの訓練シナリオ。

リードら。 2022年

リード氏とチームの仮説は当然の結果として埋もれており、最終的にはより多くのコンピューティング能力が勝利するだろうということです。現時点では、Gato はブロックの積み重ねを行う Sawyer ロボットアームの応答時間によって制限されています。 Gato のネットワークパラメーターは 1.18 億 3 万で、GPT-XNUMX などの非常に大規模な AI モデルよりもはるかに小さいです。深層学習モデルが大きくなるにつれて、推論を実行すると遅延が発生し、現実世界のロボットの非決定論的な世界では失敗する可能性があります。

しかし、リード氏らは、AIハードウェアの処理速度が向上するにつれて、その限界は超えられると予想している。

「私たちは、実世界のロボットのリアルタイム制御を可能にするモデルスケールの動作点でのトレーニングに焦点を当てています。Gato の場合、現在約 1.2 億のパラメータです」と彼らは書いています。「ハードウェアとモデルのアーキテクチャが向上するにつれて、この動作点は自然に実現可能なモデルのサイズを拡大し、ジェネラリストモデルをスケーリング則曲線の上位に押し上げることになります。」

したがって、Gato は実際には、一般的なモデルをますます大きくすることによって、コンピューティングの規模がどのように機械学習開発の主なベクトルであり続けるかを示すモデルです。言い換えれば、大きいほど良いのです。

Gato は、パラメーター内のニューラルネットワークのサイズが増加するにつれて向上します。

リードら。 2022年

そして著者はこれについていくつかの証拠を持っています。ガトーは大きくなるにつれて良くなっているようです。パラメータに従って 79 つのサイズのモデル (364 万、1.18 億 XNUMX 万、メインモデル XNUMX 億 XNUMX 万) のすべてのベンチマークタスクの平均スコアを比較します。「同等のトークン数の場合、規模が増加するとパフォーマンスが大幅に向上することがわかります」と著者らは書いています。

今後の興味深い問題は、ジェネラリストであるプログラムが他の種類の AI プログラムよりも危険であるかどうかです。著者らは論文の中で、まだ十分に理解されていない潜在的な危険性が存在するという事実について議論するのに多くの時間を費やしている。

複数のタスクを処理するプログラムというアイデアは、素人には一種の人間の適応力を示唆していますが、それは危険な誤解かもしれません。「例えば、物理的な具現化はユーザーがエージェントを擬人化することにつながり、システムが誤動作した場合に誤った信頼をもたらしたり、悪意のある者によって悪用されたりする可能性がある」とリード氏とチームは書いている。

「さらに、ML 研究ではクロスドメインの知識伝達が目標となることがよくありますが、特定の動作 (アーケードゲームの戦闘など) が間違ったコンテキストに転送されると、予期せぬ望ましくない結果が生じる可能性があります。」

したがって、彼らは、「ジェネラリストシステムが進歩するにつれて、知識伝達の倫理と安全性の考慮には、実質的な新しい研究が必要になる可能性がある」と書いています。

(興味深い余談ですが、ガトーの論文では、モデルカードと呼ばれる、元 Google AI 研究者のマーガレットミシェル氏らが考案したリスクを記述するスキームが採用されています。モデルカードは、AI プログラムとは何か、その機能と内容について簡潔にまとめています。ミシェル氏は昨年、元同僚のティムニット・ゲブル氏を支援したためにグーグルから追い出されたと書いているが、ティムニット・ゲブル氏はAIに対する倫理的懸念がグーグルのAIリーダーシップと衝突したからだ。）

一般化する傾向においては、ガトーは決して特殊なものではありません。これは、一般化への広範な傾向の一部であり、大量の馬力を使用するより大きなモデルです。昨年の夏、テキストの Transformer タスクと画像、音声、LiDAR 空間座標を組み合わせた Google の「Perceiver」ニューラルネットワークによって、世界がこの方向への Google の傾きを初めて体験しました。

また： Googleのスーパーモデル：DeepMind Perceiverは、あらゆるものを処理できるAIマシンへの道の一歩です

同等の製品には PaLM (Pathways Language Model) があります。 Googleの科学者によって今年導入された、数千のチップを調整するための新しいテクノロジーを利用した 540 億のパラメーターモデル、パスウェイとして知られる、これもGoogleで発明されました。 Meta が 2 月にリリースした「dataXNUMXvec」と呼ばれるニューラルネットワークは、画像データ、音声オーディオ波形、およびテキスト言語表現に Transformer をすべて XNUMX つにまとめて使用します。

Gato の新しい点は、ロボット以外のタスクに使用される AI をロボットの領域に押し込むという意図であるように思われます。

Gato の作成者は、Pathways やその他のジェネラリストアプローチの成果に注目し、現実世界であらゆる種類のタスクを実行できる AI の究極の成果を見ています。

「今後の取り組みでは、これらのテキスト機能を、現実世界のさまざまな環境や実施形態でリアルタイムに動作することもできる、完全に汎用的な XNUMX つのエージェントに統合する方法を検討する必要があります。」

つまり、Gato は、AI の最も困難な問題であるロボット工学を解決するための重要なステップであると考えることができます。

ソース