Meta の AI グル LeCun: 今日の AI アプローチのほとんどは、真の知性につながることはありません

yann-lecun-2022年1月-XNUMX日

Meta のチーフ AI サイエンティストである Yann LeCun は、次のように述べています。 Transformers などの今日人気のある AI アプローチは、その多くがこの分野での彼自身の先駆的な仕事に基づいて構築されていますが、十分ではありません。 「一歩下がって、このはしごを作ったが、月に行きたいと思っている。このはしごでは月に行くことはできない」と言う必要があります」とルカンは言います。

ヤン・ルカン チーフ AI サイエンティスト Facebook、Instagram、および WhatsApp の所有者である Meta Properties の責任者は、彼の分野で多くの人々を魅了する可能性があります。 

think pieceのXNUMX月の投稿で Open Review サーバー上、ルカンは、機械で人間レベルの知性を達成するための見込みがあると彼が考えるアプローチの広範な概要を提供しました. 

この論文で明確にされていないとしても、今日の AI における大規模プロジェクトのほとんどが人間レベルの目標を達成することは決してできないという主張が暗示されています。

今月のディスカッションで ZDNetの LeCun 氏は、Zoom を通じて、現時点で深層学習における最も成功している研究方法の多くを非常に懐疑的に見ていることを明らかにしました。

「必要だと思うが、十分ではない」とチューリング賞受賞者は語った ZDNetの 彼の仲間の追求の。 

これらには、Transformer ベースの GPT-3 やその同類などの大規模な言語モデルが含まれます。 LeCun が特徴付けているように、Transformer の信奉者は次のように信じています。個別の予測を行うためのモデル、そして何らかの形で AI がこれから出現するでしょう。」

「将来のインテリジェント システムのコンポーネントになる可能性があるという意味では、彼らは間違っていませんが、本質的な部分が欠けていると思います」と彼は言います。

また: Meta の AI 著名人 LeCun が深層学習のエネルギー フロンティアを探る

これは、畳み込みニューラル ネットワークの使用を完成させた学者から得られた、機能しているように見えるものに対する驚くべき批判です。 

LeCun は、この分野の他の多くの非常に成功した分野に欠陥と限界があると考えています。 

強化学習も決して十分ではないと彼は主張します。 チェス、将棋、囲碁を習得した AlphaZero プログラムを開発した DeepMind の David Silver などの研究者は、「非常にアクションに基づいた」プログラムに焦点を当てていると LeCun 氏は述べています。実際に行動を起こすことでそれを行い、私たちは観察することでそれを行います。」 

それにもかかわらず、62歳のレクンは、何十年にもわたる業績の観点から、多くの人が急いで向かっているかもしれない袋小路であると彼が考えるものに立ち向かい、物事が進むべきだと彼が考える方向に自分の分野を誘導しようとする緊急性を表明しています. 

「人間レベルの AI に向けて前進するために何をすべきかについて、多くの主張が見られます」と彼は言います。 「そして、方向性が間違っていると思われるアイデアもあります。」

「私たちの知的機械が猫ほどの常識を持っているところまでは進んでいません」と Lecun は述べています。 「じゃあ、そこから始めませんか?」 

彼は、ビデオの次のフレームを予測するなど、生成ネットワークを使用するという以前の信念を放棄しました。 「それは完全な失敗でした」と彼は言います。 

LeCun は、「機械学習を説明するために使用できるフレームワークは確率論だけだと考えている」、彼が「宗教的確率論者」と呼ぶ人々を非難します。 

純粋に統計的なアプローチは扱いにくい、と彼は言います。 「世界モデルが完全に確率論的であることを求めるのは多すぎます。 私たちはそれを行う方法を知りません。」

学者だけでなく、産業用 AI についても深く考え直す必要がある、と LeCun は主張します。 自動運転車の群集である Wayve な​​どの新興企業は、「大規模なニューラル ネットワークにデータを投入すれば、ほとんど何でも学習できる」と考えており、「少し楽観的すぎる」と彼は言います。

「ご存知のように、常識のないレベル XNUMX の自動運転車が登場する可能性は十分にあると思います」と彼は言い、「ADAS」について言及します。 先進運転支援システム 自動運転の用語は、「しかし、あなたはそれを徹底的に設計しなければならないでしょう.」

このような過度に設計された自動運転技術は、ディープ ラーニングによって時代遅れになったすべてのコンピューター ビジョン プログラムと同じくらい、きしみやすく脆いものになると彼は信じています。

「最終的には、世界の仕組みをよりよく理解するシステムを含む、より満足のいく、おそらくより良い解決策が生まれるでしょう。」

その過程で、LeCun は、NYU 教授の Gary Marcus 教授 (「彼は AI に何の貢献もしていない」) や Dalle Molle Institute for Artificial Intelligence Research の共同所長である Jürgen Schmidhuber (「旗を立てるのはとても簡単です。」

批判を超えて、LeCun が指摘したより重要なポイントは、特定の基本的な問題が AI のすべて、特に情報の測定方法に直面しているということです。

「一歩下がって、このはしごを作った、でも月に行きたい、このはしごでは月に行けるはずがない、と言わなければなりません」基本的な概念の。 「基本的に、私がここに書いていることは、私たちはロケットを作る必要があるということです。ロケットの作り方の詳細を説明することはできませんが、ここに基本原則があります。」

この論文とインタビューでの LeCun の考えは、今年初めの LeCun のインタビューを読むことでよりよく理解できます。 ZDNetの その中で彼は、深層学習への道筋として、エネルギーベースの自己教師あり学習を主張しています。 これらの反省は、彼がゴールにはたどり着けないと主張するものに代わるものとして、彼が構築したいと望んでいるものへの核となるアプローチの感覚を与えてくれます。 

以下は、軽く編集されたインタビューのトランスクリプトです。

ZDNet: 私たちのチャットの主題は、この論文「自律型機械知能への道」であり、そのバージョン 0.9.2 が現存するバージョンですよね?

ヤン・ルカン: ええ、私はこれを一種の作業文書と考えています。 そこで、私はそれを Open Review に投稿し、人々からのコメントや提案、おそらく追加の参考文献を待ってから、改訂版を作成します。 

ZDNet: Juergen Schmidhuber が Open Review にコメントを追加しているようです。

YL: ええ、彼はいつもそうです。 彼の論文の 1991 つを私の論文で引用します。 彼がソーシャルネットワーク上で行った、彼が他のケースで行ったように、基本的にこれらすべてをXNUMX年に発明したという議論は、そうではないと思います. つまり、やることはとても簡単です実験も理論もなしに、旗を立てること、そして、一種のアイデアを書くことは、この方法でそれを行うことができると示唆するだけです. しかし、ご存知のように、単にアイデアを思いつき、それをおもちゃの問題で機能させることと、それを実際の問題で機能させることと、それが機能する理由を示す理論を実行することとの間には大きな違いがあります。それを展開します。 チェーン全体があり、彼の科学的功績の考えは、その考えを最初に持っていたのは、すべての功績を得る必要があるということです。 そして、それはばかげています。 

ZDNet: ソーシャル メディアで耳にすることすべてを信じないでください。 

YL: つまり、私が引用すべきであると彼が言う主要な論文には、私がその論文で話している主要なアイデアがまったく含まれていません。 彼はこれをGANやその他のものでも行っていますが、これは真実ではありませんでした. 旗を立てるのは簡単ですが、貢献するのははるかに困難です。 ところで、この特定の論文で、これは通常の意味での科学論文ではないことを明確に述べました。 これは、このことがどこに行くべきかについてのポジションペーパーのようなものです。 新しいかもしれないアイデアがいくつかありますが、ほとんどはそうではありません。 本質的に、私がその論文に書いたことのほとんどについて優先権を主張しているわけではありません。

yann-lecun-2022年2月-XNUMX日

強化学習も決して十分ではない、と LeCun は主張する。 チェス、将棋、囲碁を習得した AlphaZero プログラムを開発した DeepMind の David Silver などの研究者は、「非常にアクションベース」であると LeCun 氏は述べています。行動、私たちは観察することによってそれを行います。 

ZDNet: なぜ今この道を歩むようになったのか知りたいので、そこから始めるのが良いかもしれません。 これについてどう思いましたか? なぜこれを書こうと思ったのですか?

YL: ええと、私はこれについて非常に長い間考えてきました。人間レベルまたは動物レベルの知性または学習と能力への道についてです。 そして、私の講演では、教師あり学習と強化学習の両方が、動物や人間で観察される種類の学習をエミュレートするには不十分であるということについて、かなり声を上げてきました。 私はこれをXNUMX、XNUMX年ほどやっています。 というわけで、最近のものではありません。 私は何年も前に NeurIPS で基調講演を行い、本質的にその点を強調しました。 では、なぜ今論文を書くのでしょうか。 私は要点に達しました — [Google Brain の研究者] Geoff Hinton は似たようなことをしました — つまり、確かに、彼は私よりも多くの時間を費やしています。 私たちは若くはありません。

ZDNet: XNUMX は新しい XNUMX です。 

YL: それは事実ですが、要点は、人間レベルの AI に向けて前進するために何をすべきかについて、多くの主張が見られるということです。 また、方向性が間違っていると思われるアイデアもあります。 したがって、XNUMX つのアイデアは、ああ、ニューラル ネットワークの上にシンボリックな推論を追加することです。 そして、私はこれを行う方法がわかりません。 したがって、この論文で説明したことは、明示的なシンボル操作なしで同じことを行う XNUMX つのアプローチかもしれません。 これは、世界の伝統的なゲイリー・マーカスのようなものです。 ゲイリー・マーカスは AI の人ではありません。ちなみに、彼は心理学者です。 彼は AI に何の貢献もしていません。 彼は実験心理学で非常に優れた業績を上げていますが、AI に関する査読付き論文を書いたことはありません。 だから、それらの人々がいます。 

世界の [DeepMind の原理研究者] David Silvers は、報酬は十分である、基本的に強化学習がすべてであり、もう少し効率的にする必要があると言っています。 そして、それらは間違っていないと思いますが、強化学習をより効率的にするために必要なステップは、基本的に、強化学習をケーキの上のチェリーのようなものに追いやるだろうと思います. そして、欠けている主な部分は、世界がどのように機能するかを学ぶことです。ほとんどの場合、行動を伴わない観察によって行われます。 強化学習は非常に行動ベースであり、行動を起こし、結果を見ることで世界について学びます。

ZDNet: そして、それは報酬に焦点を当てています。

YL: 報酬重視であり、アクション重視でもあります。 ですから、世界について何かを学ぶためには、世界で行動しなければなりません。 自己教師あり学習について私が論文で述べている主な主張は、私たちが行う学習のほとんどは、実際に行動を起こすことによってではなく、観察することによって行うということです。 そして、それは非常に非正統的であり、特に強化学習の人々にとってだけでなく、多くの心理学者や認知科学者にとって、行動は行動であると考えています — 私は行動が不可欠ではないと言っているわけではありません。 is 必要不可欠。 しかし、私たちが学ぶことの大部分は、主に世界の構造に関するものであり、もちろん、相互作用、行動、遊びなどが含まれると思いますが、その多くは観察的なものです.

ZDNet: また、同時に、言語第一主義者である Transformer の人々をチェックすることもできます。 最初に言語なしでどのようにこれを構築できますか? 多くの人を魅了することができるかもしれません。 

YL: ええ、私はそれに慣れています。 ですから、ええ、言語第一主義者がいて、知性とは言語に関するものであり、知性の基盤は言語であると言うのです。 しかし、それは一種の、動物の知性を却下します. ご存知のように、私たちのインテリジェント マシンが猫ほどの常識を持っているわけではありません。 では、そこから始めませんか? 猫が周囲の世界を把握し、非常に賢いことを行い、そのような計画を立てたり、犬をさらに優れたものにしたりできるのは何ですか? 

それから、知性は社会的なものですよね? 私たちはお互いに話し、情報を交換し、何とか何とか何とかして知的なのです。 タコやオランウータンのように、非常に賢い両親に会うことのないあらゆる種類の非社会的な種があります.つまり、彼ら[オランウータン]は確かに母親から教育を受けていますが、社会的な動物ではありません. 

しかし、私が注目するかもしれない別のカテゴリーの人々は、スケーリングで十分だと言う人々です。 つまり、基本的には、巨大なトランスフォーマーを使用するだけで、ビデオ、テキスト、何とか、何とか、などを含むマルチモーダル データでそれらをトレーニングします。 私たちは、ある種、石化しますすべてをトークン化し、巨大なトレーニングを行う基本的に個別の予測を行うためのモデルであり、何らかの形で AI がこれから出現します。 それが将来のインテリジェントシステムの構成要素になるかもしれないという意味で、彼らは間違っていません。 しかし、本質的な部分が欠けていると思います。 

私がこの論文でチェックを入れようとしている別のカテゴリーの人々がいます。 そして、それは確率論者、宗教的確率論者です。 したがって、機械学習を説明するために使用できるフレームワークは確率論だけだと考える人もいます。 この記事で説明しようとしたように、世界モデルに完全な確率論を求めるのは基本的にやり過ぎです。 方法がわかりません。 計算の難しさがあります。 だから私はこの考え全体を捨てることを提案しています。 そしてもちろん、これは機械学習だけでなく、すべての統計の巨大な柱であり、機械学習の通常の形式主義であると主張しています。 

もう一つは―― 

ZDNet: あなたは順調に進んでいます…

YL: — 生成モデルと呼ばれるものです。 つまり、予測することを学ぶことができ、予測によって世界について多くを学ぶことができるという考えです。 そこで、私はあなたにビデオを渡し、システムにビデオで次に何が起こるかを予測するように依頼します。 そして、すべての詳細を含む実際のビデオ フレームを予測するようお願いする場合があります。 しかし、この論文で私が論じているのは、それは実際にはあまりにも多くのことを問うことであり、複雑すぎるということです。 そして、これは私が考えを変えたものです。 約 XNUMX 年前まで、私は潜在変数生成モデルと呼ばれるもの、次に何が起こるかを予測するモデル、または予測が不可能な場合に潜在変数の助けを借りて、欠落している情報を予測するモデルの支持者でした。決定論的。 そして、私はこれをあきらめました。 そして、私がこれをあきらめた理由は、BERTで使用されているタイプの一種の予測または再構成ベースのトレーニングを適用しようとした経験的な結果に基づいています.そして大規模な言語モデルで、彼らはこれを画像に適用しようとしましたが、完全に失敗しました。 そして、それが完全な失敗である理由は、確率モデルの制約のためです。辞書内のすべての単語の確率分布を計算できるため、単語のような個別のトークンを予測するのは比較的簡単です。 簡単だ。 しかし、可能性のあるすべてのビデオ フレームの確率分布を生成するようにシステムに依頼すると、それをパラメーター化する方法がわかりません。 それは、解き方がわからない難解な数学的問題にぶつかります。 

yann-lecun-2022年3月-XNUMX日

「私たちの知的機械が猫ほどの常識を持っているところまでは進んでいません」と Lecun は述べています。 「じゃあ、そこから始めませんか? 猫が周囲の世界を把握し、非常に賢いことを行い、そのような計画を立てたり、犬をさらに優れたものにしたりできるのは何ですか?」

ですから、確率論やそのようなもののフレームワーク、より弱いもの、エネルギーベースのモデルを放棄しましょうと私が言う理由です。 私もこれを何十年も提唱してきたので、これは最近のことではありません。 しかし同時に、世界には理解も予測もできないことがたくさんあるので、生成モデルのアイデアを放棄します。 あなたがエンジニアなら、それをノイズと呼びます。 あなたが物理学者なら、それを熱と呼びます。 そして、あなたが機械学習の専門家なら、それを無関係な詳細などと呼んでいます。

私が論文や講演で使った例は、自動運転車に役立つ世界予測システムが欲しいということですよね? 他のすべての車の軌跡、移動する可能性のある他の物体、歩行者、自転車、サッカーボールを追いかける子供などに何が起こるかを事前に予測できるようにしたいと考えています。 だから、世界についてのあらゆる種類のこと。 でも、道の脇には木々があり、今日は風が吹いているので、葉が風に乗って動いていたり、木々の後ろに池があったり、池に波紋があったりします。 そして、それらは本質的に、ほとんど予測不可能な現象です。 また、予測が困難で無関係なものを予測するために、モデルが大量のリソースを費やすことは望ましくありません。 だから私は共同埋め込みアーキテクチャを提唱しているのです。モデル化しようとしている変数は、予測しようとしているのではなく、モデル化しようとしていますが、エンコーダーを介して実行され、そのエンコーダーは、無関係または複雑すぎる入力に関する多くの詳細を排除できます。基本的には、ノイズに相当します。

ZDNet: 今年の初めに、エネルギーベースのモデルである JEPA と H-JEPA について説明しました。 私の感覚では、あなたの理解が正しければ、X 埋め込みと Y 埋め込みのこれら XNUMX つの予測が最も類似する低エネルギーのポイントを見つけているということです。これらは、これらの埋め込みを互いに近づける本質的なポイントではない可能性があります。

YL: 右。 そのため、JEPA アーキテクチャは、実際には、入力について最大限の情報を提供すると同時に、ある程度の精度または信頼性で相互に予測可能な表現を抽出することの間で、トレードオフ (妥協点) を見つけようとします。 それはトレードオフを見つけます。 したがって、葉の動きの詳細を含む膨大な量のリソースを費やしてから、葉が今から XNUMX 秒後にどのように動くかを決定するダイナミクスをモデル化するか、単にそれを床に落とすかを選択できる場合基本的に、これらの詳細をすべて排除する予測子を介して Y 変数を実行するだけで、モデル化してキャプチャするのが難しすぎるため、おそらくそれを排除するだけです。

ZDNet: 驚くべきことの XNUMX つは、あなたが「これは機能する、それを説明するために後で熱力学の理論を解明する」ということを大いに支持していたことです。 ここでは、「これをどのように解決する必要があるのか​​ わかりませんが、それについて考えるためのいくつかのアイデアを提案したい」というアプローチを取り、おそらく理論や仮説にアプローチすることさえあります.少しでも。 面白いのは、車に常識があるかどうかに関係なく、歩行者が見える車に多くのお金をかけて取り組んでいる人がたくさんいるからです。 そして、それらの人々の中には、気にしない人もいると思いますが、彼らは次のように言うでしょう。改善を続け、シミュレーションをスケーリングし続けます。」 

ですから、あなたが今、一歩下がって、私たちが何をしているのか考えてみよう、と言える立場にいるのは興味深いことです。 そして業界は、そのクランクが実際に機能するため、スケーリング、スケーリング、スケーリング、スケーリングを行うだけだと言っています。 つまり、GPU の半導体クランクは本当に機能します。

YL: XNUMXつの質問があります。 つまり、スケーリングが必要です。 私は、スケーリングする必要があるという事実を批判しているわけではありません。 スケーリングする必要があります。 それらのニューラルネットは、大きくなるにつれて良くなります。 スケーリングする必要があることに疑いの余地はありません。 そして、ある程度の常識を持っているものは大きくなります。 それを回避する方法はないと思います。 したがって、スケーリングは適切であり、必要ですが、十分ではありません。 それが私が言っているポイントです。 スケーリングだけではありません。 それが最初のポイントです。 

XNUMXつ目のポイントは、理論が先かどうかなどです。 ですから、最初に一歩下がって、このはしごを作ったが、月に行きたいのですが、このはしごが私たちをそこに連れて行く方法はないと言う必要があるという概念があると思います. つまり、基本的に、私がここに書いているのは、ロケットを作る必要があるということです。 ロケットの作り方を詳しく説明することはできませんが、基本的な原則は次のとおりです。 私はそれについての理論などを書いているわけではありませんが、それはロケットになるでしょうね。 宇宙エレベーターとか。 すべてのテクノロジーの詳細をすべて把握しているわけではありません。 私が JEPA に取り組んできたように、私たちはそれらのいくつかを機能させようとしています。 共同埋め込みは画像認識には非常にうまく機能しますが、それを使用して世界モデルをトレーニングするには、いくつかの困難があります。 私たちはそれに取り組んでいます、私たちはそれがうまくいくことを願っています soon、しかし、克服できない障害に遭遇する可能性があります。 

次に、推論に関する論文の重要なアイデアがあります。システムに計画を立てさせたい場合は、単純な推論の形式と考えることができますが、システムには潜在変数が必要です。 言い換えれば、ニューラルネットによって計算されるものではなく、目的関数やコスト関数を最小化するように値が推測されるものです。 そして、このコスト関数を使用して、システムの動作を駆動できます。 そして、これはまったく新しいアイデアではありませんよね? これは非常に古典的な最適制御であり、その基礎は 50 年代後半から 60 年代前半にまでさかのぼります。 したがって、ここで目新しさを主張するものではありません。 しかし、私が言いたいのは、この種の推論は、計画を立てることができる知的システムの一部でなければならないということです。その行動は、ハードワイヤードな行動によってではなく、模倣学習ではなく、目的関数によって指定または制御できます。行動を駆り立てます—必ずしも学習を駆り立てるわけではありませんが、行動を駆り立てます。 ご存知のように、私たちの脳にはそれがあり、すべての動物には物事に対する内因性コストまたは内因性動機があります。 これにより、生後 XNUMX か月の赤ちゃんは立ち上がろうとします。 立ち上がって幸せでいることの代償は、コスト関数の項に組み込まれています。 しかし、どう立ち向かうかではなく、それが学習です。

yann-lecun-2022年4月-XNUMX日

「スケーリングは良いことです。必要ですが、十分ではありません」と LeCun は、GPT-3 の種類の Transformer ベースのプログラムなどの巨大な言語モデルについて述べています。 Transformer の信奉者は次のように信じています。個別の予測を行うためのモデル、そして何らかの形で AI がこれから出現するでしょう…しかし、それには本質的な部分が欠けていると思います。」

ZDNet: その点を締めくくるために、ディープ ラーニング コミュニティの多くは、常識のないことを進めることに問題がないように思われます。 ここでは、ある時点で行き詰まりになるというかなり明確な議論をしているようです。 常識的な自動運転車は必要ないと言う人もいますが、それはスケーリングで実現できるからです。 このままではいけないと言っているような?

YL: ご存知のように、常識のないレベル XNUMX の自動運転車が登場する可能性は十分にあると思います。 しかし、このアプローチの問題点は、これは一時的なものになるということです。 つまり、世界全体をマッピングし、あらゆる種類の特定のコーナーケースの動作を配線し、十分なデータを収集して、道路で遭遇する可能性のある奇妙な状況をすべて把握します。 そして私の推測では、十分な投資と時間があれば、それを設計するだけで簡単に解決できると思います。 しかし最終的には、世界がどのように機能するかをよりよく理解し、私たちが常識と呼ぶレベルを備えたシステムを含む、より満足のいく、おそらくより良い解決策が生まれるでしょう. 人間レベルの常識である必要はありませんが、誰かが運転しているのを見ているのではなく、動いているのを見ているだけで、世界について多くのことを理解し、背景の基盤を構築することで、システムが取得できる何らかの知識です。世界がどのように機能するかについての知識があり、その上で運転を学ぶことができます。 

これについて歴史的な例を挙げてみましょう。 古典的なコンピューター ビジョンは、ハードワイヤードで設計された多くのモジュールに基づいており、その上に学習の薄い層がありました。 したがって、2012 年に AlexNet に打ち負かされたものは、基本的に、SIFT [Scale-Invariant Feature Transform (SIFT)、画像内の顕著なオブジェクトを識別するための古典的なビジョン技術] のような、一種の手作りの特徴抽出の第 2000 段階を持っていました。 HOG [勾配方向ヒストグラム、もう 2012 つの古典的な技法] など、さまざまなものがあります。 そして、機能カーネルなどに基づく中間レベルの機能のXNUMX番目のレイヤーと、ある種の教師なしメソッド。 その上に、サポート ベクター マシンまたは比較的単純な分類器を配置します。 これは、XNUMX 年代半ばから XNUMX 年までの標準的なパイプラインのようなものでした。そして、エンド ツー エンドの畳み込みネットに置き換えられました。ここでは、これをハードワイヤするのではなく、ただ大量のデータを持っているだけです。これは私が長い間提唱してきたアプローチですが、それまでは大規模な問題には実用的ではありませんでした。 

音声認識にも同様の話があり、データを前処理する方法、大量のケプストラム [信号処理のための高速フーリエ変換の逆] を抽出する方法について、膨大な量の詳細なエンジニアリングが行われました。一種の事前設定されたアーキテクチャ、何とか、何とか、何とか、ガウス混合物を備えた隠れマルコフモデルがあります。 つまり、フロントエンドを手作りしたビジョンと少し同じアーキテクチャであり、その上にやや監視されていない訓練された中間層があり、その上に監視されている層があります。 そして今、それは基本的に、エンドツーエンドのニューラル ネットワークによって一掃されました。 ですから、すべてを学ぼうとするのと似たようなものを見ているのですが、適切な事前知識、適切なアーキテクチャ、適切な構造が必要です。

yann-lecun-2022年5月-XNUMX日

自動運転車の群集である Waymo や Wayve な​​どの新興企業は、「少し楽観的すぎる」と彼は言います。 ADAS のレベル 5 の自動運転車は可能ですが、「しかし、それを徹底的に設計する必要があり」、初期のコンピューター ビジョン モデルのように「もろい」ものになります。

ZDNet: あなたが言っているのは、現在深層学習ではうまくいかないものを、たとえば産業界で適用できるように設計しようとする人がいるということです。彼らは、コンピューター ビジョンで時代遅れになったものを作成し始めるのでしょうか?

YL: 右。 ここ数年、自動運転に取り組んでいる人々が少し楽観的すぎたのは、一部には、畳み込みネットやトランスフォーマーのような一般的なものがあり、そこにデータを投げることができるからです。 、ほとんど何でも学習できます。 それで、あなたは言います、わかりました、私はその問題の解決策を持っています。 最初に行うことは、車が数分間、誰も傷つけずに自動運転するデモを作成することです。 そして、コーナーケースがたくさんあることに気づき、トレーニングセットを200倍にしたときにどれだけ良くなるかの曲線をプロットしようとすると、あらゆる種類のコーナーケースがあるため、そこに到達することは決してないことに気づきます. . そして、XNUMX億キロごとに致命的な事故を引き起こす車が必要ですよね? それで、あなたは何をしますか? さて、あなたはXNUMX方向に歩きます。 

最初の方向性は、システムが学習するために必要なデータの量をどのように削減できるかということです。 そこで、自己教師あり学習の出番です。自動運転車の多くは、自己教師あり学習に非常に関心を持っています。自己教師あり学習は、模倣学習に膨大な量の監視データを引き続き使用する方法ですが、基本的に、事前トレーニング。 そして、それはまだうまくいきませんが、そうなるでしょう。 そして、もう XNUMX つの選択肢があります。現時点でより進んでいるほとんどの企業が採用している方法です。つまり、エンド ツー エンドのトレーニングを行うことはできますが、できるコーナー ケースはたくさんあります。そのため、これらのコーナー ケースを処理するシステムを設計し、基本的にそれらを特殊なケースとして扱い、コントロールをハードワイヤし、特殊な状況を処理するために多くの基本的な動作をハードワイヤします。 そして、十分な数のエンジニアのチームがあれば、うまくやってのけるかもしれません。 しかし、それには長い時間がかかり、最終的にはまだ少し脆弱であり、展開できるほど信頼性があるかもしれませんが、ある程度の脆弱性があります。将来、車は世界の仕組みについてある程度の常識と理解を持っている可能性があるため、車にはありません。 

短期的には、一種の工学的アプローチが勝つでしょう - それはすでに勝っています。 それが世界のWaymoとCruise、そしてWayveそして何でも、それは彼らがすることです。 次に、自己教師あり学習アプローチがあります。これはおそらく、工学的アプローチが進歩するのに役立つでしょう。 しかし、長期的には、これらの企業が待つには長すぎるかもしれませんが、おそらく、より統合された自動インテリジェント運転システムになるでしょう.

ZDNet: 私たちは、ほとんどの投資家の投資範囲を超えていると言います。

YL: それは正しい。 問題は、パフォーマンスが望ましいレベルに達する前に、人々が忍耐力を失ったり、お金を使い果たしたりするかどうかです。

ZDNet: モデルで選択した要素のいくつかを選択した理由について、何か興味深いことはありますか? Kenneth Craik [1943,説明の性質]、そしてあなたは Bryson and Ho [1969, 応用最適制御]、そしてなぜあなたがこれらの影響から始めたのか、私は興味があります.もしあなたが特にこれらの人々が彼らがしたことまでそれを釘付けにしたと信じていたのなら. なぜそこから始めたのですか?

YL: まあ、確かに、彼らはすべての詳細を釘付けにしていたとは思いません。 ブライソンとホー、これは 1987 年に私がトロントでジェフリー ヒントンのポスドクだったときに読んだ本です。 しかし、私は博士号を書いていたときにこの一連の作業について事前に知っていて、本質的に最適制御とバックプロップを関連付けました。 あなたが本当に別のシュミットフーバーになりたいのなら、バックプロップの本当の発明者は実際には最適制御理論家のヘンリー・J・ケリー、アーサー・ブライソン、そしておそらくロシアの最適制御理論家であるレフ・ポントリャーギンでさえあったと言うでしょう。 50年代後半。 

それで、彼らはそれを考え出しました、そして実際、これの根底にある数学がラグランジュ力学であることを実際に見ることができます。 実際、オイラーとラグランジュに戻ると、ラグランジュの古典力学の定義の中に、このような気配を見つけることができます。 したがって、最適制御のコンテキストで、彼らが興味を持っていたのは、基本的にロケットの軌道を計算することでした。 ご存知のように、これは初期の宇宙時代でした。 ロケットのモデルがある場合は、ここにロケットの状態があることがわかります。 t、そしてこれが私がとろうとしている行動ですので、さまざまな種類の推力とアクチュエーター、これがその時のロケットの状態です t + 1.

ZDNet: 状態行動モデル、価値モデル。

YL: そうです、コントロールの基本です。 これで、一連のコマンドを想像してロケットの発射をシミュレートできます。これにより、ロケットからターゲット、宇宙ステーション、またはその他のものまでの距離であるコスト関数が得られます。 そして、ある種の勾配降下によって、ロケットが実際にターゲットにできるだけ近づくように、アクションのシーケンスを更新するにはどうすればよいかを理解できます。 そしてそれは、信号を時間的に逆伝播することによってもたらされなければなりません。 それが逆伝播、勾配逆伝播です。 これらの信号は、ラグランジュ力学では共役変数と呼ばれますが、実際には勾配です。 彼らはバックプロップを発明しましたが、この原理を使用して、パターン認識などを実行できる多段階システムをトレーニングできることに気づいていませんでした。 これはおそらく 70 年代後半から 80 年代前半まで実現されず、実際には実装されず、80 年代半ばまで機能しませんでした。 オーケー、これは backprop が本当に、ある種、離陸した場所です。これは、ニューラル ネットワークをエンド ツー エンドのマルチレイヤでトレーニングできる数行のコードが示されたためです。 これにより、パーセプトロンの限界が取り除かれます。 そして、ええ、最適な制御との接続がありますが、それは問題ありません。

ZDNet: つまり、あなたが最初に受けたこれらの影響がバックプロップに戻ってきたと言うのは長い道のりであり、それはあなたにとって出発点として重要でしたか?

YL: ええ、しかし、人々が少し忘れていたことだと思います。90 年代、または 80 年代に、マイケル ジョーダン [MIT 脳の研究部門および認知科学] とそのような人々は、もはやニューラル ネットワークを行っていませんが、ニューラル ネットワークを制御に使用できるという考えと、最適制御の古典的なアイデアを使用できるという考えです。 つまり、モデル予測制御と呼ばれるもの、現在はモデル予測制御と呼ばれるもの、制御しようとしているシステムの適切なモデルがあれば、一連のアクションの結果をシミュレートまたは想像できるという考え方です。そして、それが置かれている環境です。基本的に勾配降下法によって — これは学習ではなく、推論です — 私の目的を最小化するための最良の一連のアクションを見つけ出すことができます。 したがって、推論に潜在変数を持つコスト関数を使用することは、大規模なニューラル ネットワークの現在の作物が忘れているものだと思います。 しかし、これは長い間、機械学習の非常に古典的な要素でした。 したがって、すべてのベイジアン ネット、グラフィカル モデル、または確率的グラフィカル モデルは、このタイプの推論を使用していました。 一連の変数間の依存関係をキャプチャするモデルがあり、いくつかの変数の値が通知され、残りの変数の最も可能性の高い値を推測する必要があります。 これが、グラフィカル モデルやベイジアン ネットなどにおける推論の基本原則です。 そして、それが基本的に、推論と計画についての推論であるべきだと思います。

ZDNet: あなたはクローゼットのベイジアンです。

YL: 私は非確率ベイジアンです。 私は前にその冗談を言いました。 私は実際に数年前にNeurIPSにいました.2018年か2019年だったと思います.私がベイジアンであるかどうか尋ねられたベイジアンによってビデオで捕らえられました.必要に応じて、非確率的ベイジアン、一種のエネルギーベースのベイジアンです。 

ZDNet: それは間違いなく何かのように聞こえます Star Trek. このホワイト ペーパーの最後でおっしゃっていましたが、あなたが思い描いたものを実現するには、何年にもわたる大変な努力が必要です。 現時点でのその仕事のいくつかが何で構成されているか教えてください.

YL: そのため、この論文では、JEPA をどのようにトレーニングして構築するかを説明します。 そして、私が提唱している基準は、抽出された表現が入力に関して持つ情報内容を最大化する何らかの方法を持つことです。 XNUMX つ目は、予測誤差の最小化です。 また、予測子が非決定論的であることを可能にする潜在変数が予測子にある場合は、その情報内容を最小限に抑えることによって、この潜在変数も正則化する必要があります。 では、ニューラル ネットワークの出力の情報量を最大化する方法と、潜在変数の情報量をどのように最小化するかという XNUMX つの問題があります。 そして、このXNUMXつができなければ、システムは崩壊します。 面白いことは何も学習しません。 それはすべてにゼロのエネルギーを与えます。そのようなものは、依存の良いモデルではありません. 私が言及するのは崩壊防止の問題です。 

私が言っているのは、これまで人々が行ってきたすべてのことの中で、崩壊を防ぐ方法は XNUMX つのカテゴリーしかないということです。 XNUMX つは対照的な方法で、もう XNUMX つはそれらの規則化された方法です。 したがって、XNUMX つの入力の表現の情報量を最大化し、潜在変数の情報量を最小化するというこの考え方は、正規化された方法に属します。 しかし、これらの共同埋め込みアーキテクチャでの作業の多くは、対照的な方法を使用しています。 実際、彼らはおそらく現時点で最も人気があります。 では、問題は、最適化または最小化できる方法で情報コンテンツをどのように測定するかということです。 情報コンテンツを実際に測定する方法がわからないため、複雑になります。 概算したり、上限を設定したり、そのようなことができます。 しかし、彼らは実際には情報の内容を測定していません。実際には、ある程度明確に定義されていません.

ZDNet: シャノンの法則じゃない? 情報理論じゃない? エントロピーにはある程度の量があり、良いエントロピーと悪いエントロピーがあり、良いエントロピーは機能するシンボル システムであり、悪いエントロピーはノイズです。 シャノンで全て解決じゃない?

YL: その通りですが、その背後には大きな欠陥があります。 データが入ってきて、どうにかしてデータを離散シンボルに量子化し、それらの各シンボルの確率を測定した場合、それらのシンボルによって運ばれる情報の最大量はの可能な記号の合計 円周率対数、 右? どこ Pi シンボルの確率 私 - それがシャノンエントロピーです。 [シャノンの法則は、一般に H = – ∑ pi log pi として定式化されます。]

ただし、ここに問題があります。 Pi? シンボルの数が少なく、シンボルが個別に描画される場合は簡単です。 多くのシンボルと依存関係がある場合、それは非常に困難です。 したがって、一連のビットがあり、ビットが互いに独立しており、確率が XNUMX と XNUMX の間で等しいと仮定すると、エントロピーを簡単に測定できます。問題ありません。 しかし、あなたの元に来るものが高次元のベクトルである場合、データ フレームなどのようなものであるとすれば、 Pi? 分布は何ですか? まず、高次元の連続空間であるその空間を量子化する必要があります。 これを適切に量子化する方法がわかりません。 k-means などを使用できます。これは、ビデオ圧縮や画像圧縮を行うときに人々が行うことです。 しかし、それはあくまでも概算です。 そして、独立性を仮定する必要があります。 したがって、ビデオでは、連続するフレームが独立していないことは明らかです。 依存関係があり、そのフレームは、XNUMX 時間前に見た別のフレーム (同じものの写真) に依存している可能性があります。 つまり、測定はできません Pi. 測定する Pi、予測を学習する機械学習システムが必要です。 そして、前の問題に戻ります。 したがって、本質的に情報の尺度を概算することしかできません。 

yann-lecun-2022年6月-XNUMX日

「問題は、最適化または最小化できる方法で情報コンテンツをどのように測定するかということです。」 ルカンは言います。 「そして、情報量を実際に測定する方法がわからないため、事態は複雑になります。」 これまでにできる最善の方法は、「必要なタスクに十分な」プロキシを見つけることです。

もっと具体的な例を挙げましょう。 私たちが遊んできたアルゴリズムの XNUMX つは、VICReg と呼ばれる分散不変性共分散正則化です。 それはICLRで発表された別の論文にあり、 arXivに上げました 約 2021 年前、XNUMX 年。そしてそこにあるアイデアは、情報を最大化することです。 このアイデアは実際には私のグループによる以前の論文から生まれました バーロウ・ツインズ. 基本的に、変数間の唯一の依存関係が相関、線形依存関係であると仮定することによって、ニューラル ネットから出てくるベクトルの情報量を最大化します。 したがって、変数のペア間、またはシステム内の変数間で可能な唯一の依存関係が、貴重なもののペア間の相関関係であると仮定すると、これは非常に大まかな概算であり、システムから出てくる情報コンテンツを最大化できます。すべての変数の分散が XNUMX でないことを確認します — たとえば、分散 XNUMX としましょう。それが何であるかは問題ではありません — そしてそれらを逆相関させます。これはホワイトニングと呼ばれる同じプロセスですが、これも新しいものではありません。 これに関する問題は、変数のグループ間、または線形依存関係ではない変数のペアの間でさえ、非常に複雑な依存関係を持つことができ、それらが相関関係に現れないことです。 たとえば、XNUMX つの変数があり、それら XNUMX つの変数のすべてのポイントがある種のらせん状に並んでいる場合、これら XNUMX つの変数の間には非常に強い依存関係がありますよね? しかし実際には、これら XNUMX つの変数間の相関を計算すると、それらは相関していません。 これは、これら XNUMX つの変数の情報内容が実際には非常に小さい例です。これは、スパイラル内の位置であるため、XNUMX つの量にすぎません。 それらは無相関であるため、これらの XNUMX つの変数から多くの情報が得られていると思いますが、実際にはそうではありません。基本的に、変数の XNUMX つを他の変数から予測することしかできません。 これは、情報コンテンツを測定するための非常に大まかな方法​​しかないことを示しています。

ZDNet: それで、それはあなたが今これに取り組まなければならないことのXNUMXつですか? これは、情報コンテンツを最大化および最小化しているときをどのように知ることができるかという、より大きな問題です。

YL:  または、これに使用しているプロキシが、必要なタスクに十分に適しているかどうか。 実際、機械学習では常にこれを行っています。 最小化するコスト関数は、実際に最小化したいものではありません。 たとえば、分類を行いたいとしますね。 分類器をトレーニングするときに最小限に抑えたいコスト関数は、分類器が犯している間違いの数です。 しかし、これは微分不可能で恐ろしいコスト関数であり、ニューラル ネットワークの重みを変更することがわかっているため、最小化することはできません。これらのサンプルの XNUMX つが決定を反転し、ジャンプするまで何も変更されません。エラーで、正または負。

ZDNet: つまり、確実に言うことができる目的関数であるプロキシがあり、このことの勾配を確実に流すことができます。

YL: それは正しい。 人々はクロスエントロピー損失、または SOFTMAX を使用します。いくつかの名前がありますが、同じものです。 そして、それは基本的に、システムが作るエラー数の滑らかな概算であり、基本的に、システムが各カテゴリに与えるスコアを考慮して、平滑化が行われます。

ZDNet: まだカバーしていないもので、カバーしたいものはありますか?

YL: 要点を強調しているのかもしれません。 AI システムは推論できる必要があると思います。私が提唱しているこのプロセスは、潜在変数に関して何らかの目的を最小化することです。 これにより、システムは計画と推論を行うことができます。 高次元の連続変数間の依存関係を取得するなどのことをしたい場合、確率論的フレームワークは扱いにくいため、確率論的フレームワークを放棄する必要があると思います。 また、生成モデルを放棄することを提唱しています。システムは、予測が難しすぎてリソースを消費しすぎる可能性があるものを予測するために、あまりにも多くのリソースを費やさなければならなくなるからです。 そして、それはほとんどそれです。 必要に応じて、それが主なメッセージです。 次に、全体的なアーキテクチャです。 次に、意識の性質と構成者の役割についての推測がありますが、これは実際には推測です。

ZDNet: 次回はそれについて説明します。 質問しようと思っていたのですが、このことをどのようにベンチマークしますか? しかし、あなたは今、ベンチマークから少し離れていると思いますか?

YL: 必ずしもそれほど遠くない、一種の単純化されたバージョン。 制御学習や強化学習で誰もが行っていることを行うことができます。つまり、Atari ゲームやそのようなもの、または不確実性が含まれる他のゲームをプレイするように訓練することができます。

ZDNet: 時間をありがとう、ヤン。

ソース