Metas „data2vec“ ist der nächste Schritt in Richtung One Neural Network to Rule Them All

Das Rennen um die Schaffung eines neuronalen Netzwerks, das mehrere Arten von Daten verarbeiten kann, ist im Gange, die Vorstellung einer allgemeineren künstlichen Intelligenz, die nicht zwischen Datentypen unterscheidet, sondern sie alle innerhalb derselben Grundstruktur verarbeiten kann.

Das Genre der Multimodalität, wie diese neuronalen Netze genannt werden, sieht eine Flut von Aktivitäten, bei denen verschiedene Daten, wie Bild, Text und Sprachaudio, durch denselben Algorithmus geleitet werden, um eine Punktzahl für verschiedene Tests zu erzeugen, wie z Bilderkennung, natürliches Sprachverständnis oder Spracherkennung.

Und diese beidhändigen Netzwerke sammeln Punkte bei Benchmark-Tests von KI. Die neueste Errungenschaft heißt „data2vec“, entwickelt von Forschern der KI-Abteilung von Meta, dem Mutterunternehmen von Facebook, Instagram und WhatsApp. 

Wie die Wissenschaftler von Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu und Michael Auli, schreiben, geht es darum, sich eher der allgemeinen Lernfähigkeit zu nähern, die der menschliche Geist zu umfassen scheint.

„Während die Menschen auf ähnliche Weise zu lernen scheinen, unabhängig davon, wie sie Informationen erhalten – ob sie beispielsweise visuell oder akustisch sind“, schreiben die Autoren in einem Blog-Post, „gibt es derzeit große Unterschiede in der Art und Weise“, wie neuronale Netze mit verschiedenen Arten von Daten wie Bildern, Sprache, Text „und anderen Modalitäten“ umgehen.

„Die Kernidee dieses Ansatzes“, erklären sie gegenüber data2vec, „ist es, allgemeiner zu lernen: KI soll lernen können, viele verschiedene Aufgaben zu erledigen, auch solche, die ihnen völlig unbekannt sind.“

Der CEO von Meta, Mark Zuckerberg, bot ein Zitat über die Arbeit an und verband sie mit einem zukünftigen Metaverse:

Aufregender Durchbruch: Meta-KI-Forschung hat ein System entwickelt, das aus Sprache, Bild und Text lernt, ohne gekennzeichnete Trainingsdaten zu benötigen. Menschen erleben die Welt durch eine Kombination aus Sehen, Hören und Worten, und Systeme wie dieses könnten eines Tages die Welt so verstehen, wie wir es tun. All dies wird schließlich mit einem KI-Assistenten in eine AR-Brille integriert, sodass es Ihnen beispielsweise beim Kochen des Abendessens helfen kann, wenn Sie bemerken, wenn Sie eine Zutat vergessen, und Sie auffordert, die Hitze herunterzudrehen, oder komplexere Aufgaben.

Der Name data2vec ist ein Wortspiel mit dem Namen eines Programms zum „Einbetten“ von Sprachen 2013 bei Google entwickelt namens „word2vec“. Dieses Programm sagte voraus, wie sich Wörter zusammenballen, und so ist word2vec repräsentativ für ein neuronales Netzwerk, das für eine bestimmte Art von Daten, in diesem Fall Text, entwickelt wurde. 

Außerdem: Öffnen Sie bitte die Kabinentüren, HAL: Metas KI simuliert das Lippenlesen

Im Fall von data2vec nehmen Baevski und Kollegen jedoch eine Standardversion eines sogenannten Transformers, der von Ashish Vaswani und Kollegen entwickelt wurde bei Google im Jahr 2017 und Erweiterung auf die Verwendung für mehrere Datentypen. 

Das neuronale Transformer-Netzwerk wurde ursprünglich für Sprachaufgaben entwickelt, wurde jedoch im Laufe der Jahre für viele Arten von Daten umfassend angepasst. Baevskiet al. zeigen, dass der Transformer verwendet werden kann, um mehrere Arten von Daten zu verarbeiten, ohne verändert zu werden, und dass das trainierte neuronale Netzwerk, das daraus resultiert, mehrere verschiedene Aufgaben ausführen kann. 

Im formellen Papier „data2vec: Ein allgemeiner Rahmen für selbstüberwachtes Lernen in Sprechen, Sehen und Sprache“, trainieren Baevski et al. den Transformer für Bilddaten, Sprach-Audio-Wellenformen und Darstellungen in Textsprache. 

Data2vec ist „der erste selbstüberwachte Hochleistungsalgorithmus, der für mehrere Modalitäten funktioniert, nämlich Sprache, Sehen und Text“, schreiben Baevski und sein Team in dem Blogbeitrag.

Der sehr allgemeine Transformer wird zu einem sogenannten Vortraining, das dann auf bestimmte neuronale Netze angewendet werden kann, um bestimmte Aufgaben auszuführen. Beispielsweise verwenden die Autoren data2vec als Vortraining, um den sogenannten „ViT“, den „Vision Transformer“, ein neuronales Netzwerk, das speziell für Sehaufgaben entwickelt wurde, auszustatten wurde letztes Jahr eingeführt von Alexey Dosovitskiy und Kollegen bei Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta zeigt Bestnoten für den ehrwürdigen ImageNet-Bilderkennungswettbewerb.


Meta 2022

Wenn sie auf ViT verwendet werden, um zu versuchen, den Standard-ImageNet-Test der Bilderkennung zu lösen, stehen ihre Ergebnisse mit einer Genauigkeit von 84.1 % an der Spitze des Pakets, besser als die Punktzahl von 83.2 %, die ein vorab geschultes Team bei Microsoft erhalten hat ViT, angeführt von Hangbo Bao, letztes Jahr.

Und derselbe data2vec Transformer gibt Ergebnisse aus, die für die Spracherkennung auf dem neuesten Stand sind und die für das Erlernen natürlicher Sprache konkurrenzfähig, wenn nicht sogar die besten sind:

Experimentelle Ergebnisse zeigen, dass data2vec in allen drei Modalitäten effektiv ist, einen neuen Stand der Technik für ViT-B und ViT-L auf ImageNet-1K setzt, die beste frühere Arbeit in der Sprachverarbeitung zur Spracherkennung verbessert und RoBERTa ebenbürtig ist auf dem GLUE-Benchmark zum Verstehen natürlicher Sprache. 

Der springende Punkt ist, dass dies ohne jegliche Modifikation des neuronalen Netzwerks geschieht, um Bilder zu bearbeiten, und dasselbe gilt für Sprache und Text. Stattdessen geht jeder Eingabetyp in dasselbe Netzwerk und führt dieselbe sehr allgemeine Aufgabe aus. Diese Aufgabe ist die gleiche Aufgabe, die Transformer-Netzwerke immer verwenden, bekannt als „maskierte Vorhersage“. 

Außerdem: Googles Supermodel: DeepMind Perceiver ist ein Schritt auf dem Weg zu einer KI-Maschine, die alles und jedes verarbeiten kann

Die Art und Weise, wie data2vec eine maskierte Vorhersage durchführt, ist jedoch ein Ansatz, der als „selbstüberwachtes“ Lernen bekannt ist. In einer selbstüberwachten Umgebung wird ein neuronales Netzwerk trainiert oder entwickelt, indem es mehrere Phasen durchlaufen muss. 

Zuerst konstruiert das Netzwerk eine Darstellung der gemeinsamen Wahrscheinlichkeit der Dateneingabe, seien es Bilder oder Sprache oder Text. Dann werden in einer zweiten Version des Netzwerks einige dieser Eingabedatenelemente „ausmaskiert“, also nicht aufgedeckt. Es muss die gemeinsame Wahrscheinlichkeit rekonstruieren, die die erste Version des Netzwerks konstruiert hatte, was es zwingt, immer bessere Darstellungen der Daten zu erstellen, indem es im Wesentlichen die Lücken füllt. 

meta-2022-data2vec-network-architecture.jpg

Ein Überblick über den data2vec-Ansatz.


Meta 2022

Die beiden Netzwerke, das eine mit dem vollständigen Muster der gemeinsamen Wahrscheinlichkeit und das andere mit der unvollständigen Version, die es zu vervollständigen versucht, heißen vernünftigerweise „Lehrer“ und „Schüler“. Das Schülernetzwerk versucht, wenn Sie so wollen, seinen Sinn für die Daten zu entwickeln, indem es rekonstruiert, was der Lehrer bereits erreicht hat.

Du kannst dich siehe den Code für die Modelle auf Github.

Wie verhält sich das neuronale Netzwerk Lehrer und Schüler für drei sehr unterschiedliche Arten von Daten? Der Schlüssel ist, dass das „Ziel“ der gemeinsamen Wahrscheinlichkeit in allen drei Datenfällen kein bestimmter Ausgabedatentyp ist, wie dies bei Versionen des Transformers für einen bestimmten Datentyp der Fall ist, wie z. B. Googles BERT oder OpenAIs GPT-3 . 

Vielmehr schnappt sich data2vec ein paar neuronale Netzwerkschichten, die es sind innerhalb das neuronale Netzwerk, irgendwo in der Mitte, das die Daten darstellt, bevor sie als endgültige Ausgabe produziert werden. 

Wie die Autoren schreiben: „Einer der Hauptunterschiede unserer Methode […] neben der Durchführung maskierter Vorhersagen ist die Verwendung von Zielen, die auf der Mittelung mehrerer Schichten aus dem Lehrernetzwerk basieren.“ Insbesondere „regressieren wir mehrere neuronale Netzwerkschichtdarstellungen statt nur der obersten Schicht“, sodass „data2vec die latenten Darstellungen der Eingabedaten vorhersagt“.

Sie fügen hinzu: „Wir verwenden im Allgemeinen die Ausgabe des FFN [Feed-Forward-Netzwerk] vor der letzten verbleibenden Verbindung in jedem Block als Ziel“, wobei ein „Block“ das Transformer-Äquivalent einer neuronalen Netzwerkschicht ist.

Der Punkt ist, dass jeder eingehende Datentyp für das Schülernetzwerk zur gleichen Herausforderung wird, etwas innerhalb des neuronalen Netzwerks zu rekonstruieren, das der Lehrer zusammengestellt hat.

Diese Mittelung unterscheidet sich von anderen neueren Ansätzen zum Aufbau eines Netzwerks für alle Daten. Zum Beispiel hat die DeepMind-Einheit von Google im vergangenen Sommer das angeboten, was sie „Perceiver“ nennt, eine eigene multimodale Version des Transformers. Das Training des neuronalen Netzwerks des Perceivers ist der Standardprozess zur Erzeugung einer Ausgabe, die die Antwort auf eine gekennzeichnete, überwachte Aufgabe wie ImageNet ist. Beim selbstüberwachten Ansatz verwendet data2vec diese Labels nicht, sondern versucht lediglich, die interne Darstellung der Daten im Netzwerk zu rekonstruieren. 

Noch ehrgeizigere Bemühungen stehen in den Startlöchern. Jeff Dean, Leiter der KI-Bemühungen von Google, neckte im Oktober über „Pathways“, was Dean als „KI-Architektur der nächsten Generation“ für multimodale Datenverarbeitung.

Wohlgemerkt, der sehr allgemeine Ansatz von data2vec für ein einzelnes neuronales Netz für mehrere Modalitäten enthält immer noch viele Informationen über die verschiedenen Datentypen. Bild, Sprache und Text werden alle durch Vorverarbeitung der Daten aufbereitet. Auf diese Weise stützt sich der multimodale Aspekt des Netzwerks immer noch auf Hinweise zu den Daten, die das Team als „kleine modalitätsspezifische Eingabecodierer“ bezeichnet.

Außerdem: Google stellt „Pathways“ vor, eine KI der nächsten Generation, die für Multitasking trainiert werden kann

„Trotz des einheitlichen Lernregimes verwenden wir immer noch modalitätsspezifische Merkmalsextraktoren und Maskierungsstrategien“, erklären sie.

Daher befinden wir uns noch nicht in einer Welt, in der ein neuronales Netz ohne jeglichen Sinn für die Eingabedatentypen trainiert wird. Wir sind auch noch nicht an einem Punkt angelangt, an dem das neuronale Netz eine Darstellung konstruieren kann, die alle unterschiedlichen Datentypen kombiniert, so dass das neuronale Netz Dinge in Kombination lernt.

Diese Tatsache wird durch einen Austausch zwischen deutlich ZDNet und die Autoren. ZDNet wandte sich an Baevski und sein Team und fragte: „Sind die latenten Repräsentationen, die als Ziele dienen, eine kombinierte Kodierung aller drei Modalitäten zu einem bestimmten Zeitschritt oder sind sie normalerweise nur eine der Modalitäten?“

Baevski und sein Team antworten, dass es der letztere Fall ist, und ihr reply Es ist interessant, ausführlich zu zitieren:

Die latenten Variablen sind keine kombinierte Kodierung für die drei Modalitäten. Wir trainieren separate Modelle für jede Modalität, aber der Prozess, durch den die Modelle lernen, ist identisch. Dies ist die Hauptinnovation unseres Projekts, da es zuvor große Unterschiede darin gab, wie Modelle in verschiedenen Modalitäten trainiert werden. Neurowissenschaftler glauben auch, dass Menschen auf ähnliche Weise über Geräusche und die visuelle Welt lernen. Unser Projekt zeigt, dass selbstüberwachtes Lernen auch für verschiedene Modalitäten auf die gleiche Weise funktionieren kann.

Angesichts der modalitätsspezifischen Einschränkungen von data2vec ein neuronales Netzwerk, das wirklich sein könnte Ein Netzwerk, das sie alle beherrscht bleibt die Technologie der Zukunft.

Quelle