Meta's 'data2vec' is de volgende stap in de richting van één neuraal netwerk om ze allemaal te regeren

De race is gaande om één neuraal netwerk te creëren dat meerdere soorten gegevens kan verwerken, het idee van een meer algemene kunstmatige intelligentie die niet discrimineert over soorten gegevens, maar ze in plaats daarvan allemaal binnen dezelfde basisstructuur kan kraken.

Het genre van multimodaliteit, zoals deze neurale netwerken worden genoemd, is het zien van een vlaag van activiteit waarbij verschillende gegevens, zoals beeld, tekst en spraakaudio, door hetzelfde algoritme worden gestuurd om een ​​score op verschillende tests te produceren, zoals beeldherkenning, natuurlijke taalverstaan ​​of spraakdetectie.

En deze tweehandige netwerken behalen scores op benchmarktests van AI. De nieuwste prestatie is wat 'data2vec' wordt genoemd, ontwikkeld door onderzoekers van de AI-divisie van Meta, het moederbedrijf van Facebook, Instagram en WhatsApp. 

Het punt, zoals Meta's wetenschappers, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu en Michael Auli, schrijven, is om iets te benaderen dat meer lijkt op het algemene leervermogen dat de menselijke geest lijkt te omvatten.

"Terwijl mensen op een vergelijkbare manier lijken te leren, ongeacht hoe ze informatie krijgen - of ze bijvoorbeeld beeld of geluid gebruiken", schrijven de auteurs in een blog post, "er zijn momenteel grote verschillen in de manier waarop" neurale netwerken omgaan met verschillende soorten gegevens, zoals afbeeldingen, spraak, tekst, "en andere modaliteiten."

"Het kernidee van deze aanpak", verklaren ze van data2vec, "is om meer in het algemeen te leren: AI moet kunnen leren om veel verschillende taken uit te voeren, inclusief taken die totaal onbekend zijn."

Meta's CEO, Mark Zuckerberg, bood een citaat over het werk aan en koppelde het aan een toekomstige Metaverse:

Opwindende doorbraak: Meta AI-onderzoek bouwde een systeem dat leert van spraak, zicht en tekst zonder dat er gelabelde trainingsgegevens nodig zijn. Mensen ervaren de wereld door een combinatie van beeld, geluid en woorden, en systemen als deze zouden ooit de wereld kunnen begrijpen zoals wij dat doen. Dit wordt uiteindelijk allemaal ingebouwd in AR-brillen met een AI-assistent, dus het kan je bijvoorbeeld helpen bij het koken van het avondeten, opmerken als je een ingrediënt mist, waardoor je het vuur lager moet zetten, of complexere taken.

De naam data2vec is een woordspeling op de naam van een programma voor het inbedden van talen ontwikkeld bij Google in 2013 genaamd "word2vec." Dat programma voorspelde hoe woorden samenklonteren, en dus is word2vec representatief voor een neuraal netwerk dat is ontworpen voor een specifiek type gegevens, in dat geval tekst. 

Ook: Open de deuren van de pod, alstublieft, HAL: Meta's AI simuleert liplezen

In het geval van data2vec nemen Baevski en collega's echter een standaardversie van wat een Transformer wordt genoemd, ontwikkeld door Ashish Vaswani en collega's bij Google in 2017 en uitbreiden om te worden gebruikt voor meerdere gegevenstypen. 

Het neurale netwerk Transformer is oorspronkelijk ontwikkeld voor taaltaken, maar is in de jaren daarna op grote schaal aangepast voor vele soorten gegevens. Baevski et al. laten zien dat de Transformer kan worden gebruikt om meerdere soorten gegevens te verwerken zonder te worden gewijzigd, en dat het getrainde neurale netwerk dat resulteert in meerdere verschillende taken kan uitvoeren. 

In de officiële krant, "data2vec: een algemeen kader voor zelfgestuurd leren in spraak, zicht en taal', trainen Baevski et al. de Transformer voor beeldgegevens, spraakaudiogolfvormen en teksttaalrepresentaties. 

Data2vec is "het eerste krachtige zelf-gecontroleerde algoritme dat werkt voor meerdere modaliteiten, namelijk spraak, visie en tekst", schrijven Baevski en team in de blogpost.

De zeer algemene Transformer wordt een zogenaamde pre-training die vervolgens kan worden toegepast op specifieke neurale netwerken om specifieke taken uit te voeren. De auteurs gebruiken bijvoorbeeld data2vec als pre-training om uit te rusten wat 'ViT' wordt genoemd, de 'vision Transformer', een neuraal netwerk dat speciaal is ontworpen voor vision-taken die werd vorig jaar geïntroduceerd door Alexey Dosovitskiy en collega's bij Google. 

meta-2022-data2vec-scores-op-vit-test.jpg

Meta laat topscores zien voor de eerbiedwaardige ImageNet-wedstrijd voor beeldherkenning.


Meta 2022

Bij gebruik op ViT om te proberen de standaard ImageNet-test van beeldherkenning op te lossen, komen hun resultaten als beste uit de bus, met een nauwkeurigheid van 84.1%, beter dan de score van 83.2% ontvangen door een team bij Microsoft dat vooraf heeft getraind ViT, geleid door Hangbo Bao, afgelopen jaar.

En dezelfde data2vec Transformer levert resultaten die state-of-the-art zijn voor spraakherkenning en die concurrerend zijn, zo niet de beste, voor het leren van natuurlijke talen:

Experimentele resultaten tonen aan dat data2vec effectief is in alle drie de modaliteiten, waardoor een nieuwe stand van de techniek voor ViT-B en ViT-L op ImageNet-1K wordt gecreëerd, een verbetering is ten opzichte van het beste eerdere werk in spraakverwerking op spraakherkenning en presteert op een lijn met RoBERTa op de GLUE-benchmark voor het begrijpen van natuurlijke taal. 

De crux is dat dit gebeurt zonder enige wijziging van het neurale netwerk om over beelden te gaan, en hetzelfde voor spraak en tekst. In plaats daarvan gaat elk invoertype naar hetzelfde netwerk en voltooit het dezelfde zeer algemene taak. Die taak is dezelfde taak die Transformer-netwerken altijd gebruiken, ook wel 'gemaskeerde voorspelling' genoemd. 

Ook: Supermodel van Google: DeepMind Perceiver is een stap op weg naar een AI-machine die alles en nog wat kan verwerken

De manier waarop data2vec gemaskeerde voorspellingen uitvoert, is echter een benadering die bekend staat als "zelf-gesuperviseerd" leren. In een zelfgecontroleerde setting wordt een neuraal netwerk getraind of ontwikkeld door meerdere stadia te doorlopen. 

Ten eerste construeert het netwerk een representatie van de gezamenlijke waarschijnlijkheid van gegevensinvoer, of het nu gaat om afbeeldingen, spraak of tekst. Vervolgens heeft een tweede versie van het netwerk enkele van die invoergegevensitems "gemaskeerd", niet onthuld. Het moet de gezamenlijke waarschijnlijkheid reconstrueren die de eerste versie van het netwerk had geconstrueerd, wat het dwingt om steeds betere representaties van de gegevens te maken door in wezen de lege plekken in te vullen. 

meta-2022-data2vec-netwerkarchitectuur.jpg

Een overzicht van de data2vec-aanpak.


Meta 2022

De twee netwerken, die met het volledige patroon van de gezamenlijke waarschijnlijkheid, en die met de onvolledige versie die het probeert te voltooien, worden, verstandig genoeg, "Leraar" en "Student" genoemd. Het studentennetwerk probeert zijn gevoel voor de gegevens te ontwikkelen, als je wilt, door te reconstrueren wat de leraar al had bereikt.

Je kunt zie de code voor de modellen op Github.

Hoe presteert het neurale netwerk voor leraar en leerling voor drie zeer verschillende soorten gegevens? De sleutel is dat het "doel" van gezamenlijke waarschijnlijkheid, in alle drie de gegevensgevallen, geen specifiek uitvoergegevenstype is, zoals het geval is in versies van de Transformer voor een specifiek gegevenstype, zoals Google's BERT of OpenAI's GPT-3 . 

In plaats daarvan grijpt data2vec een aantal neurale netwerklagen die binnen het neurale netwerk, ergens in het midden, dat de gegevens representeert voordat het als een uiteindelijke output wordt geproduceerd. 

Zoals de auteurs schrijven: "Een van de belangrijkste verschillen van onze methode […] anders dan het uitvoeren van gemaskeerde voorspellingen, is het gebruik van doelen die zijn gebaseerd op het middelen van meerdere lagen van het lerarennetwerk." In het bijzonder "regresseren we meerdere neurale netwerklaagrepresentaties in plaats van alleen de bovenste laag", zodat "data2vec de latente representaties van de invoergegevens voorspelt."

Ze voegen eraan toe: "We gebruiken over het algemeen de uitvoer van het FFN [feed-forward-netwerk] voorafgaand aan de laatste resterende verbinding in elk blok als doel", waarbij een "blok" het Transformer-equivalent is van een neurale netwerklaag.

Het punt is dat elk gegevenstype dat binnenkomt dezelfde uitdaging wordt voor het studentennetwerk om iets te reconstrueren binnen het neurale netwerk dat de leraar had samengesteld.

Deze middeling verschilt van andere recente benaderingen voor het bouwen van One Network To Crunch All Data. Zo bood Google's DeepMind-eenheid afgelopen zomer aan wat het 'Perceiver' noemt, zijn eigen multimodale versie van de Transformer. De training van het neurale netwerk van Perceiver is het meer standaardproces voor het produceren van een uitvoer die het antwoord is op een gelabelde, gecontroleerde taak zoals ImageNet. In de zelf-gecontroleerde benadering gebruikt data2vec die labels niet, het probeert alleen de interne representatie van de gegevens van het netwerk te reconstrueren. 

Nog ambitieuzere inspanningen liggen in de coulissen. Jeff Dean, hoofd van Google's AI-inspanningen, plaagde in oktober over "Pathways", wat volgens Dean een "volgende generatie AI-architectuur” voor multimodale gegevensverwerking.

Let wel, data2vec's zeer algemene benadering van een enkel neuraal net voor meerdere modaliteiten bevat nog steeds veel informatie over de verschillende datatypes. Beeld, spraak en tekst worden allemaal voorbereid door voorbewerking van de gegevens. Op die manier is het multimodale aspect van het netwerk nog steeds afhankelijk van aanwijzingen over de gegevens, wat het team 'kleine modaliteit-specifieke invoer-encoders' noemt.

Ook: Google onthult 'Pathways', een next-gen AI die kan worden getraind om te multitasken

"Ondanks het uniforme leerregime gebruiken we nog steeds modaliteitspecifieke feature-extractors en maskeerstrategieën", leggen ze uit.

We zijn dus nog niet in een wereld waar een neuraal netwerk wordt getraind zonder enig besef van de invoergegevenstypen. We bevinden ons ook niet op een moment dat het neurale netwerk één representatie kan construeren die alle verschillende datatypes combineert, zodat het neurale netwerk dingen in combinatie leert.

Dat feit wordt duidelijk gemaakt uit een uitwisseling tussen ZDNet en de auteurs. ZDNet nam contact op met Baevski en het team en vroeg: "Zijn de latente representaties die als doelwit dienen een gecombineerde codering van alle drie de modaliteiten op een bepaalde tijdstap, of zijn ze meestal slechts een van de modaliteiten?"

Baevski en team antwoorden dat dit het laatste geval is, en hun reply is interessant om uitgebreid te citeren:

De latente variabelen zijn geen gecombineerde codering voor de drie modaliteiten. We trainen afzonderlijke modellen voor elke modaliteit, maar het proces waardoor de modellen leren is identiek. Dit is de belangrijkste innovatie van ons project, aangezien er voorheen grote verschillen waren in de manier waarop modellen in verschillende modaliteiten worden getraind. Neurowetenschappers geloven ook dat mensen op vergelijkbare manieren leren over geluiden en de visuele wereld. Ons project laat zien dat zelfgestuurd leren ook voor verschillende modaliteiten op dezelfde manier kan werken.

Gezien de modaliteitspecifieke beperkingen van data2vec, zou een neuraal netwerk dat echt kunnen zijn Eén netwerk om ze allemaal te regeren blijft de technologie van de toekomst.

bron