Metas 'data2vec' är nästa steg mot One Neural Network to Rule Them All

Kapplöpet går ut på att skapa ett neuralt nätverk som kan bearbeta flera typer av data, idén om en mer allmän artificiell intelligens som inte diskriminerar om typer av data utan istället kan krossa dem alla inom samma grundläggande struktur.

Genren av multimodalitet, som dessa neurala nätverk kallas, är att se en uppsjö av aktivitet där olika data, såsom bild, text och talljud, passeras genom samma algoritm för att producera poäng på olika tester som t.ex. bildigenkänning, naturlig språkförståelse eller taldetektering.

Och dessa tvåsidiga nätverk samlar ihop poäng på benchmarktest av AI. Den senaste bedriften är vad som kallas 'data2vec', utvecklad av forskare vid AI-avdelningen av Meta, förälder till Facebook, Instagram och WhatsApp. 

Poängen, som Metas vetenskapsmän, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu och Michael Auli, skriver, är att närma sig något som mer liknar den allmänna inlärningsförmåga som det mänskliga sinnet tycks omfatta.

"Medan människor verkar lära sig på ett liknande sätt oavsett hur de får information - oavsett om de använder syn eller ljud, till exempel," skriver författarna i ett blogginlägg, "det finns för närvarande stora skillnader i hur" neurala nätverk hanterar olika typer av data som bilder, tal, text, "och andra modaliteter."

"Kärnidén med detta tillvägagångssätt," deklarerar de om data2vec, "är att lära sig mer allmänt: AI borde kunna lära sig att utföra många olika uppgifter, inklusive de som är helt obekanta."

Metas vd, Mark Zuckerberg, erbjöd ett citat om verket och knöt det till en framtida Metaverse:

Spännande genombrott: Meta AI-forskning byggde ett system som lär sig från tal, syn och text utan att behöva märkt träningsdata. Människor upplever världen genom en kombination av syn, ljud och ord, och system som detta skulle en dag kunna förstå världen som vi gör. Allt detta kommer så småningom att byggas in i AR-glasögon med en AI-assistent så att det till exempel kan hjälpa dig att laga middag, märka om du missar en ingrediens, uppmana dig att sänka värmen eller mer komplexa uppgifter.

Namnet data2vec är en lek med namnet på ett program för språkinbäddning utvecklades på Google 2013 kallas "word2vec." Det programmet förutspådde hur ord klungar ihop sig, och så word2vec är representativt för ett neuralt nätverk designat för en specifik typ av data, i så fall text. 

Dessutom: Öppna dörrarna till podfacket, tack, HAL: Metas AI simulerar läppläsning

När det gäller data2vec tar dock Baevski och kollegor en standardversion av vad som kallas en Transformer, utvecklad av Ashish Vaswani och kollegor på Google 2017 och utvidga den till att användas för flera datatyper. 

Transformers neurala nätverk utvecklades ursprungligen för språkuppgifter, men det har under åren sedan dess i stor utsträckning anpassats för många typer av data. Baevski et al. visa att transformatorn kan användas för att bearbeta flera typer av data utan att ändras, och det tränade neurala nätverket som resultatet kan utföra på flera olika uppgifter. 

I det formella dokumentet "data2vec: Ett allmänt ramverk för självövervakat lärande i tal, syn och språk”, Baevski et al., tränar transformatorn för bilddata, talljudvågformer och textspråksrepresentationer. 

Data2vec är "den första högpresterande självövervakade algoritmen som fungerar för flera modaliteter, nämligen tal, syn och text", skriver Baevski och teamet i blogginlägget.

Den mycket allmänna Transformatorn blir vad som kallas en förträning som sedan kan appliceras på specifika neurala nätverk för att utföra specifika uppgifter. Till exempel använder författarna data2vec som förträning för att utrusta det som kallas "ViT", "vision Transformer", ett neuralt nätverk speciellt utformat för synuppgifter som infördes förra året av Alexey Dosovitskiy och kollegor på Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta visar toppbetyg för den ärevördiga ImageNet-tävlingen om bildigenkänning.


Meta 2022

När de används på ViT för att försöka lösa det vanliga ImageNet-testet för bildigenkänning, hamnar deras resultat högst upp i paketet, med en noggrannhet på 84.1 %, bättre än poängen på 83.2 % som fick ett team på Microsoft som förutbildade ViT, ledd av Hangbo Bao, förra året.

Och samma data2vec Transformer ger resultat som är toppmoderna för taligenkänning och som är konkurrenskraftiga, om inte de bästa, för naturlig språkinlärning:

Experimentella resultat visar att data2vec är effektiv i alla tre modaliteterna, vilket sätter ett nytt toppmodernt för ViT-B och ViT-L på ImageNet-1K, förbättrar jämfört med det bästa tidigare arbetet med taligenkänning och prestanda i nivå med RoBERTa på GLUE benchmark för förståelse av naturligt språk. 

Kruxet är att detta sker utan någon modifiering av det neurala nätverket till att handla om bilder, och samma sak för tal och text. Istället går varje ingångstyp in i samma nätverk och slutför samma mycket allmänna uppgift. Den uppgiften är samma uppgift som Transformer-nätverk alltid använder, känd som "maskerad förutsägelse." 

Dessutom: Googles supermodell: DeepMind Perceiver är ett steg på vägen mot en AI-maskin som kan bearbeta allt och allt

Sättet som data2vec utför maskerad förutsägelse är dock ett tillvägagångssätt som kallas "självövervakad" inlärning. I en självövervakad miljö tränas eller utvecklas ett neuralt nätverk genom att behöva passera flera stadier. 

Först konstruerar nätverket en representation av den gemensamma sannolikheten för datainmatning, vare sig det är bilder eller tal eller text. Sedan har en andra version av nätverket några av dessa indataobjekt "maskerade", lämnade oupptäckta. Den måste rekonstruera den gemensamma sannolikheten som den första versionen av nätverket hade konstruerat, vilket tvingar den att skapa bättre och bättre representationer av data genom att i huvudsak fylla i tomrummen. 

meta-2022-data2vec-network-architecture.jpg

En översikt över data2vec-metoden.


Meta 2022

De två nätverken, det med hela mönstret av den gemensamma sannolikheten, och det med den ofullständiga versionen som det försöker slutföra, kallas förnuftigt nog "Lärare" och "Student". Studentnätverket försöker utveckla sin känsla för data, om man så vill, genom att rekonstruera vad läraren redan hade uppnått.

Du kan se koden för modellerna på Github.

Hur presterar det neurala nätverket Lärare och Elev för tre mycket olika typer av data? Nyckeln är att "målet" för gemensam sannolikhet, i alla tre datafallen, inte är en specifik utdatatyp, vilket är fallet i versioner av transformatorn för en specifik datatyp, såsom Googles BERT eller OpenAI:s GPT-3 . 

Snarare tar data2vec tag i ett gäng neurala nätverkslager som är det inuti det neurala nätverket, någonstans i mitten, som representerar data innan de produceras som en slutlig utdata. 

Som författarna skriver, "En av huvudskillnaderna med vår metod […] förutom att utföra maskerad förutsägelse, är användningen av mål som är baserade på ett genomsnitt av flera lager från lärarnätverket." Specifikt, "vi regresserar flera representationer av neurala nätverkslager istället för bara det översta lagret", så att "data2vec förutsäger de latenta representationerna av indata."

De tillägger, "Vi använder i allmänhet utdata från FFN [feed-forward-nätverket] före den sista kvarvarande anslutningen i varje block som mål", där ett "block" är transformatormotsvarigheten till ett neuralt nätverkslager.

Poängen är att varje datatyp som går in blir samma utmaning för Studentnätverket att rekonstruera något inuti det neurala nätverk som Läraren hade skapat.

Detta medelvärde skiljer sig från andra nya metoder för att bygga ett nätverk för att krossa all data. Till exempel, förra sommaren, erbjöd Googles DeepMind-enhet vad den kallar "Perceiver", sin egen multimodala version av Transformer. Träningen av Perceivers neurala nätverk är den mer standardiserade processen att producera en utdata som är svaret på en märkt, övervakad uppgift som ImageNet. I det självövervakade tillvägagångssättet använder data2vec inte dessa etiketter, det försöker bara rekonstruera nätverkets interna representation av data. 

Ännu mer ambitiösa insatser ligger i kulisserna. Jeff Dean, chef för Googles AI-insatser, retade i oktober om "Pathways", vad Dean hävdar är en "nästa generations AI-arkitektur” för multimodal databehandling.

Tänk på att data2vecs mycket allmänna inställning till ett enda neuralt nät för flera modaliteter har fortfarande mycket information om de olika datatyperna. Bild, tal och text förbereds genom förbearbetning av data. På det sättet förlitar sig den multimodala aspekten av nätverket fortfarande på ledtrådar om data, vad teamet refererar till som "små modalitetsspecifika inkodare."

Dessutom: Google presenterar "Pathways", en nästa generations AI som kan tränas för att multitaska

"Trots den enhetliga inlärningsregimen använder vi fortfarande modalitetsspecifika funktionsextraktorer och maskeringsstrategier," förklarar de.

Därför är vi ännu inte i en värld där ett neuralt nät tränas utan någon som helst känsla för indatatyperna. Vi är inte heller vid en tidpunkt då det neurala nätverket kan konstruera en representation som kombinerar alla olika datatyper, så att det neurala nätet lär sig saker i kombination.

Detta faktum framgår av ett utbyte mellan ZDNet och författarna. ZDNet nådde ut till Baevski och teamet och frågade: "Är de latenta representationerna som fungerar som mål en kombinerad kodning av alla tre modaliteterna vid ett givet tidssteg, eller är de vanligtvis bara en av modaliteterna?"

Baevski och team svarar att det är det senare fallet, och deras reply är intressant att citera långt:

De latenta variablerna är inte en kombinerad kodning för de tre modaliteterna. Vi tränar separata modeller för varje modalitet men processen genom vilken modellerna lär sig är identisk. Detta är den viktigaste innovationen i vårt projekt eftersom det tidigare fanns stora skillnader i hur modeller tränas i olika modaliteter. Neurovetenskapsmän tror också att människor lär sig på liknande sätt om ljud och den visuella världen. Vårt projekt visar att självledd inlärning också kan fungera på samma sätt för olika modaliteter.

Med tanke på data2vecs modalitetsspecifika begränsningar, ett neuralt nätverk som verkligen kan vara det Ett nätverk för att styra dem alla förblir framtidens teknik.

Källa