Metas 'data2vec' er neste steg mot One Neural Network to Rule Them All

Kappløpet går for å lage ett nevralt nettverk som kan behandle flere typer data, forestillingen om en mer generell kunstig intelligens som ikke diskriminerer om typer data, men i stedet kan knuse dem alle innenfor den samme grunnleggende strukturen.

Sjangeren multimodalitet, som disse nevrale nettverkene kalles, er å se en mengde aktivitet der forskjellige data, som bilde, tekst og talelyd, sendes gjennom den samme algoritmen for å gi en poengsum på forskjellige tester som f.eks. bildegjenkjenning, naturlig språkforståelse eller talegjenkjenning.

Og disse ambidekstrøse nettverkene samler opp poeng på benchmark-tester av AI. Den siste prestasjonen er det som kalles "data2vec," utviklet av forskere ved AI-avdelingen til Meta, foreldre til Facebook, Instagram og WhatsApp. 

Poenget, som Metas forskere, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu og Michael Auli, skriver, er å nærme seg noe mer som den generelle læringsevnen som menneskesinnet ser ut til å omfatte.

"Mens folk ser ut til å lære på en lignende måte uavhengig av hvordan de får informasjon - enten de bruker syn eller lyd, for eksempel," skriver forfatterne i et blogginnlegg, "det er for tiden store forskjeller i måten" nevrale nettverk håndterer forskjellige typer data som bilder, tale, tekst, "og andre modaliteter."

"Kjernen i denne tilnærmingen," erklærer de om data2vec, "er å lære mer generelt: AI skal kunne lære å gjøre mange forskjellige oppgaver, inkludert de som er helt ukjente."

Metas administrerende direktør, Mark Zuckerberg, ga et sitat om arbeidet, og knyttet det til et fremtidig Metaverse:

Spennende gjennombrudd: Meta AI-forskning bygde et system som lærer av tale, syn og tekst uten å trenge merkede treningsdata. Folk opplever verden gjennom en kombinasjon av syn, lyd og ord, og systemer som dette kan en dag forstå verden slik vi gjør. Alt dette vil etter hvert bli bygget inn i AR-briller med en AI-assistent, så det kan for eksempel hjelpe deg å lage middag, legge merke til om du savner en ingrediens, få deg til å skru ned varmen eller mer komplekse oppgaver.

Navnet data2vec er en lek med navnet på et program for språk "innebygging" utviklet hos Google i 2013 kalt "word2vec." Det programmet forutså hvordan ord klynges sammen, og så word2vec er representativt for et nevralt nettverk designet for en bestemt type data, i så fall tekst. 

Også: Åpne pod bay-dørene, vær så snill, HAL: Metas AI simulerer leppeavlesning

Når det gjelder data2vec, tar imidlertid Baevski og kollegene en standardversjon av det som kalles en Transformer, utviklet av Ashish Vaswani og kolleger hos Google i 2017 og utvide den til å brukes for flere datatyper. 

Transformers nevrale nettverk ble opprinnelig utviklet for språkoppgaver, men det har blitt mye tilpasset i årene etter for mange typer data. Baevski et al. viser at transformatoren kan brukes til å behandle flere typer data uten å bli endret, og det trente nevrale nettverket som resultater kan utføre på flere forskjellige oppgaver. 

I det formelle papiret, "data2vec: Et generelt rammeverk for selvstyrt læring i tale, syn og språk,” Baevski et al., trener transformatoren for bildedata, talelydbølgeformer og tekstspråkrepresentasjoner. 

Data2vec er "den første selvovervåkede algoritmen med høy ytelse som fungerer for flere modaliteter, nemlig tale, syn og tekst," skriver Baevski og teamet i blogginnlegget.

Den helt generelle transformatoren blir det som kalles en pre-trening som deretter kan brukes på spesifikke nevrale nettverk for å utføre spesifikke oppgaver. Forfatterne bruker for eksempel data2vec som forhåndstrening for å utstyre det som kalles "ViT", "vision Transformer", et nevralt nettverk spesielt utviklet for synsoppgaver som ble introdusert i fjor av Alexey Dosovitskiy og kolleger hos Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta viser toppscore for den ærverdige ImageNet-konkurransen om bildegjenkjenning.


2022 mål

Når de brukes på ViT for å prøve å løse standard ImageNet-testen for bildegjenkjenning, kommer resultatene deres på toppen av pakken, med en nøyaktighet på 84.1 %, bedre enn poengsummen på 83.2 % mottatt av et team hos Microsoft som forhåndstrenet ViT, ledet av Hangbo Bao, fjor.

Og den samme data2vec Transformer gir resultater som er toppmoderne for talegjenkjenning og som er konkurransedyktige, om ikke de beste, for naturlig språklæring:

Eksperimentelle resultater viser at data2vec er effektiv i alle tre modaliteter, og setter en ny toppmoderne for ViT-B og ViT-L på ImageNet-1K, og forbedrer over det beste tidligere arbeidet innen talebehandling på talegjenkjenning og ytelse på nivå med RoBERTa på GLUE benchmark for naturlig språkforståelse. 

Kruxet er at dette skjer uten noen modifikasjon av det nevrale nettverket til å handle om bilder, og det samme for tale og tekst. I stedet går hver inndatatype inn i det samme nettverket, og fullfører den samme veldig generelle oppgaven. Den oppgaven er den samme oppgaven som Transformer-nettverk alltid bruker, kjent som «masked prediction». 

Også: Googles supermodell: DeepMind Perceiver er et skritt på veien til en AI-maskin som kan behandle alt og alt

Måten data2vec utfører maskert prediksjon på, er imidlertid en tilnærming som kalles "selvovervåket" læring. I en selvovervåket setting trenes eller utvikles et nevralt nettverk ved å måtte gå gjennom flere stadier. 

Først konstruerer nettverket en representasjon av den felles sannsynligheten for datainndata, det være seg bilder eller tale eller tekst. Deretter har en andre versjon av nettverket noen av disse inndataelementene "maskert" uavslørt. Den må rekonstruere den felles sannsynligheten som den første versjonen av nettverket hadde konstruert, noe som tvinger den til å lage bedre og bedre representasjoner av dataene ved å fylle ut de tomme feltene. 

meta-2022-data2vec-network-architecture.jpg

En oversikt over data2vec-tilnærmingen.


2022 mål

De to nettverkene, det ene med hele mønsteret av felles sannsynlighet, og det med den ufullstendige versjonen som det prøver å fullføre, kalles fornuftig nok «Lærer» og «Student». Studentnettverket prøver å utvikle sin sans for dataene, om du vil, ved å rekonstruere det læreren allerede hadde oppnådd.

Du kan se koden for modellene på Github.

Hvordan presterer det nevrale nettverket Lærer og elev for tre svært forskjellige typer data? Nøkkelen er at "målet" for felles sannsynlighet, i alle tre datatilfellene, ikke er en spesifikk utdatatype, slik tilfellet er i versjoner av transformatoren for en spesifikk datatype, for eksempel Googles BERT eller OpenAIs GPT-3 . 

Snarere tar data2vec tak i en haug med nevrale nettverkslag som er det innsiden det nevrale nettverket, et sted i midten, som representerer dataene før de produseres som en endelig utgang. 

Som forfatterne skriver, "En av hovedforskjellene i metoden vår […] bortsett fra å utføre maskert prediksjon, er bruken av mål som er basert på gjennomsnittlig gjennomsnitt av flere lag fra lærernettverket." Spesielt, "vi regresserer flere nevrale nettverkslagsrepresentasjoner i stedet for bare topplaget," slik at "data2vec forutsier de latente representasjonene av inngangsdataene."

De legger til: "Vi bruker vanligvis utgangen fra FFN [fremkoblingsnettverket] før den siste gjenværende forbindelsen i hver blokk som mål," der en "blokk" er transformatorekvivalenten til et nevralt nettverkslag.

Poenget er at hver datatype som går inn blir den samme utfordringen for Studentnettverket med å rekonstruere noe inne i det nevrale nettverket som Læreren hadde komponert.

Dette gjennomsnittet er forskjellig fra andre nyere tilnærminger for å bygge ett nettverk for å knuse alle data. For eksempel, i fjor sommer, tilbød Googles DeepMind-enhet det den kaller "Perceiver", sin egen multimodale versjon av Transformer. Trening av Perceivers nevrale nettverk er den mer standardprosessen for å produsere en utgang som er svaret på en merket, overvåket oppgave som ImageNet. I den selvovervåkede tilnærmingen bruker ikke data2vec disse etikettene, det prøver bare å rekonstruere nettverkets interne representasjon av dataene. 

Enda mer ambisiøs innsats ligger i kulissene. Jeff Dean, leder for Googles AI-innsats, ertet i oktober om "Pathways", det Dean hevder er en "neste generasjons AI-arkitektur” for multimodal databehandling.

Merk deg, data2vecs veldig generelle tilnærming til et enkelt nevralt nett for flere modaliteter har fortsatt mye informasjon om de forskjellige datatypene. Bilde, tale og tekst er alle utarbeidet ved forhåndsbehandling av dataene. På den måten er det multimodale aspektet av nettverket fortsatt avhengig av ledetråder om dataene, det teamet omtaler som "små modalitetsspesifikke inngangskodere."

Også: Google avduker «Pathways», en neste generasjons AI som kan trenes til å multitaske

"Til tross for det enhetlige læringsregimet, bruker vi fortsatt modalitetsspesifikke funksjonsuttrekkere og maskeringsstrategier," forklarer de.

Derfor er vi ennå ikke i en verden hvor et nevralt nett er trent uten noen som helst sans for inndatatypene. Vi er heller ikke på et tidspunkt hvor det nevrale nettverket kan konstruere én representasjon som kombinerer alle de forskjellige datatypene, slik at nevrale nettet lærer ting i kombinasjon.

Det faktum kommer tydelig frem av en utveksling mellom ZDNet og forfatterne. ZDNet nådde ut til Baevski og teamet og spurte: "Er de latente representasjonene som tjener som mål en kombinert koding av alle tre modaliteter på et gitt tidspunkt, eller er de vanligvis bare en av modalitetene?"

Baevski og team svarer at det er sistnevnte tilfelle, og deres reply er interessant å sitere langt:

De latente variablene er ikke en kombinert koding for de tre modalitetene. Vi trener separate modeller for hver modalitet, men prosessen som modellene lærer gjennom er identisk. Dette er hovedinnovasjonen i prosjektet vårt siden det før var store forskjeller i hvordan modeller trenes i ulike modaliteter. Nevrovitenskapsmenn tror også at mennesker lærer på lignende måter om lyder og den visuelle verden. Prosjektet vårt viser at selvstyrt læring også kan fungere på samme måte for ulike modaliteter.

Gitt data2vecs modalitetsspesifikke begrensninger, et nevralt nettverk som virkelig kan være det Ett nettverk for å styre dem alle forblir fremtidens teknologi.

kilde