Metas 'data2vec' er det næste skridt mod One Neural Network to Rule Them All

Kapløbet er i gang med at skabe ét neuralt netværk, der kan behandle flere slags data, forestillingen om en mere generel kunstig intelligens, der ikke diskriminerer om typer af data, men i stedet kan knuse dem alle inden for den samme grundlæggende struktur.

Genren af ​​multimodalitet, som disse neurale netværk kaldes, er at se en byge af aktivitet, hvor forskellige data, såsom billede, tekst og talelyd, sendes gennem den samme algoritme for at producere en score på forskellige tests som f.eks. billedgenkendelse, naturlig sprogforståelse eller talegenkendelse.

Og disse ambidextrøse netværk opnår resultater på benchmark-tests af AI. Den seneste præstation er det, der kaldes 'data2vec', udviklet af forskere ved AI-afdelingen af ​​Meta, forældre til Facebook, Instagram og WhatsApp. 

Pointen, som Metas videnskabsmænd, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu og Michael Auli, skriver, er at nærme sig noget mere som den generelle indlæringsevne, som det menneskelige sind synes at omfatte.

"Mens folk ser ud til at lære på en lignende måde, uanset hvordan de får information - uanset om de bruger syn eller lyd, for eksempel," skriver forfatterne i et blogindlæg, "der er i øjeblikket store forskelle i måden" neurale netværk håndterer forskellige typer data såsom billeder, tale, tekst, "og andre modaliteter."

"Kerneideen med denne tilgang," erklærer de om data2vec, "er at lære mere generelt: AI bør være i stand til at lære at udføre mange forskellige opgaver, inklusive dem, der er helt ukendte."

Metas administrerende direktør, Mark Zuckerberg, tilbød et citat om værket, der knyttede det til et fremtidigt Metaverse:

Spændende gennembrud: Meta AI-forskning byggede et system, der lærer af tale, vision og tekst uden at kræve mærkede træningsdata. Folk oplever verden gennem en kombination af syn, lyd og ord, og systemer som dette kunne en dag forstå verden, som vi gør. Alt dette vil i sidste ende blive indbygget i AR-briller med en AI-assistent, så det for eksempel kan hjælpe dig med at lave aftensmad, mærke efter om du savner en ingrediens, få dig til at skrue ned for varmen eller mere komplekse opgaver.

Navnet data2vec er et spil med navnet på et program til sprogindlejring udviklet hos Google i 2013 kaldet "word2vec." Det program forudsagde, hvordan ord klynger sig sammen, og så word2vec er repræsentativt for et neuralt netværk designet til en bestemt type data, i så fald tekst. 

Også: Åbn pod-båsen, tak, HAL: Metas AI simulerer læbeaflæsning

I tilfælde af data2vec tager Baevski og kolleger imidlertid en standardversion af det, der kaldes en Transformer, udviklet af Ashish Vaswani og kolleger hos Google i 2017 og udvide det til at blive brugt til flere datatyper. 

Transformers neurale netværk blev oprindeligt udviklet til sproglige opgaver, men det er blevet bredt tilpasset i årene siden til mange slags data. Baevski et al. viser, at transformatoren kan bruges til at behandle flere slags data uden at blive ændret, og det trænede neurale netværk, som resultaterne kan udføre på flere forskellige opgaver. 

I det formelle papir, "data2vec: En generel ramme for selvstyret læring i tale, syn og sprog,” Baevski et al., træner Transformeren til billeddata, talelydbølgeformer og tekstsprogsrepræsentationer. 

Data2vec er "den første højtydende selvovervågede algoritme, der virker til flere modaliteter, nemlig tale, vision og tekst," skriver Baevski og teamet i blogindlægget.

Den meget generelle Transformer bliver til det, der kaldes en fortræning, der så kan anvendes på specifikke neurale netværk for at udføre specifikke opgaver. For eksempel bruger forfatterne data2vec som fortræning til at udstyre det, der kaldes "ViT", "vision Transformer", et neuralt netværk specielt designet til synsopgaver, der blev indført sidste år af Alexey Dosovitskiy og kolleger hos Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta viser topscore for den ærværdige ImageNet-billedgenkendelseskonkurrence.


Meta 2022

Når de bruges på ViT til at forsøge at løse standard ImageNet-testen af ​​billedgenkendelse, kommer deres resultater i toppen af ​​pakken med en nøjagtighed på 84.1 %, bedre end scoren på 83.2 % modtaget af et team hos Microsoft, der var forudtrænet. ViT, ledet af Hangbo Bao, sidste år.

Og den samme data2vec Transformer udsender resultater, der er state of the art for talegenkendelse, og som er konkurrencedygtige, hvis ikke de bedste, for naturlig sprogindlæring:

Eksperimentelle resultater viser, at data2vec er effektiv i alle tre modaliteter, og sætter en ny state of the art for ViT-B og ViT-L på ImageNet-1K, forbedrer i forhold til det bedste tidligere arbejde med talebehandling på talegenkendelse og yder på niveau med RoBERTa på GLUE benchmark for naturlig sprogforståelse. 

Kernen er, at dette sker uden nogen ændring af det neurale netværk til at handle om billeder, og det samme for tale og tekst. I stedet går hver inputtype ind i det samme netværk og udfører den samme meget generelle opgave. Denne opgave er den samme opgave, som Transformer-netværk altid bruger, kendt som "maskeret forudsigelse." 

Også: Googles Supermodel: DeepMind Perceiver er et skridt på vejen til en AI-maskine, der kunne behandle alt og alt

Den måde, data2vec udfører maskeret forudsigelse på, er imidlertid en tilgang, der er kendt som "selvovervåget" læring. I en selvovervåget indstilling trænes eller udvikles et neuralt netværk ved at skulle gennemgå flere stadier. 

For det første konstruerer netværket en repræsentation af den fælles sandsynlighed for datainput, det være sig billeder eller tale eller tekst. Derefter har en anden version af netværket nogle af disse inputdataelementer "maskeret ud", efterladt uafsløret. Den skal rekonstruere den fælles sandsynlighed, som den første version af netværket havde konstrueret, hvilket tvinger den til at skabe bedre og bedre repræsentationer af dataene ved i det væsentlige at udfylde de tomme felter. 

meta-2022-data2vec-network-architecture.jpg

Et overblik over data2vec-tilgangen.


Meta 2022

De to netværk, det ene med det fulde mønster af den fælles sandsynlighed, og det med den ufuldstændige version, som det forsøger at fuldføre, kaldes fornuftigt nok "Lærer" og "Student." Elevnetværket forsøger at udvikle sin sans for dataene, om man vil, ved at rekonstruere, hvad læreren allerede havde opnået.

Du kan se koden for modellerne på Github.

Hvordan klarer det neurale netværk Lærer og Elev for tre meget forskellige typer data? Nøglen er, at "målet" for fælles sandsynlighed i alle tre datatilfælde ikke er en specifik outputdatatype, som det er tilfældet i versioner af Transformeren for en specifik datatype, såsom Googles BERT eller OpenAIs GPT-3 . 

Snarere griber data2vec nogle flok neurale netværkslag, der er indvendig det neurale netværk, et sted i midten, der repræsenterer dataene, før de hver især produceres som et endeligt output. 

Som forfatterne skriver, "En af de vigtigste forskelle ved vores metode […] bortset fra at udføre maskeret forudsigelse, er brugen af ​​mål, der er baseret på gennemsnit af flere lag fra lærernetværket." Specifikt, "vi regresserer flere neurale netværkslagsrepræsentationer i stedet for kun det øverste lag," så "data2vec forudsiger de latente repræsentationer af inputdataene."

De tilføjer: "Vi bruger generelt output fra FFN [feed-forward-netværket] før den sidste resterende forbindelse i hver blok som mål," hvor en "blok" er transformator-ækvivalenten til et neuralt netværkslag.

Pointen er, at hver datatype, der går ind, bliver den samme udfordring for Elev-netværket med at rekonstruere noget inde i det neurale netværk, som Læreren havde sammensat.

Dette gennemsnit er forskelligt fra andre nyere tilgange til at opbygge ét netværk til at knuse alle data. For eksempel tilbød Googles DeepMind-enhed sidste sommer, hvad den kalder "Perceiver", sin egen multimodale version af Transformer. Træningen af ​​Perceivers neurale netværk er den mere standardiserede proces med at producere et output, der er svaret på en mærket, overvåget opgave såsom ImageNet. I den selvovervågede tilgang bruger data2vec ikke disse etiketter, det forsøger blot at rekonstruere netværkets interne repræsentation af dataene. 

Endnu mere ambitiøse indsatser ligger i kulissen. Jeff Dean, leder af Googles AI-indsats, drillede i oktober om "Pathways", hvad Dean hævder er en "næste generations AI-arkitektur” til multimodal databehandling.

Husk at data2vecs meget generelle tilgang til et enkelt neuralt net for flere modaliteter stadig har en masse information om de forskellige datatyper. Billede, tale og tekst er alle forberedt ved forbehandling af dataene. På den måde er det multimodale aspekt af netværket stadig afhængig af spor om dataene, hvad holdet refererer til som "små modalitetsspecifikke inputkodere."

Også: Google afslører 'Pathways', en næste generations AI, der kan trænes til at multitaske

"På trods af det forenede læringsregime bruger vi stadig modalitetsspecifikke funktionsudtrækkere og maskeringsstrategier," forklarer de.

Derfor er vi endnu ikke i en verden, hvor et neuralt net er trænet uden nogen som helst forstand på inputdatatyperne. Vi er heller ikke på et tidspunkt, hvor det neurale netværk kan konstruere én repræsentation, der kombinerer alle de forskellige datatyper, så det neurale netværk lærer ting i kombination.

Det faktum fremgår tydeligt af en udveksling mellem ZDNet og forfatterne. ZDNet nåede ud til Baevski og teamet og spurgte: "Er de latente repræsentationer, der tjener som mål, en kombineret kodning af alle tre modaliteter på et givet tidspunkt, eller er de normalt kun en af ​​modaliteterne?"

Baevski og team svarer, at det er sidstnævnte tilfælde, og deres reply det er interessant at citere i længden:

De latente variabler er ikke en kombineret kodning for de tre modaliteter. Vi træner separate modeller for hver modalitet, men processen, hvorigennem modellerne lærer, er identisk. Dette er den vigtigste nyskabelse i vores projekt, da der før var store forskelle i, hvordan modeller trænes i forskellige modaliteter. Neurovidenskabsmænd mener også, at mennesker lærer på lignende måder om lyde og den visuelle verden. Vores projekt viser, at selvovervåget læring også kan fungere på samme måde for forskellige modaliteter.

Givet data2vecs modalitetsspecifikke begrænsninger, et neuralt netværk, der virkelig kan være det Et netværk til at styre dem alle forbliver fremtidens teknologi.

Kilde