Metin 'data2vec' sljedeći je korak prema jednoj neuronskoj mreži koja će upravljati svima

Utrka je u stvaranju jedne neuronske mreže koja može obraditi više vrsta podataka, što je pojam općenitije umjetne inteligencije koja ne diskriminira vrste podataka, već ih umjesto toga može sve zgnječiti unutar iste osnovne strukture.

Žanr multimodalnosti, kako se te neuronske mreže nazivaju, doživljava nalet aktivnosti u kojima se različiti podaci, poput slike, teksta i zvuka govora, prolaze kroz isti algoritam kako bi se proizveo rezultat na različitim testovima kao što su npr. prepoznavanje slike, razumijevanje prirodnog jezika ili prepoznavanje govora.

A ove ambidekstralne mreže skupljaju rezultate na referentnim testovima AI. Najnovije postignuće je ono što se zove 'data2vec', koje su razvili istraživači iz odjela AI tvrtke Meta, roditelj Facebooka, Instagrama i WhatsAppa. 

Poanta je, kako pišu Metini znanstvenici, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu i Michael Auli, pristupiti nečemu sličnijem općoj sposobnosti učenja koju čini ljudski um obuhvaća.

"Dok se čini da ljudi uče na sličan način bez obzira na to kako dobivaju informacije - koriste li se vidom ili zvukom, na primjer", pišu autori u blogu, "trenutačno postoje velike razlike u načinu na koji" neuronske mreže rukuju različitim vrstama podataka kao što su slike, govor, tekst "i drugi modaliteti".

“Osnovna ideja ovog pristupa,” izjavljuju iz data2vec, “je učiti općenito: AI bi trebao biti sposoban naučiti obavljati mnoge različite zadatke, uključujući one koji su potpuno nepoznati.”

Izvršni direktor Mete, Mark Zuckerberg, ponudio je citat o radu, povezujući ga s budućim Metaverse:

Uzbudljiv proboj: istraživanje Meta AI izgradilo je sustav koji uči iz govora, vida i teksta bez potrebe za označenim podacima o obuci. Ljudi doživljavaju svijet kroz kombinaciju vida, zvuka i riječi, a sustavi poput ovog mogli bi jednog dana razumjeti svijet na način na koji mi to činimo. Sve će se to s vremenom ugraditi u AR naočale s AI asistentom pa bi vam, na primjer, moglo pomoći u kuhanju večere, primijetiti ako vam nedostaje neki sastojak, potaknuti vas da smanjite toplinu ili složenije zadatke.

Naziv data2vec je igra s imenom programa za "ugradnju" jezika razvijen u Googleu 2013 pod nazivom "word2vec". Taj je program predvidio kako se riječi skupljaju, pa je word2vec reprezentativan za neuronsku mrežu dizajniranu za određenu vrstu podataka, u tom slučaju tekst. 

Isto tako: Otvorite vrata odjeljka, molim, HAL: Metin AI simulira čitanje s usana

Međutim, u slučaju data2vec, Baevski i kolege uzimaju standardnu ​​verziju onoga što se zove Transformer, koju su razvili Ashish Vaswani i kolege u Googleu 2017 i proširiti ga tako da se koristi za više tipova podataka. 

Neuronska mreža Transformer izvorno je razvijena za jezične zadatke, ali je u godinama nakon toga široko prilagođena za mnoge vrste podataka. Baevski i sur. pokazuju da se Transformer može koristiti za obradu više vrsta podataka bez promjene, a uvježbana neuronska mreža koja rezultira može obavljati više različitih zadataka. 

U službenom radu, “data2vec: Opći okvir za samonadzirano učenje govora, vizije i jezika”, Baevski i sur., treniraju Transformer za slikovne podatke, audio valne oblike govora i prikaze jezika teksta. 

Data2vec je "prvi samonadzirani algoritam visokih performansi koji radi na više modaliteta, odnosno govora, vizije i teksta", pišu Baevski i tim u postu na blogu.

Vrlo opći Transformer postaje ono što se naziva pret-trening koji se zatim može primijeniti na određene neuronske mreže kako bi se izvršili određeni zadaci. Na primjer, autori koriste data2vec kao prethodnu obuku kako bi opremili ono što se naziva "ViT", "transformator vida", neuronsku mrežu posebno dizajniranu za zadatke vida koji uveden je prošle godine od Alexey Dosovitskiy i kolege u Googleu. 

meta-2022-data2vec-rezultati-on-vit-test.jpg

Meta prikazuje najbolje rezultate za ugledno ImageNet natjecanje u prepoznavanju slika.


Cilj 2022

Kada se koriste na ViT-u ​​za pokušaj rješavanja standardnog ImageNet testa za prepoznavanje slika, njihovi rezultati dolaze na vrh paketa, s točnošću od 84.1%, što je bolje od rezultata od 83.2% koje je dobio tim u Microsoftu koji je prethodno obučio ViT, na čelu s Hangbo Baoom, prošle godine.

I isti data2vec Transformer daje rezultate koji su najsuvremeniji za prepoznavanje govora i koji su konkurentni, ako ne i najbolji, za učenje prirodnog jezika:

Eksperimentalni rezultati pokazuju da je data2vec učinkovit u sva tri modaliteta, postavljajući novo stanje tehnike za ViT-B i ViT-L na ImageNet-1K, poboljšavajući u odnosu na najbolji prethodni rad u obradi govora na prepoznavanju govora i izvedbu na razini RoBERTa na mjerilu razumijevanja prirodnog jezika GLUE. 

Suština je u tome što se to događa bez ikakvih modifikacija neuronske mreže kako bi se radilo o slikama, a isto je i za govor i tekst. Umjesto toga, svaka vrsta ulaza ide u istu mrežu i dovršava isti vrlo opći zadatak. Taj je zadatak isti zadatak koji Transformer mreže uvijek koriste, poznat kao "maskirana predviđanja". 

Isto tako: Googleov supermodel: DeepMind Perceiver korak je na putu do AI stroja koji može obraditi sve i svašta

Međutim, način na koji data2vec izvodi maskirano predviđanje je pristup poznat kao učenje "samonadzirano". U samonadziranom okruženju, neuronska mreža se trenira ili razvija tako što mora proći kroz više faza. 

Prvo, mreža konstruira prikaz zajedničke vjerojatnosti unosa podataka, bilo da se radi o slikama, govoru ili tekstu. Zatim, druga verzija mreže ima neke od tih stavki ulaznih podataka "prikrivene", ostavljene neotkrivene. Mora rekonstruirati zajedničku vjerojatnost koju je izgradila prva verzija mreže, što ga prisiljava da stvara sve bolje i bolje prikaze podataka suštinski ispunjavajući praznine. 

meta-2022-data2vec-mrežna-arhitektura.jpg

Pregled data2vec pristupa.


Cilj 2022

Dvije mreže, ona s punim uzorkom zajedničke vjerojatnosti i ona s nepotpunom verzijom koju pokušava dovršiti, zovu se, dovoljno razumno, "Učitelj" i "Učenik". Mreža učenika pokušava razviti svoj osjećaj za podatke, ako hoćete, rekonstruirajući ono što je Učitelj već postigao.

You Can pogledajte kod za modele na Githubu.

Kako neuronska mreža radi učitelja i učenika za tri vrlo različite vrste podataka? Ključno je da "cilja" zajedničke vjerojatnosti, u sva tri slučaja podataka, nije određena vrsta izlaznih podataka, kao što je slučaj u verzijama Transformera za određenu vrstu podataka, kao što je Googleov BERT ili OpenAI GPT-3 . 

Umjesto toga, data2vec grabi neku hrpu slojeva neuronske mreže koji jesu u neuronske mreže, negdje u sredini, koje predstavljaju podatke prije nego što se svaki proizvedu kao konačni rezultat. 

Kao što pišu autori, "jedna od glavnih razlika naše metode […] osim izvođenja maskiranog predviđanja, je korištenje ciljeva koji se temelje na prosječavanju više slojeva iz mreže nastavnika." Točnije, "regresiramo višestruke prikaze slojeva neuronske mreže umjesto samo gornjeg sloja", tako da "data2vec predviđa latentne reprezentacije ulaznih podataka."

Dodaju: “Mi općenito koristimo izlaz FFN-a [mreže s prosljeđivanjem] prije posljednje preostale veze u svakom bloku kao cilj,” gdje je “blok” transformatorski ekvivalent sloja neuronske mreže.

Poanta je da svaki tip podataka koji ulazi postaje isti izazov za Učenikovu mrežu rekonstrukcije nečega unutar neuronske mreže koju je Učitelj sastavio.

Ovo prosječenje se razlikuje od drugih nedavnih pristupa izgradnji jedne mreže za brisanje svih podataka. Na primjer, prošlog ljeta, Googleova DeepMind jedinica ponudila je ono što naziva "Perceiver", vlastitu multimodalnu verziju Transformera. Obuka neuronske mreže Perceiver je standardniji proces proizvodnje rezultata koji je odgovor na označeni, nadzirani zadatak kao što je ImageNet. U samonadziranom pristupu, data2vec ne koristi te oznake, već samo pokušava rekonstruirati interni prikaz podataka mreže. 

Još ambiciozniji napori leže u krilima. Jeff Dean, voditelj Googleovih nastojanja za umjetnu inteligenciju, u listopadu je zadirkivao o "Pathways", za što Dean tvrdi da je "sljedeća generacija AI arhitekture” za multimodalnu obradu podataka.

Imajte na umu da data2vecov vrlo opći pristup jednoj neuronskoj mreži za više modaliteta još uvijek ima puno informacija o različitim tipovima podataka. Slika, govor i tekst pripremaju se prethodnom obradom podataka. Na taj se način multimodalni aspekt mreže još uvijek oslanja na tragove o podacima, što tim naziva "malim koderima za unos podataka specifičnim za modalitet".

Isto tako: Google predstavlja 'Pathways', umjetnu inteligenciju sljedeće generacije koja se može osposobiti za obavljanje više zadataka

"Unatoč jedinstvenom režimu učenja, još uvijek koristimo izdvajače značajki specifičnih za modalitet i strategije maskiranja", objašnjavaju.

Dakle, još nismo u svijetu u kojem se neuronska mreža trenira bez ikakvog smisla za tipove ulaznih podataka. Također nismo u trenutku kada neuronska mreža može konstruirati jedan prikaz koji kombinira sve različite vrste podataka, tako da neuronska mreža uči stvari u kombinaciji.

Ta činjenica je razjašnjena iz razmjene između ZDNet i autori. ZDNet došao do Baevskog i tima i upitao: "Jesu li latentne reprezentacije koje služe kao mete kombinirano kodiranje sva tri modaliteta u bilo kojem vremenskom koraku ili su obično samo jedan od modaliteta?"

Baevski i ekipa odgovaraju da je u pitanju potonji, i njihov reply zanimljivo je opširno citirati:

Latentne varijable nisu kombinirano kodiranje za tri modaliteta. Treniramo zasebne modele za svaki modalitet, ali proces kroz koji modeli uče je identičan. To je glavna inovacija našeg projekta budući da su prije postojale velike razlike u načinu na koji se modeli obučavaju u različitim modalitetima. Neuroznanstvenici također vjeruju da ljudi na sličan način uče o zvukovima i vizualnom svijetu. Naš projekt pokazuje da samonadzirano učenje također može funkcionirati na isti način za različite modalitete.

S obzirom na data2vec-ova ograničenja specifična za modalitet, neuronska mreža koja bi uistinu mogla biti Jedna mreža koja će svima njima vladati ostaje tehnologija budućnosti.

izvor