„data2vec” al lui Meta este următorul pas către o rețea neuronală pentru a le guverna pe toate

Cursa este pornită pentru a crea o singură rețea neuronală care poate procesa mai multe tipuri de date, noțiunea de inteligență artificială mai generală, care nu discriminează tipurile de date, ci le poate analiza pe toate în aceeași structură de bază.

Genul multimodalității, așa cum sunt numite aceste rețele neuronale, înregistrează o serie de activități în care date diferite, cum ar fi imaginea, textul și sunetul vorbirii, sunt trecute prin același algoritm pentru a produce un scor la teste diferite, cum ar fi recunoașterea imaginilor, înțelegerea limbajului natural sau detectarea vorbirii.

Și aceste rețele ambidextre obțin scoruri la testele de referință ale AI. Cea mai recentă realizare este ceea ce se numește „data2vec”, dezvoltat de cercetătorii de la divizia AI a Meta, părintele Facebook, Instagram și WhatsApp. 

Ideea, după cum scriu oamenii de știință ai lui Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu și Michael Auli, este să abordăm ceva mai asemănător cu capacitatea generală de învățare pe care mintea umană pare să o cuprindă.

„În timp ce oamenii par să învețe într-un mod similar, indiferent de modul în care obțin informații – dacă folosesc vederea sau sunetul, de exemplu”, scriu autorii. într-un post pe blog, „în prezent există diferențe mari în modul în care” rețelele neuronale gestionează diferite tipuri de date, cum ar fi imagini, vorbire, text „și alte modalități”.

„Ideea de bază a acestei abordări”, declară ei despre data2vec, „este să învețe în general: AI ar trebui să poată învăța să facă multe sarcini diferite, inclusiv cele care sunt complet nefamiliare.”

CEO-ul Meta, Mark Zuckerberg, a oferit un citat despre lucrare, legându-l de un viitor Metaverse:

Revoluție interesantă: Cercetarea Meta AI a construit un sistem care învață din vorbire, viziune și text fără a avea nevoie de date de antrenament etichetate. Oamenii experimentează lumea printr-o combinație de vedere, sunet și cuvinte, iar sistemele ca acesta ar putea într-o zi să înțeleagă lumea așa cum o facem noi. Toate acestea vor fi în cele din urmă încorporate în ochelarii AR cu un asistent AI, așa că, de exemplu, vă poate ajuta să gătiți cina, observând dacă vă lipsește un ingredient, determinându-vă să reduceți căldura sau sarcini mai complexe.

Numele data2vec este un joc cu numele unui program pentru „încorporarea” limbajului dezvoltat la Google în 2013 numit „word2vec”. Acest program a prezis modul în care cuvintele se grupează împreună, și astfel word2vec este reprezentativ pentru o rețea neuronală concepută pentru un anumit tip de date, în acest caz text. 

De asemenea: Deschide ușile compartimentului, te rog, HAL: AI-ul lui Meta simulează citirea pe buze

În cazul data2vec, totuși, Baevski și colegii iau o versiune standard a ceea ce se numește Transformer, dezvoltată de Ashish Vaswani și colegii. la Google în 2017 și extinderea acestuia pentru a fi utilizat pentru mai multe tipuri de date. 

Rețeaua neuronală Transformer a fost dezvoltată inițial pentru sarcini de limbaj, dar a fost adaptată pe scară largă în anii de atunci pentru multe tipuri de date. Baevski şi colab. arată că Transformerul poate fi folosit pentru a procesa mai multe tipuri de date fără a fi modificate, iar rețeaua neuronală antrenată care rezultă poate îndeplini mai multe sarcini diferite. 

În lucrarea oficială, „data2vec: Un cadru general pentru învățarea auto-supravegheată în vorbire, viziune și limbaj,” Baevski și colab., antrenează Transformerul pentru date de imagine, forme de undă audio de vorbire și reprezentări în limbaj text. 

Data2vec este „primul algoritm auto-supravegheat de înaltă performanță care funcționează pentru mai multe modalități, și anume vorbire, viziune și text”, scriu Baevski și echipa în postarea de blog.

Transformerul foarte general devine ceea ce se numește pre-antrenament care poate fi apoi aplicat unor rețele neuronale specifice pentru a îndeplini sarcini specifice. De exemplu, autorii folosesc data2vec ca pregătire prealabilă pentru a echipa ceea ce se numește „ViT”, „transformatorul de viziune”, o rețea neuronală special concepută pentru sarcini de vedere care a fost introdus anul trecut de Alexey Dosovitskiy și colegii de la Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta arată cele mai bune scoruri pentru venerabila competiție de recunoaștere a imaginilor ImageNet.


Obiectivul 2022

Atunci când sunt utilizate pe ViT pentru a încerca să rezolve testul standard ImageNet de recunoaștere a imaginii, rezultatele lor ajung în fruntea pachetului, cu o precizie de 84.1%, mai bună decât scorul de 83.2% primit de o echipă de la Microsoft care a pregătit prealabil. ViT, condus de Hangbo Bao, anul trecut.

Și același data2vec Transformer dă rezultate care sunt de ultimă generație pentru recunoașterea vorbirii și care sunt competitive, dacă nu cele mai bune, pentru învățarea limbajului natural:

Rezultatele experimentale arată că data2vec este eficient în toate cele trei modalități, stabilind un nou stadiu al tehnicii pentru ViT-B și ViT-L pe ImageNet-1K, îmbunătățindu-se față de cele mai bune lucrări anterioare în procesarea vorbirii privind recunoașterea vorbirii și performanțe la fel ca Roberta. pe standardul de înțelegere a limbajului natural GLUE. 

Cheia este că acest lucru se întâmplă fără nicio modificare a rețelei neuronale să fie despre imagini, și același lucru pentru vorbire și text. În schimb, fiecare tip de intrare merge în aceeași rețea și îndeplinește aceeași sarcină foarte generală. Această sarcină este aceeași sarcină pe care o folosesc întotdeauna rețelele Transformer, cunoscută sub numele de „predicție mascata”. 

De asemenea: Supermodelul Google: DeepMind Perceiver este un pas pe drumul către o mașină AI care ar putea procesa orice și orice

Modul în care data2vec efectuează predicții mascate, totuși, este o abordare cunoscută sub numele de învățare „autosupravegheată”. Într-un cadru auto-supravegheat, o rețea neuronală este antrenată sau dezvoltată, trecând prin mai multe etape. 

În primul rând, rețeaua construiește o reprezentare a probabilității comune de introducere a datelor, fie că este vorba de imagini, vorbire sau text. Apoi, o a doua versiune a rețelei are unele dintre acele elemente de date de intrare „mascate”, rămase nedezvăluite. Trebuie să reconstruiască probabilitatea comună pe care a construit-o prima versiune a rețelei, ceea ce o obligă să creeze reprezentări din ce în ce mai bune ale datelor, completând, în esență, spațiile libere. 

meta-2022-data2vec-network-architecture.jpg

O prezentare generală a abordării data2vec.


Obiectivul 2022

Cele două rețele, cea cu modelul complet al probabilității comune și cea cu versiunea incompletă pe care încearcă să o completeze, se numesc, destul de înțelept, „Profesor” și „Student”. Rețeaua Studenților încearcă să-și dezvolte simțul datelor, dacă vreți, reconstruind ceea ce profesorul a realizat deja.

Poti vezi codul modelelor de pe Github.

Cum funcționează rețeaua neuronală Profesorul și studentul pentru trei tipuri foarte diferite de date? Cheia este că „ținta” probabilității comune, în toate cele trei cazuri de date, nu este un tip de date de ieșire specific, așa cum este cazul în versiunile Transformerului pentru un tip de date specific, cum ar fi BERT de la Google sau GPT-3 de la OpenAI. . 

Mai degrabă, data2vec preia niște straturi de rețea neuronală care sunt în interiorul rețeaua neuronală, undeva la mijloc, care reprezintă datele înainte ca acestea să fie produse ca rezultat final. 

După cum scriu autorii, „Una dintre principalele diferențe ale metodei noastre […], în afară de efectuarea de predicții mascate, este utilizarea țintelor care se bazează pe o medie a mai multor straturi din rețeaua profesorilor.” Mai exact, „regresăm reprezentări multiple ale rețelei neuronale în loc de doar stratul superior”, astfel încât „data2vec prezice reprezentările latente ale datelor de intrare”.

Ei adaugă: „În general, folosim ieșirea FFN [rețelei de feed-forward] înainte de ultima conexiune reziduală din fiecare bloc ca țintă”, unde un „bloc” este echivalentul Transformer al unui strat de rețea neuronală.

Ideea este că fiecare tip de date care intră devine aceeași provocare pentru rețeaua Studenților de a reconstrui ceva în interiorul rețelei neuronale pe care a compus-o Profesorul.

Această medie este diferită de alte abordări recente de construire a unei rețele pentru a analiza toate datele. De exemplu, vara trecută, unitatea Google DeepMind a oferit ceea ce numește „Perceiver”, propria sa versiune multimodală a Transformerului. Antrenamentul rețelei neuronale Perceiver este procesul mai standard de producere a unei ieșiri care este răspunsul la o sarcină etichetată, supravegheată, cum ar fi ImageNet. În abordarea auto-supravegheată, data2vec nu folosește acele etichete, ci încearcă doar să reconstruiască reprezentarea internă a rețelei a datelor. 

Eforturi și mai ambițioase se află în aripi. Jeff Dean, șeful eforturilor Google de inteligență artificială, a tachinat în octombrie despre „Pathways”, ceea ce Dean susține că este un „arhitectura AI de generație următoare” pentru prelucrarea multimodală a datelor.

Rețineți, abordarea foarte generală a data2vec pentru o singură rețea neuronală pentru mai multe modalități are încă o mulțime de informații despre diferitele tipuri de date. Imaginea, vorbirea și textul sunt toate pregătite prin preprocesare a datelor. În acest fel, aspectul multimodal al rețelei se bazează în continuare pe indicii despre date, ceea ce echipa numește „codatoare de intrare mici specifice modalității”.

De asemenea: Google dezvăluie „Pathways”, un AI de nouă generație care poate fi antrenat pentru multitasking

„În ciuda regimului de învățare unificat, încă folosim extractoare de caracteristici specifice modalității și strategii de mascare”, explică ei.

Prin urmare, nu ne aflăm încă într-o lume în care o rețea neuronală este antrenată fără niciun sens al tipurilor de date de intrare. De asemenea, nu ne aflăm într-un moment în care rețeaua neuronală poate construi o reprezentare care să combine toate tipurile de date diferite, astfel încât rețeaua neuronală să învețe lucruri în combinație.

Acest fapt este evident dintr-un schimb între ZDNet si autorii. ZDNet a contactat Baevski și echipa și a întrebat: „Sunt reprezentările latente care servesc drept ținte o codificare combinată a tuturor celor trei modalități la un anumit pas de timp sau sunt, de obicei, doar una dintre modalități?”

Baevski și echipa răspund că acesta este cel din urmă caz ​​și ei reply este interesant de citat pe larg:

Variabilele latente nu sunt o codificare combinată pentru cele trei modalități. Antrenăm modele separate pentru fiecare modalitate, dar procesul prin care modelele învață este identic. Aceasta este principala inovație a proiectului nostru, deoarece înainte existau diferențe mari în modul în care modelele sunt antrenate în diferite modalități. Oamenii în neuroștiință cred, de asemenea, că oamenii învață în moduri similare despre sunete și lumea vizuală. Proiectul nostru arată că învățarea auto-supravegheată poate funcționa în același mod pentru diferite modalități.

Având în vedere limitările specifice modalității data2vec, o rețea neuronală care ar putea fi cu adevărat O singură rețea pentru a-i conduce pe toți rămâne tehnologia viitorului.

Sursă