Metin 'data2vec' je sljedeći korak prema jednoj neuronskoj mreži koja će upravljati svima

Utrka je u stvaranju jedne neuronske mreže koja može obraditi više vrsta podataka, što je pojam općenitije umjetne inteligencije koja ne diskriminira tipove podataka, već ih umjesto toga može sve skupiti unutar iste osnovne strukture.

Žanr multimodalnosti, kako se te neuronske mreže nazivaju, doživljava nalet aktivnosti u kojima se različiti podaci, kao što su slika, tekst i zvuk govora, prolaze kroz isti algoritam kako bi se proizveo rezultat na različitim testovima, kao što je npr. prepoznavanje slike, razumijevanje prirodnog jezika ili detekcija govora.

A ove ambidekstralne mreže skupljaju rezultate na referentnim testovima AI. Najnovije dostignuće je ono što se zove 'data2vec,' koje su razvili istraživači u AI odjelu kompanije Meta, roditelj Facebooka, Instagrama i WhatsAppa. 

Poenta je, kako pišu Metini naučnici, Aleksej Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu i Michael Auli, da se pristupi nečemu što je više nalik opštoj sposobnosti učenja koju čini ljudski um obuhvata.

"Dok se čini da ljudi uče na sličan način bez obzira na to kako dobijaju informacije - da li koriste vid ili zvuk, na primjer", pišu autori u blogu, “trenutno postoje velike razlike u načinu na koji” neuronske mreže rukuju različitim vrstama podataka kao što su slike, govor, tekst, “i drugi modaliteti”.

„Osnovna ideja ovog pristupa,” izjavljuju iz data2vec, „je učenje općenito: AI bi trebao biti u stanju naučiti obavljati mnogo različitih zadataka, uključujući i one koji su potpuno nepoznati.”

Izvršni direktor Mete, Mark Zuckerberg, ponudio je citat o radu, vezujući ga za budući Metaverse:

Uzbudljiv proboj: Meta AI istraživanje je izgradilo sistem koji uči iz govora, vizije i teksta bez potrebe za označenim podacima o obuci. Ljudi doživljavaju svijet kroz kombinaciju vida, zvuka i riječi, a ovakvi sistemi bi jednog dana mogli razumjeti svijet na način na koji mi to činimo. Sve će to na kraju biti ugrađeno u AR naočale s AI asistentom, tako da bi vam, na primjer, moglo pomoći da skuhate večeru, primjećujući da li vam nedostaje neki sastojak, što će vas navesti da smanjite toplinu ili složenije zadatke.

Ime data2vec je igra s imenom programa za "ugradnju" jezika razvijen u Google-u 2013 pod nazivom "word2vec." Taj program je predvidio kako se riječi grupišu, pa je word2vec reprezentativan za neuronsku mrežu dizajniranu za određenu vrstu podataka, u tom slučaju tekst. 

Takođe: Otvorite vrata ležišta, molim, HAL: Metin AI simulira čitanje s usana

U slučaju data2vec, međutim, Baevski i kolege uzimaju standardnu ​​verziju onoga što se zove Transformer, koju su razvili Ashish Vaswani i kolege na Google-u 2017 i proširivanje da se koristi za više tipova podataka. 

Neuronska mreža Transformer prvobitno je razvijena za jezičke zadatke, ali je u godinama nakon toga široko prilagođena za mnoge vrste podataka. Baevski i dr. pokazuju da se Transformer može koristiti za obradu više vrsta podataka bez promjene, a obučena neuronska mreža koja rezultira može obavljati više različitih zadataka. 

U zvaničnom radu, “data2vec: Opšti okvir za učenje govora, vizije i jezika uz samokontrolu”, Baevski et al., obučavaju Transformer za slikovne podatke, govorne audio valne oblike i predstavljanje jezika teksta. 

Data2vec je „prvi samonadzirani algoritam visokih performansi koji radi na više modaliteta, odnosno govora, vizije i teksta“, pišu Baevski i tim u postu na blogu.

Vrlo opći Transformer postaje ono što se zove pret-trening koji se zatim može primijeniti na specifične neuronske mreže kako bi se izvršili određeni zadaci. Na primjer, autori koriste data2vec kao prethodnu obuku kako bi opremili ono što se zove "ViT", "transformator vida", neuronsku mrežu posebno dizajniranu za zadatke vida koji je uveden prošle godine od Alekseja Dosovickog i kolega iz Google-a. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta prikazuje najbolje rezultate za ugledno ImageNet takmičenje u prepoznavanju slika.


Cilj 2022

Kada se koriste na ViT-u ​​za pokušaj rješavanja standardnog ImageNet testa prepoznavanja slika, njihovi rezultati se nalaze na vrhu paketa, s preciznošću od 84.1%, što je bolje od rezultata od 83.2% koji je dobio tim u Microsoftu koji je prethodno obučio ViT, predvođen Hangbo Baoom, prošle godine.

I isti data2vec Transformer daje rezultate koji su najmoderniji za prepoznavanje govora i koji su konkurentni, ako ne i najbolji, za učenje prirodnog jezika:

Eksperimentalni rezultati pokazuju da je data2vec efikasan u sva tri modaliteta, postavljajući novo stanje tehnike za ViT-B i ViT-L na ImageNet-1K, poboljšavajući u odnosu na najbolji prethodni rad u obradi govora na prepoznavanju govora i performansama na nivou RoBERTa na GLUE mjerilu razumijevanja prirodnog jezika. 

Suština je u tome što se ovo dešava bez ikakvih modifikacija neuronske mreže da se radi o slikama, a isto je i za govor i tekst. Umjesto toga, svaki tip ulaza ide u istu mrežu i završava isti vrlo opći zadatak. Taj zadatak je isti zadatak koji Transformer mreže uvijek koriste, poznat kao "maskirana predviđanja". 

Takođe: Googleov supermodel: DeepMind Perceiver je korak na putu ka AI mašini koja može da obrađuje sve i svašta

Međutim, način na koji data2vec izvodi maskirano predviđanje je pristup poznat kao učenje „samo-nadgledano“. U okruženju pod samonadzorom, neuronska mreža se obučava ili razvija tako što mora proći kroz više faza. 

Prvo, mreža konstruiše reprezentaciju zajedničke vjerovatnoće unosa podataka, bilo da se radi o slikama, govoru ili tekstu. Zatim, druga verzija mreže ima neke od tih stavki ulaznih podataka „prikrivene“, ostavljene neotkrivene. Mora rekonstruisati zajedničku vjerovatnoću koju je izgradila prva verzija mreže, što ga prisiljava da kreira sve bolje i bolje reprezentacije podataka suštinski popunjavajući praznine. 

meta-2022-data2vec-network-architecture.jpg

Pregled data2vec pristupa.


Cilj 2022

Dvije mreže, ona s punim uzorkom zajedničke vjerovatnoće i ona s nepotpunom verzijom koju pokušava da dovrši, zovu se, dovoljno razumno, "Nastavnik" i "Učenik". Mreža učenika pokušava da razvije svoj smisao za podatke, ako hoćete, rekonstruišući ono što je Učitelj već postigao.

Možeš pogledajte kod za modele na Githubu.

Kako neuronska mreža radi nastavnika i učenika za tri vrlo različite vrste podataka? Ključno je da "cilja" zajedničke vjerovatnoće, u sva tri slučaja podataka, nije specifičan tip izlaznih podataka, kao što je slučaj u verzijama Transformera za određeni tip podataka, kao što je Googleov BERT ili OpenAI GPT-3 . 

Umjesto toga, data2vec grabi neku gomilu slojeva neuronske mreže koji jesu unutra neuronsku mrežu, negdje u sredini, koja predstavlja podatke prije nego što se svaki proizvede kao konačni izlaz. 

Kao što pišu autori, „Jedna od glavnih razlika naše metode […] osim izvođenja maskiranog predviđanja, je upotreba ciljeva koji se zasnivaju na usrednjavanju više slojeva iz mreže nastavnika.” Konkretno, "regresiramo višestruke reprezentacije slojeva neuronske mreže umjesto samo gornjeg sloja", tako da "data2vec predviđa latentne reprezentacije ulaznih podataka."

Oni dodaju: „Mi generalno koristimo izlaz FFN-a [mreže s prosljeđivanjem] prije posljednje preostale veze u svakom bloku kao cilj,” gdje je „blok” transformatorski ekvivalent sloja neuronske mreže.

Poenta je da svaki tip podataka koji ulazi postaje isti izazov za Učenikovu mrežu rekonstrukcije nečega unutar neuronske mreže koju je Učitelj sastavio.

Ovo usrednjavanje se razlikuje od drugih nedavnih pristupa izgradnji jedne mreže za brisanje svih podataka. Na primjer, prošlog ljeta, Google-ova DeepMind jedinica ponudila je ono što naziva “Perceiver”, sopstvenu multimodalnu verziju Transformera. Obuka neuronske mreže Perceiver je standardniji proces proizvodnje rezultata koji je odgovor na označeni, nadgledani zadatak kao što je ImageNet. U samonadziranom pristupu, data2vec ne koristi te oznake, već samo pokušava da rekonstruiše interni prikaz podataka mreže. 

Još ambiciozniji napori leže u krilima. Jeff Dean, šef Google-ovih nastojanja za umjetnu inteligenciju, u oktobru je zadirkivao o “Pathways”, za šta Dean tvrdi da je “AI arhitektura nove generacije” za multimodalnu obradu podataka.

Imajte na umu da data2vecov vrlo opći pristup jednoj neuronskoj mreži za više modaliteta još uvijek ima puno informacija o različitim tipovima podataka. Slika, govor i tekst pripremaju se prethodnom obradom podataka. Na taj način, multimodalni aspekt mreže i dalje se oslanja na tragove o podacima, što tim naziva „malim koderima za unos podataka specifičnim za modalitet“.

Takođe: Google predstavlja 'Pathways', AI sljedeće generacije koji se može obučiti za obavljanje više zadataka

„Uprkos jedinstvenom režimu učenja, i dalje koristimo ekstraktore karakteristika specifičnih za modalitet i strategije maskiranja“, objašnjavaju.

Dakle, još nismo u svijetu u kojem se neuronska mreža trenira bez ikakvog smisla za tipove ulaznih podataka. Također nismo u trenutku kada neuronska mreža može konstruirati jednu reprezentaciju koja kombinira sve različite tipove podataka, tako da neuronska mreža uči stvari u kombinaciji.

Ta činjenica je razjašnjena iz razmjene između ZDNet i autori. ZDNet došao do Baevskog i tima i upitao: „Da li su latentne reprezentacije koje služe kao mete kombinovano kodiranje sva tri modaliteta u bilo kom vremenskom koraku, ili su obično samo jedan od modaliteta?“

Baevski i ekipa odgovaraju da je u pitanju potonji i njihov reply zanimljivo je opširno citirati:

Latentne varijable nisu kombinovano kodiranje za tri modaliteta. Mi obučavamo zasebne modele za svaki modalitet, ali proces kroz koji modeli uče je identičan. Ovo je glavna inovacija našeg projekta budući da su prije postojale velike razlike u načinu na koji se modeli obučavaju u različitim modalitetima. Neuroznanstvenici također vjeruju da ljudi na sličan način uče o zvukovima i vizualnom svijetu. Naš projekt pokazuje da samonadgledano učenje također može funkcionirati na isti način za različite modalitete.

S obzirom na data2vec-ova ograničenja specifična za modalitet, neuronska mreža koja bi zaista mogla biti Jedna mreža da vlada njima svima ostaje tehnologija budućnosti.

izvor