Metin 'data2vec' je naslednji korak k eni nevronski mreži, ki bo vladala vsem

Tekmuje se za ustvarjanje ene nevronske mreže, ki lahko obdeluje več vrst podatkov, pojem bolj splošne umetne inteligence, ki ne diskriminira glede vrst podatkov, ampak jih namesto tega lahko drobi v isti osnovni strukturi.

Žanr multimodalnosti, kot se imenujejo te nevronske mreže, doživlja naval dejavnosti, v katerih se različni podatki, kot so slika, besedilo in zvok govora, prenašajo skozi isti algoritem, da se ustvari rezultat na različnih testih, kot je npr. prepoznavanje slik, razumevanje naravnega jezika ali zaznavanje govora.

In ta ambidekstrna omrežja zbirajo rezultate na primerjalnih testih AI. Najnovejši dosežek je tako imenovano 'data2vec,' ki so ga razvili raziskovalci v oddelku za umetno inteligenco podjetja Meta, matične družbe Facebook, Instagram in WhatsApp. 

Bistvo, kot pišejo Metini znanstveniki, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu in Michael Auli, je približati se nečemu bolj podobnemu splošni sposobnosti učenja, za katero se zdi, da zajema človeški um.

"Medtem ko se zdi, da se ljudje učijo na podoben način, ne glede na to, kako dobijo informacije - ali uporabljajo vid ali zvok, na primer," pišejo avtorji. v blog post, "trenutno obstajajo velike razlike v načinu" nevronskih omrežij obdelujejo različne vrste podatkov, kot so slike, govor, besedilo, "in drugi načini."

"Osnovna ideja tega pristopa," trdijo pri data2vec, "je učenje bolj na splošno: AI bi se morala naučiti opravljati veliko različnih nalog, vključno s tistimi, ki so popolnoma neznane."

Izvršni direktor Mete, Mark Zuckerberg, je ponudil citat o delu in ga povezal s prihodnjim Metaverse:

Razburljiv preboj: raziskave Meta AI so zgradile sistem, ki se uči iz govora, vida in besedila, ne da bi potreboval označene podatke o usposabljanju. Ljudje svet doživljamo s kombinacijo vida, zvoka in besed, takšni sistemi pa bi lahko nekega dne razumeli svet tako kot mi. Vse to bo sčasoma vgrajeno v očala AR s pomočnikom umetne inteligence, tako da vam lahko na primer pomaga pri kuhanju večerje, opazi, če zamudite sestavino, vas spodbudi, da zmanjšate toploto ali bolj zapletena opravila.

Ime data2vec je igra z imenom programa za "vdelavo" jezika razvili pri Googlu leta 2013 imenovano »word2vec«. Ta program je predvidel, kako se besede združujejo, zato je word2vec reprezentativen za nevronsko mrežo, zasnovano za določeno vrsto podatkov, v tem primeru besedilo. 

Prav tako: Odprite vrata ležišča, prosim, HAL: Metina AI simulira branje z ustnic

V primeru data2vec pa Baevski in sodelavci jemljejo standardno različico tega, kar se imenuje Transformer, ki so jo razvili Ashish Vaswani in sodelavci pri Googlu leta 2017 in ga razširiti za uporabo za več tipov podatkov. 

Nevronska mreža Transformer je bila prvotno razvita za jezikovne naloge, vendar je bila v zadnjih letih široko prilagojena za številne vrste podatkov. Baevski idr. kažejo, da je Transformer mogoče uporabiti za obdelavo več vrst podatkov, ne da bi jih spremenili, in usposobljena nevronska mreža, ki jo rezultati lahko izvajajo pri več različnih nalogah. 

V uradnem dokumentu "data2vec: Splošni okvir za samonadzorovano učenje govora, vida in jezika,« Baevski et al., usposabljajo Transformer za slikovne podatke, govorne zvočne valovne oblike in predstavitve jezika besedila. 

Data2vec je »prvi visokozmogljiv samonadzorovan algoritem, ki deluje za več načinov, in sicer za govor, vizijo in besedilo,« pišejo Baevski in ekipa v objavi na blogu.

Zelo splošen Transformer postane tako imenovano predusposabljanje, ki ga je mogoče nato uporabiti za specifične nevronske mreže, da bi lahko izvajali določene naloge. Na primer, avtorji uporabljajo data2vec kot predhodni trening za opremljanje tako imenovanega "ViT", "transformator vida", nevronske mreže, posebej zasnovane za naloge vida, ki je bil uveden lani avtorja Alexey Dosovitskiy in sodelavcev pri Googlu. 

meta-2022-data2vec-rezultati-na-vit-testu.jpg

Meta prikazuje najboljše rezultate za častitljivo tekmovanje ImageNet za prepoznavanje slik.


Meta 2022

Ko se uporabljajo na ViT za poskus reševanja standardnega ImageNet testa za prepoznavanje slik, so njihovi rezultati na vrhu paketa z natančnostjo 84.1 %, kar je bolje od ocene 83.2 %, ki jo je prejela ekipa pri Microsoftu, ki je bila predhodno usposobljena ViT, ki ga vodi Hangbo Bao, lani.

In isti data2vec Transformer daje rezultate, ki so najsodobnejši za prepoznavanje govora in so konkurenčni, če ne najboljši, za učenje naravnega jezika:

Eksperimentalni rezultati kažejo, da je data2vec učinkovit v vseh treh modalitetah, saj postavlja novo stanje tehnike za ViT-B in ViT-L na ImageNet-1K, izboljša v primerjavi z najboljšim predhodnim delom pri obdelavi govora pri prepoznavanju govora in deluje enako kot RoBERTa. na merilu za razumevanje naravnega jezika GLUE. 

Bistvo je, da se to dogaja brez kakršnih koli sprememb nevronske mreže, da bi se nanašala na slike, in enako za govor in besedilo. Namesto tega vsaka vrsta vhoda gre v isto omrežje in dokonča isto zelo splošno nalogo. Ta naloga je ista naloga, ki jo omrežja Transformer vedno uporabljajo, znana kot "maskirana napoved". 

Prav tako: Googlov supermodel: DeepMind Perceiver je korak na poti do AI stroja, ki bi lahko obdelal vse in vse

Način, na katerega data2vec izvaja prikrito predvidevanje, pa je pristop, ki je znan kot "samonadzorovano" učenje. V samonadzorovanem okolju se nevronska mreža usposobi ali razvije tako, da mora preiti več stopenj. 

Prvič, omrežje zgradi predstavitev skupne verjetnosti vnosa podatkov, pa naj gre za slike, govor ali besedilo. Nato ima druga različica omrežja nekatere od teh elementov vhodnih podatkov "zamaskirane", ostanejo nerazkrite. Rekonstruirati mora skupno verjetnost, ki jo je zgradila prva različica omrežja, kar jo prisili, da ustvarja vse boljše predstavitve podatkov z bistvenim zapolnjevanjem praznih mest. 

meta-2022-data2vec-omrežna-arhitektura.jpg

Pregled pristopa data2vec.


Meta 2022

Dve mreži, tisto s popolnim vzorcem skupne verjetnosti in tisto z nepopolno različico, ki jo poskuša dokončati, se dovolj smiselno imenujeta »učitelj« in »študent«. Študentska mreža poskuša razviti svoj občutek za podatke, če hočete, z rekonstrukcijo tega, kar je Učitelj že dosegel.

Ti lahko glej kodo za modele na Githubu.

Kako nevronska mreža deluje učitelja in študenta za tri zelo različne vrste podatkov? Ključno je, da "cilj" skupne verjetnosti v vseh treh podatkovnih primerih ni določen tip izhodnih podatkov, kot je to v različicah Transformerja za določeno vrsto podatkov, kot je Googlov BERT ali OpenAI GPT-3. . 

Namesto tega data2vec zgrabi nekaj slojev nevronske mreže, ki so v notranjosti nevronska mreža, nekje na sredini, ki predstavlja podatke, preden se vsak proizvede kot končni rezultat. 

Kot pišejo avtorji: »Ena od glavnih razlik naše metode […], razen izvajanja prikritih napovedi, je uporaba ciljev, ki temeljijo na povprečju več plasti iz učiteljske mreže.« Natančneje, "regresiramo več predstavitev plasti nevronske mreže namesto samo zgornje plasti", tako da "data2vec napoveduje latentne predstavitve vhodnih podatkov."

Dodajajo: "Na splošno uporabljamo izhod FFN [omrežja za posredovanje naprej] pred zadnjo preostalo povezavo v vsakem bloku kot cilj," kjer je "blok" transformatorski ekvivalent plasti nevronske mreže.

Bistvo je, da vsak podatkovni tip, ki vstopi, postane enak izziv za študentsko mrežo, da rekonstruira nekaj znotraj nevronske mreže, ki jo je sestavil Učitelj.

To povprečje se razlikuje od drugih nedavnih pristopov k gradnji enega omrežja za drobljenje vseh podatkov. Na primer, lansko poletje je Googlova enota DeepMind ponudila tisto, kar imenuje "Perceiver", lastno multimodalno različico Transformerja. Usposabljanje nevronske mreže Perceiver je bolj standarden proces ustvarjanja rezultata, ki je odgovor na označeno, nadzorovano nalogo, kot je ImageNet. Pri samonadzorovanem pristopu data2vec ne uporablja teh oznak, ampak poskuša samo rekonstruirati notranjo predstavitev podatkov v omrežju. 

Še bolj ambiciozni napori so na krilih. Jeff Dean, vodja Googlovih prizadevanj za umetno inteligenco, je oktobra dražil glede »Pathways«, za kar Dean trdi, da je »arhitektura AI naslednje generacije” za multimodalno obdelavo podatkov.

Upoštevajte, da data2vecov zelo splošen pristop k eni nevronski mreži za več modalitet še vedno vsebuje veliko informacij o različnih vrstah podatkov. Slika, govor in besedilo so pripravljeni s predhodno obdelavo podatkov. Na ta način se multimodalni vidik omrežja še vedno opira na namige o podatkih, kar skupina imenuje "majhni vhodni kodirniki, specifični za modalnost".

Prav tako: Google razkriva 'Pathways', umetno inteligenco naslednje generacije, ki jo je mogoče usposobiti za večopravilnost

"Kljub enotnemu učnemu režimu še vedno uporabljamo izvlečke in strategije maskiranja, ki so specifične za način," pojasnjujejo.

Zato še nismo v svetu, kjer se nevronska mreža trenira brez kakršnega koli smisla za vhodne vrste podatkov. Prav tako nismo v trenutku, ko lahko nevronska mreža zgradi eno predstavo, ki združuje vse različne vrste podatkov, tako da se nevronska mreža uči stvari v kombinaciji.

To dejstvo je razvidno iz izmenjave med ZDNet in avtorji. ZDNet stopil v stik z Baevskim in ekipo ter vprašal: "Ali so latentne reprezentacije, ki služijo kot tarče, kombinirano kodiranje vseh treh modalitet v danem časovnem koraku ali so običajno le ena od modalitet?"

Baevski in ekipa odgovarjata, da gre za slednji in njihov reply zanimivo je na dolgo citirati:

Latentne spremenljivke niso kombinirano kodiranje za tri modalnosti. Za vsako modalnost treniramo ločene modele, vendar je proces, s katerim se modeli učijo, enak. To je glavna novost našega projekta, saj so bile prej velike razlike v načinu usposabljanja modelov v različnih modalitetah. Nevroznanstveniki tudi verjamejo, da se ljudje na podoben način učijo o zvokih in vizualnem svetu. Naš projekt kaže, da lahko samonadzorovano učenje deluje na enak način tudi za različne modalitete.

Glede na omejitve, specifične za modalnost data2vec, je nevronska mreža, ki bi lahko res bila Eno omrežje za vladanje vsem ostaja tehnologija prihodnosti.

vir