Metan "data2vec" on seuraava askel kohti yhtä hermoverkkoa hallitsemaan niitä kaikkia

Kilpailu on käynnissä yhden hermoverkon luomiseksi, joka pystyy käsittelemään monenlaista dataa, yleisemmän tekoälyn käsitettä, joka ei erottele datatyyppejä, vaan voi sen sijaan murskata ne kaikki samassa perusrakenteessa.

Multimodaalisuuden genre, kuten näitä hermoverkkoja kutsutaan, on näkemässä toiminnan tuulahdusta, jossa eri dataa, kuten kuvaa, tekstiä ja puheääntä, johdetaan saman algoritmin läpi tulosten tuottamiseksi erilaisissa testeissä, kuten esim. kuvantunnistus, luonnollisen kielen ymmärtäminen tai puheentunnistus.

Ja nämä kaksipuoleiset verkot keräävät pisteitä tekoälyn vertailutesteissä. Viimeisin saavutus on niin kutsuttu data2vec, jonka ovat kehittäneet Facebookin, Instagramin ja WhatsAppin emoyhtiön Metan tekoälydivisioonan tutkijat. 

Kuten Metan tiedemiehet Aleksei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu ja Michael Auli kirjoittavat, tarkoituksena on lähestyä jotain enemmän kuin yleistä oppimiskykyä, jonka ihmismieli näyttää sisältävän.

"Vaikka ihmiset näyttävät oppivan samalla tavalla riippumatta siitä, kuinka he saavat tietoa - käyttävätkö he esimerkiksi näköä tai ääntä", kirjoittajat kirjoittavat. kirjoitusta, "on tällä hetkellä suuria eroja siinä, miten" hermoverkot käsittelevät erityyppistä dataa, kuten kuvia, puhetta, tekstiä "ja muita modaaleja".

"Tämän lähestymistavan ydinajatus", he julistavat data2vecissä, "on oppia yleisemmin: tekoälyn pitäisi pystyä oppimaan tekemään monia erilaisia ​​tehtäviä, myös sellaisia, jotka ovat täysin tuntemattomia."

Metan toimitusjohtaja Mark Zuckerberg tarjosi lainauksen työstä ja sidoi sen tulevaan Metaverseen:

Jännittävä läpimurto: Meta AI -tutkimus rakensi järjestelmän, joka oppii puheesta, näkemyksestä ja tekstistä tarvitsematta merkittyjä harjoitustietoja. Ihmiset kokevat maailman näön, äänen ja sanojen yhdistelmän kautta, ja tämänkaltaiset järjestelmät voisivat jonain päivänä ymmärtää maailman samalla tavalla kuin me. Tämä kaikki sisällytetään lopulta AR-laseihin, joissa on tekoälyassistentti, joten se voi auttaa sinua esimerkiksi valmistamaan illallista, huomaamaan, jos jokin ainesosa puuttuu, kehottaa sinua vähentämään lämpöä tai monimutkaisempia tehtäviä.

Nimi data2vec on leikki kielen upottamiseen tarkoitetun ohjelman nimellä kehitetty Googlessa vuonna 2013 nimeltä "word2vec". Tämä ohjelma ennusti kuinka sanat klusteroituvat yhteen, joten word2vec edustaa hermoverkkoa, joka on suunniteltu tietyntyyppiselle datalle, tässä tapauksessa tekstille. 

Myös: Avaa kotelon ovet, kiitos HAL: Metan tekoäly simuloi huulilta lukemista

Data2vecin tapauksessa Baevski ja kollegat ottavat kuitenkin Ashish Vaswanin ja kollegoiden kehittämän vakioversion niin sanotusta Transformerista. Googlessa vuonna 2017 ja laajentamalla sitä käytettäväksi useille tietotyypeille. 

Transformer-hermoverkko kehitettiin alun perin kielitehtäviin, mutta sitä on vuosien saatossa sovellettu laajasti monenlaiseen dataan. Baevski et ai. osoittavat, että Transformerilla voidaan käsitellä monenlaista dataa muuttamatta, ja tuloksena oleva koulutettu hermoverkko voi suorittaa useita erilaisia ​​tehtäviä. 

Virallisessa paperissa "data2vec: Yleiset puitteet itseohjautuvalle puheen, näön ja kielen oppimiselle”, Baevski et al., kouluttavat Transformerin kuvadataan, puheäänen aaltomuotoihin ja tekstikielen esityksiin. 

Data2vec on "ensimmäinen korkean suorituskyvyn itsevalvottu algoritmi, joka toimii useissa modaliteeteissa, nimittäin puheessa, visiossa ja tekstissä", Baevski ja tiimi kirjoittavat blogikirjoituksessa.

Hyvin yleisestä Transformerista tulee niin kutsuttu esikoulutus, jota voidaan sitten soveltaa tiettyihin hermoverkkoihin tiettyjen tehtävien suorittamiseksi. Kirjoittajat esimerkiksi käyttävät data2veciä esikoulutuksena varustaakseen niin sanotun "ViT:n", "vision Transformerin", hermoverkon, joka on suunniteltu erityisesti näkötehtäviin, otettiin käyttöön viime vuonna Alexey Dosovitskiy ja kollegat Googlesta. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta näyttää arvostetun ImageNet-kuvantunnistuskilpailun parhaat pisteet.


Meta 2022

Kun niitä käytetään ViT:ssä kuvantunnistuksen tavallisen ImageNet-testin ratkaisemiseen, niiden tulokset ovat paketin kärjessä 84.1 %:n tarkkuudella, parempi kuin esikoulutetun Microsoftin tiimin saama 83.2 %:n pistemäärä. ViT, johtaja Hangbo Bao, viime vuonna.

Ja sama data2vec Transformer tuottaa tuloksia, jotka ovat huippuluokan puheentunnistuksessa ja jotka ovat kilpailukykyisiä, elleivät parhaita, luonnollisen kielen oppimiseen:

Kokeelliset tulokset osoittavat data2vecin olevan tehokas kaikissa kolmessa modaliteetissa. Se luo uuden tekniikan ViT-B:lle ja ViT-L:lle ImageNet-1K:ssa, parantaa puheentunnistuksen parhaaseen aikaisempaan puheenkäsittelyyn verrattuna ja toimii yhtä hyvin kuin RoBERTa. GLUE luonnollisen kielen ymmärtämisen vertailuarvolla. 

Ydin on, että tämä tapahtuu ilman, että hermoverkko on muutettu siten, että se koskee kuvia, ja sama puhe ja teksti. Sen sijaan jokainen tulotyyppi menee samaan verkkoon ja suorittaa saman hyvin yleisen tehtävän. Tämä tehtävä on sama tehtävä, jota Transformer-verkot aina käyttävät, eli "naamioituna ennustajana". 

Myös: Googlen supermalli: DeepMind Perceiver on askel kohti tekoälykonetta, joka pystyy käsittelemään mitä tahansa ja kaikkea

Tapa, jolla data2vec suorittaa peitetyn ennustuksen, on kuitenkin lähestymistapa, joka tunnetaan nimellä "itsevalvottu" oppiminen. Itsevalvotussa ympäristössä hermoverkkoa koulutetaan tai kehitetään siten, että sen on läpäistävä useita vaiheita. 

Ensin verkko konstruoi esityksen tiedonsyötön yhteisestä todennäköisyydestä, oli se sitten kuvia, puhetta tai tekstiä. Sitten verkon toisessa versiossa osa syötetyistä tiedoista on "naamioitunut", jäänyt paljastamatta. Sen on rekonstruoitava verkon ensimmäisen version muodostama yhteinen todennäköisyys, mikä pakottaa sen luomaan yhä parempia esityksiä tiedoista olennaisesti täyttämällä tyhjät kohdat. 

meta-2022-data2vec-network-architecture.jpg

Yleiskatsaus data2vec-lähestymistapaan.


Meta 2022

Näitä kahta verkostoa, toista, jolla on koko yhteistodennäköisyyden malli, ja sitä, jonka versio yrittää saada valmiiksi, kutsutaan järkevästi "opettajaksi" ja "opiskelijaksi". Opiskelijaverkosto yrittää kehittää tietoisuuttaan, jos niin haluat, rekonstruoimalla sitä, mitä opettaja oli jo saavuttanut.

Sinä pystyt katso mallien koodi Githubissa.

Miten hermoverkko toimii opettajalle ja opiskelijalle kolmelle hyvin erilaiselle datatyypille? Tärkeintä on, että yhteisen todennäköisyyden "tavoite" kaikissa kolmessa datatapauksessa ei ole tietty lähtötietotyyppi, kuten tapahtuu Transformerin versioissa tietylle tietotyypille, kuten Googlen BERT tai OpenAI:n GPT-3. . 

Pikemminkin data2vec nappaa joukon hermoverkkokerroksia, jotka ovat sisällä neuroverkko, jossain keskellä, joka edustaa dataa ennen kuin se tuotetaan lopullisena ulostulona. 

Kuten kirjoittajat kirjoittavat, "Yksi menetelmämme tärkeimmistä eroista […] maskoidun ennustamisen lisäksi on sellaisten kohteiden käyttö, jotka perustuvat opettajaverkoston useiden kerrosten keskiarvoon." Tarkemmin sanottuna "regressoimme useita hermoverkkokerroksen esityksiä vain ylimmän kerroksen sijaan", joten "data2vec ennustaa syöttötietojen piilevät esitykset".

He lisäävät: "Käytämme yleensä kohteena FFN:n [syöttöverkko] ennen viimeistä jäännösyhteyttä jokaisessa lohkossa", jossa "lohko" on neuroverkkokerroksen muuntajavastaava.

Asia on siinä, että jokaisesta sisään tulevasta tietotyypistä tulee opiskelijaverkostolle sama haaste rekonstruoida jotain opettajan muodostaman hermoverkon sisällä.

Tämä keskiarvo eroaa muista viimeaikaisista lähestymistavoista One Network To Crunch All Datan rakentamiseen. Esimerkiksi viime kesänä Googlen DeepMind-yksikkö tarjosi "Perceiveriksi" kutsumansa oman multimodaaliversionsa Transformerista. Perceiver-hermoverkon koulutus on tavallisempi prosessi tuottaa tulos, joka on vastaus merkittyyn, valvottuun tehtävään, kuten ImageNetiin. Itsevalvotussa lähestymistavassa data2vec ei käytä näitä tunnisteita, vaan yrittää vain rekonstruoida verkon sisäisen esityksen tiedoista. 

Vielä kunnianhimoisemmat ponnistelut ovat siivillä. Jeff Dean, Googlen tekoälytoimien johtaja, kiusoitteli lokakuussa "Pathwaysistä", mikä Dean väittää olevan "seuraavan sukupolven AI-arkkitehtuuri” multimodaalista tietojenkäsittelyä varten.

Huomaa, että data2vecin hyvin yleinen lähestymistapa yhteen hermoverkkoon useille modaliteeteille sisältää edelleen paljon tietoa eri tietotyypeistä. Kuva, puhe ja teksti valmistetaan tietojen esikäsittelyllä. Tällä tavalla verkon multimodaalinen osa perustuu edelleen dataa koskeviin vihjeisiin, joita ryhmä kutsuu "pieniksi modaalisuuskohtaisiksi tulokooderiksi".

Myös: Google esittelee "Pathways", seuraavan sukupolven tekoälyn, joka voidaan kouluttaa tekemään moniajoja

"Yhdistetystä oppimisjärjestelmästä huolimatta käytämme edelleen modaalikohtaisia ​​ominaisuuspoimintoja ja peittostrategioita", he selittävät.

Näin ollen emme ole vielä maailmassa, jossa hermoverkkoa harjoitellaan ilman minkäänlaista järkeä syötetietotyypeistä. Emme myöskään ole vaiheessa, jolloin hermoverkko voi rakentaa yhden esityksen, joka yhdistää kaikki eri tietotyypit, niin että neuroverkko oppii asioita yhdessä.

Tämä tosiasia käy ilmi välisestä keskustelusta ZDNet ja kirjoittajat. ZDNet otti yhteyttä Baevskiin ja tiimiin ja kysyi: "Ovatko kohteina toimivat latentit esitykset kaikkien kolmen modaliteetin yhdistettyä koodausta tietyssä aikavaiheessa vai ovatko ne yleensä vain yksi modaliteeteista?"

Baevski ja tiimi vastaavat, että se on jälkimmäinen tapaus ja heidän reply on mielenkiintoista lainata pitkästi:

Piilevät muuttujat eivät ole yhdistetty koodaus kolmelle modaliteetille. Koulutamme eri malleja kullekin modaliteetille, mutta prosessi, jonka kautta mallit oppivat, on identtinen. Tämä on projektimme tärkein innovaatio, koska ennen mallien koulutuksessa oli suuria eroja. Neurotieteilijät uskovat myös, että ihmiset oppivat samalla tavalla äänistä ja visuaalisesta maailmasta. Projektimme osoittaa, että myös itseohjattu oppiminen voi toimia samalla tavalla eri modaliteettien kanssa.

Data2vecin modaalisuuskohtaiset rajoitukset huomioon ottaen hermoverkko, joka voi todella olla Yksi verkko hallitsee heitä kaikkia on tulevaisuuden tekniikkaa.

lähde