A Meta 'data2vec' a következő lépés afelé, hogy egy neurális hálózat irányítsa őket

A verseny egy neurális hálózat létrehozásán zajlik, amely többféle adat feldolgozására képes, egy általánosabb mesterséges intelligencia fogalma, amely nem tesz különbséget az adatok típusai között, de ehelyett ugyanazon az alapstruktúrán belül képes mindet összetörni.

A multimodalitás műfaja, ahogy ezeket a neurális hálózatokat nevezik, a tevékenység olyan hullámát látja, amelyben különböző adatok, például kép, szöveg és beszédhang halad át ugyanazon az algoritmuson, hogy különböző teszteken pontszámot hozzanak létre, mint pl. képfelismerés, természetes nyelv megértése vagy beszédérzékelés.

Ezek a kétkezes hálózatok pedig pontokat gyűjtenek a mesterséges intelligencia benchmark tesztjein. A legújabb vívmány az úgynevezett „data2vec”, amelyet a Meta mesterséges intelligenciával foglalkozó részlegének kutatói fejlesztettek ki, amely a Facebook, az Instagram és a WhatsApp szülője. 

A lényeg, ahogyan Meta tudósai, Alekszej Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu és Michael Auli írják, az, hogy valami olyasmit közelítsenek, mint az általános tanulási képesség, amelyet az emberi elme úgy tűnik, magában foglal.

„Miközben úgy tűnik, hogy az emberek hasonló módon tanulnak, függetlenül attól, hogy hogyan jutnak információhoz – például, hogy látást vagy hangot használnak” – írják a szerzők. Egy blogbejegyzésben, „jelenleg nagy különbségek vannak abban, ahogyan” a neurális hálózatok különböző típusú adatokat, például képeket, beszédet, szöveget „és egyéb módozatokat” kezelnek.

„Ennek a megközelítésnek az alapötlete – állítják a data2vec-ről – az, hogy általánosabban tanuljunk: az AI-nak képesnek kell lennie arra, hogy megtanuljon sok különböző feladatot elvégezni, beleértve azokat is, amelyek teljesen ismeretlenek.”

A Meta vezérigazgatója, Mark Zuckerberg egy idézetet ajánlott a munkáról, és egy jövőbeli Metaverse-hez kapcsolta:

Izgalmas áttörés: A Meta AI-kutatás egy olyan rendszert épített fel, amely beszédből, látásból és szövegből tanul anélkül, hogy címkézett képzési adatokra lenne szüksége. Az emberek a látás, a hang és a szavak kombinációján keresztül tapasztalják meg a világot, és az ehhez hasonló rendszerek egy napon úgy érthetik meg a világot, ahogy mi. Ez végül mind beépül az AR-szemüvegekbe egy AI-asszisztens segítségével, így például segíthet a vacsora elkészítésében, észreveszi, ha kihagy egy összetevőt, a fűtés leállítására késztet, vagy bonyolultabb feladatokat végezhet.

A data2vec név játék egy nyelvi „beágyazó” program nevével. 2013-ban fejlesztette ki a Google „word2vec” néven. Ez a program megjósolta, hogy a szavak hogyan csoportosulnak össze, így a word2vec egy neurális hálózatot képvisel, amelyet egy adott típusú adathoz, ebben az esetben a szöveghez terveztek. 

Továbbá: Kérem, nyissa ki a pod rekesz ajtaját, HAL: A Meta mesterséges intelligencia a szájról való olvasást szimulálja

A data2vec esetében azonban Baevski és munkatársai az úgynevezett Transformer szabványos verzióját használják, amelyet Ashish Vaswani és munkatársai fejlesztettek ki. a Google-nál 2017-ben és kiterjeszti több adattípusra is. 

A Transformer neurális hálózatot eredetileg nyelvi feladatokra fejlesztették ki, de az azóta eltelt években széles körben adaptálták sokféle adatra. Baevski et al. bemutatják, hogy a Transformer többféle adat feldolgozására használható változtatás nélkül, és a betanított neurális hálózat, amely eredményeként több különböző feladatot is végrehajthat. 

A hivatalos lapban „data2vec: Általános keretrendszer a beszéd, látás és nyelv önfelügyelt tanulásához”, Baevski és munkatársai képadatokra, beszédhang-hullámformákra és szövegnyelvi megjelenítésekre tanítják a Transformert. 

A Data2vec „az első nagy teljesítményű, önfelügyelt algoritmus, amely többféle modalitással, nevezetesen beszéddel, látással és szöveggel működik” – írja Baevski és csapata a blogbejegyzésben.

A nagyon általános Transformer az úgynevezett előképzéssé válik, amelyet azután konkrét neurális hálózatokra lehet alkalmazni meghatározott feladatok elvégzése érdekében. A szerzők például a data2vec-et használják előképzésként, hogy felszereljék az úgynevezett „ViT-t”, a „vision Transformer”-t, egy neurális hálózatot, amelyet kifejezetten olyan látási feladatokra terveztek. tavaly mutatták be Alexey Dosovitskiy és munkatársai a Google-tól. 

meta-2022-data2vec-scores-on-vit-test.jpg

A Meta a tiszteletreméltó ImageNet képfelismerő verseny legjobb pontszámait mutatja.


2022. cél

Amikor a ViT-en a képfelismerés szabványos ImageNet tesztjének megoldására használták, az eredmények a csomag tetején helyezkednek el, 84.1%-os pontossággal, ami jobb, mint az a 83.2%-os pontszám, amelyet a Microsoft előzetesen kiképzett csapata kapott. ViT, Hangbo Bao vezetésével, tavaly.

És ugyanaz a data2vec Transformer olyan eredményeket ad ki, amelyek a beszédfelismerés terén a legmodernebbek, és versenyképesek, ha nem a legjobbak a természetes nyelvtanulásban:

A kísérleti eredmények azt mutatják, hogy a data2vec mindhárom módozatban hatékony, új korszakot állítva fel a ViT-B és a ViT-L számára az ImageNet-1K-n, javítva a beszédfelismerés terén végzett beszédfeldolgozás terén végzett legjobb korábbi munkákhoz képest, és a RoBERTa-val megegyező teljesítményt nyújt. a GLUE természetes nyelvértési benchmarkon. 

A lényeg az, hogy ez a neurális hálózat módosítása nélkül történik, hogy a képekről szóljon, és ugyanez a beszéd és a szöveg esetében is. Ehelyett minden bemeneti típus ugyanabba a hálózatba kerül, és ugyanazt a nagyon általános feladatot hajtja végre. Ez a feladat ugyanaz, mint amit a Transformer hálózatok mindig használnak, ez az úgynevezett „maszkolt előrejelzés”. 

Továbbá: A Google szupermodellje: a DeepMind Perceiver egy lépés egy olyan mesterséges intelligencia-gép felé vezető úton, amely bármit és mindent képes feldolgozni

Az a mód, ahogyan a data2vec maszkolt előrejelzést hajt végre, „önfelügyelt” tanulásnak nevezik. Önfelügyelt környezetben a neurális hálózat képzése vagy fejlesztése több szakaszon keresztül történik. 

Először is, a hálózat összeállítja az adatbevitel együttes valószínűségének reprezentációját, legyen az képek, beszéd vagy szöveg. Ezután a hálózat második verziójában néhány bemeneti adatelem „elfedve”, fel nem tárva marad. Rekonstruálnia kell azt a közös valószínűséget, amelyet a hálózat első verziója épített fel, ami arra kényszeríti, hogy az adatok jobb és jobb reprezentációit hozza létre lényegében az üres helyeken való kitöltéssel. 

meta-2022-data2vec-network-architecture.jpg

A data2vec megközelítés áttekintése.


2022. cél

A két hálózatot, a közös valószínűség teljes mintájával rendelkező hálózatot, és azt, amelyik a nem teljes verziót próbálja befejezni, ésszerűen „tanárnak” és „tanulónak” nevezik. A Hallgatói hálózat igyekszik fejleszteni az adatok ismeretét, ha úgy tetszik, rekonstruálva azt, amit a Tanár már elért.

Tudod lásd a modellek kódját a Githubon.

Hogyan teljesít a neurális hálózat tanári és tanulói teljesítménye három nagyon különböző típusú adat esetében? A kulcs az, hogy a közös valószínűség „célpontja” mindhárom adatesetben nem egy konkrét kimeneti adattípus, mint a Transformer egy adott adattípushoz tartozó verzióiban, mint például a Google BERT vagy az OpenAI GPT-3. . 

Inkább a data2vec megragad néhány neurális hálózati réteget belső a neurális hálózat, valahol középen, amely az adatokat reprezentálja, mielőtt azok végső kimenetként készülnének. 

Ahogy a szerzők írják: „Módszerünk egyik fő különbsége […] a maszkolt előrejelzés végrehajtásán kívül az, hogy olyan célokat használunk, amelyek a tanári hálózat több rétegének átlagolásán alapulnak.” Pontosabban: „csak a felső réteg helyett több neurális hálózati réteg reprezentációját is visszafejtjük”, így a „data2vec előrejelzi a bemeneti adatok látens reprezentációit”.

Hozzáteszik: „Általában az FFN [előrecsatolt hálózat] kimenetét használjuk az utolsó maradék kapcsolat előtt minden blokkban célként”, ahol a „blokk” a neurális hálózati réteg transzformátor megfelelője.

A lényeg az, hogy minden bekerülő adattípus ugyanolyan kihívássá válik a diákhálózat számára, hogy rekonstruáljon valamit a tanár által összeállított neurális hálózaton belül.

Ez az átlagolás különbözik a One Network To Crunch All Data felépítésének más közelmúltbeli megközelítéseitől. Például tavaly nyáron a Google DeepMind egysége felkínálta az úgynevezett „Perceiver”-et, a Transformer saját multimodális változatát. A Perceiver neurális hálózat betanítása a szabványosabb folyamat egy olyan kimenet előállítására, amely a válasz egy címkézett, felügyelt feladatra, például az ImageNetre. Az önfelügyelt megközelítésben a data2vec nem használja ezeket a címkéket, csak megpróbálja rekonstruálni az adatok hálózat belső reprezentációját. 

Még ambiciózusabb erőfeszítések rejlenek. Jeff Dean, a Google mesterséges intelligencia erőfeszítéseinek vezetője októberben a „Pathways”-ről ugratott, ami Dean szerint „következő generációs AI architektúra” multimodális adatfeldolgozáshoz.

Ne feledje, hogy a data2vec nagyon általános megközelítése egyetlen neurális hálóhoz több módozathoz még mindig sok információt tartalmaz a különböző adattípusokról. A kép, a beszéd és a szöveg az adatok előfeldolgozásával készül. Ily módon a hálózat multimodális aspektusa továbbra is az adatokkal kapcsolatos nyomokra támaszkodik, amelyeket a csapat „kis modalitás-specifikus bemeneti kódolóknak” nevez.

Továbbá: A Google bemutatja a „Pathways”-t, egy következő generációs mesterséges intelligenciát, amely többfeladatos feladatokra tanítható

„Az egységes tanulási rendszer ellenére továbbra is használunk modalitás-specifikus jellemző-kivonatokat és maszkolási stratégiákat” – magyarázzák.

Ennélfogva még nem tartunk abban a világban, ahol neurális hálót képeznek ki, és nincs értelme a bemeneti adattípusoknak. Még nem tartunk abban az időpontban, amikor a neurális hálózat egyetlen reprezentációt tud létrehozni, amely az összes különböző adattípust egyesíti, így a neurális háló kombinálva tanul meg dolgokat.

Ez a tény egyértelművé válik a közötti eszmecseréből ZDNet és a szerzők. ZDNet megkereste Baevszkit és csapatát, és megkérdezte: „A célként szolgáló látens reprezentációk egy adott időlépésben mindhárom modalitás kombinált kódolása, vagy általában csak az egyik modalitás?”

Baevski és csapata azt válaszolja, hogy az utóbbi esetről van szó, és az övék reply érdekes hosszan idézni:

A látens változók nem a három modalitás kombinált kódolásai. Minden modalitáshoz külön modellt képezünk, de a folyamat, amelyen keresztül a modellek tanulnak, azonos. Ez a projektünk fő újítása, mivel korábban nagy különbségek voltak a modellek képzésének módjai között. Az idegtudósok azt is hiszik, hogy az emberek hasonló módon tanulnak a hangokról és a vizuális világról. Projektünk azt mutatja, hogy az önfelügyelt tanulás is ugyanúgy működhet különböző módozatoknál.

Tekintettel a data2vec modalitás-specifikus korlátaira, egy neurális hálózat, amely valóban lehet Egy hálózat uralja őket továbbra is a jövő technológiája.

forrás