Meta 'data2vec' je dalším krokem k jedné neuronové síti, která bude vládnout všem

Závodí se o vytvoření jedné neuronové sítě, která dokáže zpracovat více druhů dat, představu obecnější umělé inteligence, která nerozlišuje mezi typy dat, ale místo toho je dokáže všechny rozdrtit v rámci stejné základní struktury.

Žánr multimodality, jak se těmto neuronovým sítím říká, je svědkem přívalu aktivit, při kterých jsou různá data, jako je obrázek, text a zvuk řeči, předávána stejným algoritmem, aby se vytvořilo skóre v různých testech, jako je např. rozpoznávání obrazu, porozumění přirozené řeči nebo detekce řeči.

A tyto oboustranné sítě dosahují skóre ve srovnávacích testech AI. Nejnovějším úspěchem je to, co se nazývá „data2vec“, vyvinuté výzkumníky z divize AI společnosti Meta, mateřské společnosti Facebook, Instagram a WhatsApp. 

Smyslem, jak píší vědci z Meta, Alexej Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu a Michael Auli, je přiblížit se něčemu, co je více podobné obecné schopnosti učení, kterou lidská mysl zdánlivě zahrnuje.

„Zatímco se zdá, že se lidé učí podobným způsobem bez ohledu na to, jak získávají informace – ať už používají například zrak nebo zvuk,“ píší autoři v blogu, „v současné době existují velké rozdíly ve způsobu, jakým“ neuronové sítě zpracovávají různé typy dat, jako jsou obrázky, řeč, text, „a další modality“.

„Základní myšlenkou tohoto přístupu,“ prohlašují o data2vec, „je učit se obecněji: AI by měla být schopna naučit se dělat mnoho různých úkolů, včetně těch, které jsou zcela neznámé.“

Generální ředitel společnosti Meta, Mark Zuckerberg, nabídl nabídku o práci a spojil ji s budoucím Metaverse:

Vzrušující průlom: Výzkum Meta AI vytvořil systém, který se učí z řeči, vidění a textu, aniž by potřeboval označená tréninková data. Lidé zažívají svět prostřednictvím kombinace zraku, zvuku a slov a systémy jako tento by mohly jednoho dne chápat svět tak, jako my. To vše bude nakonec zabudováno do AR brýlí s asistentem AI, takže vám to může například pomoci uvařit večeři, všimnout si, že vám chybí nějaká ingredience, vyzve vás, abyste ztlumili teplo, nebo složitější úkoly.

Název data2vec je hra s názvem programu pro „vkládání“ jazyka vyvinuta ve společnosti Google v roce 2013 s názvem „word2vec“. Tento program předpověděl, jak se slova shlukují dohromady, a tak word2vec představuje neuronovou síť navrženou pro konkrétní typ dat, v tomto případě text. 

Také: Otevřete dveře šachty, prosím, HAL: Umělá inteligence Meta simuluje odezírání

V případě data2vec však Baevski a kolegové berou standardní verzi toho, čemu se říká Transformer, vyvinutou Ashishem Vaswanim a kolegy. ve společnosti Google v roce 2017 a rozšířit jej tak, aby byl použit pro více typů dat. 

Neuronová síť Transformer byla původně vyvinuta pro jazykové úlohy, ale od té doby byla široce přizpůsobena pro mnoho druhů dat. Baevski a kol. ukazují, že Transformer lze použít ke zpracování více druhů dat, aniž by byla měněna, a trénovaná neuronová síť, která z toho vyplývá, může plnit různé úkoly. 

Ve formálním dokumentu „data2vec: Obecný rámec pro samokontrolované učení řeči, vidění a jazykaBaevski a kol., trénují Transformer pro obrazová data, zvukové křivky řeči a reprezentace textového jazyka. 

Data2vec je „první vysoce výkonný algoritmus s vlastním dohledem, který funguje pro více modalit, konkrétně řeč, vidění a text,“ píší Baevski a tým v příspěvku na blogu.

Velmi obecný Transformer se stává tím, čemu se říká předtrénink, který lze následně aplikovat na konkrétní neuronové sítě za účelem provedení konkrétních úkolů. Autoři například používají data2vec jako předškolní přípravu k vybavení toho, co se nazývá „ViT“, „Vision Transformer“, neuronová síť speciálně navržená pro úkoly v oblasti vidění, které byl představen v loňském roce od Alexeye Dosovitského a kolegů ve společnosti Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta ukazuje nejlepší skóre v úctyhodné soutěži ImageNet v rozpoznávání obrázků.


Cíl 2022

Při použití na ViT při pokusu o vyřešení standardního testu ImageNet rozpoznávání obrázků se jejich výsledky dostanou na první místo, s přesností 84.1 %, což je lepší než skóre 83.2 %, které získal tým společnosti Microsoft, který předškolil ViT, vede Hangbo Bao, loni.

A stejný data2vec Transformer poskytuje výsledky, které jsou nejmodernější pro rozpoznávání řeči a které jsou konkurenceschopné, ne-li nejlepší, pro výuku přirozeného jazyka:

Experimentální výsledky ukazují, že data2vec je účinný ve všech třech modalitách, čímž nastavuje nový stav techniky pro ViT-B a ViT-L na ImageNet-1K, zlepšuje se oproti předchozí nejlepší práci v oblasti zpracování řeči na rozpoznávání řeči a má stejný výkon jako RoBERTa. na benchmarku porozumění přirozenému jazyku GLUE. 

Jádrem je, že se to děje bez jakékoli úpravy neuronové sítě, aby se týkala obrázků, a totéž platí pro řeč a text. Místo toho každý typ vstupu jde do stejné sítě a dokončuje stejný velmi obecný úkol. Tento úkol je stejný, který sítě Transformer vždy používají, známý jako „maskovaná předpověď“. 

Také: Supermodelka Google: DeepMind Perceiver je krokem na cestě ke stroji s umělou inteligencí, který dokáže zpracovat cokoli a všechno

Způsob, jakým data2vec provádí maskovanou predikci, je však přístup známý jako „učení s vlastním dohledem“. V prostředí s vlastním dohledem se neuronová síť trénuje nebo vyvíjí tak, že musí projít několika fázemi. 

Nejprve síť zkonstruuje reprezentaci společné pravděpodobnosti vstupu dat, ať už jde o obrázky, řeč nebo text. Pak má druhá verze sítě některé z těchto vstupních datových položek „zamaskované“, které zůstaly neodhalené. Musí rekonstruovat společnou pravděpodobnost, kterou sestrojila první verze sítě, což ji nutí vytvářet stále lepší reprezentace dat tím, že v podstatě vyplňuje prázdná místa. 

meta-2022-data2vec-network-architecture.jpg

Přehled přístupu data2vec.


Cíl 2022

Dvě sítě, jedna s úplným vzorem společné pravděpodobnosti, a ta s neúplnou verzí, kterou se snaží dokončit, se rozumně nazývají „Učitel“ a „Student“. Studentská síť se snaží rozvíjet svůj smysl pro data, chcete-li, rekonstrukcí toho, co již učitel dosáhl.

Můžeš viz kód pro modely na Github.

Jak funguje neuronová síť Učitel a student pro tři velmi odlišné typy dat? Klíčové je, že „cíl“ společné pravděpodobnosti ve všech třech datových případech není specifický výstupní datový typ, jako je tomu ve verzích Transformeru pro konkrétní datový typ, jako je BERT od Googlu nebo GPT-3 od OpenAI. . 

Data2vec spíše uchopuje několik vrstev neuronové sítě, které jsou uvnitř neuronová síť, někde uprostřed, která reprezentuje data předtím, než jsou všechna vytvořena jako konečný výstup. 

Jak píší autoři: „Jedním z hlavních rozdílů naší metody […], kromě provádění maskované predikce, je použití cílů, které jsou založeny na zprůměrování více vrstev ze sítě učitelů.“ Konkrétně „regresujeme více reprezentací vrstvy neuronové sítě namísto pouze horní vrstvy“, takže „data2vec předpovídá latentní reprezentace vstupních dat“.

Dodávají: „Obecně jako cíl používáme výstup FFN [dopředná síť] před posledním zbytkovým připojením v každém bloku,“ kde „blok“ je transformátorový ekvivalent vrstvy neuronové sítě.

Jde o to, že každý datový typ, který vstoupí, se pro síť Studentů stává stejnou výzvou rekonstruovat něco uvnitř neuronové sítě, kterou složil Učitel.

Toto zprůměrování se liší od ostatních nedávných přístupů k budování jedné sítě pro zhroucení všech dat. Například loni v létě jednotka DeepMind společnosti Google nabídla to, co nazývá „Perceiver“, svou vlastní multimodální verzi Transformeru. Trénink neuronové sítě Perceiver je standardnějším procesem vytváření výstupu, který je odpovědí na označený úkol pod dohledem, jako je ImageNet. V přístupu s vlastním dohledem data2vec tyto štítky nepoužívá, pouze se snaží rekonstruovat vnitřní reprezentaci dat sítě. 

Ještě ambicióznější úsilí leží v křídlech. Jeff Dean, vedoucí úsilí společnosti Google o AI, v říjnu škádlil o „cestách“, o čem Dean tvrdí, že je „architektura AI nové generace” pro multimodální zpracování dat.

Nezapomínejte, že velmi obecný přístup data2vec k jedné neuronové síti pro více modalit má stále mnoho informací o různých typech dat. Obraz, řeč a text jsou připraveny předzpracováním dat. Tímto způsobem se multimodální aspekt sítě stále spoléhá na vodítka o datech, která tým označuje jako „malé vstupní kodéry specifické pro modalitu“.

Také: Google odhaluje 'Pathways', AI nové generace, kterou lze trénovat na multitasking

„Navzdory jednotnému režimu učení stále používáme extraktory funkcí specifických pro jednotlivé modality a maskovací strategie,“ vysvětlují.

Proto ještě nejsme ve světě, kde by se neuronová síť trénovala bez jakéhokoli smyslu pro vstupní datové typy. Také nejsme v okamžiku, kdy by neuronová síť mohla zkonstruovat jednu reprezentaci, která kombinuje všechny různé datové typy, takže se neuronová síť učí věci v kombinaci.

Tato skutečnost je zřejmá z výměny mezi nimi ZDNet a autoři. ZDNet oslovil Baevského a tým a zeptal se: „Jsou latentní reprezentace, které slouží jako cíle, kombinovaným kódováním všech tří modalit v jakémkoli daném časovém kroku, nebo jsou obvykle jen jednou z modalit?

Baevski a tým odpovídají, že je to ten druhý případ a jejich reply je zajímavé dlouze citovat:

Latentní proměnné nejsou kombinovaným kódováním pro tři modality. Trénujeme samostatné modely pro každou modalitu, ale proces, kterým se modely učí, je identický. Toto je hlavní inovace našeho projektu, protože předtím byly velké rozdíly v tom, jak jsou modely trénovány v různých modalitách. Neurovědci také věří, že lidé se podobným způsobem učí o zvucích a vizuálním světě. Náš projekt ukazuje, že samokontrolované učení může také fungovat stejným způsobem pro různé modality.

Vzhledem k omezením specifickým pro modalitu data2vec by to mohla být neuronová síť Jedna síť, která jim všem vládne zůstává technologií budoucnosti.

Zdroj