„data2vec“ на Meta е следващата стъпка към Една невронна мрежа, която да управлява всички тях

Надпреварата е за създаване на една невронна мрежа, която може да обработва множество видове данни, идеята за по-общ изкуствен интелект, който не дискриминира типовете данни, но вместо това може да ги разбие в една и съща основна структура.

Жанрът на мултимодалността, както се наричат ​​тези невронни мрежи, наблюдава вълна от активност, при която различни данни, като изображение, текст и звук на реч, се предават през един и същ алгоритъм за получаване на резултат от различни тестове, като напр. разпознаване на изображения, разбиране на естествен език или откриване на реч.

И тези амбидекстри мрежи събират резултати в сравнителни тестове на AI. Последното постижение е това, което се нарича „data2vec“, разработено от изследователи от AI отдела на Meta, родител на Facebook, Instagram и WhatsApp. 

Смисълът, както пишат учените на Мета, Алексей Баевски, Уей-Нинг Хсу, Цянтонг Сю, Арун Бабу, Джиатао Гу и Майкъл Аули, е да се подходи към нещо повече като общата способност за учене, която изглежда обхваща човешкият ум.

„Докато изглежда, че хората учат по подобен начин, независимо от това как получават информация – дали използват зрение или звук, например“, пишат авторите в блог пост, „в момента има големи разлики в начина, по който невронните мрежи обработват различни типове данни като изображения, реч, текст и други модалности“.

„Основната идея на този подход“, декларират те от data2vec, „е да се учи по-общо: AI трябва да може да се научи да изпълнява много различни задачи, включително тези, които са напълно непознати“.

Главният изпълнителен директор на Meta, Марк Зукърбърг, предложи цитат за работата, обвързвайки я с бъдеща Metaverse:

Вълнуващ пробив: Изследванията на Meta AI изградиха система, която се учи от реч, визия и текст, без да има нужда от етикетирани данни за обучение. Хората преживяват света чрез комбинация от зрение, звук и думи и системи като тази един ден може да разберат света по начина, по който го разбираме ние. Всичко това в крайна сметка ще бъде вградено в AR очила с AI асистент, така че например може да ви помогне да приготвите вечеря, да забележите дали пропуснете някоя съставка, да ви подтикне да намалите топлината или по-сложни задачи.

Името data2vec е игра на името на програма за езиково „вграждане“ разработена в Google през 2013 г наречен „word2vec“. Тази програма прогнозира как думите се групират заедно и така word2vec е представителен за невронна мрежа, предназначена за конкретен тип данни, в този случай текст. 

Също така: Отворете вратите на гнездото, моля, HAL: AI на Meta симулира четене по устни

В случая с data2vec обаче Баевски и колегите вземат стандартна версия на това, което се нарича Transformer, разработена от Ashish Vaswani и колегите в Google през 2017 г и разширяване, за да се използва за множество типове данни. 

Невронната мрежа Transformer първоначално е разработена за езикови задачи, но е широко адаптирана през годините оттогава за много видове данни. Баевски и др. показват, че Transformer може да се използва за обработка на множество видове данни, без да се променя, а обучената невронна мрежа, която резултатите може да изпълнява множество различни задачи. 

В официалния документ „data2vec: Обща рамка за самоконтролирано обучение по говор, визия и език”, Баевски и др., обучават Transformer за данни за изображения, аудиоформи на речта и представяне на текстовия език. 

Data2vec е „първият високопроизводителен самоконтролиран алгоритъм, който работи за множество модалности, а именно реч, визия и текст“, пишат Баевски и екип в публикацията в блога.

Много общият трансформатор се превръща в това, което се нарича предварително обучение, което след това може да се приложи към специфични невронни мрежи, за да се изпълняват конкретни задачи. Например, авторите използват data2vec като предварително обучение, за да оборудват това, което се нарича "ViT", "vision Transformer", невронна мрежа, специално проектирана за задачи за зрение, които беше въведен миналата година от Алексей Досовицки и колеги в Google. 

meta-2022-data2vec-резултати-на-vit-test.jpg

Meta показва най-добрите резултати за почтеното състезание за разпознаване на изображения ImageNet.


Meta 2022

Когато се използват във ViT, за да се опитат да решат стандартния ImageNet тест за разпознаване на изображения, техните резултати са в горната част на пакета, с точност от 84.1%, по-добра от резултата от 83.2%, получен от екип на Microsoft, който е предварително обучен ViT, ръководен от Хангбо Бао, миналата година.

И същият data2vec Transformer извежда резултати, които са най-съвременни за разпознаване на реч и които са конкурентни, ако не и най-добрите, за изучаване на естествен език:

Експерименталните резултати показват, че data2vec е ефективен и в трите модалности, поставяйки ново състояние на техниката за ViT-B и ViT-L на ImageNet-1K, подобрявайки в сравнение с най-добрата предишна работа в обработката на говор за разпознаване на реч и представяйки наравно с RoBERTa по еталон за разбиране на естествен език GLUE. 

Основното е, че това се случва без каквато и да е модификация на невронната мрежа, за да се отнася за изображения, както и за речта и текста. Вместо това всеки тип вход влиза в една и съща мрежа и изпълнява същата много обща задача. Тази задача е същата задача, която мрежите на Transformer винаги използват, известна като „маскирано предсказване“. 

Също така: Супермоделът на Google: DeepMind Perceiver е стъпка по пътя към AI машина, която може да обработва всичко и всичко

Начинът, по който data2vec извършва маскирано прогнозиране обаче, е подход, известен като „самоконтролирано“ обучение. В среда със самоконтрол, невронната мрежа се обучава или развива, като трябва да премине през множество етапи. 

Първо, мрежата изгражда представяне на съвместната вероятност за въвеждане на данни, било то изображения, реч или текст. След това, втора версия на мрежата има някои от тези елементи на входните данни „замаскирани“, останали неразкрити. Той трябва да реконструира общата вероятност, която е изградена от първата версия на мрежата, което я принуждава да създава все по-добри представяния на данните, като по същество попълва празните места. 

meta-2022-data2vec-мрежова архитектура.jpg

Преглед на подхода data2vec.


Meta 2022

Двете мрежи, тази с пълния модел на съвместната вероятност и тази с непълната версия, която се опитва да завърши, се наричат, достатъчно разумно, „Учител“ и „Студент“. Студентската мрежа се опитва да развие своето усещане за данните, ако щете, като реконструира това, което Учителят вече е постигнал.

Можете да вижте кода за моделите на Github.

Как невронната мрежа представя учител и ученик за три много различни типа данни? Ключът е, че „целта“ на съвместната вероятност и в трите случая на данни не е специфичен тип изходни данни, както е във версиите на Transformer за конкретен тип данни, като BERT на Google или GPT-3 на OpenAI . 

По-скоро data2vec грабва няколко слоя невронни мрежи, които са вътре невронната мрежа, някъде по средата, която представлява данните, преди всяко те да бъдат произведени като краен изход. 

Както пишат авторите, „Една от основните разлики на нашия метод […], освен извършването на маскирано прогнозиране, е използването на цели, които се основават на усредняване на множество слоеве от учителската мрежа“. По-конкретно, „регресираме множество представяния на слоя на невронна мрежа, вместо само на горния слой“, така че „data2vec прогнозира латентните представяния на входните данни“.

Те добавят: „Ние обикновено използваме изхода на FFN [пренасочваща мрежа] преди последната остатъчна връзка във всеки блок като цел“, където „блокът“ е еквивалентът на трансформатора на слой на невронна мрежа.

Въпросът е, че всеки тип данни, който влиза, става същото предизвикателство за мрежата на Студентите да реконструира нещо вътре в невронната мрежа, съставена от Учителя.

Това осредняване е различно от други скорошни подходи за изграждане на една мрежа за разрушаване на всички данни. Например миналото лято отделът на Google DeepMind предложи това, което нарича „Perceiver“, своя собствена мултимодална версия на Transformer. Обучението на невронната мрежа Perceiver е по-стандартният процес на производство на изход, който е отговор на етикетирана, контролирана задача, като ImageNet. При самоконтролирания подход, data2vec не използва тези етикети, той просто се опитва да реконструира вътрешното представяне на данните в мрежата. 

Още по-амбициозните усилия лежат в крилете. Джеф Дийн, ръководител на усилията на Google за изкуствен интелект, през октомври дразни за „Пътища“, това, което Дийн твърди, че е „AI архитектура от следващо поколение” за мултимодална обработка на данни.

Имайте предвид, че много общият подход на data2vec към една невронна мрежа за множество модалности все още съдържа много информация за различните типове данни. Изображението, речта и текстът се подготвят чрез предварителна обработка на данните. По този начин мултимодалният аспект на мрежата все още разчита на улики за данните, което екипът нарича „малки специфични за модалността входни кодери“.

Също така: Google представя „Pathways“, AI от следващо поколение, който може да бъде обучен да изпълнява много задачи

„Въпреки единния режим на обучение, ние все още използваме специфични за модалността екстрактори на функции и маскиращи стратегии“, обясняват те.

Следователно, ние все още не сме в свят, в който невронна мрежа се обучава без никакъв смисъл от типовете входни данни. Също така не сме в момент, в който невронната мрежа може да изгради едно представяне, което комбинира всички различни типове данни, така че невронната мрежа да учи неща в комбинация.

Този факт става ясен от обмен между ZDNet и авторите. ZDNet се обърна към Баевски и екипа и попита: „Скритите репрезентации, които служат като цели, комбинирано кодиране на всичките три модалности в дадена времева стъпка или обикновено са само една от модалностите?“

Баевски и екип отговарят, че е вторият случай и техен reply интересно е да цитирам надълго и нашироко:

Латентните променливи не са комбинирано кодиране за трите модалности. Ние обучаваме отделни модели за всяка модалност, но процесът, чрез който моделите се учат, е идентичен. Това е основната иновация на нашия проект, тъй като преди имаше големи различия в начина, по който моделите се обучават в различни модалности. Невролозите също вярват, че хората учат по подобен начин за звуците и визуалния свят. Нашият проект показва, че самоконтролираното обучение може да работи по същия начин за различни модалности.

Като се имат предвид специфичните за модалността ограничения на data2vec, невронна мрежа, която наистина може да бъде Една мрежа, която да управлява всички тях остава технологията на бъдещето.

източник