„data2vec” Meta to kolejny krok w kierunku jednej sieci neuronowej, która pozwoli im wszystkim rządzić

Trwa wyścig, aby stworzyć jedną sieć neuronową, która może przetwarzać wiele rodzajów danych, pojęcie bardziej ogólnej sztucznej inteligencji, która nie dyskryminuje typów danych, ale zamiast tego może je wszystkie zmiażdżyć w ramach tej samej podstawowej struktury.

Gatunek multimodalności, jak nazywa się te sieci neuronowe, to lawina aktywności, w której różne dane, takie jak obraz, tekst i dźwięk mowy, są przepuszczane przez ten sam algorytm w celu uzyskania wyniku w różnych testach, takich jak rozpoznawanie obrazu, rozumienie języka naturalnego lub wykrywanie mowy.

A te oburęczne sieci zbierają wyniki w testach porównawczych sztucznej inteligencji. Najnowszym osiągnięciem jest tak zwany „data2vec”, opracowany przez badaczy z działu AI firmy Meta, rodzica Facebooka, Instagrama i WhatsApp. 

Jak piszą naukowcy Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu i Michael Auli, chodzi o podejście do czegoś bardziej przypominającego ogólną zdolność uczenia się, którą wydaje się obejmować ludzki umysł.

„Podczas gdy ludzie zdają się uczyć w podobny sposób, niezależnie od tego, w jaki sposób uzyskują informacje – czy używają na przykład wzroku czy dźwięku” – piszą autorzy w blogu, „obecnie istnieją duże różnice w sposobie”, w jaki sieci neuronowe obsługują różne typy danych, takie jak obrazy, mowa, tekst „i inne modalności”.

„Podstawową ideą tego podejścia”, deklarują o data2vec, „jest uczenie się bardziej ogólnie: sztuczna inteligencja powinna być w stanie nauczyć się wykonywać wiele różnych zadań, w tym te, które są całkowicie nieznane”.

Dyrektor generalny Meta, Mark Zuckerberg, zacytował swoją pracę, wiążąc ją z przyszłym Metaverse:

Ekscytujący przełom: Badania Meta AI zbudowały system, który uczy się na podstawie mowy, wizji i tekstu bez konieczności posiadania oznaczonych danych treningowych. Ludzie doświadczają świata poprzez kombinację wzroku, dźwięku i słów, a takie systemy mogą pewnego dnia zrozumieć świat tak, jak my. To wszystko w końcu zostanie wbudowane w okulary AR z asystentem AI, więc na przykład może pomóc w ugotowaniu obiadu, zauważeniu, jeśli przegapisz jakiś składnik, co skłoni cię do zmniejszenia temperatury lub bardziej złożonych zadań.

Nazwa data2vec to gra z nazwą programu do „osadzania” języka opracowany w Google w 2013 roku o nazwie „słowo2vec”. Ten program przewidział, w jaki sposób słowa będą się ze sobą łączyć, a zatem word2vec jest reprezentatywny dla sieci neuronowej zaprojektowanej dla określonego typu danych, w tym przypadku tekstu. 

Również: Proszę otworzyć drzwi wnęki na kapsuły, HAL: AI Meta symuluje czytanie z ruchu warg

Jednak w przypadku data2vec, Baevski i współpracownicy biorą standardową wersję tego, co nazywa się Transformer, opracowaną przez Ashisha Vaswani i współpracowników w Google w 2017 roku i rozszerzenie go do użycia dla wielu typów danych. 

Sieć neuronowa Transformer została pierwotnie opracowana do zadań językowych, ale od tamtego czasu została szeroko zaadaptowana do wielu rodzajów danych. Baevski i in. pokazują, że Transformer może być używany do przetwarzania wielu rodzajów danych bez ich modyfikowania, a wytrenowana sieć neuronowa, której wyniki mogą wykonywać wiele różnych zadań. 

W oficjalnej gazecie „data2vec: Ogólne ramy samonadzorowanego uczenia się mowy, widzenia i języka”, Baevski i in. szkolą Transformer w zakresie danych obrazu, kształtów fal dźwiękowych mowy i reprezentacji języka tekstowego. 

Data2vec to „pierwszy wysokowydajny samonadzorowany algorytm, który działa dla wielu modalności, a mianowicie mowy, wizji i tekstu”, pisze Baevski i jego zespół w poście na blogu.

Bardzo ogólny Transformer staje się tak zwanym treningiem wstępnym, który można następnie zastosować do określonych sieci neuronowych w celu wykonania określonych zadań. Na przykład autorzy wykorzystują data2vec jako szkolenie wstępne, aby wyposażyć tak zwany „ViT”, „transformator wizyjny”, sieć neuronową zaprojektowaną specjalnie do zadań wizyjnych, został wprowadzony w zeszłym roku Aleksieja Dosowickiego i współpracowników z Google. 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta prezentuje najwyższe noty w czcigodnym konkursie rozpoznawania obrazów ImageNet.


Meta 2022

W przypadku użycia w ViT do rozwiązania standardowego testu rozpoznawania obrazu ImageNet, ich wyniki znajdują się na szczycie zestawienia, z dokładnością 84.1%, lepszą niż wynik 83.2% uzyskany przez zespół w firmie Microsoft, który wcześniej przeszkolił ViT, prowadzony przez Hangbo Bao, w ubiegłym roku.

I ten sam transformator data2vec generuje wyniki, które są najnowocześniejsze w rozpoznawaniu mowy i są konkurencyjne, jeśli nie najlepsze, w nauce języka naturalnego:

Wyniki eksperymentalne pokazują, że data2vec jest skuteczny we wszystkich trzech modalnościach, ustanawiając nowy stan wiedzy dla ViT-B i ViT-L na ImageNet-1K, poprawiając się w porównaniu z najlepszymi wcześniejszymi pracami w zakresie przetwarzania mowy na rozpoznawaniu mowy i działając na równi z RoBERTa na benchmarku rozumienia języka naturalnego GLUE. 

Sedno polega na tym, że dzieje się to bez jakiejkolwiek modyfikacji sieci neuronowej na obrazy, tak samo w przypadku mowy i tekstu. Zamiast tego każdy typ wejścia trafia do tej samej sieci i wykonuje to samo bardzo ogólne zadanie. To zadanie jest tym samym zadaniem, którego zawsze używają sieci Transformer, znane jako „zamaskowane przewidywanie”. 

Również: Supermodelka Google: DeepMind Perceiver to krok na drodze do maszyny AI, która może przetwarzać wszystko i wszystko

Jednak sposób, w jaki data2vec wykonuje zamaskowane przewidywanie, jest podejściem znanym jako samonadzorowane uczenie się. W środowisku samonadzorowanym sieć neuronowa jest szkolona lub rozwijana poprzez przechodzenie przez wiele etapów. 

Po pierwsze, sieć konstruuje reprezentację łącznego prawdopodobieństwa wprowadzenia danych, czy to obrazów, mowy czy tekstu. Następnie druga wersja sieci ma niektóre z tych elementów danych wejściowych „zamaskowanych”, pozostawionych nieujawnionych. Musi zrekonstruować wspólne prawdopodobieństwo, które zbudowała pierwsza wersja sieci, co zmusza ją do tworzenia coraz lepszych reprezentacji danych poprzez zasadniczo wypełnianie pustych miejsc. 

meta-2022-data2vec-architektura-sieci.jpg

Przegląd podejścia data2vec.


Meta 2022

Dwie sieci, ta z pełnym wzorem wspólnego prawdopodobieństwa i ta z niepełną wersją, którą próbuje uzupełnić, są dość sensownie nazywane „Nauczycielem” i „Uczniem”. Sieć Uczniów stara się rozwijać swoje poczucie danych, jeśli chcesz, poprzez rekonstrukcję tego, co Nauczyciel już osiągnął.

Możesz zobacz kod modeli na Github.

Jak sieć neuronowa radzi sobie Nauczyciel i Uczeń dla trzech bardzo różnych typów danych? Kluczem jest to, że „cel” prawdopodobieństwa łącznego we wszystkich trzech przypadkach danych nie jest konkretnym typem danych wyjściowych, jak ma to miejsce w wersjach Transformera dla określonego typu danych, takich jak BERT Google lub GPT-3 OpenAI. . 

Zamiast tego data2vec pobiera kilka warstw sieci neuronowych, które są wewnątrz sieć neuronowa, gdzieś pośrodku, która reprezentuje dane, zanim zostaną wyprodukowane jako wynik końcowy. 

Jak piszą autorzy: „Jedną z głównych różnic w naszej metodzie […], poza wykonywaniem przewidywania maskowanego, jest wykorzystanie celów, które opierają się na uśrednieniu wielu warstw z sieci nauczycieli”. W szczególności „regresujemy wiele reprezentacji warstwy sieci neuronowej zamiast tylko górnej warstwy”, dzięki czemu „data2vec przewiduje ukryte reprezentacje danych wejściowych”.

Dodają: „Zazwyczaj jako cel używamy danych wyjściowych FFN [sieć sprzężenia do przodu] przed ostatnim pozostałym połączeniem w każdym bloku”, gdzie „blok” jest odpowiednikiem warstwy sieci neuronowej w Transformatorze.

Chodzi o to, że każdy typ danych, który wchodzi, staje się tym samym wyzwaniem dla sieci Uczniów polegającej na rekonstrukcji czegoś wewnątrz sieci neuronowej, którą ułożył Nauczyciel.

To uśrednianie różni się od innych niedawnych podejść do budowania sieci One Network to Crunch All Data. Na przykład zeszłego lata jednostka DeepMind firmy Google zaoferowała coś, co nazywa „Perceiver”, własną multimodalną wersję Transformera. Trening sieci neuronowej Perceiver jest bardziej standardowym procesem wytwarzania danych wyjściowych, które są odpowiedzią na oznaczone, nadzorowane zadanie, takie jak ImageNet. W podejściu samonadzorowanym data2vec nie używa tych etykiet, a jedynie próbuje zrekonstruować wewnętrzną reprezentację danych w sieci. 

Jeszcze bardziej ambitne wysiłki leżą w skrzydłach. Jeff Dean, szef działu AI firmy Google, w październiku drażnił się na temat „Pathways”, które według Deana jest „architektura AI nowej generacji” do multimodalnego przetwarzania danych.

Pamiętaj, że bardzo ogólne podejście data2vec do pojedynczej sieci neuronowej dla wielu modalności nadal zawiera wiele informacji o różnych typach danych. Obraz, mowa i tekst są przygotowywane poprzez wstępne przetwarzanie danych. W ten sposób multimodalny aspekt sieci nadal opiera się na wskazówkach dotyczących danych, które zespół nazywa „małymi koderami wejściowymi specyficznymi dla modalności”.

Również: Google przedstawia „Pathways”, sztuczną inteligencję nowej generacji, którą można wyszkolić do wielozadaniowości

„Pomimo ujednoliconego reżimu uczenia się, nadal używamy specyficznych dla modalności ekstraktorów cech i strategii maskowania”, wyjaśniają.

W związku z tym nie jesteśmy jeszcze w świecie, w którym sieć neuronowa jest trenowana bez żadnego sensu typów danych wejściowych. Nie znajdujemy się również w momencie, w którym sieć neuronowa może skonstruować jedną reprezentację, która łączy wszystkie różne typy danych, dzięki czemu sieć neuronowa uczy się różnych rzeczy w połączeniu.

Fakt ten wynika jasno z wymiany między ZDNet i autorów. ZDNet skontaktował się z Baevskim i zespołem i zapytał: „Czy ukryte reprezentacje, które służą jako cele, są połączonym kodowaniem wszystkich trzech modalności w dowolnym kroku czasowym, czy zwykle są to tylko jedna z modalności?”

Baevski i zespół odpowiadają, że to ten drugi przypadek, a ich reply warto zacytować w całości:

Zmienne ukryte nie są połączonym kodowaniem dla trzech modalności. Trenujemy oddzielne modele dla każdej modalności, ale proces uczenia się modeli jest identyczny. Jest to główna innowacja naszego projektu, ponieważ wcześniej istniały duże różnice w sposobie uczenia modeli w różnych modalnościach. Neuronaukowcy uważają również, że ludzie w podobny sposób uczą się o dźwiękach i świecie wizualnym. Nasz projekt pokazuje, że samonadzorowane uczenie się może działać w ten sam sposób dla różnych modalności.

Biorąc pod uwagę ograniczenia związane z modalnością data2vec, sieć neuronowa, która naprawdę może być Jedna sieć, która nimi rządzi pozostaje technologią przyszłości.

Źródło