Eksperci z OpenAI wyszkolili sieć neuronową do gry Minecraft na równie wysokim poziomie, jak ludzie.
Sieć neuronowa została przeszkolona na podstawie 70,000 XNUMX godzin różnych materiałów z gry, uzupełnionych niewielką baza danych filmów, w których kontrahenci wykonywali określone zadania w grze, z klawiatura i mysz wejścia również rejestrowane.
Po dopracowaniu OpenAI odkrył, że model jest w stanie wykonywać wszelkiego rodzaju złożone umiejętności, od pływania po polowanie na zwierzęta i spożywanie ich mięsa. Uchwycił również „skok filarowy”, ruch, w którym gracz umieszcza blok materiału pod sobą w połowie skoku, aby uzyskać wzniesienie.
Być może najbardziej imponujące, sztuczna inteligencja była w stanie stworzyć narzędzia diamentowe (wymagające długiego ciągu czynności wykonywanych w sekwencji), które OpenAI określił jako „bezprecedensowe” osiągnięcie dla agenta komputerowego.
Przełom AI?
Znaczenie projektu Minecraft polega na tym, że demonstruje on skuteczność nowej techniki wdrożonej przez OpenAI w trenowaniu modeli AI – zwanej Video PreTraining (VPT) – która według firmy może przyspieszyć rozwój „ogólnych agentów wykorzystujących komputer”.
Historycznie trudność z wykorzystaniem nieprzetworzonego wideo jako źródła do trenowania modeli AI polegała na tym, że: co się stało jest dość proste do zrozumienia, ale niekoniecznie w jaki sposób . W efekcie model AI zaabsorbowałby pożądane wyniki, ale nie miał pojęcia o kombinacjach danych wejściowych wymaganych do ich osiągnięcia.
Jednak dzięki VPT OpenAI łączy duży zestaw danych wideo pochodzący z publicznych źródeł internetowych ze starannie dobraną pulą materiałów oznaczonych odpowiednimi ruchami klawiatury i myszy, aby ustalić podstawowy model.
Aby dostroić model podstawowy, zespół następnie podłącza mniejsze zestawy danych przeznaczone do uczenia określonych zadań. W tym kontekście OpenAI wykorzystało materiał filmowy przedstawiający graczy wykonujących czynności we wczesnej fazie gry, takie jak ścinanie drzew i budowanie stołów rzemieślniczych, co podobno przyniosło „ogromną poprawę” niezawodności, z jaką model był w stanie wykonywać te zadania.
Inna technika polega na „nagradzaniu” modelu AI za osiągnięcie każdego kroku w sekwencji zadań, praktyka znana jako uczenie się przez wzmacnianie. Ten proces umożliwił sieci neuronowej zebranie wszystkich składników diamentowego kilofa z wskaźnikiem powodzenia na poziomie ludzkim.
„VPT toruje drogę do umożliwienia agentom uczenia się działania poprzez oglądanie ogromnej liczby filmów w Internecie. W porównaniu z generatywnym modelowaniem wideo lub metodami kontrastowymi, które dawałyby tylko reprezentacyjne a priori, VPT oferuje ekscytującą możliwość bezpośredniego uczenia behawioralnych a priori na dużą skalę w większej liczbie dziedzin niż tylko język” – wyjaśnił OpenAI w blogu (otwiera się w nowej karcie) .
„Chociaż eksperymentujemy tylko w Minecrafcie, gra jest bardzo otwarta, a natywny interfejs człowieka (mysz i klawiatura) jest bardzo ogólny, więc uważamy, że nasze wyniki dobrze wróżą innym podobnym domenom, np. korzystanie z komputera”.
Aby zachęcić do dalszych eksperymentów w przestrzeni, OpenAI nawiązał współpracę z Konkurs MineRL NeurIPS , przekazując dane swoich wykonawców i kod modelu uczestnikom próbującym wykorzystać sztuczną inteligencję do rozwiązywania złożonych zadań Minecrafta. Główna nagroda: 100,000 XNUMX $.