OpenAI gab 160,000 US-Dollar für Upwork für Minecraft-Spieler aus, um ein neuronales Netz zu trainieren

Crafting-Diamant-Spitzhacke

Aus dem Video von VPT, das die Herstellung einer diamong-Spitzhacke in Minecraft verfolgt. Das Computerprogramm schaffte das Kunststück in zehn Minuten, die Hälfte der Zeit, die ein geübter menschlicher Spieler dafür brauchen würde.

Wie wichtig könnte es sein, das „Diamantwerkzeug“ in Minecraft zu beherrschen?

Laut OpenAI, dem Startup für künstliche Intelligenz, wichtig genug, um 160,000 US-Dollar auszugeben.

Das ist der Geldbetrag, den ein Team von OpenAI ausgegeben hat, um Spieler von Minecraft auf der Online-Stellenbörse Upwork einzustellen, um Videos von sich selbst beim Spielen des Spiels einzureichen. 

Amazon Prime Day 2022: Frühzeitige Angebote

In ein Papier enthüllt diese Woche, „Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos“, beschreiten die OpenAI-Forscher Bowen Baker und sein Team neue Wege bei der Verwendung großer Datensätze, um ein neuronales Netzwerk darauf zu trainieren, menschliche Tastenanschläge nachzuahmen, um verschiedene Aufgaben im Video zu lösen Spiel. (Ein Blogbeitrag wurde auch gepostet von OpenAI.) 

Eine Fülle neuronaler Netze hat in den letzten Jahren verschiedene Arten von Spielen über das sogenannte Reinforcement Learning erobert, darunter DeepMind DeepMinds AlphaZero, das es mit Schach, Go und Shogi und den folgenden aufnahm MuNull Programm, das die Fähigkeit hinzufügte, Atari-Spiele zu handhaben. 

Baker und sein Team wollten ein neuronales Netzwerk für die komplexere „Open World“-Spielumgebung von Minecraft entwickeln, in der eine Reihe von Tastenanschlägen den Spielern weitaus größere Freiheitsgrade ermöglichen als in Schach- oder Atari-Spielen. 

Außerdem: KI in sechzig Sekunden 

Die Forschungsliteratur, schreiben die Autoren, enthält eine „große Menge“ an Arbeiten zu Minecraft. Aber die VPT-Arbeit ist aufgrund ihres Umfangs und Umfangs einzigartig, schreiben sie: „Nach unserem besten Wissen gibt es keine veröffentlichte Arbeit, die im gesamten, unmodifizierten Bereich menschlicher Handlungen funktioniert, was Drag-and-Drop-Bestandsverwaltung und Gegenstandsherstellung.“

Die Arbeit zum Aufbau des neuronalen Netzes, VPT genannt, erfolgte in zwei Phasen. Die erste Phase benötigte menschliche Spieler oder Auftragnehmer, die 4,500 Stunden Spielzeit zusammenstellten. Später fanden die Forscher heraus, dass sie nur etwa 2,000 Stunden wirklich brauchten.

Baker und sein Team beschreiben den Prozess:

Wir ließen die Bewerbungen einen Tag lang offen und wählten dann nach dem Zufallsprinzip 10 Bewerber für die erste Runde von Auftragnehmern aus. Später im Projekt, als wir mehr Daten benötigten und einige Auftragnehmer darum baten, ihre Verträge zu kündigen, fügten wir weitere Bewerber aus dem ursprünglichen Pool sowie Empfehlungen von derzeit arbeitenden Auftragnehmern hinzu. Die Auftragnehmer erhielten 20 US-Dollar pro Stunde (abzüglich Gebühren für die Upwork-Plattform und anfallende Steuern). Alle in diesem Dokument vorgestellten Ergebnisse basieren auf etwa 4,500 Stunden Daten (einschließlich Daten, die zur Erfassung von Statistiken über menschliches Spiel aufgezeichnet wurden, die nicht für das Training verwendet wurden), die uns etwa 90,000 US-Dollar gekostet haben. Im Laufe des Projekts haben wir einige Daten gesammelt, die wir aufgrund von Fehlern im Rekorder nicht verwendet haben, und für einige Ideen, die wir letztendlich nicht weiterverfolgt haben. Insgesamt haben wir im Laufe des Projekts etwa 160 US-Dollar für die Vergütung der Auftragnehmer ausgegeben. Wie wir jedoch in Abschn. 4.6 konnten wir wahrscheinlich die meisten unserer Ergebnisse mit einem IDM erzielen, der nur mit Daten im Wert von 2000 US-Dollar trainiert wurde, dh dem Basis-VPT-Modell, der BC-Feinabstimmung des Datensatzes „earlygame_keyword“ und den Ergebnissen der RL-Feinabstimmung. Das Sammeln des Contractor_house-Datensatzes kostet etwa 8000 $. Da wir das IDM verwendet haben, das mit etwa 2000 Stunden an Auftragnehmerdaten trainiert wurde, beliefen sich die tatsächlichen Kosten für Auftragnehmerdaten für diese Ergebnisse auf etwa 40,000 US-Dollar.

In diesen 4,500 Stunden haben sie Etiketten an die Frames des Spielvideos für Aktionen wie „Inventar“ angebracht, um die Sammlung von Objekten eines Spielers mit der Taste „E“ zu überprüfen; und „schleichen“, um sich „vorsichtig“ in die aktuelle Richtung zu bewegen, indem Sie die verwenden SHIFT Schlüssel. Diese Aktionen werden in jedem Moment des Spiels als JSON-Textzeichenfolgen aufgezeichnet und mit den Videoframes gespeichert. 

Die Gameplay-Frames mit ihren gekennzeichneten Aktionen wurden verwendet, um ein neuronales Netz namens Inverse Dynamics Model (IDM) zu trainieren, das lernt, welche Aktionen zu welchen Frames gehören. Das IDM ist ein Mashup aus mehreren Arten von neuronalen Netzen, darunter ein 3-D-Faltungs-Neuronalnetz und ein ResNet zum Analysieren der Videoframes sowie mehrere Aufmerksamkeits-Transformer-Netzwerke zum Vorhersagen des nächsten Videoframes. 

Außerdem: Empfindungsfähig? Google LaMDA fühlt sich an wie ein typischer Chatbot

Diese trainierte Fähigkeit von IDM wird dann für einen viel größeren Satz von Videomaterial verwendet, insgesamt 70,000 Stunden unbeschriftetes Minecraft-Material, das aus dem Internet gesammelt wurde. Das IDM wendet „Pseudo-Etiketten“ auf diese weitaus größere Sammlung an. Mit anderen Worten, das IDM und die Auftragnehmergebühren sind eine Möglichkeit, ein riesiges Video-Trainingsset zu erstellen. 

openai-vpt-training-2022

Das Trainingsprogramm für VPT.

OpenAI

So teuer die Bezahlung des Auftragnehmers auch erscheinen mag, der Ansatz stellt eine große Kosteneinsparung dar, schreiben die Autoren. Wenn sie Auftragnehmerdaten sammeln müssten, die 70,000 Stunden Webvideos entsprechen, wäre dies erheblich teurer.

„Wenn wir einen gekennzeichneten Auftragnehmer-Datensatz in einer ähnlichen Größenordnung wie web_clean billig sammeln könnten, wäre dies nicht wichtig; Das Sammeln dieser Datenmenge hätte jedoch Millionen von Dollar gekostet.“

Mit den 70,000 Stunden trainieren die Autoren dann ein zweites neuronales Netzwerk, das ebenfalls aus Transformer-Schichten besteht, um die Benutzeraktionen in den Videos nachzuahmen, eine gängige Praxis, die als „Behavioral Cloning“ bekannt ist.

Der Sinn der Arbeit besteht darin, einen Weg zu finden, einen Allzweck-Computeragenten zu trainieren, der die Fülle der Daten im Internet nutzen kann, die keine Etiketten haben, um Aufgaben zu lösen, die Kausalität, Bedeutung und Abfolgen von Aktionen beinhalten, die a notwendige Beziehung von einem zum nächsten. 

„Die in diesem Papier vorgestellten Ergebnisse helfen dabei, den Weg zur Nutzung der Fülle unbeschrifteter Daten im Internet für sequentielle Entscheidungsdomänen zu ebnen“, schreiben sie. 

Die Arbeit kann möglicherweise für zahlreiche Computeraufgaben verwendet werden, die Sequenzen von Mausklicks und andere menschliche Bedienersteuerungen erfordern, schlagen sie vor. 

„Obwohl wir nur in Minecraft experimentieren, glauben wir, dass VPT ein allgemeines Rezept zum Trainieren von Verhaltensprioritäten in harten, aber generischen Aktionsräumen in jedem Bereich bietet, der eine große Menge frei verfügbarer, nicht gekennzeichneter Daten enthält, wie z. B. die Computernutzung.“

Open-AI ist vor allem für das große Sprachprogramm namens GPT-3 bekannt, das ebenfalls einen „vortrainierten“ Ansatz verwendet, der auf Tonnen von Webdaten basiert, die nicht gekennzeichnet sind. In gewisser Weise erweitert das Minecraft-Spiel diesen Ansatz auf die Nachahmung von Verhalten im Bereich sequenzieller Computeraufgaben, die per Video erfasst werden. 

Außerdem: Was ist GPT-3? Alles, was Ihr Unternehmen über das bahnbrechende KI-Sprachprogramm von OpenAI wissen muss

Die ultimative Errungenschaft besteht darin, in einigen Fällen die Zeit zu übertreffen, die ein Mensch benötigt, um eine der schwierigsten Aufgaben zu erfüllen, nämlich die Beschaffung einer Diamantspitzhacke.

In Minecraft halten diamantbasierte Werkzeuge einfach länger und können mehr Schaden anrichten. Diamant-Spitzhacken sind die einzigen, die für die meisten Spieler besonders wichtig sind. Sie benötigen eine Diamantspitzhacke, um Obsidian abzubauen, und ein fiktives Material namens Netherit, die beide für Endspielaktivitäten wie das Verzaubern von Tischen und die Herstellung von Netheritausrüstung wichtig sind.

Nach dem Training des VPT zum Erlernen aller möglichen Minecraft-Aufgaben verwendeten die Autoren einen „Feinabstimmungs“-Ansatz, bei dem ein neuronales Netzwerk für Verstärkungslernen entwickelt wurde, um eine Diamant-Spitzhacke schneller als normal herzustellen. 

„Um die Wirksamkeit der RL-Feinabstimmung zu demonstrieren, haben wir das herausfordernde Ziel gewählt, innerhalb von 10 Minuten eine Diamantspitzhacke zu erhalten, ausgehend von einer frischen Minecraft-Überlebenswelt“, schreiben sie. 

Dies ist eine Herausforderung für Menschen, die normalerweise doppelt so lange dafür brauchen, wenn sie es überhaupt können:

Dazu müssen Sie eine Reihe schwer zu beschaffender Gegenstände erwerben, die komplexe Fähigkeiten wie Bergbau, Bestandsverwaltung, Handwerk mit und ohne Handwerkstisch, Werkzeuggebrauch, Betrieb eines Hochofens und Bergbau in den tiefsten Tiefen erfordern, wo viele Gefahren wie Feinde sind und Lava existieren (Abb. 6). Hinzu kommt, dass der Fortschritt leicht verloren gehen kann, wenn Gegenstände fallen gelassen, zerstört oder gestorben werden. Um eine Diamant-Spitzhacke zu erhalten, braucht ein erfahrener Mensch meistens über 20 Minuten (24,000 Aktionen).

Bei der Zusammenstellung sowohl der Auftragnehmerdaten als auch der nicht gekennzeichneten 70,000 Stunden Webvideos berücksichtigten die Autoren die Aussicht auf anstößige Inhalte. „Die Auftragnehmer könnten theoretisch das Open-World-Eigentum von Minecraft nutzen, um persönlich identifizierbare Informationen und/oder anstößige Inhalte zu generieren (z. B. indem sie Minecraft-Blöcke verwenden, um ihren Namen oder anstößige Nachrichten zu schreiben, und dann einen Ort finden, von dem aus die Nachricht sichtbar wäre)“, sie schreiben, obwohl sie dies in den Videos von Auftragnehmern, die sich die Autoren angesehen haben, nicht gesehen haben. 

„Natürlich trainieren wir unsere BC [Behavioral Cloning]-Modelle mit Videos aus dem Internet von Leuten, die Minecraft spielen, und wenn ein solches Verhalten in diesen Videos vorkommt, könnte unser Modell es möglicherweise auch lernen, obwohl wir davon ausgehen, dass ein solches Verhalten selten genug ist als unser Modell würde es wahrscheinlich nicht reproduzieren“, schreiben sie. 

Wohin geht so ein Generalagent als nächstes? Die Idee ist, dass nach der Eroberung von Diamantäxten VPT oder seine Abkömmlinge alle möglichen Dinge tun können, die eine Person mit Maus und Tastatur tun könnte, einschließlich Tickets ausbuhen, in sozialen Medien surfen oder auf Karten navigieren. 

Quelle