Das neuronale Netzwerk wurde mit 70,000 Stunden verschiedenem In-Game-Filmmaterial trainiert, ergänzt durch ein kleines Datenbank von Videos, in denen Auftragnehmer bestimmte Aufgaben im Spiel ausgeführt haben, mit dem Tastatur und Maus Eingänge auch aufgezeichnet.
Nach der Feinabstimmung stellte OpenAI fest, dass das Modell in der Lage war, alle möglichen komplexen Fähigkeiten auszuführen, vom Schwimmen über die Jagd nach Tieren bis hin zum Verzehr ihres Fleisches. Es beherrschte auch den „Säulensprung“, eine Bewegung, bei der der Spieler einen Materialblock mitten im Sprung unter sich platziert, um an Höhe zu gewinnen.
Am beeindruckendsten ist vielleicht, dass die KI in der Lage war, Diamantwerkzeuge herzustellen (was eine lange Reihe von Aktionen erforderte, die nacheinander ausgeführt werden mussten), was OpenAI als eine „beispiellose“ Errungenschaft für einen Computeragenten bezeichnete.
Ein KI-Durchbruch?
Die Bedeutung des Minecraft-Projekts besteht darin, dass es die Wirksamkeit einer neuen Technik demonstriert, die von OpenAI beim Training von KI-Modellen – genannt Video PreTraining (VPT) – eingesetzt wird und die nach Angaben des Unternehmens die Entwicklung von „allgemeinen Computer verwendenden Agenten“ beschleunigen könnte.
In der Vergangenheit lag die Schwierigkeit bei der Verwendung von Rohvideos als Quelle für das Training von KI-Modellen darin was passiert ist, ist einfach genug zu verstehen, aber nicht unbedingt wie . Tatsächlich würde das KI-Modell die gewünschten Ergebnisse absorbieren, aber kein Verständnis für die Eingabekombinationen haben, die erforderlich sind, um sie zu erreichen.
Mit VPT kombiniert OpenAI jedoch einen großen Videodatensatz, der aus öffentlichen Webquellen stammt, mit einem sorgfältig kuratierten Pool von Filmmaterial, das mit den relevanten Tastatur- und Mausbewegungen gekennzeichnet ist, um das grundlegende Modell zu erstellen.
Zur Feinabstimmung des Basismodells fügt das Team dann kleinere Datensätze ein, die zum Unterrichten bestimmter Aufgaben entwickelt wurden. In diesem Zusammenhang verwendete OpenAI Aufnahmen von Spielern, die frühe Spielaktionen wie das Fällen von Bäumen und das Bauen von Basteltischen durchführten, was zu einer „massiven Verbesserung“ der Zuverlässigkeit geführt haben soll, mit der das Modell diese Aufgaben ausführen konnte.
Eine andere Technik besteht darin, das KI-Modell für das Erreichen jedes Schritts in einer Abfolge von Aufgaben zu „belohnen“, eine Praxis, die als Verstärkungslernen bekannt ist. Dieser Prozess ermöglichte es dem neuronalen Netzwerk, alle Zutaten für eine Diamant-Spitzhacke mit einer Erfolgsrate auf menschlicher Ebene zu sammeln.
„VPT ebnet den Weg, Agenten das Handeln beizubringen, indem sie sich die große Anzahl von Videos im Internet ansehen. Im Vergleich zu generativer Videomodellierung oder kontrastiven Methoden, die nur repräsentative Priors liefern würden, bietet VPT die aufregende Möglichkeit, groß angelegte Verhaltenspriors in mehr Domänen als nur der Sprache direkt zu lernen“, erklärte OpenAI in a Blog-Post (öffnet in neuem Tab) .
„Obwohl wir nur in Minecraft experimentieren, ist das Spiel sehr offen und die native menschliche Schnittstelle (Maus und Tastatur) ist sehr generisch, daher glauben wir, dass unsere Ergebnisse für andere ähnliche Bereiche, z. B. die Computernutzung, gut sind.“
Um weitere Experimente im Weltraum anzuregen, hat sich OpenAI mit dem zusammengetan MineRL NeurIPS-Wettbewerb , das seine Auftragnehmerdaten und seinen Modellcode an Teilnehmer spendet, die versuchen, mithilfe von KI komplexe Minecraft-Aufgaben zu lösen. Der Hauptpreis: 100,000 US-Dollar.