Para ahli di OpenAI telah melatih jaringan saraf untuk bermain Minecraft untuk standar yang sama tinggi sebagai pemain manusia.
Jaringan saraf dilatih pada 70,000 jam rekaman dalam game lain-lain, dilengkapi dengan kecil Database video di mana kontraktor melakukan tugas dalam game tertentu, dengan Keyboard dan mouse masukan juga dicatat.
Setelah menyempurnakan, OpenAI menemukan bahwa model tersebut mampu melakukan segala macam keterampilan yang kompleks, mulai dari berenang hingga berburu hewan dan memakan daging mereka. Itu juga memahami "lompatan pilar", sebuah langkah di mana pemain menempatkan balok material di bawahnya di tengah lompatan untuk mendapatkan ketinggian.
Mungkin yang paling mengesankan, AI mampu membuat alat berlian (membutuhkan serangkaian tindakan yang panjang untuk dieksekusi secara berurutan), yang digambarkan OpenAI sebagai pencapaian "belum pernah terjadi sebelumnya" untuk agen komputer.
Sebuah terobosan AI?
Arti penting dari proyek Minecraft adalah menunjukkan kemanjuran teknik baru yang digunakan oleh OpenAI dalam pelatihan model AI – disebut Video PreTraining (VPT) – yang menurut perusahaan dapat mempercepat pengembangan “agen pengguna komputer umum”.
Secara historis, kesulitan menggunakan video mentah sebagai sumber untuk melatih model AI adalah bahwa apa telah terjadi cukup sederhana untuk dipahami, tetapi belum tentu bagaimana . Akibatnya, model AI akan menyerap hasil yang diinginkan, tetapi tidak memahami kombinasi input yang diperlukan untuk mencapainya.
Namun, dengan VPT, OpenAI memasangkan kumpulan data video besar yang diambil dari sumber web publik dengan kumpulan rekaman yang dikuratori dengan cermat yang diberi label dengan gerakan keyboard dan mouse yang relevan untuk membangun model dasar.
Untuk menyempurnakan model dasar, tim kemudian memasukkan kumpulan data yang lebih kecil yang dirancang untuk mengajarkan tugas-tugas tertentu. Dalam konteks ini, OpenAI menggunakan rekaman pemain yang melakukan aksi di awal permainan, seperti menebang pohon dan membuat meja kerajinan, yang dikatakan telah menghasilkan “peningkatan besar-besaran” dalam keandalan model yang mampu melakukan tugas-tugas ini.
Teknik lain melibatkan "menghargai" model AI untuk mencapai setiap langkah dalam urutan tugas, sebuah praktik yang dikenal sebagai pembelajaran penguatan. Proses inilah yang memungkinkan jaringan saraf untuk mengumpulkan semua bahan untuk beliung berlian dengan tingkat keberhasilan tingkat manusia.
“VPT membuka jalan untuk memungkinkan agen belajar bertindak dengan menonton sejumlah besar video di internet. Dibandingkan dengan pemodelan video generatif atau metode kontrastif yang hanya akan menghasilkan prior representasional, VPT menawarkan kemungkinan menarik untuk mempelajari secara langsung perilaku prior skala besar di lebih banyak domain daripada hanya bahasa, ”jelas OpenAI dalam sebuah posting blog (terbuka di tab baru) .
“Meskipun kami hanya bereksperimen di Minecraft, gim ini sangat terbuka dan antarmuka manusia asli (mouse dan keyboard) sangat umum, jadi kami yakin hasil kami menjadi pertanda baik untuk domain serupa lainnya, misalnya penggunaan komputer.”
Untuk mendorong eksperimen lebih lanjut di ruang angkasa, OpenAI telah bermitra dengan Kompetisi MineRL NeurIPS , menyumbangkan data kontraktor dan kode modelnya kepada kontestan yang mencoba menggunakan AI untuk menyelesaikan tugas Minecraft yang rumit. Hadiah utama: $ 100,000.