OpenAI menghabiskan $160,000 untuk Upwork bagi gamer Minecraft untuk melatih jaringan saraf

kerajinan-berlian-beliung

Dari video VPT mengejar pembuatan beliung berlian di Minecraft. Program komputer mencapai prestasi dalam sepuluh menit, separuh waktu yang dibutuhkan pemain manusia yang mahir untuk melakukannya.

Seberapa pentingkah menguasai "alat berlian" di Minecraft?

Cukup penting untuk menghabiskan $160,000, menurut OpenAI, startup kecerdasan buatan.

Itu adalah jumlah uang yang dihabiskan tim di OpenAI untuk menyewa pemain Minecraft di platform daftar pekerjaan online Upwork untuk mengirimkan video mereka bermain game. 

Hari Perdana Amazon 2022: Penawaran Awal

In sebuah kertas terungkap minggu ini, “Video PreTraining (VPT): Belajar Bertindak dengan Menonton Video Online Tanpa Label,” peneliti OpenAI Bowen Baker dan tim melakukan terobosan dalam penggunaan kumpulan data besar untuk melatih jaringan saraf agar meniru penekanan tombol manusia guna menyelesaikan berbagai tugas dalam video permainan. (Sebuah posting blog juga telah diposting oleh OpenAI.) 

Sejumlah besar jaringan saraf telah menaklukkan berbagai jenis permainan melalui apa yang disebut pembelajaran penguatan dalam beberapa tahun terakhir, termasuk AlphaZero DeepMind DeepMind, yang menggunakan catur, Go, dan Shogi, dan selanjutnya MuZero program, yang menambahkan kemampuan untuk menangani game Atari. 

Baker dan tim ingin mengembangkan jaringan saraf untuk lingkungan permainan Minecraft "dunia terbuka" yang lebih kompleks, di mana serangkaian penekanan tombol memungkinkan pemain memiliki tingkat kebebasan yang jauh lebih besar daripada dalam permainan catur atau Atari. 

Juga: AI dalam Enam Puluh Detik 

Literatur penelitian, tulis penulis, mencakup "sejumlah besar" pekerjaan di Minecraft. Tetapi pekerjaan VPT itu unik, tulis mereka, untuk ruang lingkup dan skalanya: “Sepengetahuan kami, tidak ada karya yang diterbitkan yang beroperasi di ruang tindakan manusia yang penuh dan tidak dimodifikasi, yang mencakup manajemen inventaris drag-and-drop dan pembuatan barang.”

Pekerjaan membangun jaringan saraf, yang disebut VPT, berlangsung dalam dua tahap. Tahap pertama membutuhkan pemain game manusia atau kontraktor, yang mengumpulkan 4,500 jam bermain game. Para peneliti kemudian menemukan bahwa mereka hanya benar-benar membutuhkan sekitar 2,000 jam.

Baker dan tim menjelaskan prosesnya:

Kami membuka aplikasi selama sehari, dan kemudian secara acak memilih 10 pelamar untuk putaran pertama kontraktor. Kemudian dalam proyek, karena kami membutuhkan lebih banyak data dan karena beberapa kontraktor meminta untuk mengakhiri kontrak mereka, kami menambahkan lebih banyak pelamar dari kumpulan asli serta rujukan dari kontraktor yang saat ini bekerja. Kontraktor dibayar $20 per jam (dikurangi biaya platform Upwork dan pajak yang berlaku). Semua hasil yang disajikan dalam makalah ini didasarkan pada sekitar 4,500 jam data (termasuk data yang direkam untuk mengumpulkan statistik permainan manusia yang tidak digunakan untuk pelatihan), yang menghabiskan biaya sekitar $90,000. Selama proyek berlangsung, kami mengumpulkan beberapa data yang tidak kami gunakan karena bug di perekam dan untuk beberapa ide yang akhirnya tidak kami kejar. Secara total, kami menghabiskan sekitar $ 160k untuk kompensasi kontraktor selama proyek berlangsung. Namun, seperti yang kita bahas di Sec. 4.6, kami kemungkinan besar dapat memperoleh sebagian besar hasil kami dengan IDM yang dilatih hanya dengan menggunakan data senilai $2000, yaitu model VPT dasar, penyetelan BC ke set data kata kunci permainan awal, dan hasil penyetelan RL. Mengumpulkan dataset contract_house menghabiskan biaya sekitar $8000. Karena kami menggunakan pelatihan IDM tentang data kontraktor sekitar 2000 jam, biaya aktual data kontraktor untuk hasil tersebut adalah sekitar $40,000.

Selama 4,500 jam itu, mereka menempelkan label ke bingkai video game untuk tindakan seperti "inventaris", untuk memeriksa koleksi objek pemain, menggunakan tombol "E"; dan "menyelinap," untuk bergerak "hati-hati" ke arah saat ini, menggunakan SHIFT kunci. Tindakan tersebut direkam sebagai string teks JSON pada setiap momen permainan dan disimpan dengan bingkai video. 

Bingkai gameplay dengan tindakan berlabel mereka digunakan untuk melatih jaringan saraf yang disebut model dinamika terbalik, atau IDM, yang mempelajari tindakan apa yang sesuai dengan bingkai apa. IDM adalah gabungan dari beberapa jenis jaringan saraf, termasuk jaringan saraf konvolusi 3-D dan ResNet untuk mengurai bingkai video, dan beberapa jaringan Transformer untuk memprediksi bingkai video berikutnya. 

Juga: hidup? Google LaMDA terasa seperti chatbot biasa

Kemampuan terlatih IDM itu kemudian digunakan pada kumpulan rekaman video yang jauh lebih besar, total 70,000 jam rekaman Minecraft tanpa label yang dikumpulkan dari Web. IDM menerapkan "label semu" untuk koleksi yang jauh lebih besar itu. Dengan kata lain, IDM, dan biaya kontraktor, adalah cara untuk mem-bootstrap set pelatihan video yang sangat besar. 

openai-vpt-pelatihan-2022

Rejimen pelatihan untuk VPT.

OpenAI

Semahal pembayaran kontraktor mungkin tampak, pendekatan ini merupakan penghematan biaya yang besar, tulis para penulis. Jika mereka harus mengumpulkan data kontraktor yang setara dengan 70,000 jam video Web, itu akan jauh lebih mahal.

“Jika kita dapat dengan murah mengumpulkan kumpulan data kontraktor berlabel dengan urutan besarnya yang sama seperti web_clean, maka ini tidak akan menjadi penting; namun, mengumpulkan data sebesar itu akan menghabiskan biaya jutaan dolar.”

Menggunakan 70,000 jam, penulis kemudian melatih jaringan saraf kedua, juga terdiri dari lapisan Transformer, untuk meniru tindakan pengguna dalam video, praktik umum yang dikenal sebagai "kloning perilaku."

Inti dari pekerjaan ini adalah menemukan cara untuk melatih "agen" komputer tujuan umum yang dapat menggunakan kekayaan data di Internet yang tidak memiliki label untuk menyelesaikan tugas yang melibatkan kausalitas, makna, dan urutan tindakan yang memiliki hubungan yang diperlukan dari satu ke yang berikutnya. 

“Hasil yang disajikan dalam makalah ini membantu membuka jalan untuk memanfaatkan kekayaan data tidak berlabel di web untuk domain keputusan sekuensial,” tulis mereka. 

Pekerjaan itu mungkin dapat digunakan untuk berbagai tugas komputer yang memerlukan urutan klik mouse dan kontrol operator manusia lainnya, saran mereka. 

“Meskipun kami hanya bereksperimen di Minecraft, kami percaya bahwa VPT menyediakan resep umum untuk melatih perilaku sebelumnya di ruang tindakan yang keras, namun umum, di domain apa pun yang memiliki sejumlah besar data tanpa label yang tersedia secara bebas, seperti penggunaan komputer.”

Open-AI terkenal karena program bahasa besar yang disebut GPT-3, yang juga menggunakan pendekatan "pra-terlatih" berdasarkan banyak data Web yang tidak diberi label. Dalam arti tertentu, game Minecraft memperluas pendekatan itu ke mimikri perilaku dalam domain tugas komputer berurutan yang ditangkap melalui video. 

Juga: Apa itu GPT-3? Semua yang perlu diketahui bisnis Anda tentang program bahasa AI terobosan OpenAI

Pencapaian tertinggi adalah dalam beberapa kasus melebihi waktu yang dibutuhkan manusia untuk mencapai salah satu tugas tersulit, mendapatkan beliung berlian.

Di Minecraft, alat berbasis berlian hanya bertahan lebih lama dan dapat menyebabkan lebih banyak kerusakan. Beliung berlian adalah satu-satunya yang secara khusus penting bagi sebagian besar gamer. Anda memerlukan beliung berlian untuk menambang obsidian dan bahan fiksi yang disebut netherite, yang keduanya penting untuk aktivitas akhir permainan seperti enchanting tables dan pembuatan peralatan netherite.

Setelah melatih VPT untuk mempelajari semua jenis tugas Minecraft, penulis menggunakan pendekatan "penyetelan halus" yang mengembangkan jaringan saraf pembelajaran penguatan untuk membuat beliung berlian dalam waktu yang lebih cepat dari biasanya. 

“Untuk mendemonstrasikan kemanjuran RL fine-tuning, kami memilih tujuan yang menantang untuk mendapatkan beliung berlian dalam waktu 10 menit mulai dari dunia survival Minecraft yang baru,” tulis mereka. 

Ini menantang bagi manusia, yang biasanya membutuhkan waktu dua kali lebih lama untuk melakukannya, jika mereka bisa melakukannya sama sekali:

Melakukannya melibatkan memperoleh urutan item yang sulit diperoleh yang memerlukan keterampilan kompleks seperti penambangan, manajemen inventaris, kerajinan dengan dan tanpa meja kerajinan, penggunaan alat, pengoperasian tungku, dan penambangan di kedalaman terendah, di mana banyak bahaya seperti musuh dan lava ada (Gbr. 6). Menambah kesulitan, kemajuan dapat dengan mudah hilang dengan menjatuhkan item, menghancurkan item, atau sekarat. Memperoleh beliung berlian lebih sering daripada tidak membutuhkan manusia yang mahir lebih dari 20 menit (24,000 tindakan).

Dalam mengumpulkan data kontraktor dan video Web 70,000 jam yang tidak berlabel, penulis memperhatikan prospek konten yang menyinggung. “Kontraktor secara teoritis dapat menggunakan properti dunia terbuka Minecraft untuk menghasilkan informasi pengenal pribadi dan/atau konten yang menyinggung (misalnya dengan menggunakan blok Minecraft untuk menulis nama atau pesan ofensif mereka, kemudian menemukan tempat dari mana pesan tersebut akan terlihat),” mereka tulis, meskipun mereka tidak melihat ini dalam video dari kontraktor yang ditonton oleh penulis. 

“Tentu saja, kami melatih model BC [kloning perilaku] kami di video dari internet orang-orang yang bermain Minecraft, dan jika perilaku seperti itu ada di video itu, model kami juga berpotensi mempelajarinya, meskipun kami berharap perilaku seperti itu cukup langka sehingga model kami tidak akan mungkin untuk mereproduksinya,” tulis mereka. 

Ke mana agen umum seperti itu pergi selanjutnya? Idenya adalah bahwa setelah menaklukkan kapak berlian, VPT, atau keturunannya, dapat melakukan segala macam hal yang mungkin dilakukan seseorang dengan mouse dan keyboard, termasuk mencemooh tiket, menjelajahi media sosial, atau menavigasi peta. 

sumber