'Gato' DeepMind biasa-biasa saja, jadi mengapa mereka membuatnya?

deepmind-gato-slash-image-closer-in.png

Jaringan saraf "Gato" DeepMind unggul dalam berbagai tugas termasuk mengendalikan lengan robot yang menumpuk balok, memainkan game Atari 2600, dan membuat teks gambar.


DeepMind

Dunia terbiasa melihat berita utama tentang terobosan terbaru dengan bentuk pembelajaran mendalam dari kecerdasan buatan. Pencapaian terbaru dari divisi DeepMind Google, bagaimanapun, dapat diringkas sebagai, "Satu program AI yang melakukan pekerjaan biasa-biasa saja dalam banyak hal." 

Gato, demikian program DeepMind disebut, terungkap minggu ini sebagai apa yang disebut program multimodal, yang dapat memainkan video game, mengobrol, menulis komposisi, gambar teks, dan mengontrol blok susun lengan robot. Ini adalah salah satu jaringan saraf yang dapat bekerja dengan berbagai jenis data untuk melakukan berbagai jenis tugas. 

“Dengan satu set bobot, Gato dapat terlibat dalam dialog, gambar teks, menyusun blok dengan lengan robot sungguhan, mengungguli manusia dalam memainkan game Atari, menavigasi dalam lingkungan 3D yang disimulasikan, mengikuti instruksi, dan banyak lagi,” tulis penulis utama Scott Reed dan rekan dalam makalah mereka, “A Generalist Agent,” diposting di server pracetak Arxiv

Salah satu pendiri DeepMind, Demis Hassabis, mendukung tim tersebut, seru dalam tweet, “Agen kami yang paling umum!! Kerja luar biasa dari tim!” 

Juga: Eksperimen baru: Apakah AI benar-benar mengenal kucing atau anjing — atau apa?

Satu-satunya tangkapan adalah bahwa Gato sebenarnya tidak begitu hebat dalam beberapa tugas. 

Di satu sisi, program ini mampu melakukan lebih baik daripada program pembelajaran mesin khusus dalam mengendalikan lengan Sawyer robot yang menumpuk balok. Di sisi lain, ini menghasilkan keterangan untuk gambar yang dalam banyak kasus cukup buruk. Kemampuannya dalam dialog obrolan standar dengan lawan bicara manusia juga biasa-biasa saja, terkadang memunculkan ucapan yang kontradiktif dan tidak masuk akal. 

Dan permainan video game Atari 2600 berada di bawah program ML paling berdedikasi yang dirancang untuk bersaing dalam benchmark Lingkungan Belajar Arkade

Mengapa Anda membuat program yang melakukan beberapa hal dengan cukup baik dan banyak hal lain yang tidak begitu baik? Preseden, dan harapan, menurut penulis. 

Ada preseden untuk jenis program yang lebih umum yang menjadi canggih dalam AI, dan ada harapan bahwa peningkatan jumlah daya komputasi di masa depan akan menutupi kekurangan. 

Umum dapat cenderung menang di AI. Seperti yang dicatat oleh penulis, mengutip sarjana AI Richard Sutton, “Secara historis, model generik yang lebih baik dalam memanfaatkan komputasi juga cenderung mengambil alih pendekatan khusus domain yang lebih khusus pada akhirnya.”

Seperti yang ditulis Sutton di posting blognya sendiri, “Pelajaran terbesar yang dapat dibaca dari 70 tahun penelitian AI adalah bahwa metode umum yang memanfaatkan komputasi pada akhirnya adalah yang paling efektif, dan dengan margin yang besar.”

Dimasukkan ke dalam tesis formal, Reed dan tim menulis bahwa “kami di sini menguji hipotesis bahwa melatih agen yang umumnya mampu melakukan banyak tugas adalah mungkin; dan bahwa agen umum ini dapat diadaptasi dengan sedikit data ekstra untuk berhasil dalam jumlah tugas yang lebih banyak lagi.”

Juga: LeCun AI termasyhur Meta mengeksplorasi batas energi pembelajaran yang mendalam

Model dalam hal ini memang sangat umum. Ini adalah versi dari Transformer, jenis model berbasis perhatian yang dominan yang telah menjadi dasar dari banyak program termasuk GPT-3. Transformator memodelkan probabilitas beberapa elemen mengingat elemen yang mengelilinginya seperti kata-kata dalam kalimat. 

Dalam kasus Gato, para ilmuwan DeepMind dapat menggunakan pencarian probabilitas bersyarat yang sama pada berbagai tipe data. 

Saat Reed dan rekan menjelaskan tugas melatih Gato, 

Selama fase pelatihan Gato, data dari tugas dan modalitas yang berbeda diserialkan ke dalam urutan token yang datar, ditumpuk, dan diproses oleh jaringan saraf transformator yang mirip dengan model bahasa besar. Kerugian tersebut ditutupi sehingga Gato hanya memprediksi target aksi dan teks.

Gato, dengan kata lain, tidak memperlakukan token secara berbeda apakah itu kata-kata dalam obrolan atau vektor gerakan dalam latihan susun blok. Semuanya sama. 

deepmind-bagaimana-gato-dilatih.png

Skenario pelatihan Gato.


Reed dkk. 2022

Terkubur dalam hipotesis Reed dan tim adalah akibat wajar, yaitu bahwa semakin banyak kekuatan komputasi akan menang, pada akhirnya. Saat ini, Gato dibatasi oleh waktu respons dari lengan robot Sawyer yang melakukan penumpukan balok. Pada 1.18 miliar parameter jaringan, Gato jauh lebih kecil daripada model AI yang sangat besar seperti GPT-3. Saat model pembelajaran mendalam semakin besar, melakukan inferensi menyebabkan latensi yang dapat gagal di dunia robot dunia nyata yang tidak deterministik. 

Namun, Reed dan rekannya berharap batas itu dapat dilampaui karena perangkat keras AI semakin cepat dalam pemrosesan.

“Kami memfokuskan pelatihan kami pada titik operasi skala model yang memungkinkan kontrol real-time robot dunia nyata, saat ini sekitar 1.2 miliar parameter dalam kasus Gato,” tulis mereka. “Seiring dengan peningkatan arsitektur perangkat keras dan model, titik operasi ini secara alami akan meningkatkan ukuran model yang layak, mendorong model generalis lebih tinggi ke kurva hukum penskalaan.”

Oleh karena itu, Gato benar-benar model bagaimana skala komputasi akan terus menjadi vektor utama pengembangan pembelajaran mesin, dengan membuat model umum semakin besar. Lebih besar lebih baik, dengan kata lain. 

deepmind-menjadi-lebih-baik-dengan-skala.png

Gato menjadi lebih baik karena ukuran jaringan saraf dalam parameter meningkat.


Reed dkk. 2022

Dan penulis memiliki beberapa bukti untuk ini. Gato tampaknya menjadi lebih baik karena semakin besar. Mereka membandingkan skor rata-rata di semua tugas benchmark untuk tiga ukuran model menurut parameter, 79 juta, 364 juta, dan model utama, 1.18 miliar. “Kita dapat melihat bahwa untuk jumlah token yang setara, ada peningkatan kinerja yang signifikan dengan peningkatan skala,” tulis para penulis. 

Pertanyaan masa depan yang menarik adalah apakah program yang bersifat generalis lebih berbahaya daripada jenis program AI lainnya. Penulis menghabiskan banyak waktu di makalah membahas fakta bahwa ada potensi bahaya yang belum dipahami dengan baik.  

Gagasan tentang program yang menangani banyak tugas menunjukkan kepada orang awam semacam kemampuan beradaptasi manusia, tetapi itu mungkin salah persepsi yang berbahaya. “Misalnya, perwujudan fisik dapat menyebabkan pengguna mengantropomorfisasi agen, yang mengarah ke kepercayaan yang salah dalam kasus sistem yang tidak berfungsi, atau dapat dieksploitasi oleh aktor jahat,” tulis Reed dan tim. 

“Selain itu, meskipun transfer pengetahuan lintas domain sering menjadi tujuan dalam penelitian ML, hal itu dapat menciptakan hasil yang tidak diharapkan dan tidak diinginkan jika perilaku tertentu (misalnya pertarungan game arcade) dipindahkan ke konteks yang salah.”

Oleh karena itu, mereka menulis, "Pertimbangan etika dan keamanan transfer pengetahuan mungkin memerlukan penelitian baru yang substansial seiring kemajuan sistem generalis."

(Sebagai catatan tambahan yang menarik, makalah Gato menggunakan skema untuk menggambarkan risiko yang dirancang oleh mantan peneliti AI Google Margaret Michell dan rekan-rekannya, yang disebut Model Cards. Model Cards memberikan ringkasan singkat tentang apa itu program AI, apa fungsinya, dan apa faktor memengaruhi cara kerjanya. Michell menulis tahun lalu bahwa dia dipaksa keluar dari Google karena mendukung mantan rekannya, Timnit Gebru, yang masalah etikanya terhadap AI bertentangan dengan kepemimpinan AI Google.)

Gato sama sekali tidak unik dalam kecenderungan generalisasinya. Ini adalah bagian dari tren umum untuk generalisasi, dan model yang lebih besar yang menggunakan ember tenaga kuda. Dunia pertama kali merasakan kemiringan Google ke arah ini musim panas lalu, dengan jaringan saraf "Perceiver" Google yang menggabungkan tugas Transformer teks dengan gambar, suara, dan koordinat spasial LiDAR.

Juga: Supermodel Google: DeepMind Perceiver adalah langkah menuju mesin AI yang dapat memproses apa saja

Di antara rekan-rekannya adalah PaLM, Pathways Language Model, diperkenalkan tahun ini oleh ilmuwan Google, model parameter 540 miliar yang menggunakan teknologi baru untuk mengoordinasikan ribuan chip, dikenal sebagai Pathways, juga ditemukan di Google. Jaringan saraf yang dirilis pada bulan Januari oleh Meta, yang disebut "data2vec," menggunakan Transformers untuk data gambar, bentuk gelombang audio ucapan, dan representasi bahasa teks semuanya dalam satu. 

Apa yang baru tentang Gato, tampaknya, adalah niat untuk mengambil AI yang digunakan untuk tugas-tugas non-robotik dan mendorongnya ke ranah robotika.

Pencipta Gato, mencatat pencapaian Pathways, dan pendekatan generalis lainnya, melihat pencapaian tertinggi dalam AI yang dapat beroperasi di dunia nyata, dengan segala jenis tugas. 

“Pekerjaan di masa depan harus mempertimbangkan bagaimana menyatukan kemampuan teks ini menjadi satu agen yang sepenuhnya generalis yang juga dapat bertindak secara real time di dunia nyata, dalam lingkungan dan perwujudan yang beragam.” 

Anda dapat, kemudian, menganggap Gato sebagai langkah penting di jalan untuk memecahkan masalah AI yang paling sulit, robotika. 



sumber