'data2vec' Meta adalah langkah selanjutnya menuju One Neural Network untuk Memerintah Mereka Semua

Perlombaan sedang berlangsung untuk menciptakan satu jaringan saraf yang dapat memproses berbagai jenis data, gagasan tentang kecerdasan buatan yang lebih umum yang tidak membeda-bedakan jenis data tetapi sebaliknya dapat mengolah semuanya dalam struktur dasar yang sama.

Genre multi-modalitas, sebagaimana jaringan saraf ini disebut, melihat kesibukan di mana data yang berbeda, seperti gambar, teks, dan audio ucapan, dilewatkan melalui algoritma yang sama untuk menghasilkan skor pada tes yang berbeda seperti pengenalan gambar, pemahaman bahasa alami atau deteksi ucapan.

Dan jaringan ambidextrous ini mengumpulkan skor pada tes benchmark AI. Pencapaian terbaru adalah apa yang disebut 'data2vec', yang dikembangkan oleh para peneliti di divisi AI Meta, induk dari Facebook, Instagram, dan WhatsApp. 

Intinya, seperti yang ditulis oleh ilmuwan Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, dan Michael Auli, adalah untuk mendekati sesuatu yang lebih seperti kemampuan belajar umum yang tampaknya dicakup oleh pikiran manusia.

"Sementara orang tampaknya belajar dengan cara yang sama terlepas dari bagaimana mereka mendapatkan informasi - apakah mereka menggunakan penglihatan atau suara, misalnya," tulis para penulis. dalam posting blog, "saat ini ada perbedaan besar dalam cara" jaringan saraf menangani berbagai jenis data seperti gambar, ucapan, teks, "dan modalitas lainnya".

“Ide inti dari pendekatan ini,” mereka menyatakan data2vec, “adalah untuk belajar lebih umum: AI harus dapat belajar untuk melakukan banyak tugas yang berbeda, termasuk yang sama sekali tidak dikenal.”

CEO Meta, Mark Zuckerberg, menawarkan kutipan tentang karya tersebut, mengikatnya ke Metaverse masa depan:

Terobosan menarik: Penelitian Meta AI membangun sistem yang belajar dari ucapan, penglihatan, dan teks tanpa memerlukan data pelatihan berlabel. Orang-orang mengalami dunia melalui kombinasi penglihatan, suara, dan kata-kata, dan sistem seperti ini suatu hari nanti dapat memahami dunia seperti yang kita lakukan. Ini semua pada akhirnya akan dimasukkan ke dalam kacamata AR dengan asisten AI jadi, misalnya, ini bisa membantu Anda memasak makan malam, memperhatikan jika Anda melewatkan bahan, mendorong Anda untuk mengecilkan api, atau tugas yang lebih kompleks.

Nama data2vec adalah plesetan dari nama program untuk bahasa “embedding” dikembangkan di Google pada tahun 2013 disebut "word2vec." Program itu memprediksi bagaimana kata-kata berkumpul bersama, dan kata2vec itu mewakili jaringan saraf yang dirancang untuk jenis data tertentu, dalam hal ini teks. 

Juga: Tolong buka pintu pod bay, HAL: AI Meta mensimulasikan membaca bibir

Dalam kasus data2vec, bagaimanapun, Baevski dan rekan mengambil versi standar dari apa yang disebut Transformer, yang dikembangkan oleh Ashish Vaswani dan rekan. di Google pada tahun 2017 dan memperluasnya untuk digunakan untuk beberapa tipe data. 

Jaringan saraf Transformer awalnya dikembangkan untuk tugas-tugas bahasa, tetapi telah diadaptasi secara luas selama bertahun-tahun untuk berbagai jenis data. Baevski dkk. menunjukkan bahwa Transformer dapat digunakan untuk memproses berbagai jenis data tanpa diubah, dan jaringan saraf terlatih yang hasilnya dapat melakukan beberapa tugas berbeda. 

Dalam surat resmi, “data2vec: Kerangka Umum untuk Pembelajaran Mandiri dalam Bicara, Penglihatan, dan Bahasa,” Baevski dkk., melatih Transformer untuk data gambar, bentuk gelombang audio ucapan, dan representasi bahasa teks. 

Data2vec adalah “algoritma swa-supervisi berkinerja tinggi pertama yang bekerja untuk berbagai modalitas, yaitu ucapan, penglihatan, dan teks,” tulis Baevski dan tim dalam posting blog.

Transformer yang sangat umum menjadi apa yang disebut pra-pelatihan yang kemudian dapat diterapkan ke jaringan saraf tertentu untuk melakukan tugas-tugas tertentu. Misalnya, penulis menggunakan data2vec sebagai pra-pelatihan untuk melengkapi apa yang disebut "ViT", "ViT Transformer", jaringan saraf yang dirancang khusus untuk tugas penglihatan yang diperkenalkan tahun lalu oleh Alexey Dosovitskiy dan rekan-rekannya di Google. 

meta-2022-data2vec-score-on-vit-test.jpg

Meta menunjukkan skor tertinggi untuk kompetisi pengenalan gambar ImageNet yang terhormat.


Meta 2022

Ketika digunakan pada ViT untuk mencoba memecahkan tes ImageNet standar pengenalan gambar, hasilnya berada di urutan teratas, dengan akurasi 84.1%, lebih baik dari skor 83.2% yang diterima oleh tim di Microsoft yang telah dilatih sebelumnya. ViT, dipimpin oleh Hangbo Bao, tahun yg lalu.

Dan data2vec Transformer yang sama mengeluarkan hasil yang canggih untuk pengenalan suara dan yang kompetitif, jika bukan yang terbaik, untuk pembelajaran bahasa alami:

Hasil eksperimen menunjukkan data2vec efektif dalam ketiga modalitas, menetapkan keadaan seni baru untuk ViT-B dan ViT-L pada ImageNet-1K, meningkatkan pekerjaan terbaik sebelumnya dalam pemrosesan ucapan pada pengenalan suara dan kinerja yang setara dengan RoBERTa pada tolok ukur pemahaman bahasa alami GLUE. 

Intinya adalah bahwa ini terjadi tanpa modifikasi jaringan saraf menjadi tentang gambar, dan hal yang sama untuk ucapan dan teks. Sebaliknya, setiap jenis input masuk ke jaringan yang sama, dan menyelesaikan tugas umum yang sama. Tugas itu adalah tugas yang sama yang selalu digunakan jaringan Transformer, yang dikenal sebagai "prediksi terselubung." 

Juga: Supermodel Google: DeepMind Perceiver adalah langkah menuju mesin AI yang dapat memproses apa saja

Cara data2vec melakukan prediksi terselubung, bagaimanapun, adalah sebuah pendekatan yang dikenal sebagai pembelajaran "self-supervised". Dalam pengaturan yang diawasi sendiri, jaringan saraf dilatih, atau dikembangkan, dengan harus melewati beberapa tahap. 

Pertama, jaringan membangun representasi dari kemungkinan bersama input data, baik itu gambar atau ucapan atau teks. Kemudian, jaringan versi kedua memiliki beberapa item data input yang "ditutupi", dibiarkan tidak terungkap. Itu harus merekonstruksi probabilitas bersama bahwa versi pertama dari jaringan telah dibangun, yang memaksanya untuk membuat representasi data yang lebih baik dan lebih baik dengan mengisi bagian yang kosong. 

meta-2022-data2vec-network-architecture.jpg

Ikhtisar pendekatan data2vec.


Meta 2022

Dua jaringan, yang satu dengan pola probabilitas gabungan yang lengkap, dan yang satu dengan versi yang tidak lengkap yang coba diselesaikan, disebut, dengan cukup masuk akal, “Guru” dan “Siswa.” Jaringan Siswa mencoba mengembangkan rasa datanya, jika Anda mau, dengan merekonstruksi apa yang telah dicapai Guru.

Anda dapat lihat kode untuk model di Github.

Bagaimana kinerja jaringan saraf Guru dan Siswa untuk tiga jenis data yang sangat berbeda? Kuncinya adalah bahwa "target" probabilitas bersama, dalam ketiga kasus data, bukanlah tipe data keluaran tertentu, seperti halnya dalam versi Transformer untuk tipe data tertentu, seperti BERT Google atau GPT-3 OpenAI. . 

Sebaliknya, data2vec mengambil beberapa lapisan jaringan saraf yang dalam jaringan saraf, di suatu tempat di tengah, yang mewakili data sebelum setiap diproduksi sebagai keluaran akhir. 

Seperti yang penulis tulis, “Salah satu perbedaan utama metode kami […] selain melakukan prediksi bertopeng, adalah penggunaan target yang didasarkan pada rata-rata beberapa lapisan dari jaringan pengajar.” Secara khusus, "kami meregresi beberapa representasi lapisan jaringan saraf bukan hanya lapisan atas," sehingga "data2vec memprediksi representasi laten dari data input."

Mereka menambahkan, “Kami biasanya menggunakan output dari FFN [feed-forward network] sebelum koneksi residual terakhir di setiap blok sebagai target,” di mana “blok” adalah Transformer yang setara dengan lapisan jaringan saraf.

Intinya setiap tipe data yang masuk menjadi tantangan yang sama bagi jaringan Siswa untuk merekonstruksi sesuatu di dalam jaringan saraf yang telah disusun oleh Guru.

Rata-rata ini berbeda dari pendekatan terbaru lainnya untuk membangun Satu Jaringan Untuk Menghancurkan Semua Data. Misalnya, musim panas lalu, unit DeepMind Google menawarkan apa yang disebutnya "Perceiver," versi Transformer multi-modalnya sendiri. Pelatihan jaringan saraf Perceiver adalah proses yang lebih standar untuk menghasilkan output yang merupakan jawaban untuk tugas yang diberi label dan diawasi seperti ImageNet. Dalam pendekatan yang diawasi sendiri, data2vec tidak menggunakan label tersebut, hanya mencoba untuk merekonstruksi representasi internal jaringan dari data. 

Bahkan upaya yang lebih ambisius terletak di sayap. Jeff Dean, kepala upaya AI Google, pada bulan Oktober menggoda tentang "Jalur," apa yang diklaim Dean sebagai "arsitektur AI generasi berikutnya” untuk pemrosesan data multi-modal.

Pikiran Anda, pendekatan data2vec yang sangat umum ke jaringan saraf tunggal untuk beberapa modalitas masih memiliki banyak informasi tentang tipe data yang berbeda. Gambar, ucapan, dan teks semuanya disiapkan dengan pra-pemrosesan data. Dengan cara itu, aspek multi-modal jaringan masih bergantung pada petunjuk tentang data, yang oleh tim disebut sebagai "encoder input khusus modalitas kecil."

Juga: Google memperkenalkan 'Pathways', AI generasi berikutnya yang dapat dilatih untuk melakukan banyak tugas

“Meskipun rezim pembelajaran terpadu, kami masih menggunakan ekstraktor fitur khusus modalitas dan strategi penyembunyian,” mereka menjelaskan.

Oleh karena itu, kita belum berada di dunia di mana jaringan saraf dilatih tanpa mengetahui tipe data input apa pun. Kami juga tidak berada pada titik waktu ketika jaringan saraf dapat membangun satu representasi yang menggabungkan semua tipe data yang berbeda, sehingga jaringan saraf mempelajari berbagai hal dalam kombinasi.

Fakta itu diperjelas dari pertukaran antara ZDNet dan para penulis. ZDNet menjangkau Baevski dan tim dan bertanya, "Apakah representasi laten yang berfungsi sebagai target merupakan pengkodean gabungan dari ketiga modalitas pada langkah waktu tertentu, atau apakah mereka biasanya hanya salah satu modalitas?"

Baevski dan tim menjawab bahwa itu adalah kasus terakhir, dan mereka reply menarik untuk dikutip panjang lebar:

Variabel laten bukan penyandian gabungan untuk tiga modalitas. Kami melatih model terpisah untuk masing-masing modalitas tetapi proses melalui mana model belajar identik. Ini adalah inovasi utama dari proyek kami karena sebelumnya ada perbedaan besar dalam bagaimana model dilatih dalam modalitas yang berbeda. Ahli saraf juga percaya bahwa manusia belajar dengan cara yang sama tentang suara dan dunia visual. Proyek kami menunjukkan bahwa pembelajaran yang diawasi sendiri juga dapat bekerja dengan cara yang sama untuk modalitas yang berbeda.

Mengingat keterbatasan khusus modalitas data2vec, jaringan saraf yang mungkin benar-benar Satu Jaringan Untuk Memerintah Mereka Semua tetap menjadi teknologi masa depan.

sumber