Guru AI Meta, LeCun: Sebagian besar pendekatan AI saat ini tidak akan pernah mengarah pada kecerdasan sejati

yann-lecun-september 2022-1

“Saya pikir sistem AI harus bisa bernalar,” kata Yann LeCun, kepala ilmuwan AI Meta. Pendekatan AI populer saat ini seperti Transformers, yang banyak di antaranya dibangun di atas karya perintisnya sendiri di lapangan, tidak akan cukup. “Anda harus mundur selangkah dan berkata, Oke, kami membangun tangga ini, tetapi kami ingin pergi ke bulan, dan tidak mungkin tangga ini akan membawa kami ke sana,” kata LeCun.

Yann LeCun, kepala ilmuwan AI dari Meta Properties, pemilik Facebook, Instagram, dan WhatsApp, sepertinya akan disukai banyak orang di bidangnya. 

Dengan posting pada bulan Juni dari sebuah pemikiran di server Tinjauan Terbuka, LeCun menawarkan tinjauan luas tentang pendekatan yang menurutnya menjanjikan untuk mencapai kecerdasan tingkat manusia dalam mesin. 

Tersirat jika tidak diartikulasikan dalam makalah adalah anggapan bahwa sebagian besar proyek besar saat ini di AI tidak akan pernah dapat mencapai tujuan tingkat manusia itu.

Dalam diskusi bulan ini dengan ZDNet melalui Zoom, LeCun menjelaskan bahwa dia memandang dengan sangat skeptis banyak jalan penelitian paling sukses dalam pembelajaran mendalam saat ini.

“Saya pikir itu perlu tetapi tidak cukup,” kata pemenang Penghargaan Turing itu ZDNet dari usaha rekan-rekannya. 

Itu termasuk model bahasa besar seperti GPT-3 berbasis Transformer dan sejenisnya. Seperti yang dicirikan oleh LeCun, para penggemar Transformer percaya, “Kami menandai segalanya, dan melatih raksasamodel untuk membuat prediksi terpisah, dan entah bagaimana AI akan muncul dari sini.”

"Mereka tidak salah," katanya, "dalam arti bahwa itu mungkin merupakan komponen dari sistem cerdas masa depan, tetapi saya pikir itu kehilangan bagian-bagian penting."

Juga: LeCun AI termasyhur Meta mengeksplorasi batas energi pembelajaran yang mendalam

Ini adalah kritik mengejutkan dari apa yang tampaknya berhasil datang dari sarjana yang menyempurnakan penggunaan jaringan saraf convolutional, teknik praktis yang telah sangat produktif dalam program pembelajaran mendalam. 

LeCun melihat kekurangan dan keterbatasan di banyak bidang disiplin lainnya yang sangat sukses. 

Pembelajaran penguatan juga tidak akan pernah cukup, katanya. Peneliti seperti David Silver dari DeepMind, yang mengembangkan program AlphaZero yang menguasai Catur, Shogi, dan Go, berfokus pada program yang “sangat berbasis aksi”, kata LeCun, tetapi “sebagian besar pembelajaran yang kami lakukan, kami tidak melakukannya. melakukannya dengan benar-benar mengambil tindakan, kami melakukannya dengan mengamati.” 

Lecun, 62, dari perspektif pencapaian selama beberapa dekade, bagaimanapun juga mengungkapkan urgensi untuk menghadapi apa yang dia pikir adalah jalan buntu yang mungkin dilalui banyak orang, dan untuk mencoba membujuk bidangnya ke arah yang menurutnya harus dituju. 

“Kami melihat banyak klaim tentang apa yang harus kami lakukan untuk mendorong AI tingkat manusia,” katanya. “Dan ada ide-ide yang menurut saya salah arah.”

“Kami tidak sampai pada titik di mana mesin cerdas kami memiliki akal sehat sebanyak kucing,” kata Lecun. "Jadi, mengapa kita tidak mulai dari sana?" 

Dia telah meninggalkan keyakinan sebelumnya dalam menggunakan jaringan generatif dalam hal-hal seperti memprediksi frame berikutnya dalam sebuah video. "Ini benar-benar gagal," katanya. 

LeCun mencela orang-orang yang dia sebut "probabilis agama," yang "berpikir teori probabilitas adalah satu-satunya kerangka kerja yang dapat Anda gunakan untuk menjelaskan pembelajaran mesin." 

Pendekatan statistik murni sulit dilakukan, katanya. “Terlalu banyak meminta model dunia untuk sepenuhnya probabilistik; kami tidak tahu bagaimana melakukannya.”

Bukan hanya akademisi, tetapi AI industri membutuhkan pemikiran ulang yang mendalam, kata LeCun. Kerumunan mobil self-driving, startup seperti Wayve, telah "sedikit terlalu optimis," katanya, dengan berpikir bahwa mereka dapat "melempar data ke" jaringan saraf besar "dan Anda dapat belajar banyak hal."

"Anda tahu, saya pikir sangat mungkin bahwa kita akan memiliki mobil otonom level lima tanpa akal sehat," katanya, mengacu pada "ADAS," sistem bantuan pengemudi tingkat lanjut istilah untuk mengemudi sendiri, "tetapi Anda harus merekayasanya."

Teknologi self-driving yang direkayasa secara berlebihan seperti itu akan menjadi sesuatu yang berderit dan rapuh seperti semua program visi komputer yang dibuat usang oleh pembelajaran yang mendalam, ia percaya.

“Pada akhirnya, akan ada solusi yang lebih memuaskan dan mungkin lebih baik yang melibatkan sistem yang melakukan pekerjaan yang lebih baik untuk memahami cara dunia bekerja.”

Sepanjang jalan, LeCun menawarkan beberapa pandangan tajam dari kritikus terbesarnya, seperti profesor NYU Gary Marcus — “dia tidak pernah berkontribusi apa pun untuk AI” — dan Jürgen Schmidhuber, co-direktur Institut Dalle Molle untuk Penelitian Kecerdasan Buatan — “itu sangat mudah untuk melakukan penanaman bendera.”

Di luar kritik, poin lebih penting yang dibuat oleh LeCun adalah bahwa masalah mendasar tertentu dihadapi semua AI, khususnya, bagaimana mengukur informasi.

"Anda harus mundur selangkah dan berkata, Oke, kami membangun tangga ini, tetapi kami ingin pergi ke bulan, dan tidak mungkin tangga ini akan membawa kami ke sana," kata LeCun tentang keinginannya untuk mendorong pemikiran ulang. dari konsep-konsep dasar. “Pada dasarnya, apa yang saya tulis di sini adalah, kita perlu membuat roket, saya tidak dapat memberikan detail bagaimana kita membuat roket, tetapi inilah prinsip-prinsip dasarnya.”

Makalah, dan pemikiran LeCun dalam wawancara, dapat lebih dipahami dengan membaca wawancara LeCun awal tahun ini dengan ZDNet di mana ia berpendapat untuk pembelajaran mandiri berbasis energi sebagai jalan ke depan untuk pembelajaran yang mendalam. Refleksi-refleksi tersebut memberikan pemahaman tentang pendekatan inti terhadap apa yang ia harapkan untuk dibangun sebagai alternatif dari hal-hal yang ia klaim tidak akan mencapai garis finis. 

Berikut ini adalah transkrip wawancara yang sedikit diedit.

ZDNet: Subjek obrolan kami adalah makalah ini, “Jalan menuju kecerdasan mesin otonom,” di mana versi 0.9.2 adalah versi yang masih ada, ya?

Yann LeCun: Ya, saya menganggap ini, semacam, dokumen kerja. Jadi, saya mempostingnya di Open Review, menunggu orang untuk memberikan komentar dan saran, mungkin referensi tambahan, dan kemudian saya akan menghasilkan versi revisi. 

ZDNet: Saya melihat bahwa Juergen Schmidhuber telah menambahkan beberapa komentar ke Open Review.

YL: Yah, ya, dia selalu begitu. Saya mengutip salah satu makalahnya di dalam makalah saya. Saya pikir argumen yang dia buat di jejaring sosial bahwa dia pada dasarnya menemukan semua ini pada tahun 1991, seperti yang dia lakukan dalam kasus lain, tidak benar. Maksud saya, ini sangat mudah dilakukanpenanaman bendera, dan untuk, semacam, menulis ide tanpa eksperimen, tanpa teori apa pun, cukup sarankan Anda melakukannya dengan cara ini. Tapi, Anda tahu, ada perbedaan besar antara hanya memiliki ide, dan kemudian membuatnya bekerja pada masalah mainan, dan kemudian membuatnya bekerja pada masalah nyata, dan kemudian melakukan teori yang menunjukkan mengapa itu berhasil, dan kemudian menyebarkannya. Ada seluruh rantai, dan idenya tentang kredit ilmiah adalah bahwa orang pertama yang, semacam, Anda tahu, memiliki ide tentang itu, yang seharusnya mendapatkan semua pujian. Dan itu konyol. 

ZDNet: Jangan percaya semua yang Anda dengar di media sosial. 

YL: Maksud saya, makalah utama yang dia katakan harus saya kutip tidak memiliki ide utama yang saya bicarakan di koran. Dia melakukan ini juga dengan GAN dan hal-hal lain, yang ternyata tidak benar. Menanam bendera itu mudah, memberikan kontribusi yang jauh lebih sulit. Dan, omong-omong, dalam makalah khusus ini, saya secara eksplisit mengatakan ini bukan makalah ilmiah dalam pengertian istilah yang biasa. Ini lebih merupakan kertas posisi tentang ke mana benda ini harus pergi. Dan ada beberapa ide yang mungkin baru, tetapi sebagian besar tidak. Saya tidak mengklaim prioritas pada sebagian besar dari apa yang saya tulis di makalah itu, pada dasarnya.

yann-lecun-september 2022-2

Pembelajaran penguatan juga tidak akan pernah cukup, kata LeCun. Peneliti seperti David Silver dari DeepMind, yang mengembangkan program AlphaZero yang menguasai Catur, Shogi, dan Go, “sangat berbasis aksi,” kata LeCun, tetapi “sebagian besar pembelajaran yang kami lakukan, kami tidak melakukannya dengan benar-benar mengambil tindakan, kami melakukannya dengan mengamati.” 

ZDNet: Dan itu mungkin tempat yang baik untuk memulai, karena saya ingin tahu mengapa Anda menempuh jalan ini sekarang? Apa yang membuatmu berpikir tentang ini? Mengapa Anda ingin menulis ini?

YL: Jadi, saya sudah lama memikirkan hal ini, tentang jalan menuju kecerdasan atau pembelajaran dan kemampuan tingkat manusia atau hewan. Dan, dalam pembicaraan saya, saya cukup vokal tentang semua ini bahwa baik pembelajaran yang diawasi dan pembelajaran penguatan tidak cukup untuk meniru jenis pembelajaran yang kita amati pada hewan dan manusia. Saya telah melakukan ini selama sekitar tujuh atau delapan tahun. Jadi, bukan baru-baru ini. Saya memiliki keynote di NeurIPS bertahun-tahun yang lalu di mana saya membuat poin itu, pada dasarnya, dan berbagai pembicaraan, ada rekaman. Sekarang, mengapa menulis makalah sekarang? Saya sampai pada intinya — [Peneliti Google Brain] Geoff Hinton telah melakukan hal serupa — maksud saya, tentu saja, dia lebih dari saya, kami melihat waktu hampir habis. Kami tidak muda.

ZDNet: Enam puluh adalah lima puluh yang baru. 

YL: Itu benar, tetapi intinya adalah, kami melihat banyak klaim tentang apa yang harus kami lakukan untuk mendorong AI tingkat manusia. Dan ada ide-ide yang menurut saya salah arah. Jadi, satu ide adalah, Oh, kita harus menambahkan penalaran simbolis di atas jaring saraf. Dan saya tidak tahu bagaimana melakukan ini. Jadi, mungkin apa yang saya jelaskan di makalah ini bisa menjadi salah satu pendekatan yang akan melakukan hal yang sama tanpa manipulasi simbol yang eksplisit. Ini adalah jenis Gary Marcuses tradisional dunia. Gary Marcus bukan orang AI, omong-omong, dia adalah seorang psikolog. Dia tidak pernah memberikan kontribusi apapun untuk AI. Dia melakukan pekerjaan yang sangat baik dalam psikologi eksperimental tetapi dia tidak pernah menulis makalah peer-review tentang AI. Jadi, ada orang-orang itu. 

Ada [ilmuwan penelitian prinsip DeepMind] David Silvers dari dunia yang mengatakan, Anda tahu, hadiah sudah cukup, pada dasarnya, ini semua tentang pembelajaran penguatan, kita hanya perlu membuatnya sedikit lebih efisien, oke? Dan, saya pikir mereka tidak salah, tetapi saya pikir langkah-langkah yang diperlukan untuk membuat pembelajaran penguatan lebih efisien, pada dasarnya, akan menurunkan pembelajaran penguatan menjadi semacam ceri pada kue. Dan bagian utama yang hilang adalah mempelajari cara kerja dunia, sebagian besar dengan pengamatan tanpa tindakan. Pembelajaran penguatan sangat berbasis tindakan, Anda mempelajari berbagai hal tentang dunia dengan mengambil tindakan dan melihat hasilnya.

ZDNet: Dan itu berfokus pada penghargaan.

YL: Ini berfokus pada hadiah, dan juga berfokus pada tindakan. Jadi, Anda harus bertindak di dunia untuk dapat mempelajari sesuatu tentang dunia. Dan klaim utama yang saya buat dalam makalah tentang pembelajaran mandiri adalah, sebagian besar pembelajaran yang kami lakukan, kami tidak melakukannya dengan benar-benar mengambil tindakan, kami melakukannya dengan mengamati. Dan itu sangat tidak ortodoks, baik untuk orang-orang yang belajar penguatan, khususnya, tetapi juga untuk banyak psikolog dan ilmuwan kognitif yang berpikir bahwa, Anda tahu, tindakan adalah — Saya tidak mengatakan tindakan itu tidak penting, itu is penting. Tapi saya pikir sebagian besar dari apa yang kita pelajari sebagian besar tentang struktur dunia, dan melibatkan, tentu saja, interaksi dan aksi dan permainan, dan hal-hal seperti itu, tetapi banyak yang bersifat observasional.

ZDNet: Anda juga akan berhasil menandai orang-orang Transformer, orang-orang yang mengutamakan bahasa, pada saat yang bersamaan. Bagaimana Anda bisa membangun ini tanpa bahasa terlebih dahulu? Anda mungkin berhasil mencentang banyak orang. 

YL: Ya, aku sudah terbiasa dengan itu. Jadi, ya, ada orang pertama bahasa, yang mengatakan, Anda tahu, kecerdasan adalah tentang bahasa, substrat kecerdasan adalah bahasa, bla, bla, bla. Tapi itu, semacam, mengabaikan kecerdasan hewan. Anda tahu, kami tidak sampai pada titik di mana mesin cerdas kami memiliki akal sehat sebanyak kucing. Jadi, mengapa kita tidak mulai dari sana? Apa yang memungkinkan kucing untuk memahami dunia sekitarnya, melakukan hal-hal yang cukup cerdas, dan merencanakan dan hal-hal seperti itu, dan anjing bahkan lebih baik? 

Lalu ada semua orang yang berkata, Oh, kecerdasan adalah hal sosial, bukan? Kami cerdas karena kami berbicara satu sama lain dan kami bertukar informasi, dan bla, bla, bla. Ada semua jenis spesies nonsosial yang tidak pernah bertemu orang tuanya yang sangat pintar, seperti gurita atau orangutan.Maksudku, mereka [orangutan] pasti dididik oleh ibu mereka, tetapi mereka bukan hewan sosial. 

Tetapi kategori orang lain yang mungkin saya tandai adalah orang-orang yang mengatakan penskalaan sudah cukup. Jadi, pada dasarnya, kami hanya menggunakan Transformer raksasa, kami melatihnya pada data multimodal yang melibatkan, Anda tahu, video, teks, bla, bla, bla. Kami, semacam, membatusemuanya, dan tokenize semuanya, lalu latih raksasamodel untuk membuat prediksi diskrit, pada dasarnya, dan entah bagaimana AI akan muncul dari ini. Mereka tidak salah, dalam arti bahwa itu mungkin merupakan komponen dari sistem cerdas masa depan. Tapi saya pikir itu kehilangan bagian-bagian penting. 

Ada kategori orang lain yang akan saya tandai dengan makalah ini. Dan itu adalah para probabilis, para probabilis agama. Jadi, orang-orang yang menganggap teori probabilitas adalah satu-satunya kerangka kerja yang dapat Anda gunakan untuk menjelaskan pembelajaran mesin. Dan seperti yang saya coba jelaskan dalam artikel ini, pada dasarnya terlalu banyak meminta model dunia untuk sepenuhnya probabilistik. Kami tidak tahu bagaimana melakukannya. Ada kerumitan komputasi. Jadi saya mengusulkan untuk membuang seluruh ide ini. Dan tentu saja, Anda tahu, ini adalah pilar besar tidak hanya pembelajaran mesin, tetapi semua statistik, yang mengklaim sebagai formalisme normal untuk pembelajaran mesin. 

Hal lain- 

ZDNet: Anda sedang dalam perjalanan…

YL: — adalah apa yang disebut model generatif. Jadi, ide bahwa Anda bisa belajar memprediksi, dan Anda mungkin bisa belajar banyak tentang dunia dengan prediksi. Jadi, saya memberi Anda sepotong video dan saya meminta sistem untuk memprediksi apa yang terjadi selanjutnya dalam video. Dan saya mungkin meminta Anda untuk memprediksi bingkai video yang sebenarnya dengan semua detailnya. Tapi apa yang saya perdebatkan di koran adalah bahwa itu sebenarnya terlalu banyak untuk ditanyakan dan terlalu rumit. Dan ini adalah sesuatu yang saya berubah pikiran tentang. Sampai sekitar dua tahun yang lalu, saya menjadi pendukung apa yang saya sebut model generatif variabel laten, model yang memprediksi apa yang akan terjadi selanjutnya atau informasi yang hilang, mungkin dengan bantuan variabel laten, jika prediksi tidak dapat dilakukan. deterministik. Dan aku sudah menyerah pada ini. Dan alasan saya menyerah pada ini didasarkan pada hasil empiris, di mana orang telah mencoba menerapkan, semacam, prediksi atau pelatihan berbasis rekonstruksi dari jenis yang digunakan di BERTdan model bahasa yang besar, mereka telah mencoba menerapkan ini pada gambar, dan itu gagal total. Dan alasan kegagalan total adalah, sekali lagi, karena kendala model probabilistik di mana relatif mudah untuk memprediksi token diskrit seperti kata-kata karena kita dapat menghitung distribusi probabilitas atas semua kata dalam kamus. Itu mudah. Tetapi jika kami meminta sistem untuk menghasilkan distribusi probabilitas pada semua frame video yang mungkin, kami tidak tahu bagaimana membuat parameter, atau kami memiliki beberapa ide bagaimana membuat parameter, tetapi kami tidak tahu bagaimana menormalkannya. Ini menyentuh masalah matematika yang sulit dipecahkan yang kita tidak tahu bagaimana menyelesaikannya. 

yann-lecun-september 2022-3

“Kami tidak sampai pada titik di mana mesin cerdas kami memiliki akal sehat sebanyak kucing,” kata Lecun. “Jadi, mengapa kita tidak mulai dari sana? Apa yang memungkinkan kucing untuk memahami dunia sekitarnya, melakukan hal-hal yang cukup cerdas, dan merencanakan dan hal-hal seperti itu, dan anjing bahkan lebih baik?”

Jadi, itulah mengapa saya katakan mari kita tinggalkan teori probabilitas atau kerangka kerja untuk hal-hal seperti itu, yang lebih lemah, model berbasis energi. Saya telah menganjurkan untuk ini, juga, selama beberapa dekade, jadi ini bukan hal yang baru. Tetapi pada saat yang sama, meninggalkan ide model generatif karena ada banyak hal di dunia yang tidak dapat dipahami dan tidak dapat diprediksi. Jika Anda seorang insinyur, Anda menyebutnya kebisingan. Jika Anda seorang fisikawan, Anda menyebutnya panas. Dan jika Anda adalah orang yang belajar mesin, Anda menyebutnya, Anda tahu, detail yang tidak relevan atau apa pun.

Jadi, contoh yang saya gunakan di koran, atau yang saya gunakan dalam pembicaraan, adalah, Anda menginginkan sistem prediksi dunia yang akan membantu mobil yang bisa mengemudi sendiri, bukan? Ia ingin dapat memprediksi, sebelumnya, lintasan semua mobil lain, apa yang akan terjadi pada objek lain yang mungkin bergerak, pejalan kaki, sepeda, anak yang berlari mengejar bola, hal-hal seperti itu. Jadi, segala macam hal tentang dunia. Tapi berbatasan dengan jalan, mungkin ada pohon, dan ada angin hari ini, jadi dedaunan bergerak tertiup angin, dan di belakang pepohonan ada kolam, dan ada riak di kolam. Dan itu, pada dasarnya, adalah fenomena yang sebagian besar tidak dapat diprediksi. Dan, Anda tidak ingin model Anda menghabiskan banyak sumber daya untuk memprediksi hal-hal yang sulit diprediksi dan tidak relevan. Jadi itulah mengapa saya menganjurkan arsitektur penyematan bersama, hal-hal di mana variabel yang Anda coba modelkan, Anda tidak mencoba untuk memprediksinya, Anda mencoba untuk memodelkannya, tetapi dijalankan melalui encoder, dan encoder itu dapat menghilangkan banyak detail tentang input yang tidak relevan atau terlalu rumit — pada dasarnya, setara dengan noise.

ZDNet: Kami membahas model berbasis energi awal tahun ini, JEPA dan H-JEPA. Perasaan saya, jika saya memahami Anda dengan benar, apakah Anda menemukan titik energi rendah di mana dua prediksi penyisipan X dan Y ini paling mirip, yang berarti bahwa jika ada merpati di pohon di satu, dan ada sesuatu di latar belakang adegan, itu mungkin bukan poin penting yang membuat penyematan ini dekat satu sama lain.

YL: Benar. Jadi, arsitektur JEPA sebenarnya mencoba menemukan tradeoff, kompromi, antara mengekstraksi representasi yang secara maksimal informatif tentang input tetapi juga dapat diprediksi satu sama lain dengan tingkat akurasi atau keandalan tertentu. Ia menemukan tradeoff. Jadi, jika memiliki pilihan antara menghabiskan sejumlah besar sumber daya termasuk detail gerakan daun, dan kemudian memodelkan dinamika yang akan memutuskan bagaimana daun bergerak sedetik dari sekarang, atau hanya menjatuhkannya di lantai dengan pada dasarnya menjalankan variabel Y melalui prediktor yang menghilangkan semua detail itu, mungkin hanya akan menghilangkannya karena terlalu sulit untuk dimodelkan dan ditangkap.

ZDNet: Satu hal yang mengejutkan adalah Anda telah menjadi pendukung hebat untuk mengatakan "Ini berhasil, nanti kita akan menemukan teori termodinamika untuk menjelaskannya." Di sini Anda telah mengambil pendekatan, "Saya tidak tahu bagaimana kita akan memecahkan masalah ini, tetapi saya ingin mengajukan beberapa ide untuk memikirkannya," dan bahkan mungkin mendekati teori atau hipotesis, di paling sedikit. Itu menarik karena ada banyak orang yang menghabiskan banyak uang untuk mengerjakan mobil yang bisa melihat pejalan kaki terlepas dari apakah mobil itu memiliki akal sehat. Dan saya membayangkan beberapa dari orang-orang itu akan, tidak dicentang, tetapi mereka akan berkata, “Tidak apa-apa, kami tidak peduli jika itu tidak masuk akal, kami telah membuat simulasi, simulasinya luar biasa, dan kami akan terus meningkatkan, kami akan terus menskalakan simulasi.” 

Dan sangat menarik bahwa Anda sekarang berada dalam posisi untuk mengatakan, mari kita mundur selangkah dan memikirkan apa yang sedang kita lakukan. Dan industri mengatakan kami hanya akan menskalakan, menskalakan, menskalakan, karena engkol itu benar-benar berfungsi. Maksud saya, engkol semikonduktor GPU benar-benar berfungsi.

YL: Ada, seperti, lima pertanyaan di sana. Jadi, maksud saya, penskalaan itu perlu. Saya tidak mengkritik fakta bahwa kita harus menskalakan. Kita harus skala. Jaring saraf itu menjadi lebih baik saat mereka menjadi lebih besar. Tidak ada pertanyaan kita harus skala. Dan yang akan memiliki beberapa tingkat akal sehat akan menjadi besar. Tidak ada jalan lain, saya pikir. Jadi penskalaan itu bagus, itu perlu, tetapi tidak cukup. Itulah poin yang saya buat. Ini bukan hanya penskalaan. Itu poin pertama. 

Poin kedua, apakah teori didahulukan dan hal-hal seperti itu. Jadi, saya pikir ada konsep yang muncul lebih dulu, Anda harus mundur selangkah dan berkata, oke, kami membangun tangga ini, tetapi kami ingin pergi ke bulan dan tidak mungkin tangga ini akan membawa kami ke sana. Jadi, pada dasarnya, apa yang saya tulis di sini adalah, kita perlu membuat roket. Saya tidak bisa memberi Anda detail tentang bagaimana kami membuat roket, tetapi inilah prinsip dasarnya. Dan saya tidak menulis teori untuk itu atau apa, tapi, itu akan menjadi roket, oke? Atau lift luar angkasa atau apa pun. Kami mungkin tidak memiliki semua detail dari semua teknologi. Kami mencoba untuk membuat beberapa hal itu berhasil, seperti saya telah mengerjakan JEPA. Penyematan bersama bekerja sangat baik untuk pengenalan gambar, tetapi menggunakannya untuk melatih model dunia, ada kesulitan. Kami sedang mengerjakannya, kami berharap kami akan membuatnya berhasil soon, tetapi kami mungkin menghadapi beberapa kendala di sana yang mungkin tidak dapat kami atasi. 

Lalu ada ide kunci dalam makalah tentang penalaran di mana jika kita ingin sistem dapat direncanakan, yang dapat Anda anggap sebagai bentuk penalaran sederhana, mereka harus memiliki variabel laten. Dengan kata lain, hal-hal yang tidak dihitung oleh jaringan saraf apa pun tetapi hal-hal yang — yang nilainya disimpulkan untuk meminimalkan beberapa fungsi tujuan, beberapa fungsi biaya. Dan kemudian Anda dapat menggunakan fungsi biaya ini untuk mendorong perilaku sistem. Dan ini sama sekali bukan ide baru, kan? Ini adalah kontrol yang sangat klasik dan optimal di mana dasar dari ini kembali ke akhir 50-an, awal 60-an. Jadi, tidak mengklaim hal baru di sini. Tapi apa yang saya katakan adalah bahwa jenis inferensi ini harus menjadi bagian dari sistem cerdas yang mampu merencanakan, dan yang perilakunya dapat ditentukan atau dikendalikan bukan oleh perilaku bawaan, bukan dengan peniruan yang condong, tetapi oleh fungsi objektif yang mendorong perilaku — tidak mendorong pembelajaran, tentu saja, tetapi mendorong perilaku. Anda tahu, kami memiliki itu di otak kami, dan setiap hewan memiliki biaya intrinsik atau motivasi intrinsik untuk sesuatu. Itu mendorong bayi berusia sembilan bulan ingin berdiri. Biaya menjadi bahagia ketika Anda berdiri, istilah dalam fungsi biaya itu sudah tertanam. Tapi bagaimana Anda berdiri bukanlah, itu belajar.

yann-lecun-september 2022-4

“Penskalaan itu bagus, itu perlu, tetapi tidak cukup,” kata LeCun tentang model bahasa raksasa seperti program berbasis Transformer dari variasi GPT-3. Pemuja Transformer percaya, “Kami menandai segalanya, dan melatih raksasamodel untuk membuat prediksi terpisah, dan entah bagaimana AI akan muncul dari sini … tapi saya pikir itu kehilangan bagian penting.”

ZDNet: Hanya untuk melengkapi poin itu, sebagian besar komunitas pembelajaran mendalam tampaknya baik-baik saja dengan sesuatu yang tidak memiliki akal sehat. Sepertinya Anda membuat argumen yang cukup jelas di sini bahwa pada titik tertentu itu menjadi jalan buntu. Beberapa orang mengatakan kita tidak membutuhkan mobil otonom dengan akal sehat karena penskalaan akan melakukannya. Kedengarannya seperti Anda mengatakan tidak apa-apa untuk terus berjalan di sepanjang jalan itu?

YL: Anda tahu, saya pikir sangat mungkin kita memiliki mobil otonom level lima tanpa akal sehat. Tetapi masalah dengan pendekatan ini, ini akan bersifat sementara, karena Anda harus merekayasanya. Jadi, Anda tahu, memetakan seluruh dunia, menghubungkan semua jenis perilaku kasus sudut tertentu, mengumpulkan cukup data sehingga Anda memiliki semua, jenis, situasi aneh yang dapat Anda temui di jalan, bla, bla, bla. Dan tebakan saya adalah bahwa dengan investasi dan waktu yang cukup, Anda dapat merekayasanya. Tetapi pada akhirnya, akan ada solusi yang lebih memuaskan dan mungkin lebih baik yang melibatkan sistem yang melakukan pekerjaan yang lebih baik dalam memahami cara dunia bekerja, dan memiliki, Anda tahu, beberapa tingkat dari apa yang kita sebut akal sehat. Itu tidak perlu akal sehat tingkat manusia, tetapi beberapa jenis pengetahuan yang dapat diperoleh sistem dengan menonton, tetapi tidak melihat seseorang mengemudi, hanya menonton hal-hal yang bergerak dan memahami banyak tentang dunia, membangun fondasi latar belakang pengetahuan tentang bagaimana dunia bekerja, di mana Anda dapat belajar mengemudi. 

Mari saya ambil contoh sejarah tentang ini. Penglihatan komputer klasik didasarkan pada banyak modul rekayasa bawaan, di atasnya Anda akan memiliki, semacam, lapisan tipis pembelajaran. Jadi, hal-hal yang dikalahkan oleh AlexNet pada tahun 2012, pada dasarnya memiliki tahap pertama, semacam, ekstraksi fitur buatan tangan, seperti SIFT [Scale-Invariant Feature Transform (SIFT), teknik penglihatan klasik untuk mengidentifikasi objek yang menonjol dalam gambar] dan HOG [Histogram of Oriented Gradients, another classic technique] dan berbagai hal lainnya. Dan kemudian lapisan kedua, semacam, fitur tingkat menengah berdasarkan kernel fitur dan apa pun, dan semacam metode tanpa pengawasan. Dan kemudian di atas ini, Anda menempatkan mesin vektor pendukung, atau pengklasifikasi yang relatif sederhana. Dan itu, semacam, pipa standar dari pertengahan 2000-an hingga 2012. Dan itu digantikan oleh jaring konvolusi ujung-ke-ujung, di mana Anda tidak memasang semua ini, Anda hanya memiliki banyak data, dan Anda melatihnya dari ujung ke ujung, yang merupakan pendekatan yang telah saya anjurkan sejak lama, tetapi Anda tahu, sampai saat itu, tidak praktis untuk masalah besar. 

Ada cerita serupa dalam pengenalan suara di mana, sekali lagi, ada sejumlah besar rekayasa terperinci untuk bagaimana Anda melakukan pra-proses data, Anda mengekstrak cepstrum skala massal [kebalikan dari Fast Fourier Transform untuk pemrosesan sinyal], dan kemudian Anda memiliki Model Markov Tersembunyi, dengan arsitektur yang telah ditentukan sebelumnya, bla, bla, bla, dengan Campuran Gaussians. Jadi, arsitekturnya sedikit sama dengan visi di mana Anda telah membuat front-end dengan tangan, dan kemudian lapisan tengah yang agak tidak diawasi, terlatih, dan kemudian lapisan yang diawasi di atasnya. Dan sekarang, pada dasarnya, telah dihapuskan oleh jaringan saraf ujung ke ujung. Jadi saya agak melihat sesuatu yang serupa di sana mencoba mempelajari segalanya, tetapi Anda harus memiliki prior yang tepat, arsitektur yang tepat, struktur yang tepat.

yann-lecun-september 2022-5

Kerumunan mobil self-driving, startup seperti Waymo dan Wayve, telah "sedikit terlalu optimis," katanya, dengan berpikir mereka bisa "melempar data ke sana, dan Anda bisa belajar banyak hal." Mobil self-driving di Level 5 ADAS dimungkinkan, "Tapi Anda harus merekayasanya" dan akan "rapuh" seperti model visi komputer awal.

ZDNet: Apa yang Anda katakan adalah, beberapa orang akan mencoba merekayasa apa yang saat ini tidak berfungsi dengan pembelajaran mendalam untuk penerapan, katakanlah, dalam industri, dan mereka akan mulai membuat sesuatu yang menjadi usang dalam visi komputer?

YL: Benar. Dan itu sebagian mengapa orang-orang yang mengerjakan mengemudi otonom menjadi sedikit terlalu optimis selama beberapa tahun terakhir, adalah karena, Anda tahu, Anda memiliki, semacam, hal-hal umum seperti jaring konvolusi dan Transformer, yang dapat Anda lemparkan datanya. , dan ia dapat mempelajari banyak hal. Jadi, Anda berkata, Oke, saya punya solusi untuk masalah itu. Hal pertama yang Anda lakukan adalah membuat demo di mana mobil mengemudi sendiri selama beberapa menit tanpa menyakiti siapa pun. Dan kemudian Anda menyadari ada banyak kasus sudut, dan Anda mencoba untuk memplot kurva seberapa baik saya mendapatkan saat saya menggandakan set pelatihan, dan Anda menyadari bahwa Anda tidak akan pernah sampai di sana karena ada semua jenis kasus sudut . Dan Anda perlu memiliki mobil yang akan menyebabkan kecelakaan fatal kurang dari setiap 200 juta kilometer, bukan? Jadi apa yang kamu lakukan? Nah, Anda berjalan di dua arah. 

Arahan pertama adalah, bagaimana saya bisa mengurangi jumlah data yang diperlukan untuk dipelajari oleh sistem saya? Dan di situlah pembelajaran yang diawasi sendiri masuk. Jadi, banyak mobil self-driving sangat tertarik pada pembelajaran yang diawasi sendiri karena itulah cara untuk tetap menggunakan sejumlah besar data pengawasan untuk pembelajaran tiruan, tetapi mendapatkan kinerja yang lebih baik dengan pra-pelatihan, pada dasarnya. Dan itu belum cukup berhasil, tetapi akan. Dan kemudian ada opsi lain, yang diadopsi oleh sebagian besar perusahaan yang lebih maju saat ini, yaitu, oke, kita bisa melakukan pelatihan ujung ke ujung, tapi ada banyak kasus sudut yang bisa kita lakukan' t menangani, jadi kita akan hanya merancang sistem yang akan menangani kasus sudut tersebut, dan, pada dasarnya, memperlakukannya sebagai kasus khusus, dan memasang kontrol, dan kemudian memasang banyak perilaku dasar untuk menangani situasi khusus. Dan jika Anda memiliki tim insinyur yang cukup besar, Anda mungkin berhasil melakukannya. Tetapi itu akan memakan waktu lama, dan pada akhirnya, itu masih akan sedikit rapuh, mungkin cukup andal sehingga Anda dapat menerapkan, tetapi dengan beberapa tingkat kerapuhan, yang, dengan pendekatan berbasis pembelajaran yang mungkin muncul di masa depan, mobil tidak akan memilikinya karena mungkin memiliki beberapa tingkat akal sehat dan pemahaman tentang bagaimana dunia bekerja. 

Dalam jangka pendek, pendekatan yang direkayasa akan menang — itu sudah menang. Itulah Waymo dan Pelayaran dunia dan Wayvedan apa pun, itulah yang mereka lakukan. Lalu ada pendekatan pembelajaran yang diawasi sendiri, yang mungkin akan membantu pendekatan yang direkayasa untuk membuat kemajuan. Tapi kemudian, dalam jangka panjang, yang mungkin terlalu lama untuk ditunggu oleh perusahaan-perusahaan itu, mungkin akan menjadi, semacam, sistem mengemudi cerdas otonom yang lebih terintegrasi.

ZDNet: Kami mengatakan di luar cakrawala investasi sebagian besar investor.

YL: Betul sekali. Jadi, pertanyaannya adalah, apakah orang akan kehilangan kesabaran atau kehabisan uang sebelum kinerja mencapai level yang diinginkan.

ZDNet: Adakah yang menarik untuk dikatakan tentang mengapa Anda memilih beberapa elemen yang Anda pilih dalam model? Karena Anda mengutip Kenneth Craik [1943,Sifat Penjelasan], dan Anda mengutip Bryson dan Ho [1969, Kontrol optimal yang diterapkan], dan saya ingin tahu mengapa Anda mulai dengan pengaruh ini, jika Anda percaya terutama bahwa orang-orang ini telah menerapkannya sejauh apa yang telah mereka lakukan. Mengapa Anda mulai dari sana?

YL: Yah, saya tidak berpikir, tentu saja, mereka memiliki semua detail yang dipaku. Jadi, Bryson and Ho, ini adalah buku yang saya baca pada tahun 1987 ketika saya masih menjadi postdoc dengan Geoffrey Hinton di Toronto. Tapi saya tahu tentang pekerjaan ini sebelumnya ketika saya sedang menulis PhD saya, dan membuat hubungan antara kontrol optimal dan backprop, pada dasarnya. Jika Anda benar-benar ingin menjadi, Anda tahu, Schmidhuber lain, Anda akan mengatakan bahwa penemu sebenarnya dari backprop sebenarnya adalah ahli teori kontrol optimal Henry J. Kelley, Arthur Bryson, dan mungkin bahkan Lev Pontryagin, yang merupakan ahli teori kontrol optimal Rusia dari Rusia. di akhir tahun 50-an. 

Jadi, mereka menemukan jawabannya, dan sebenarnya, Anda dapat melihat akar dari ini, matematika di bawahnya, adalah mekanika Lagrangian. Jadi, Anda dapat kembali ke Euler dan Lagrange, sebenarnya, dan menemukan bau ini dalam definisi mereka tentang mekanika klasik Lagrangian, sungguh. Jadi, dalam konteks kontrol optimal, yang menjadi perhatian orang-orang ini pada dasarnya adalah menghitung lintasan roket. Anda tahu, ini adalah zaman ruang angkasa awal. Dan jika Anda memiliki model roket, ini memberi tahu Anda di sini adalah keadaan roket pada saat itu t, dan inilah tindakan yang akan saya lakukan, jadi, dorongan dan aktuator dari berbagai jenis, inilah keadaan roket pada saat itu t + 1.

ZDNet: Model tindakan negara, model nilai.

YL: Itu benar, dasar kontrol. Jadi, sekarang Anda dapat mensimulasikan penembakan roket Anda dengan membayangkan urutan perintah, dan kemudian Anda memiliki beberapa fungsi biaya, yaitu jarak roket ke targetnya, stasiun ruang angkasa atau apa pun itu. Dan kemudian dengan semacam penurunan gradien, Anda dapat mengetahui, bagaimana saya bisa memperbarui urutan tindakan saya sehingga roket saya benar-benar sedekat mungkin dengan target. Dan itu harus datang dengan sinyal propagasi mundur dalam waktu. Dan itu adalah propagasi balik, propagasi balik gradien. Sinyal-sinyal itu, mereka disebut variabel konjugasi dalam mekanika Lagrangian, tetapi sebenarnya, mereka adalah gradien. Jadi, mereka menemukan backprop, tetapi mereka tidak menyadari bahwa prinsip ini dapat digunakan untuk melatih sistem multi-tahap yang dapat melakukan pengenalan pola atau semacamnya. Ini tidak benar-benar disadari sampai mungkin akhir 70-an, awal 80-an, dan kemudian tidak benar-benar diterapkan dan dibuat untuk bekerja sampai pertengahan 80-an. Oke, jadi, di sinilah backprop benar-benar lepas landas karena orang-orang menunjukkan beberapa baris kode yang bisa Anda latih jaringan saraf, ujung ke ujung, multilayer. Dan itu menghilangkan keterbatasan Perceptron. Dan, ya, ada koneksi dengan kontrol optimal, tapi tidak apa-apa.

ZDNet: Jadi, itu terlalu jauh untuk mengatakan bahwa pengaruh yang Anda mulai dengan akan kembali ke backprop, dan itu penting sebagai titik awal bagi Anda?

YL: Ya, tapi saya pikir apa yang sedikit dilupakan orang, ada banyak pekerjaan tentang ini, Anda tahu, di tahun 90-an, atau bahkan tahun 80-an, termasuk oleh orang-orang seperti Michael Jordan [MIT Dept. of Brain dan Ilmu Kognitif] dan orang-orang seperti itu yang tidak lagi melakukan jaringan saraf, tetapi gagasan bahwa Anda dapat menggunakan jaringan saraf untuk kontrol, dan Anda dapat menggunakan gagasan klasik tentang kontrol optimal. Jadi, hal-hal seperti apa yang disebut kontrol model-prediktif, yang sekarang disebut kontrol model-prediktif, gagasan bahwa Anda dapat mensimulasikan atau membayangkan hasil dari serangkaian tindakan jika Anda memiliki model yang baik dari sistem yang Anda coba kendalikan dan lingkungan di dalamnya. Dan kemudian dengan penurunan gradien, pada dasarnya — ini bukan pembelajaran, ini kesimpulan — Anda dapat mengetahui urutan tindakan terbaik apa yang akan meminimalkan tujuan saya. Jadi, penggunaan fungsi biaya dengan variabel laten untuk inferensi, menurut saya, adalah sesuatu yang telah dilupakan oleh tanaman jaring saraf skala besar saat ini. Tapi itu adalah komponen pembelajaran mesin yang sangat klasik untuk waktu yang lama. Jadi, setiap Bayesian Net atau model grafis atau model grafis probabilistik menggunakan jenis inferensi ini. Anda memiliki model yang menangkap dependensi antara sekelompok variabel, Anda diberi tahu nilai beberapa variabel, dan kemudian Anda harus menyimpulkan nilai yang paling mungkin dari sisa variabel. Itulah prinsip dasar inferensi dalam model grafis dan Bayesian Nets, dan hal-hal seperti itu. Dan saya pikir pada dasarnya itulah yang seharusnya menjadi alasan, penalaran dan perencanaan.

ZDNet: Anda seorang Bayesian lemari.

YL: Saya seorang Bayesian non-probabilistik. Saya membuat lelucon itu sebelumnya. Saya sebenarnya berada di NeurIPS beberapa tahun yang lalu, saya pikir itu pada tahun 2018 atau 2019, dan saya tertangkap di video oleh seorang Bayesian yang bertanya apakah saya seorang Bayesian, dan saya berkata, Ya, saya seorang Bayesian, tapi saya Saya seorang Bayesian non-probabilistik, semacam, Bayesian berbasis energi, jika Anda mau. 

ZDNet: Yang pasti terdengar seperti sesuatu dari Star Trek. Anda sebutkan di akhir makalah ini, butuh bertahun-tahun kerja keras untuk mewujudkan apa yang Anda bayangkan. Ceritakan tentang apa yang terdiri dari beberapa pekerjaan itu saat ini.

YL: Jadi, saya jelaskan bagaimana Anda melatih dan membangun JEPA di koran. Dan kriteria yang saya anjurkan adalah memiliki beberapa cara untuk memaksimalkan konten informasi yang dimiliki representasi yang diekstraksi tentang input. Dan kemudian yang kedua adalah meminimalkan kesalahan prediksi. Dan jika Anda memiliki variabel laten dalam prediktor yang memungkinkan prediktor menjadi non deterministik, Anda juga harus mengatur variabel laten ini dengan meminimalkan kandungan informasinya. Jadi, Anda memiliki dua masalah sekarang, yaitu bagaimana Anda memaksimalkan konten informasi dari output beberapa jaringan saraf, dan yang lainnya adalah bagaimana Anda meminimalkan konten informasi dari beberapa variabel laten? Dan jika Anda tidak melakukan dua hal itu, sistem akan runtuh. Itu tidak akan belajar sesuatu yang menarik. Ini akan memberikan energi nol untuk segalanya, sesuatu seperti itu, yang bukan model ketergantungan yang baik. Ini adalah masalah pencegahan keruntuhan yang saya sebutkan. 

Dan saya mengatakan dari semua hal yang pernah dilakukan orang, hanya ada dua kategori metode untuk mencegah keruntuhan. Salah satunya adalah metode kontrastif, dan yang lainnya adalah metode regularized. Jadi, gagasan untuk memaksimalkan isi informasi dari representasi dua input dan meminimalkan isi informasi dari variabel laten, yang termasuk dalam metode regularized. Tetapi banyak pekerjaan dalam arsitektur penyematan bersama tersebut menggunakan metode kontrastif. Bahkan, mereka mungkin yang paling populer saat ini. Jadi, pertanyaannya adalah bagaimana Anda mengukur konten informasi dengan cara yang dapat Anda optimalkan atau minimalkan? Dan di situlah segalanya menjadi rumit karena kita tidak tahu sebenarnya bagaimana mengukur konten informasi. Kita dapat memperkirakannya, kita dapat membatasinya, kita dapat melakukan hal-hal seperti itu. Tapi mereka tidak benar-benar mengukur konten informasi, yang sebenarnya, sampai batas tertentu bahkan tidak terdefinisi dengan baik.

ZDNet: Bukan Hukum Shannon? Ini bukan teori informasi? Anda memiliki sejumlah entropi, entropi baik dan entropi buruk, dan entropi baik adalah sistem simbol yang berfungsi, entropi buruk adalah noise. Bukankah itu semua diselesaikan oleh Shannon?

YL: Anda benar, tetapi ada kelemahan besar di balik itu. Anda benar dalam arti bahwa jika Anda memiliki data yang datang kepada Anda dan Anda entah bagaimana dapat mengkuantisasi data menjadi simbol-simbol diskrit, dan kemudian Anda mengukur probabilitas masing-masing simbol tersebut, maka jumlah maksimum informasi yang dibawa oleh simbol-simbol itu adalah jumlahkan simbol-simbol yang mungkin dari Pi log Pi, Baik? Di mana Pi adalah peluang simbol saya - itulah entropi Shannon. [Hukum Shannon umumnya dirumuskan sebagai H = – pi log pi.]

Inilah masalahnya, meskipun: Apa itu? Pi? Sangat mudah ketika jumlah simbol kecil dan simbol digambar secara independen. Ketika ada banyak simbol, dan ketergantungan, itu sangat sulit. Jadi, jika Anda memiliki urutan bit dan Anda menganggap bit itu independen satu sama lain dan probabilitasnya sama antara satu dan nol atau apa pun, maka Anda dapat dengan mudah mengukur entropi, tidak masalah. Tetapi jika hal-hal yang datang kepada Anda adalah vektor berdimensi tinggi, seperti, Anda tahu, bingkai data, atau sesuatu seperti ini, apa itu? Pi? Apa distribusinya? Pertama, Anda harus mengkuantisasi ruang itu, yang merupakan ruang kontinu berdimensi tinggi. Anda tidak tahu bagaimana mengkuantisasi ini dengan benar. Anda dapat menggunakan k-means, dll. Inilah yang dilakukan orang ketika mereka melakukan kompresi video dan kompresi gambar. Tapi itu hanya perkiraan. Dan kemudian Anda harus membuat asumsi independensi. Jadi, jelas bahwa dalam sebuah video, frame yang berurutan tidak independen. Ada ketergantungan, dan bingkai itu mungkin bergantung pada bingkai lain yang Anda lihat satu jam yang lalu, yang merupakan gambar dari hal yang sama. Jadi, Anda tahu, Anda tidak dapat mengukur Pi. Untuk mengukur Pi, Anda harus memiliki sistem pembelajaran mesin yang belajar memprediksi. Dan Anda kembali ke masalah sebelumnya. Jadi, Anda hanya dapat memperkirakan ukuran informasi, pada dasarnya. 

yann-lecun-september 2022-6

“Pertanyaannya adalah bagaimana Anda mengukur konten informasi dengan cara yang dapat Anda optimalkan atau minimalkan?” kata LeCun. “Dan di situlah segalanya menjadi rumit karena kita tidak tahu sebenarnya bagaimana mengukur konten informasi.” Hal terbaik yang dapat dilakukan sejauh ini adalah menemukan proxy yang “cukup baik untuk tugas yang kita inginkan”.

Mari saya ambil contoh yang lebih konkrit. Salah satu algoritme yang telah kami mainkan, dan yang telah saya bicarakan dalam artikel ini, adalah hal yang disebut VICreg, regularisasi varians-invarians-kovarians. Itu ada dalam makalah terpisah yang diterbitkan di ICLR, dan itu diletakkan di arXiv sekitar setahun sebelumnya, 2021. Dan ide yang ada adalah untuk memaksimalkan informasi. Dan idenya sebenarnya keluar dari makalah sebelumnya oleh kelompok saya yang disebut Kembar Barlow. Anda memaksimalkan konten informasi dari vektor yang keluar dari jaringan saraf dengan, pada dasarnya, dengan asumsi bahwa satu-satunya ketergantungan antara variabel adalah korelasi, ketergantungan linier. Jadi, jika Anda berasumsi bahwa satu-satunya ketergantungan yang mungkin terjadi antara pasangan variabel, atau antara variabel dalam sistem Anda, adalah korelasi antara pasangan barang berharga, yang merupakan perkiraan yang sangat kasar, maka Anda dapat memaksimalkan konten informasi yang keluar dari sistem Anda. dengan memastikan semua variabel memiliki varians non-nol — katakanlah, varians satu, tidak peduli apa itu — dan kemudian mengkorelasikannya kembali, proses yang sama yang disebut whitening, itu juga bukan hal baru. Masalah dengan ini adalah bahwa Anda dapat memiliki ketergantungan yang sangat kompleks antara salah satu kelompok variabel atau bahkan hanya pasangan variabel yang bukan ketergantungan linier, dan mereka tidak muncul dalam korelasi. Jadi, misalnya, jika Anda memiliki dua variabel, dan semua titik dari kedua variabel tersebut berbaris dalam semacam spiral, ada ketergantungan yang sangat kuat antara kedua variabel tersebut, bukan? Namun nyatanya, jika Anda menghitung korelasi antara kedua variabel tersebut, keduanya tidak berkorelasi. Jadi, inilah contoh di mana kandungan informasi dari kedua variabel ini sebenarnya sangat kecil, hanya satu kuantitas karena posisi Anda dalam spiral. Mereka tidak berkorelasi, jadi Anda pikir Anda memiliki banyak informasi yang keluar dari kedua variabel tersebut padahal sebenarnya tidak, Anda hanya memiliki, Anda tahu, Anda dapat memprediksi salah satu variabel dari yang lain, pada dasarnya. Jadi, itu menunjukkan bahwa kami hanya memiliki cara yang sangat mendekati untuk mengukur konten informasi.

ZDNet: Dan itu salah satu hal yang harus Anda kerjakan sekarang dengan ini? Ini adalah pertanyaan yang lebih besar tentang bagaimana kita tahu kapan kita memaksimalkan dan meminimalkan konten informasi?

YL:  Atau apakah proxy yang kita gunakan untuk ini cukup baik untuk tugas yang kita inginkan. Faktanya, kami melakukan ini sepanjang waktu dalam pembelajaran mesin. Fungsi biaya yang kita minimalkan tidak pernah benar-benar ingin kita minimalkan. Jadi, misalnya, Anda ingin melakukan klasifikasi, oke? Fungsi biaya yang ingin Anda minimalkan saat melatih pengklasifikasi adalah jumlah kesalahan yang dilakukan pengklasifikasi. Tapi itu adalah fungsi biaya yang tidak dapat dibedakan dan mengerikan yang tidak dapat Anda minimalkan karena Anda tahu Anda akan mengubah bobot jaringan saraf Anda, tidak ada yang akan berubah sampai salah satu dari sampel itu membatalkan keputusannya, dan kemudian melompat dalam kesalahan, positif atau negatif.

ZDNet: Jadi Anda memiliki proxy yang merupakan fungsi objektif yang dapat Anda katakan dengan pasti, kami pasti dapat mengalirkan gradien dari benda ini.

YL: Betul sekali. Jadi orang menggunakan kerugian lintas-entropi ini, atau SOFTMAX, Anda memiliki beberapa nama untuk itu, tetapi itu adalah hal yang sama. Dan itu pada dasarnya adalah perkiraan halus dari jumlah kesalahan yang dibuat sistem, di mana pemulusan dilakukan dengan, pada dasarnya, dengan mempertimbangkan skor yang diberikan sistem untuk masing-masing kategori.

ZDNet: Apakah ada sesuatu yang belum kami bahas yang ingin Anda liput?

YL: Ini mungkin menekankan poin utama. Saya pikir sistem AI harus dapat bernalar, dan proses untuk ini yang saya anjurkan adalah meminimalkan beberapa tujuan sehubungan dengan beberapa variabel laten. Itu memungkinkan sistem untuk merencanakan dan bernalar. Saya pikir kita harus meninggalkan kerangka probabilistik karena itu sulit ketika kita ingin melakukan hal-hal seperti menangkap dependensi antara variabel kontinu dimensi tinggi. Dan saya menganjurkan untuk meninggalkan model generatif karena sistem harus mencurahkan terlalu banyak sumber daya untuk memprediksi hal-hal yang terlalu sulit untuk diprediksi dan mungkin menghabiskan terlalu banyak sumber daya. Dan itu cukup banyak. Itu pesan utama, jika Anda mau. Dan kemudian arsitektur keseluruhan. Lalu ada spekulasi tentang sifat kesadaran dan peran konfigurator, tapi ini benar-benar spekulasi.

ZDNet: Kita akan membahasnya lain kali. Saya akan bertanya kepada Anda, bagaimana Anda membandingkan hal ini? Tapi saya kira Anda sedikit lebih jauh dari pembandingan sekarang?

YL: Belum tentu sejauh itu, semacam, versi yang disederhanakan. Anda dapat melakukan apa yang dilakukan semua orang dalam pembelajaran kontrol atau penguatan, yaitu, Anda melatih sesuatu untuk memainkan game Atari atau sesuatu seperti itu atau game lain yang memiliki ketidakpastian di dalamnya.

ZDNet: Terima kasih atas waktunya, Yan.

sumber