Meta'nın AI gurusu LeCun: Günümüzün AI yaklaşımlarının çoğu asla gerçek zekaya yol açmayacak

yann-lecun-eylül-2022-1

Meta'nın baş yapay zeka bilimcisi Yann LeCun, “Yapay zeka sistemlerinin akıl yürütebilmesi gerektiğini düşünüyorum” diyor. Birçoğu kendi alanındaki öncü çalışmalarına dayanan Transformers gibi günümüzün popüler AI yaklaşımları yeterli olmayacaktır. LeCun, "Bir adım geri atıp "Tamam, bu merdiveni biz yaptık ama aya gitmek istiyoruz ve bu merdivenin bizi oraya götürmesinin hiçbir yolu yok" demelisiniz.

Yann LeCun, baş yapay zeka bilimcisi Facebook, Instagram ve WhatsApp'ın sahibi Meta Properties'in kendi alanında pek çok kişiyi işaretlemesi muhtemeldir. 

Bir düşünce parçasının Haziran ayında yayınlanmasıyla Açık İnceleme sunucusunda, LeCun, makinelerde insan düzeyinde zeka elde etmek için umut vaat ettiğini düşündüğü bir yaklaşıma geniş bir genel bakış sundu. 

Makalede dile getirilmezse, ima edilen, günümüzün yapay zekadaki büyük projelerinin çoğunun bu insan düzeyindeki hedefe asla ulaşamayacağı iddiasıdır.

Bu ay bir tartışmada ZDNet LeCun, Zoom aracılığıyla şu anda derin öğrenme alanındaki en başarılı araştırma yollarının çoğuna büyük bir şüphecilikle baktığını açıkça belirtti.

Turing Ödülü sahibi “Bence gerekli ama yeterli değil” dedi. ZDNet akranlarının arayışlarından. 

Bunlar, Transformer tabanlı GPT-3 ve ilkleri gibi büyük dil modellerini içerir. LeCun'un tanımladığı gibi, Transformer tutkunları, "Her şeyi simgeleştiriyoruz ve devasa eğitimler veriyoruz.ayrık tahminler yapmak için modeller ve bir şekilde AI bundan ortaya çıkacak. ”

“Bunun gelecekteki bir akıllı sistemin bir parçası olabileceği anlamında yanlış değiller, ancak bence temel parçalar eksik.”

Ayrıca: Meta'nın AI armatürü LeCun, derin öğrenmenin enerji sınırını araştırıyor

Bu, derin öğrenme programlarında inanılmaz derecede üretken olan pratik bir teknik olan evrişimli sinir ağlarının kullanımını mükemmelleştiren bilim adamından iş gibi görünen şeyin şaşırtıcı bir eleştirisi. 

LeCun, disiplinin diğer birçok başarılı alanında kusurlar ve sınırlamalar görüyor. 

Takviyeli öğrenmenin de asla yeterli olmayacağını savunuyor. Chess, Shogi ve Go'da uzmanlaşan AlphaZero programını geliştiren DeepMind'den David Silver gibi araştırmacılar, LeCun'un gözlemine göre "çok eylem temelli" programlara odaklanıyorlar, ancak "yaptığımız öğrenmelerin çoğunu yapmıyoruz. eyleme geçerek yapıyoruz, gözlemleyerek yapıyoruz.” 

62 yaşındaki Lecun, onlarca yıllık başarı perspektifinden, yine de, birçoğunun acele ettiği çıkmaz sokaklar olduğunu düşündüğü şeyle yüzleşmek ve alanını işlerin gitmesi gerektiğini düşündüğü yönde ikna etmeye çalışmak için bir aciliyet ifade ediyor. 

“İnsan düzeyinde yapay zekaya doğru ilerlemek için ne yapmamız gerektiğine dair birçok iddia görüyoruz” diyor. "Ve yanlış yönlendirildiğini düşündüğüm fikirler var."

Lecun, “Akıllı makinelerimizin bir kedi kadar sağduyuya sahip olduğu bir noktada değiliz” diyor. "Öyleyse neden oradan başlamıyoruz?" 

Bir videodaki bir sonraki kareyi tahmin etmek gibi şeylerde üretken ağları kullanma konusundaki önceki inancını terk etti. “Tam bir başarısızlık oldu” diyor. 

LeCun, "makine öğrenimini açıklamak için kullanabileceğiniz tek çerçevenin olasılık teorisi olduğunu düşünen" "dini olasılıkçılar" olarak adlandırdığı kişileri kınıyor. 

Tamamen istatistiksel yaklaşımın inatçı olduğunu söylüyor. “Tamamen olasılıklı bir dünya modeli istemek çok fazla; nasıl yapacağımızı bilmiyoruz.”

LeCun, sadece akademisyenlerin değil, endüstriyel yapay zekanın da derin bir yeniden düşünmeye ihtiyacı olduğunu savunuyor. Kendi kendini süren araba kalabalığı, Wayve gibi yeni başlayanlar, "büyük sinir ağlarına "veri atabileceklerini ve hemen hemen her şeyi öğrenebileceğinizi" düşünerek "biraz fazla iyimser" diyor.

“Biliyorsunuz, bence sağduyu olmadan beşinci seviye otonom arabalara sahip olmamız tamamen mümkün,” diyor “ADAS”a atıfta bulunarak. gelişmiş sürücü yardım sistemi kendi kendine sürüş için terimler, "ama cehennemden çıkarmak zorunda kalacaksın."

Böyle aşırı tasarlanmış kendi kendine sürüş teknolojisi, derin öğrenme ile modası geçmiş tüm bilgisayarla görme programları kadar gıcırtılı ve kırılgan bir şey olacağına inanıyor.

“Nihayetinde, dünyanın nasıl çalıştığını anlamak için daha iyi bir iş çıkaran sistemleri içeren daha tatmin edici ve muhtemelen daha iyi bir çözüm olacak.”

Yol boyunca, LeCun, NYU profesörü Gary Marcus - "AI'ya hiçbir zaman katkıda bulunmadı" - ve Dalle Molle Yapay Zeka Araştırmaları Enstitüsü'nün eş direktörü Jürgen Schmidhuber gibi en büyük eleştirmenleri hakkında bazı olumsuz görüşler sunuyor. bayrak dikmek çok kolay.”

Eleştirilerin ötesinde, LeCun tarafından vurgulanan daha önemli nokta, tüm AI'nın, özellikle de bilginin nasıl ölçüleceği gibi bazı temel sorunların karşı karşıya olduğudur.

LeCun, yeniden düşünme isteğini şöyle anlatıyor: "Bir adım geri atıp, "Tamam, bu merdiveni biz yaptık ama aya gitmek istiyoruz ve bu merdivenin bizi oraya götürmesinin hiçbir yolu yok" demelisiniz. temel kavramlardandır. "Temel olarak burada yazdığım şey, roket yapmamız gerekiyor, size roketleri nasıl yaptığımızın detaylarını veremem ama işte temel prensipler."

Makale ve LeCun'un röportajdaki düşünceleri, LeCun'un bu yılın başlarında LeCun'la yaptığı röportajı okuyarak daha iyi anlaşılabilir. ZDNet burada derin öğrenme için ileriye dönük bir yol olarak enerji tabanlı kendi kendini denetleyen öğrenmeyi savunuyor. Bu yansımalar, bitiş çizgisine ulaşamayacağını iddia ettiği şeylere alternatif olarak inşa etmeyi umduğu şeye temel yaklaşım hakkında bir fikir veriyor. 

Aşağıda, röportajın hafifçe düzenlenmiş bir dökümü yer almaktadır.

ZDNet: Sohbetimizin konusu, 0.9.2 sürümünün mevcut sürümü olan “Otonom makine zekasına giden yol” başlıklı bu makaledir, değil mi?

Yann LeCun: Evet, bunu bir nevi çalışan bir belge olarak görüyorum. Bu yüzden, Açık İnceleme'de yayınladım, insanların yorum ve önerilerde bulunmasını, belki ek referanslar vermesini bekledim ve sonra gözden geçirilmiş bir versiyon üreteceğim. 

ZDNet: Juergen Schmidhuber'ın Açık İnceleme'ye zaten bazı yorumlar eklediğini görüyorum.

-YL: Evet, her zaman yapar. Gazetemde onun makalelerinden birinden alıntı yapıyorum. Sosyal ağlarda yaptığı, temel olarak tüm bunları 1991'de icat ettiği argümanları, diğer durumlarda yaptığı gibi, durum böyle değil. demek ki yapmak çok kolaybayrak dikmek ve bir nevi deneysiz, teorisiz bir fikir yazmak, sadece bu şekilde yapabileceğinizi önermek. Ama, bilirsiniz, sadece bir fikre sahip olmak ve onu bir oyuncak problemi üzerinde çalıştırmak ve sonra onu gerçek bir problem üzerinde çalıştırmak ve sonra neden işe yaradığını gösteren bir teori yapmak ve sonra bunun arasında büyük bir fark vardır. konuşlandırıyor. Bütün bir zincir var ve onun bilimsel kredi fikri, bir çeşit, bilirsiniz, bu fikri olan, tüm övgüyü alması gereken ilk kişi olduğu. Ve bu çok saçma. 

ZDNet: Sosyal medyada her duyduğunuza inanmayın. 

-YL: Demek istediğim, alıntı yapmamı söylediği ana makale, gazetede bahsettiğim ana fikirlerin hiçbirine sahip değil. Bunu GAN'lar ve doğru olmadığı ortaya çıkan diğer şeylerle de yaptı. Bayrak dikmek kolay, katkıda bulunmak çok daha zor. Ve bu arada, bu özel makalede açıkça bunun terimin bilinen anlamıyla bilimsel bir makale olmadığını söyledim. Daha çok, bu şeyin nereye gitmesi gerektiğine dair bir durum raporu. Ve orada yeni olabilecek birkaç fikir var, ama çoğu değil. Esasen o yazıda yazdıklarımın çoğunda herhangi bir öncelik talep etmiyorum.

yann-lecun-eylül-2022-2

LeCun, pekiştirmeli öğrenmenin de asla yeterli olmayacağını savunuyor. Chess, Shogi ve Go'da uzmanlaşan AlphaZero programını geliştiren DeepMind'den David Silver gibi araştırmacılar, LeCun'a göre "çok eylem temellidir", ancak "yaptığımız öğrenmenin çoğunu, gerçekten alarak yapmıyoruz. eylemleri gözlemleyerek yaparız.” 

ZDNet: Ve bu belki de başlamak için iyi bir yer, çünkü merak ediyorum, neden şimdi bu yolu izlediniz? Bunun hakkında ne düşündün? Bunu neden yazmak istedin?

-YL: Pekala, ben bunu çok uzun zamandır düşünüyorum, insan seviyesindeki veya hayvan seviyesindeki zekaya veya öğrenme ve yeteneklere giden bir yol hakkında. Ve konuşmalarımda, hem denetimli öğrenmenin hem de pekiştirmeli öğrenmenin hayvanlarda ve insanlarda gözlemlediğimiz öğrenme türünü taklit etmek için yetersiz olduğu konusunda sesimi yükselttim. Yedi sekiz yıldır bu işi yapıyorum. Yani yeni değil. Yıllar önce NeurIPS'de bu noktaya değindiğim bir açılış konuşmam vardı ve çeşitli konuşmalar, kayıtlar var. Şimdi, neden şimdi bir makale yazalım? Şu noktaya geldim — [Google Beyin araştırmacısı] Geoff Hinton da benzer bir şey yapmıştı — yani, kesinlikle benden çok o, zamanın tükendiğini görüyoruz. Biz genç değiliz.

ZDNet: Altmış, yeni ellidir. 

-YL: Bu doğru, ama mesele şu ki, insan seviyesindeki yapay zekaya doğru ilerlemek için ne yapmamız gerektiğine dair birçok iddia görüyoruz. Ve yanlış yönlendirildiğini düşündüğüm fikirler var. Yani, bir fikir, Oh, sinir ağlarının üstüne sadece sembolik akıl yürütmeyi eklemeliyiz. Ve bunu nasıl yapacağımı bilmiyorum. Bu nedenle, belki de makalede açıkladığım şey, aynı şeyi açıkça sembol manipülasyonu olmadan yapacak bir yaklaşım olabilir. Bu, dünyanın geleneksel Gary Marcuses türüdür. Gary Marcus bir yapay zeka insanı değil, bu arada o bir psikolog. AI'ya hiçbir zaman katkıda bulunmadı. Deneysel psikolojide gerçekten iyi işler yaptı, ancak AI hakkında hiçbir zaman hakemli bir makale yazmadı. Yani o insanlar var. 

Dünyanın [DeepMind ilkeli araştırma bilimcisi] David Silvers'ı var ki, bilirsiniz, ödül yeterlidir, temelde, her şey pekiştirmeli öğrenme ile ilgili, bizim sadece onu biraz daha verimli hale getirmemiz gerekiyor, tamam mı? Ve bence yanlış değiller ama bence pekiştirmeli öğrenmeyi daha verimli hale getirmeye yönelik gerekli adımlar, temel olarak pekiştirmeli öğrenmeyi pasta üzerinde bir çeşit kiraza havale edecektir. Ve asıl eksik kısım, dünyanın nasıl çalıştığını, çoğunlukla eylemsiz gözlem yaparak öğrenmektir. Takviyeli öğrenme çok eyleme dayalıdır, harekete geçerek ve sonuçları görerek dünya hakkında bir şeyler öğrenirsiniz.

ZDNet: Ve ödül odaklıdır.

-YL: Ödül odaklı ve aynı zamanda aksiyon odaklı. Yani, dünya hakkında bir şeyler öğrenebilmek için dünyada hareket etmelisiniz. Ve özdenetimli öğrenme hakkında makalemde öne sürdüğüm ana iddia, yaptığımız öğrenmelerin çoğunu fiilen harekete geçerek yapmıyoruz, gözlemleyerek yapıyoruz. Hem özellikle pekiştirici öğrenen insanlar için hem de birçok psikolog ve bilişsel bilim adamı için, bilirsiniz, eylemin — eylemin gerekli olmadığını söylemiyorum, bunun gerekli olduğunu düşünenler için çok alışılmışın dışındadır. is gerekli. Ama bence öğrendiklerimizin çoğu çoğunlukla dünyanın yapısıyla ilgili ve tabii ki etkileşim, aksiyon ve oyun ve bunun gibi şeyleri içeriyor, ama bunların çoğu gözleme dayalı.

ZDNet: Aynı zamanda, dilin ilk insanları olan Transformer insanlarını da işaretlemeyi başaracaksınız. Bunu önce dil olmadan nasıl inşa edebilirsiniz? Bir çok insanı kandırmayı başarabilirsiniz. 

-YL: Evet, buna alışkınım. Yani, evet, önce dil diyen insanlar var, bilirsiniz, zeka dille ilgilidir, zekanın temeli dildir, falan filan, falan. Ama bu, bir nevi hayvan zekasını reddediyor. Biliyorsunuz, akıllı makinelerimizin bir kedi kadar sağduyuya sahip olduğu noktada değiliz. Öyleyse neden oradan başlamıyoruz? Bir kedinin çevredeki dünyayı kavramasına, oldukça akıllıca şeyler yapmasına ve bunun gibi planlar yapmasına ve köpeklerin daha da iyi olmasına izin veren şey nedir? 

O zaman, Ah, zeka sosyal bir şeydir diyenler var, değil mi? Zekiyiz çünkü birbirimizle konuşuyoruz ve bilgi alışverişi yapıyoruz ve falan filan. Ahtapot ya da orangutanlar gibi çok zeki olan ebeveynleriyle hiç tanışmayan her türden sosyal olmayan tür var.Yani orangutanlar kesinlikle anneleri tarafından eğitiliyorlar ama sosyal hayvanlar değiller. 

Ancak işaretleyebileceğim diğer insan kategorisi, ölçeklendirmenin yeterli olduğunu söyleyen insanlar. Yani, temelde, biz sadece devasa Transformatörler kullanıyoruz, onları video, metin, falan, falan, falan içeren çok modlu veriler üzerinde eğitiyoruz. Biz, bir nevi, taşlaşıyoruzher şeyi ve her şeyi tokenize edin ve ardından devasa eğitimtemel olarak ayrık tahminler yapmak için modeller ve bir şekilde AI bundan ortaya çıkacaktır. Bunun gelecekteki bir akıllı sistemin bir parçası olabileceği anlamında yanlış değiller. Ama bence önemli parçalar eksik. 

Bu kağıtla işaretleyeceğim başka bir insan kategorisi daha var. Ve olasılıkçılar, dini olasılıkçılar. Bu nedenle, olasılık teorisini düşünen insanlar, makine öğrenimini açıklamak için kullanabileceğiniz tek çerçevedir. Ve parçada açıklamaya çalıştığım gibi, temelde bir dünya modelinin tamamen olasılıklı olmasını istemek çok fazla. Nasıl yapacağımızı bilmiyoruz. Hesaplama zorluğu var. Bu yüzden tüm bu fikirden vazgeçmeyi öneriyorum. Ve elbette, bilirsiniz, bu sadece makine öğreniminin değil, makine öğrenimi için normal formalizm olduğunu iddia eden tüm istatistiklerin muazzam bir ayağıdır. 

Diğer şey - 

ZDNet: Bir rulo üzerindesin…

-YL: - üretici modeller denilen şeydir. Yani, tahmin etmeyi öğrenebileceğiniz fikri ve belki de tahmin yoluyla dünya hakkında çok şey öğrenebilirsiniz. Bu yüzden size bir video parçası veriyorum ve sistemden videoda bir sonraki adımda ne olacağını tahmin etmesini istiyorum. Ve sizden gerçek video karelerini tüm detaylarıyla tahmin etmenizi isteyebilirim. Ama makalede tartıştığım şey, aslında bunun çok fazla sorulması ve çok karmaşık olması. Ve bu, hakkında fikrimi değiştirdiğim bir şey. Yaklaşık iki yıl öncesine kadar, gizli değişken üretici modeller dediğim şeyin, bir sonraki adımda ne olacağını tahmin eden modellerin veya tahminin gerçekleşememesi durumunda muhtemelen bir gizli değişkenin yardımıyla eksik olan bilgilerin savunucusuydum. deterministik. Ve bundan vazgeçtim. Ve bundan vazgeçmemin nedeni, insanların BERT'de kullanılan türden, tür, tahmin veya yeniden yapılandırmaya dayalı eğitimi uygulamaya çalıştıkları ampirik sonuçlara dayanmaktadır.ve büyük dil modelleri, bunu görüntülere uygulamaya çalıştılar ve bu tam bir başarısızlık oldu. Ve bunun tam bir başarısızlık olmasının nedeni, yine, olasılık dağılımını sözlükteki tüm kelimeler üzerinde hesaplayabildiğimiz için, sözcükler gibi ayrık belirteçleri tahmin etmenin nispeten kolay olduğu olasılıklı modellerin kısıtlamalarından kaynaklanmaktadır. Bu kolay. Ancak sistemden olası tüm video kareleri üzerinde olasılık dağılımını üretmesini istersek, onu nasıl parametreleştireceğimizi bilmiyoruz veya nasıl parametreleştireceğimiz hakkında bir fikrimiz var ama nasıl normalleştireceğimizi bilmiyoruz. Nasıl çözeceğimizi bilmediğimiz zorlu bir matematik problemine çarpıyor. 

yann-lecun-eylül-2022-3

Lecun, “Akıllı makinelerimizin bir kedi kadar sağduyuya sahip olduğu bir noktada değiliz” diyor. "Öyleyse neden oradan başlamıyoruz? Bir kedinin etrafındaki dünyayı kavramasına, oldukça akıllıca şeyler yapmasına ve bunun gibi planlar yapmasına ve köpeklerin daha da iyi olmasına izin veren şey nedir?”

Bu yüzden, olasılık teorisini veya bunun gibi şeylerin çerçevesini, daha zayıf olanı, enerji temelli modelleri bırakalım diyorum. Ben de yıllardır bunu savunuyorum, yani bu yeni bir şey değil. Ama aynı zamanda, üretken modeller fikrini terk etmek, çünkü dünyada anlaşılmayan ve öngörülemeyen birçok şey var. Eğer bir mühendissen, buna gürültü diyorsun. Eğer bir fizikçiyseniz, buna ısı diyorsunuz. Ve eğer bir makine öğrenen kişiyseniz, buna alakasız ayrıntılar ya da her neyse diyorsunuz.

Yani, gazetede kullandığım veya görüşmelerde kullandığım örnek, kendi kendini süren bir arabaya yardımcı olacak bir dünya tahmin sistemi istiyorsunuz, değil mi? Diğer tüm arabaların yörüngelerini, hareket edebilecek diğer nesnelere, yayalara, bisikletlere, bir futbol topunun peşinden koşan bir çocuğa ne olacağını önceden tahmin edebilmek istiyor. Yani, dünya hakkında her türlü şey. Ama yolun kenarında ağaçlar olabilir ve bugün rüzgar var, bu yüzden yapraklar rüzgarda hareket ediyor ve ağaçların arkasında bir gölet var ve gölette dalgalanmalar var. Ve bunlar, esasen, büyük ölçüde öngörülemeyen fenomenlerdir. Ve modelinizin, hem tahmin edilmesi zor hem de alakasız şeyleri tahmin etmek için önemli miktarda kaynak harcamasını istemezsiniz. Bu yüzden ortak gömme mimarisini savunuyorum, modellemeye çalıştığınız değişkenin, onu tahmin etmeye değil, modellemeye çalıştığınız, ancak bir kodlayıcıdan geçtiği o şeyler, ve bu kodlayıcı, girdiyle ilgili alakasız veya çok karmaşık olan, temel olarak gürültüye eşdeğer birçok ayrıntıyı ortadan kaldırabilir.

ZDNet: Bu yılın başlarında enerji temelli modeller olan JEPA ve H-JEPA'yı tartışmıştık. Anladığım kadarıyla, eğer sizi doğru anladıysam, X ve Y yerleştirmelerinin bu iki tahmininin en benzer olduğu düşük enerji noktasını buluyorsunuz, bu da şu anlama geliyor ki, eğer birinde bir ağaçta bir güvercin varsa ve içinde bir şey varsa. Bir sahnenin arka planı, bu yerleştirmeleri birbirine yakın kılan temel noktalar olmayabilir.

-YL: Doğru. Bu nedenle, JEPA mimarisi, girdiler hakkında maksimum düzeyde bilgilendirici olan ancak aynı zamanda bir düzeyde doğruluk veya güvenilirlikle birbirlerinden tahmin edilebilir temsiller çıkarmak arasında bir ödünleşim, bir uzlaşma bulmaya çalışır. Karşılığını bulur. Bu nedenle, yaprakların hareketinin ayrıntıları da dahil olmak üzere çok büyük miktarda kaynak harcamak ve ardından bir saniye sonra yaprakların nasıl hareket edeceğine karar verecek dinamikleri modellemek ya da sadece onu yere bırakmak arasında bir seçim varsa, Y değişkenini temel olarak tüm bu ayrıntıları ortadan kaldıran bir öngörücü aracılığıyla çalıştırmak, muhtemelen onu ortadan kaldıracaktır çünkü modellemesi ve yakalaması çok zordur.

ZDNet: Şaşırtıcı olan bir şey, “İşe yarıyor, bunu açıklamak için termodinamik teorisini daha sonra bulacağız” demenin büyük bir savunucusu olmanızdı. Burada, “Bunu mutlaka nasıl çözeceğimizi bilmiyorum, ama bunun hakkında düşünmek için bazı fikirler ortaya koymak istiyorum” şeklinde bir yaklaşım benimsiyorsunuz ve hatta belki de bir teoriye veya hipoteze yaklaşıyorsunuz. en az. Bu ilginç çünkü arabanın sağduyulu olup olmadığına bakılmaksızın yayayı görebilen araba üzerinde çalışmak için çok para harcayan birçok insan var. Ve bu insanlardan bazılarının gıdıklanmayacaklarını hayal ediyorum, ama onlar şöyle diyecekler, "Sorun değil, sağduyulu olup olmaması umurumuzda değil, bir simülasyon yaptık, simülasyon harika, ve geliştirmeye devam edeceğiz, simülasyonu ölçeklendirmeye devam edeceğiz.” 

Ve ilginçtir ki, şimdi, bir adım geri atalım ve ne yaptığımızı düşünelim diyebilecek durumdasınız. Ve endüstri diyor ki biz sadece ölçekleyeceğiz, ölçekleyeceğiz, ölçekleyeceğiz, çünkü bu krank gerçekten işe yarıyor. Demek istediğim, GPU'ların yarı iletken krank gerçekten işe yarıyor.

-YL: Orada beş tane soru var. Yani, ölçeklendirme gerekli. Ölçeklendirmemiz gerektiği gerçeğini eleştirmiyorum. ölçeklendirmeliyiz. Bu sinir ağları büyüdükçe daha iyi oluyor. Ölçeklendirmemiz gereken bir soru yok. Ve bir dereceye kadar sağduyuya sahip olanlar büyük olacak. Bunun bir yolu yok bence. Yani ölçekleme iyi, gerekli ama yeterli değil. İşte bu noktayı koyuyorum. Sadece ölçekleme değil. İlk nokta bu. 

İkinci nokta, teorinin önce gelip gelmediği ve bunun gibi şeyler. Yani, bence önce gelen kavramlar var, bir adım geri çekilip, tamam, bu merdiveni biz yaptık ama aya gitmek istiyoruz ve bu merdivenin bizi oraya götürmesinin hiçbir yolu yok demeniz gerekiyor. Yani, temelde, burada yazdığım şey, roketler yapmamız gerekiyor. Size roketleri nasıl yaptığımızın detaylarını veremem ama işte temel prensipler. Bunun için bir teori falan yazmıyorum ama bu bir roket olacak, tamam mı? Ya da bir uzay asansörü ya da her neyse. Tüm teknolojinin tüm detaylarına sahip olmayabiliriz. JEPA üzerinde çalışıyormuşum gibi, bu şeylerden bazılarını çalıştırmaya çalışıyoruz. Ortak yerleştirme, görüntü tanıma için gerçekten iyi çalışıyor, ancak bir dünya modelini eğitmek için kullanmak için zorluklar var. Üzerinde çalışıyoruz, inşallah başaracağız soon, ancak orada muhtemelen üstesinden gelemeyeceğimiz bazı engellerle karşılaşabiliriz. 

Daha sonra, basit bir akıl yürütme biçimi olarak düşünebileceğiniz sistemlerin planlayabilmesini istiyorsak, bunların gizli değişkenlere sahip olması gerektiği konusunda akıl yürütme hakkında önemli bir fikir var. Başka bir deyişle, herhangi bir sinir ağı tarafından hesaplanmayan şeyler, ancak bazı amaç fonksiyonlarını, bazı maliyet fonksiyonlarını en aza indirmek için değerleri çıkarsanan şeyler. Ardından, sistemin davranışını yönlendirmek için bu maliyet işlevini kullanabilirsiniz. Ve bu hiç de yeni bir fikir değil, değil mi? Bu, temeli 50'lerin sonlarına, 60'ların başlarına kadar uzanan çok klasik, optimal kontroldür. Yani burada herhangi bir yenilik iddiasında bulunmuyoruz. Ama söylemek istediğim şu ki, bu tür bir çıkarım, planlama yeteneğine sahip akıllı bir sistemin parçası olmalı ve davranışları fiziksel bir davranışla, taklit eğilimiyle değil, nesnel bir işlevle belirlenebilir veya kontrol edilebilir. davranışı yönlendirir - mutlaka öğrenmeyi yönlendirmez, ancak davranışı yönlendirir. Bilirsiniz, beynimizde buna sahibiz ve her hayvanın bir şeyler için içsel maliyeti veya içsel motivasyonları vardır. Bu, dokuz aylık bebekleri ayağa kalkmaya itiyor. Ayağa kalktığınızda mutlu olmanın maliyeti, maliyet fonksiyonundaki bu terim sabittir. Ama nasıl ayağa kalktığın değil, bu öğrenmektir.

yann-lecun-eylül-2022-4

LeCun, GPT-3 türündeki Transformer tabanlı programlar gibi dev dil modellerinden “Ölçeklendirme iyi, gerekli, ancak yeterli değil” diyor. Transformer adanmışları, “Her şeyi simgeleştiriyoruz ve devasaayrık tahminler yapmak için modeller ve bir şekilde AI bundan ortaya çıkacak… ama bence temel parçalar eksik.”

ZDNet: Sadece bu noktayı tamamlamak için, derin öğrenme topluluğunun çoğu sağduyuya sahip olmayan bir şeyle ilerlemekte iyi görünüyor. Görünüşe göre burada bir noktada bunun bir açmaza dönüştüğü konusunda oldukça net bir tartışma yürütüyorsun. Bazı insanlar sağduyulu otonom bir araca ihtiyacımız olmadığını söylüyor çünkü ölçeklendirme bunu yapacak. Bu yolda devam etmenin doğru olmadığını mı söylüyorsun?

-YL: Biliyorsun, bence sağduyu olmadan beşinci seviye otonom arabalara sahip olmamız tamamen mümkün. Ama bu yaklaşımla ilgili sorun, bu geçici olacak çünkü bunun için mühendislik yapmanız gerekecek. Yani, bilirsiniz, tüm dünyanın haritasını çıkarın, her türlü belirli köşe vakası davranışını sabitleyin, yollarda karşılaşabileceğiniz her türlü garip durumlara sahip olduğunuz yeterli veriyi toplayın, falan, falan, falan. Ve tahminimce, yeterli yatırım ve zamanla, sadece mühendislikten kurtulabilirsiniz. Ama nihayetinde, dünyanın işleyişini anlamak için daha iyi bir iş çıkaran ve bilirsiniz, sağduyu dediğimiz bir dereceye sahip sistemleri içeren daha tatmin edici ve muhtemelen daha iyi bir çözüm olacak. İnsan düzeyinde sağduyu olması gerekmez, ancak sistemin izleyerek, ancak birinin araba kullanmasını izlemeden, sadece etrafta dolaşan şeyleri izleyerek ve dünya hakkında çok şey anlayarak, bir arka plan temeli inşa ederek edinebileceği bir tür bilgi olması gerekir. dünyanın nasıl çalıştığı hakkında bilgi, bunun üzerine araba kullanmayı öğrenebilirsiniz. 

Buna tarihi bir örnek vereyim. Klasik bilgisayar görüşü, üzerinde ince bir öğrenme katmanına sahip olacağınız birçok kablolu, mühendislik modülüne dayanıyordu. Yani, 2012'de AlexNet tarafından yenilen şeyler, temel olarak, SIFT'ler [Scale-Invariant Feature Transform (SIFT), bir görüntüdeki göze çarpan nesneleri tanımlamak için klasik bir vizyon tekniği] gibi, bir tür el yapımı özellik çıkarımına sahipti. ve HOG [Yönlendirilmiş Gradyanların Histogramı, başka bir klasik teknik] ve diğer çeşitli şeyler. Ve sonra, özellik çekirdeklerine ve herneyse, ve bir tür denetimsiz yönteme dayanan bir tür, orta seviye özelliklerin ikinci katmanı. Ve bunun üzerine bir destek vektör makinesi veya nispeten basit bir sınıflandırıcı koyarsınız. Ve bu, 2000'lerin ortasından 2012'ye kadar bir nevi standart boru hattıydı. Ve bunun yerini uçtan uca evrişimsel ağlar aldı, burada bunların hiçbirini kablolamazsınız, sadece çok fazla veriniz olur, ve şeyi uçtan uca eğitiyorsunuz, ki bu benim uzun zamandır savunduğum yaklaşım ama biliyorsunuz o zamana kadar büyük problemler için pratik değildi. 

Konuşma tanımada da benzer bir hikaye vardı, burada yine, verileri nasıl önceden işlediğiniz, kütle-ölçekli kepstrum [sinyal işleme için Hızlı Fourier Dönüşümünün tersi] çıkardığınız ve ardından Gauss Karışımı ile, önceden ayarlanmış mimari, falan, falan, falan ile Gizli Markov Modelleriniz var. Ve böylece, el işi ön uç ve ardından biraz denetimsiz, eğitimli, orta katman ve ardından üstte denetimli bir katman oluşturduğunuz vizyonla biraz aynı mimariye sahip. Ve şimdi, temelde uçtan uca sinir ağları tarafından silindi. Yani orada her şeyi öğrenmeye çalışmak gibi benzer bir şey görüyorum, ama doğru önceliğe, doğru mimariye, doğru yapıya sahip olmalısınız.

yann-lecun-eylül-2022-5

Waymo ve Wayve gibi kendi kendini süren araba kalabalığı, "biraz fazla iyimser", diyor, "veri atabileceklerini ve hemen hemen her şeyi öğrenebilirsiniz" diye düşünüyor. ADAS'ın 5. Seviyesinde kendi kendine giden arabalar mümkündür, "Ama bunun için mühendislik yapmanız gerekecek" ve ilk bilgisayarlı görme modelleri gibi "kırılgan" olacaktır.

ZDNet: Söylediğiniz şey, bazı insanlar, örneğin endüstride uygulanabilirlik için şu anda derin öğrenme ile çalışmayan şeyleri tasarlamaya çalışacaklar ve bilgisayar vizyonunda modası geçmiş bir şey mi yaratmaya başlayacaklar?

-YL: Doğru. Ve kısmen, otonom sürüş üzerinde çalışan insanların son birkaç yılda biraz fazla iyimser olmalarının nedeni kısmen, çünkü, bilirsiniz, evrişimli ağlar ve Transformers gibi, buna veri atabileceğiniz bu tür genel şeylere sahipsiniz. ve hemen hemen her şeyi öğrenebilir. Peki, tamam, bu sorunun çözümü bende diyorsunuz. Yaptığınız ilk şey, arabanın kimseye zarar vermeden birkaç dakika kendi kendine gittiği bir demo oluşturmaktır. Sonra bir sürü köşe vakası olduğunu fark ediyorsunuz ve ben eğitim setini ikiye katlarken ne kadar iyi olduğumun eğrisini çizmeye çalışıyorsunuz ve her türlü köşe vakası olduğu için oraya asla ulaşamayacağınızı fark ediyorsunuz. . Ve her 200 milyon kilometreden daha az ölümlü kazaya neden olacak bir arabanız olması gerekiyor, değil mi? Ee ne yapıyorsun? İki yöne yürüyorsun. 

İlk yön, sistemimin öğrenmesi için gerekli olan veri miktarını nasıl azaltabilirim? İşte burada kendi kendini denetleyen öğrenme devreye giriyor. Bu nedenle, birçok kendi kendine giden araba kıyafeti, kendi kendini denetleyen öğrenmeyle çok ilgileniyor çünkü bu, taklit öğrenme için hala devasa miktarda denetim verisi kullanmanın, ancak daha iyi performans elde etmenin bir yolu. ön eğitim, esasen. Ve henüz tam olarak ortaya çıkmadı, ama olacak. Ve bir de, bu noktada daha gelişmiş şirketlerin çoğunun benimsediği diğer seçenek var, tamam, uçtan uca eğitim yapabiliriz, ancak yapabileceğimiz birçok köşe vakası var' Bu yüzden sadece bu köşe vakalarıyla ilgilenecek sistemler tasarlayacağız ve temel olarak onları özel durumlar olarak ele alacağız ve kontrolü kabloyla bağlayacağız ve sonra özel durumları ele almak için birçok temel davranışı kabloyla bağlayacağız. Yeterince büyük bir mühendis ekibiniz varsa, bunu başarabilirsiniz. Ancak bu uzun zaman alacak ve sonunda, hala biraz kırılgan olacak, belki konuşlandırabileceğiniz kadar güvenilir, ancak bir miktar kırılganlık ile, ki bu, daha öğrenme temelli bir yaklaşımla ortaya çıkabilir. gelecekte arabalar olmayacak çünkü dünyanın nasıl çalıştığına dair bir düzeyde sağduyuya ve anlayışa sahip olabilirler. 

Kısa vadede, bir tür mühendislik yaklaşımı kazanacak - zaten kazanıyor. Bu, dünyanın ve Wayve'in Waymo ve Cruise'uve her neyse, yaptıkları şey bu. Ardından, muhtemelen mühendislik yaklaşımının ilerleme kaydetmesine yardımcı olacak kendi kendini denetleyen öğrenme yaklaşımı var. Ancak o zaman, uzun vadede, bu şirketlerin beklemesi için çok uzun olabilecek, muhtemelen daha entegre bir otonom akıllı sürüş sistemi olacaktır.

ZDNet: Çoğu yatırımcının yatırım ufkunun ötesinde diyoruz.

-YL: Doğru. Yani soru şu ki, performans istenen seviyeye ulaşmadan insanlar sabrını kaybedecek veya paraları bitecek mi?

ZDNet: Modelde seçtiğiniz bazı unsurları neden seçtiğinizle ilgili söylenecek ilginç bir şey var mı? Kenneth Craik'ten alıntı yaptığınız için [1943,Açıklamanın Doğası] ve Bryson ve Ho'dan [1969, Uygulanan optimal kontrol] ve özellikle bu insanların bunu yaptıklarına kadar çivilediğine inanıyorsanız, neden bu etkilerle başladığınızı merak ediyorum. Neden orada başladın?

-YL: Şey, kesinlikle tüm detayları çivilediklerini sanmıyorum. Bryson ve Ho, bu, 1987'de Toronto'da Geoffrey Hinton ile doktora sonrası doktora yaparken okuduğum bir kitap. Ancak doktoramı yazarken bu işi önceden biliyordum ve optimal kontrol ile backprop arasında esasen bağlantı kurdum. Eğer gerçekten başka bir Schmidhuber olmak isteseydiniz, backprop'un gerçek mucitlerinin aslında optimal kontrol teorisyenleri Henry J. Kelley, Arthur Bryson ve hatta belki de bir Rus optimal geri kontrol teorisyeni olan Lev Pontryagin olduğunu söylerdiniz. 50'lerin sonlarında. 

Bunu anladılar ve aslında bunun kökünü görebilirsiniz, bunun altındaki matematik Lagrange mekaniğidir. Aslında Euler ve Lagrange'a geri dönebilirsiniz ve aslında Lagrange klasik mekaniği tanımlarında bunun bir kokusunu bulabilirsiniz. Yani, optimal kontrol bağlamında, bu adamların ilgilendiği şey temelde roket yörüngelerini hesaplamaktı. Biliyorsunuz, bu erken uzay çağıydı. Ve roketin bir modeliniz varsa, size burada roketin o andaki durumu olduğunu söyler. t, ve işte yapacağım eylem, yani, çeşitli türlerde itme ve aktüatörler, işte roketin o andaki durumu t + 1.

ZDNet: Bir durum-eylem modeli, bir değer modeli.

-YL: Bu doğru, kontrolün temeli. Böylece, şimdi bir dizi komut hayal ederek roketinizin atışını simüle edebilirsiniz ve sonra roketin hedefine, bir uzay istasyonuna veya her neyse, uzaklığı olan bir maliyet fonksiyonuna sahip olursunuz. Ve sonra bir çeşit eğimli inişle, roketimin hedefe mümkün olduğunca yaklaşması için hareket sıramı nasıl güncelleyebilirim, çözebilirsiniz. Ve bu, zamanda geriye doğru yayılan sinyallerle gelmelidir. Ve bu geri yayılım, gradyan geri yayılım. Bu sinyallere Lagrange mekaniğinde eşlenik değişkenler denir, ama aslında onlar gradyanlardır. Bu yüzden backprop'u icat ettiler, ancak bu prensibin örüntü tanıma veya benzeri bir şey yapabilen çok aşamalı bir sistemi eğitmek için kullanılabileceğini anlamadılar. Bu, belki 70'lerin sonlarına, 80'lerin başlarına kadar gerçekten fark edilmedi ve daha sonra fiilen uygulanmadı ve 80'lerin ortalarına kadar işe yaramadı. Tamam, işte bu, backprop'un gerçekten, bir nevi, başladığı yer çünkü insanlar burada bir sinir ağını uçtan uca, çok katmanlı eğitebileceğiniz birkaç satır kod gösterdi. Bu da Perceptron'un sınırlarını kaldırıyor. Ve evet, optimal kontrole sahip bağlantılar var, ama sorun değil.

ZDNet: Yani, başladığınız bu etkilerin backprop'a geri döndüğünü söylemenin uzun bir yolu ve bu sizin için bir başlangıç ​​noktası olarak önemli miydi?

-YL: Evet, ama bence insanların biraz unuttuğu şey, bu konuda epeyce çalışma vardı, bilirsiniz, 90'larda, hatta 80'lerde, Michael Jordan [MIT Dept. of Brain] gibi insanlar da dahil. ve Bilişsel Bilimler] ve artık sinir ağları yapmayan bunun gibi insanlar, ama sinir ağlarını kontrol için kullanabileceğiniz fikri ve klasik optimal kontrol fikirlerini kullanabilirsiniz. Yani, model kestirimci kontrol denen şey, şimdi model kestirimli kontrol denen şey gibi şeyler, kontrol etmeye çalıştığınız sistemin iyi bir modeline sahipseniz, bir dizi eylemin sonucunu simüle edebileceğiniz veya hayal edebileceğiniz bu fikir. ve içinde bulunduğu ortam. Ve sonra gradyan inişiyle, esasen - bu öğrenme değil, bu çıkarımdır - amacımı en aza indirecek en iyi eylem dizisinin ne olduğunu anlayabilirsiniz. Dolayısıyla, çıkarım için gizli değişkenli bir maliyet fonksiyonunun kullanılması, bence, büyük ölçekli sinir ağlarının mevcut ekinlerinin unuttuğu bir şey. Ancak uzun süre makine öğreniminin çok klasik bir bileşeniydi. Bu nedenle, her Bayesian Net veya grafiksel model veya olasılıksal grafik model bu tür bir çıkarımı kullandı. Bir grup değişken arasındaki bağımlılıkları yakalayan bir modeliniz var, size bazı değişkenlerin değeri söyleniyor ve ardından geri kalan değişkenlerin en olası değerini çıkarmanız gerekiyor. Bu, grafik modellerde ve Bayes Ağlarında ve bunun gibi şeylerde çıkarımın temel ilkesidir. Ve bence temel olarak akıl yürütme, akıl yürütme ve planlama hakkında olmalıdır.

ZDNet: Sen bir dolap Bayes'sin.

-YL: Ben olasılıkçı olmayan bir Bayesciyim. Bu şakayı daha önce yapmıştım. Aslında birkaç yıl önce NeurIPS'deydim, sanırım 2018 veya 2019'daydı ve bana Bayesçi olup olmadığımı soran bir Bayesçi tarafından videoya yakalandım ve evet, ben bir Bayesçiyim ama dedim ki İsterseniz, olasılıkçı olmayan bir Bayesçiyim, bir nevi, enerji tabanlı bir Bayesçiyim. 

ZDNet: Hangi kesinlikle bir şey gibi geliyor Star Trek. Bu makalenin sonunda bahsetmiştiniz, hayal ettiğiniz şeyi gerçekleştirmek gerçekten çok uzun yıllar alacak. Bana şu anda bu çalışmaların bir kısmının nelerden oluştuğunu anlat.

-YL: Bu yüzden, JEPA'yı nasıl eğiteceğinizi ve oluşturacağınızı makalede açıklıyorum. Ve savunduğum kriter, çıkarılan temsillerin girdi hakkında sahip olduğu bilgi içeriğini en üst düzeye çıkarmanın bir yolunu bulmaktır. Ve ikincisi, tahmin hatasını en aza indiriyor. Ve tahmin edicide, tahmin edicinin deterministik olmamasına izin veren bir gizli değişkeniniz varsa, bilgi içeriğini en aza indirerek bu gizli değişkeni de düzenlemeniz gerekir. Yani, şimdi iki sorununuz var, bu, bazı sinir ağlarının çıktısının bilgi içeriğini nasıl en üst düzeye çıkarırsınız, diğeri ise bazı gizli değişkenlerin bilgi içeriğini nasıl en aza indirirsiniz? Ve bu iki şeyi yapmazsanız, sistem çökecektir. İlginç bir şey öğrenmeyecek. Her şeye sıfır enerji verecek, bunun gibi iyi bir bağımlılık modeli değil. Bahsettiğim çöküş önleme sorunu. 

Ve insanların şimdiye kadar yaptığı onca şey için söylüyorum, çöküşü önlemek için sadece iki kategoride yöntem var. Biri karşılaştırmalı yöntemler, diğeri ise düzenlileştirilmiş yöntemlerdir. Böylece, iki girdinin temsillerinin bilgi içeriğini maksimize etme ve gizli değişkenin bilgi içeriğini minimize etme fikri, düzenli yöntemlere aittir. Ancak bu ortak gömme mimarilerindeki çalışmaların çoğu, karşıt yöntemler kullanıyor. Aslında, muhtemelen şu anda en popülerler. Öyleyse soru, bilgi içeriğini optimize edebileceğiniz veya en aza indirebileceğiniz şekilde tam olarak nasıl ölçeceğinizdir? İşte bu noktada işler karmaşıklaşıyor çünkü bilgi içeriğini nasıl ölçeceğimizi gerçekten bilmiyoruz. Yaklaşabiliriz, üst sınır yapabiliriz, bunun gibi şeyler yapabiliriz. Ancak aslında bir dereceye kadar iyi tanımlanmamış olan bilgi içeriğini gerçekten ölçmüyorlar.

ZDNet: Bu Shannon Yasası değil mi? Bilgi teorisi değil mi? Belli bir miktarda entropi, iyi entropi ve kötü entropi var ve iyi entropi çalışan bir sembol sistemidir, kötü entropi gürültüdür. Her şey Shannon tarafından çözülmedi mi?

-YL: Haklısın, ama bunun arkasında büyük bir kusur var. Size gelen veriler varsa ve verileri bir şekilde ayrık semboller halinde nicelleştirebilirseniz ve sonra bu sembollerin her birinin olasılığını ölçerseniz, o zaman bu semboller tarafından taşınan maksimum bilgi miktarı şu anlama gelir: olası sembollerin toplamı Pi günlüğü Pi, Sağ? Neresi Pi sembolün olasılığıdır ben - bu Shannon entropisi. [Shannon Yasası genel olarak H = – ∑ pi log pi olarak formüle edilir.]

Yine de sorun şu: Nedir? Pi? Sembol sayısı az olduğunda ve semboller bağımsız olarak çizildiğinde kolaydır. Birçok sembol ve bağımlılık olduğunda, çok zordur. Yani, bir bit diziniz varsa ve bitlerin birbirinden bağımsız olduğunu ve olasılığın bir ile sıfır arasında veya her neyse eşit olduğunu varsayarsanız, o zaman entropiyi kolayca ölçebilirsiniz, sorun değil. Ama size gelen şeyler yüksek boyutlu vektörlerse, bilirsiniz, veri çerçeveleri veya bunun gibi bir şeyse, nedir? Pi? Dağıtım nedir? İlk önce, yüksek boyutlu, sürekli bir uzay olan o uzayı nicelemeniz gerekir. Bunu nasıl doğru bir şekilde ölçeceğiniz hakkında hiçbir fikriniz yok. K-araçlarını vb. kullanabilirsiniz. İnsanlar video sıkıştırma ve görüntü sıkıştırma yaptıklarında bunu yaparlar. Ama bu sadece bir tahmin. Ve sonra bağımsızlık varsayımları yapmak zorundasın. Dolayısıyla, bir videoda ardışık karelerin bağımsız olmadığı açıktır. Bağımlılıklar vardır ve bu çerçeve, bir saat önce gördüğünüz, aynı şeyin resmi olan başka bir çerçeveye bağlı olabilir. Yani, biliyorsun, ölçemezsin Pi. Ölçmek Pi, tahmin etmeyi öğrenen bir makine öğrenme sistemine sahip olmalısınız. Ve böylece önceki soruna geri döndünüz. Bu nedenle, bilgi ölçüsünü yalnızca yaklaşık olarak tahmin edebilirsiniz. 

yann-lecun-eylül-2022-6

"Soru, bilgi içeriğini optimize edebileceğiniz veya en aza indirebileceğiniz şekilde tam olarak nasıl ölçeceğinizdir?" LeCun diyor. "İşler bu noktada karmaşıklaşıyor çünkü bilgi içeriğini gerçekten nasıl ölçeceğimizi bilmiyoruz." Şimdiye kadar yapılabilecek en iyi şey, "istediğimiz görev için yeterince iyi" bir proxy bulmaktır.

Daha somut bir örnek vereyim. Üzerinde çalıştığımız ve parçada bahsettiğim algoritmalardan biri, VICReg, varyans-invaryans-kovaryans düzenlemesi denen şey. ICLR'de yayınlanan ayrı bir makalede ve arXiv'e konuldu yaklaşık bir yıl önce, 2021. Ve buradaki fikir, bilgiyi en üst düzeye çıkarmaktır. Ve fikir aslında grubumun daha önceki bir makalesinden çıktı. barlow ikizler. Temel olarak, değişkenler arasındaki tek bağımlılığın korelasyon, doğrusal bağımlılık olduğunu varsayarak, bir sinir ağından çıkan bir vektörün bilgi içeriğini en üst düzeye çıkarırsınız. Dolayısıyla, değişken çiftleri arasında veya sisteminizdeki değişkenler arasında mümkün olan tek bağımlılığın, son derece kaba bir yaklaşım olan değerli çiftler arasındaki korelasyonlar olduğunu varsayarsanız, sisteminizden çıkan bilgi içeriğini en üst düzeye çıkarabilirsiniz. tüm değişkenlerin sıfır olmayan bir varyansa sahip olduğundan emin olarak - diyelim ki varyans bir, ne olduğu önemli değil - ve sonra onları geri ilişkilendirerek, beyazlatma adı verilen aynı süreç, bu da yeni değil. Bununla ilgili sorun, her iki değişken grubu arasında veya hatta yalnızca doğrusal bağımlılık olmayan değişken çiftleri arasında son derece karmaşık bağımlılıklara sahip olabilmenizdir ve bunlar korelasyonlarda görünmezler. Örneğin, iki değişkeniniz varsa ve bu iki değişkenin tüm noktaları bir tür spiral şeklinde sıralanıyorsa, bu iki değişken arasında çok güçlü bir bağımlılık vardır, değil mi? Ama aslında, bu iki değişken arasındaki korelasyonu hesaplarsanız, bunlar korelasyonlu değildir. İşte bu iki değişkenin bilgi içeriğinin aslında çok küçük olduğu bir örnek, bu sadece bir nicelik çünkü o sizin spiraldeki konumunuz. Korelasyonsuzdurlar, bu yüzden bu iki değişkenden çıkan çok fazla bilgiye sahip olduğunuzu düşünürsünüz, oysa aslında yoktur, sadece, bilirsiniz, esasen değişkenlerden birini diğerinden tahmin edebilirsiniz. Bu, bilgi içeriğini ölçmek için yalnızca çok yaklaşık yollara sahip olduğumuzu gösteriyor.

ZDNet: Ve şimdi bununla üzerinde çalışman gereken şeylerden biri bu mu? Bu, bilgi içeriğini en üst düzeye çıkardığımızı ve en aza indirdiğimizi nasıl bileceğimize ilişkin daha büyük sorudur?

-YL:  Veya bunun için kullandığımız proxy'nin istediğimiz görev için yeterince iyi olup olmadığı. Aslında bunu makine öğreniminde her zaman yapıyoruz. Küçülttüğümüz maliyet fonksiyonları asla gerçekten minimize etmek istediklerimiz değildir. Örneğin, sınıflandırma yapmak istiyorsunuz, tamam mı? Bir sınıflandırıcıyı eğitirken en aza indirmek istediğiniz maliyet fonksiyonu, sınıflandırıcının yaptığı hataların sayısıdır. Ama bu, türevlenemez, korkunç bir maliyet fonksiyonudur, en aza indiremezsiniz çünkü bilirsiniz ki sinir ağınızın ağırlıklarını değiştireceksiniz, bu örneklerden biri kararını değiştirene kadar hiçbir şey değişmeyecek ve sonra bir sıçrama. hatada, olumlu veya olumsuz.

ZDNet: Yani kesinlikle diyebileceğiniz bir nesnel fonksiyon olan bir vekiliniz var, kesinlikle bu şeyin gradyanlarını akıtabiliriz.

-YL: Doğru. İnsanlar bu çapraz entropi kaybını veya SOFTMAX'ı kullanıyor, bunun için birkaç adınız var, ama aynı şey. Ve temelde, sistemin her bir kategoriye verdiği puanı hesaba katarak, düzgünleştirmenin yapıldığı yerde, sistemin yaptığı hata sayısının düzgün bir tahminidir.

ZDNet: Örtmek istediğiniz bizim kapsamadığımız bir şey var mı?

-YL: Muhtemelen ana noktaları vurguluyor. AI sistemlerinin akıl yürütmeye ihtiyacı olduğunu düşünüyorum ve bunun için savunduğum süreç, bazı gizli değişkenlere göre bazı hedefleri en aza indirmektir. Bu, sistemlerin planlamasını ve akıl yürütmesini sağlar. Bence olasılık çerçevesini terk etmeliyiz, çünkü yüksek boyutlu, sürekli değişkenler arasındaki bağımlılıkları yakalamak gibi şeyler yapmak istediğimizde inatçıdır. Ve üretken modellerden vazgeçmeyi savunuyorum çünkü sistem tahmin edilmesi çok zor şeyleri tahmin etmek için çok fazla kaynak ayırmak zorunda kalacak ve belki de çok fazla kaynak tüketecek. Ve bu kadar. İsterseniz ana mesajlar bunlar. Ve sonra genel mimari. Sonra bilincin doğası ve yapılandırıcının rolü hakkında spekülasyonlar var, ama bu gerçekten spekülasyon.

ZDNet: Bir dahaki sefere buna geleceğiz. Size soracaktım, bu şeyi nasıl kıyaslarsınız? Ama sanırım şu anda kıyaslama yapmaktan biraz daha uzaktasın?

-YL: Mutlaka o kadar uzak, basitleştirilmiş sürümler değil. Kontrollü ya da pekiştirmeli öğrenmede herkesin yaptığını yapabilirsiniz, yani nesneyi Atari oyunları ya da buna benzer bir şey ya da içinde biraz belirsizlik olan başka bir oyun oynaması için eğitirsiniz.

ZDNet: Zaman ayırdığın için teşekkürler, Yann.

Kaynak