LeCun, guru AI w Meta: Większość dzisiejszych podejść do sztucznej inteligencji nigdy nie doprowadzi do prawdziwej inteligencji

yann-lecun-wrzesień-2022-1

„Myślę, że systemy sztucznej inteligencji muszą być w stanie wnioskować” — mówi Yann LeCun, główny naukowiec ds. sztucznej inteligencji w Meta. Dzisiejsze popularne podejścia do sztucznej inteligencji, takie jak Transformers, z których wiele opiera się na jego pionierskiej pracy w tej dziedzinie, nie będą wystarczające. „Musisz cofnąć się o krok i powiedzieć: OK, zbudowaliśmy tę drabinę, ale chcemy polecieć na Księżyc i nie ma mowy, żeby ta drabina nas tam zaprowadziła”, mówi LeCun.

Yanna LeCuna, główny naukowiec AI Meta Properties, właściciel Facebooka, Instagrama i WhatsApp, prawdopodobnie odhaczy wielu ludzi w swojej dziedzinie. 

Wraz z opublikowaniem w czerwcu artykułu do przemyśleń na serwerze Open Review, LeCun przedstawił szeroki przegląd podejścia, które jego zdaniem obiecuje osiągnięcie inteligencji na poziomie człowieka w maszynach. 

Sugerowane, jeśli nie wyrażone w artykule, jest twierdzenie, że większość dzisiejszych dużych projektów w sztucznej inteligencji nigdy nie będzie w stanie osiągnąć tego celu na poziomie ludzkim.

W dyskusji w tym miesiącu z ZDNet za pośrednictwem Zoom LeCun dał jasno do zrozumienia, że ​​z wielkim sceptycyzmem podchodzi obecnie do wielu z najbardziej udanych kierunków badań w zakresie głębokiego uczenia się.

„Myślę, że są konieczne, ale niewystarczające”, powiedział zwycięzca nagrody Turinga ZDNet dążeń jego rówieśników. 

Należą do nich duże modele językowe, takie jak GPT-3 oparty na transformatorze i im podobne. Jak opisuje to LeCun, wielbiciele Transformera wierzą: „Tokenizujemy wszystko i trenujemy gigantycznemodele do tworzenia dyskretnych prognoz i jakoś z tego wyłoni się sztuczna inteligencja”.

„Nie mylą się”, mówi, „w tym sensie, że może to być element przyszłego inteligentnego systemu, ale myślę, że brakuje mu istotnych elementów”.

Również: Luminarz AI firmy Meta, LeCun, bada granice energetyczne głębokiego uczenia

To zaskakująca krytyka tego, co wydaje się działać, pochodząca od uczonego, który udoskonalił wykorzystanie splotowych sieci neuronowych, praktycznej techniki, która jest niezwykle wydajna w programach głębokiego uczenia się. 

LeCun dostrzega wady i ograniczenia w wielu innych bardzo udanych obszarach tej dyscypliny. 

Uczenie się przez wzmacnianie też nigdy nie wystarczy, twierdzi. Badacze, tacy jak David Silver z DeepMind, który opracował program AlphaZero, który opanował grę w szachy, shogi i go, koncentrują się na programach „bardzo opartych na działaniu”, zauważa LeCun, ale „większość nauki, którą robimy, nie robimy to, faktycznie podejmując działania, robimy to przez obserwację”. 

62-letni Lecun, z perspektywy dziesięcioleci osiągnięć, wyraża jednak pilną potrzebę skonfrontowania się z tym, co uważa za ślepe zaułki, ku którym wielu może się spieszyć, i spróbowania nakłonienia swojego pola w kierunku, w którym jego zdaniem sprawy powinny zmierzać. 

„Widzimy wiele roszczeń dotyczących tego, co powinniśmy zrobić, aby iść naprzód w kierunku sztucznej inteligencji na poziomie człowieka” – mówi. „I są pomysły, które moim zdaniem są źle skierowane”.

„Nie doszliśmy do punktu, w którym nasze inteligentne maszyny mają tyle zdrowego rozsądku, co kot”, zauważa Lecun. „Więc dlaczego nie zaczniemy tam?” 

Porzucił wcześniejszą wiarę w wykorzystywanie sieci generatywnych do takich rzeczy, jak przewidywanie następnej klatki w filmie. „To była kompletna porażka”, mówi. 

LeCun potępia tych, których nazywa „religijnymi probabilistami”, którzy „uważają, że teoria prawdopodobieństwa jest jedyną strukturą, której można użyć do wyjaśnienia uczenia maszynowego”. 

Mówi, że podejście czysto statystyczne jest niewykonalne. „To zbyt wiele, by prosić, aby model świata był całkowicie probabilistyczny; nie wiemy, jak to zrobić”.

Nie tylko akademicy, ale przemysłowa sztuczna inteligencja wymaga głębokiego przemyślenia, przekonuje LeCun. Tłum autonomicznych samochodów, startupy takie jak Wayve, są „trochę zbyt optymistyczne”, mówi, myśląc, że mogą „przesyłać dane do” dużych sieci neuronowych „i można się nauczyć prawie wszystkiego”.

„Wiesz, myślę, że jest całkowicie możliwe, że będziemy mieli samochody autonomiczne piątego poziomu bez zdrowego rozsądku”, mówi, odnosząc się do „ADAS” zaawansowany system wspomagania kierowcy terminy dotyczące samodzielnej jazdy, „ale będziesz musiał z tego wypracować”.

Wierzy, że taka przekombinowana, samonapędzająca się technologia będzie czymś tak skrzypiącym i kruchym, jak wszystkie programy komputerowe, które stały się przestarzałe dzięki głębokiemu uczeniu.

„Ostatecznie będzie bardziej satysfakcjonujące i prawdopodobnie lepsze rozwiązanie, które obejmuje systemy, które lepiej rozumieją sposób, w jaki działa świat”.

Po drodze LeCun przedstawia miażdżące opinie swoich największych krytyków, takich jak profesor NYU Gary Marcus – „nigdy nie wniósł niczego do sztucznej inteligencji” – i Jürgen Schmidhuber, współdyrektor Instytutu Badań nad Sztuczną Inteligencją Dalle Molle – „to jest bardzo łatwe do sadzenia flag”.

Poza krytyką, ważniejszym punktem poruszonym przez LeCun jest to, że pewne podstawowe problemy napotykają całą sztuczną inteligencję, w szczególności jak mierzyć informacje.

„Musisz cofnąć się o krok i powiedzieć: OK, zbudowaliśmy tę drabinę, ale chcemy polecieć na Księżyc i nie ma mowy, aby ta drabina nas tam zaprowadziła”, mówi LeCun o swoim pragnieniu ponownego przemyślenia podstawowych pojęć. „Zasadniczo piszę tutaj, że musimy budować rakiety, nie mogę podać szczegółów, jak budujemy rakiety, ale oto podstawowe zasady”.

Artykuł i przemyślenia LeCuna w wywiadzie można lepiej zrozumieć, czytając wywiad LeCun na początku tego roku z ZDNet w którym opowiada się za samonadzorowanym uczeniem się opartym na energii jako ścieżką do głębokiego uczenia się. Te refleksje dają poczucie podstawowego podejścia do tego, co ma nadzieję zbudować jako alternatywę dla rzeczy, które, jak twierdzi, nie dotrą do mety. 

Poniżej znajduje się lekko zredagowany zapis wywiadu.

Sieć ZD: Tematem naszego czatu jest ten artykuł „Droga do autonomicznej inteligencji maszyn”, którego wersja 0.9.2 jest wersją istniejącą, tak?

Yann LeCun: Tak, uważam to za dokument roboczy. Umieściłem go więc na Open Review, czekając na komentarze i sugestie, być może dodatkowe odniesienia, a następnie stworzę poprawioną wersję. 

Sieć ZD: Widzę, że Juergen Schmidhuber dodał już kilka komentarzy do Open Review.

YL: Cóż, tak, zawsze to robi. Cytuję jeden z jego artykułów w mojej gazecie. Myślę, że argumenty, które wysunął w sieciach społecznościowych, że w zasadzie wymyślił to wszystko w 1991 roku, tak jak robił to w innych przypadkach, po prostu nie są prawdą. To znaczy, bardzo łatwo to zrobićkładzenie flagi i, niejako, napisanie pomysłu bez żadnych eksperymentów, bez teorii, po prostu zasugeruj, że możesz to zrobić w ten sposób. Ale wiecie, jest duża różnica między samym pomysłem, a następnie rozpracowaniem problemu z zabawką, a następnie rozpracowaniem prawdziwego problemu, a następnie zrobieniem teorii, która pokazuje, dlaczego to działa, a następnie wdrożenie go. Istnieje cały łańcuch, a jego koncepcja uznania naukowego jest taka, że ​​jest to pierwsza osoba, która w pewnym sensie wpadła na taki pomysł i powinna otrzymać wszystkie zasługi. I to jest śmieszne. 

Sieć ZD: Nie wierz we wszystko, co słyszysz w mediach społecznościowych. 

YL: Chodzi mi o to, że główna gazeta, o której mówi, że powinienem cytować, nie ma żadnego z głównych pomysłów, o których mówię w gazecie. Zrobił to również z GAN-ami i innymi rzeczami, co okazało się nieprawdą. Sadzenie flag jest łatwe, znacznie trudniej jest wnieść swój wkład. A tak przy okazji, w tym konkretnym artykule wyraźnie powiedziałem, że nie jest to praca naukowa w zwykłym znaczeniu tego słowa. To raczej dokument przedstawiający stanowisko, w którym powinna iść ta rzecz. Jest tam kilka pomysłów, które mogą być nowe, ale większość z nich nie jest. Zasadniczo nie rości sobie żadnego priorytetu w większości tego, co napisałem w tym artykule.

yann-lecun-wrzesień-2022-2

Nauka przez wzmacnianie również nigdy nie wystarczy, utrzymuje LeCun. Badacze, tacy jak David Silver z DeepMind, który opracował program AlphaZero, który opanował grę w szachy, shogi i go, są „bardzo oparte na działaniu”, zauważa LeCun, ale „większość uczenia się, które robimy, nie jest działania, robimy to poprzez obserwację.” 

Sieć ZD: I może to dobry początek, bo jestem ciekaw, dlaczego teraz podążasz tą ścieżką? Co skłoniło cię do myślenia o tym? Dlaczego chciałeś to napisać?

YL: No cóż, myślałem o tym od bardzo dawna, o ścieżce prowadzącej do inteligencji na poziomie ludzkim lub zwierzęcym lub uczenia się i zdolności. W moich wystąpieniach mówiłem dość głośno o tym, że zarówno nadzorowane uczenie się, jak i uczenie się ze wzmocnieniem są niewystarczające, aby naśladować rodzaj uczenia się, który obserwujemy u zwierząt i ludzi. Robię to od siedmiu czy ośmiu lat. Więc to nie jest nowe. Miałem przemówienie na NeurIPS wiele lat temu, w którym przedstawiłem tę kwestię w zasadzie i różne rozmowy, są nagrania. Po co teraz pisać artykuł? Doszedłem do sedna — [badacz mózgu Google] Geoff Hinton zrobił coś podobnego — mam na myśli, z pewnością, on bardziej niż ja, widzimy, że czas ucieka. Nie jesteśmy młodzi.

Sieć ZD: Sześćdziesiąt to nowa pięćdziesiątka. 

YL: To prawda, ale chodzi o to, że widzimy wiele roszczeń dotyczących tego, co powinniśmy zrobić, aby iść naprzód w kierunku sztucznej inteligencji na poziomie człowieka. Są też pomysły, które moim zdaniem są błędnie skierowane. Tak więc jednym pomysłem jest, och, powinniśmy po prostu dodać symboliczne rozumowanie do sieci neuronowych. I nie wiem jak to zrobić. Być może to, co wyjaśniłem w artykule, może być jednym podejściem, które zrobiłoby to samo bez wyraźnej manipulacji symbolami. Jest to rodzaj tradycyjnego Gary'ego Marcusesa tego świata. Nawiasem mówiąc, Gary Marcus nie jest osobą AI, jest psychologiem. Nigdy nie wniósł niczego do AI. Odwalił naprawdę dobrą robotę z psychologii eksperymentalnej, ale nigdy nie napisał recenzowanej pracy na temat sztucznej inteligencji. Więc są tacy ludzie. 

Na świecie jest [naukowiec zajmujący się zasadami DeepMind] David Silvers, który twierdzi, że nagroda wystarczy, zasadniczo chodzi o uczenie się przez wzmacnianie, musimy tylko uczynić to trochę bardziej wydajnym, ok? I myślę, że nie są w błędzie, ale myślę, że niezbędne kroki w kierunku zwiększenia wydajności uczenia się przez wzmacnianie, w zasadzie sprawią, że uczenie się ze wzmocnieniem stanie się wisienką na torcie. A główną brakującą częścią jest uczenie się, jak działa świat, głównie poprzez obserwację bez działania. Uczenie się przez wzmacnianie jest bardzo oparte na działaniu, uczysz się rzeczy o świecie, podejmując działania i widząc wyniki.

Sieć ZD: I skupia się na nagrodzie.

YL: Jest zorientowany na nagrodę, a także na działanie. Musisz więc działać w świecie, aby móc dowiedzieć się czegoś o świecie. A główne twierdzenie, jakie wysuwam w artykule na temat samonadzorowanego uczenia się, to, że większość uczenia się, jakie robimy, nie robimy przez faktyczne podejmowanie działań, robimy to przez obserwację. I jest to bardzo niekonwencjonalne, zarówno dla osób uczących się przez wzmocnienie, ale także dla wielu psychologów i kognitywistów, którzy uważają, że działanie jest — nie mówię, że działanie nie jest niezbędne, to is niezbędny. Ale myślę, że większość tego, czego się uczymy, dotyczy głównie struktury świata i obejmuje oczywiście interakcję, akcję i zabawę, i tym podobne, ale wiele z tego ma charakter obserwacyjny.

Sieć ZD: Uda się również odhaczyć ludzi Transformera, ludzi na pierwszym miejscu w języku, w tym samym czasie. Jak możesz to zbudować bez języka? Może uda Ci się odhaczyć wiele osób. 

YL: Tak, jestem do tego przyzwyczajony. Tak więc, są ludzie pierwsi od języka, którzy mówią, no wiesz, inteligencja dotyczy języka, podłożem inteligencji jest język, bla, bla, bla. Ale to w pewnym sensie odrzuca inteligencję zwierząt. Wiesz, nie doszliśmy do punktu, w którym nasze inteligentne maszyny mają tyle zdrowego rozsądku, co kot. Dlaczego więc nie zaczniemy tam? Co takiego pozwala kotu pojmować otaczający go świat, robić całkiem mądre rzeczy, planować i takie rzeczy, a psom jeszcze lepiej? 

Są też wszyscy ludzie, którzy mówią: Och, inteligencja to sprawa społeczna, prawda? Jesteśmy inteligentni, ponieważ rozmawiamy ze sobą i wymieniamy informacje i bla, bla, bla. Istnieje wiele gatunków aspołecznych, które nigdy nie spotykają swoich bardzo inteligentnych rodziców, jak ośmiornice czy orangutany.Mam na myśli, że [orangutany] z pewnością są wychowywane przez matkę, ale nie są zwierzętami społecznymi. 

Ale inną kategorią osób, którą mógłbym odhaczyć, są ludzie, którzy twierdzą, że skalowanie wystarczy. Więc w zasadzie używamy po prostu gigantycznych Transformerów, szkolimy je na multimodalnych danych, które obejmują, wiesz, wideo, tekst, bla, bla, bla. My, niby, petryfikujemywszystko i tokenizuj wszystko, a potem trenuj gigantycznemodele do tworzenia dyskretnych prognoz, i jakoś z tego wyłoni się sztuczna inteligencja. Nie mylą się w tym sensie, że może to być komponent przyszłego inteligentnego systemu. Ale myślę, że brakuje podstawowych elementów. 

Jest jeszcze inna kategoria ludzi, których zamierzam odhaczyć tym artykułem. I to probabiliści, probabiliści religijni. Tak więc ludzie, którzy uważają, że teoria prawdopodobieństwa jest jedyną strukturą, której można użyć do wyjaśnienia uczenia maszynowego. I jak starałem się wyjaśnić w tym artykule, to w zasadzie zbyt wiele, aby prosić o model świata, aby był całkowicie probabilistyczny. Nie wiemy, jak to zrobić. Jest niewykonalność obliczeniowa. Więc proponuję porzucić cały ten pomysł. I oczywiście, wiesz, jest to ogromny filar nie tylko uczenia maszynowego, ale wszystkich statystyk, które twierdzą, że są normalnym formalizmem uczenia maszynowego. 

Inna rzecz - 

Sieć ZD: Jesteś na fali…

YL: — to tak zwane modele generatywne. A więc pomysł, że możesz nauczyć się przewidywać i być może możesz dowiedzieć się wiele o świecie dzięki przewidywaniu. Więc daję ci kawałek wideo i proszę system, aby przewidział, co dzieje się dalej w filmie. I mogę poprosić o przewidzenie rzeczywistych klatek wideo ze wszystkimi szczegółami. Ale to, o czym spieram się w gazecie, jest takie, że w rzeczywistości jest to zbyt wiele pytań i zbyt skomplikowane. I to jest coś, o czym zmieniłem zdanie. Jeszcze około dwa lata temu byłem zwolennikiem tego, co nazywam modelami generującymi zmienne utajone, czyli modelami, które przewidują, co stanie się dalej lub brakujące informacje, być może za pomocą zmiennej utajonej, jeśli nie można przewidzieć deterministyczny. I zrezygnowałem z tego. Powód, dla którego zrezygnowałem, jest oparty na wynikach empirycznych, w których ludzie próbowali zastosować, rodzaj, przewidywanie lub szkolenie oparte na rekonstrukcji typu używanego w BERTi dużych modeli językowych, próbowali zastosować to do obrazów, ale to była kompletna porażka. Powodem, dla którego jest to kompletna porażka, są znowu ograniczenia modeli probabilistycznych, w których stosunkowo łatwo jest przewidzieć dyskretne tokeny, takie jak słowa, ponieważ możemy obliczyć rozkład prawdopodobieństwa dla wszystkich słów w słowniku. To łatwe. Ale jeśli poprosimy system o wytworzenie rozkładu prawdopodobieństwa dla wszystkich możliwych klatek wideo, nie mamy pojęcia, jak to sparametryzować, albo mamy jakiś pomysł, jak to sparametryzować, ale nie wiemy, jak to znormalizować. Uderza w trudny do rozwiązania problem matematyczny, którego nie umiemy rozwiązać. 

yann-lecun-wrzesień-2022-3

„Nie doszliśmy do punktu, w którym nasze inteligentne maszyny mają tyle zdrowego rozsądku, co kot”, zauważa Lecun. „Więc dlaczego nie zaczniemy tam? Co takiego pozwala kotu pojmować otaczający go świat, robić całkiem mądre rzeczy, planować i takie rzeczy, a psom jeszcze lepiej?

Dlatego mówię: porzućmy teorię prawdopodobieństwa lub ramy dla takich rzeczy, słabsze modele oparte na energii. Opowiadam się za tym również od dziesięcioleci, więc to nie jest nowość. Ale jednocześnie porzucenie idei modeli generatywnych, ponieważ na świecie jest wiele rzeczy niezrozumiałych i nieprzewidywalnych. Jeśli jesteś inżynierem, nazywasz to hałasem. Jeśli jesteś fizykiem, nazywasz to upałem. A jeśli jesteś osobą uczącą się maszynowo, nazywasz to, wiesz, nieistotnymi szczegółami lub jakkolwiek.

Tak więc przykład, którego użyłem w gazecie lub wykorzystałem w rozmowach, jest taki, że chcesz systemu przewidywania świata, który pomógłby w samojezdnym samochodzie, prawda? Chce być w stanie przewidzieć z góry trajektorie wszystkich innych samochodów, co stanie się z innymi obiektami, które mogą się poruszyć, pieszymi, rowerami, dzieciakiem biegnącym za piłką nożną i tym podobne. A więc różne rzeczy o świecie. Ale przy drodze mogą być drzewa, a dzisiaj wieje wiatr, więc liście poruszają się na wietrze, a za drzewami jest staw, aw stawie są zmarszczki. A są to w zasadzie zjawiska w dużej mierze nieprzewidywalne. I nie chcesz, aby Twój model zużywał znaczną ilość zasobów na przewidywanie tych rzeczy, które są zarówno trudne do przewidzenia, jak i nieistotne. Dlatego też opowiadam się za wspólną architekturą osadzania, tymi rzeczami, w których zmienna, którą próbujesz modelować, nie próbujesz jej przewidzieć, próbujesz ją modelować, ale działa ona przez enkoder i ten enkoder może wyeliminować wiele szczegółów dotyczących wejścia, które są nieistotne lub zbyt skomplikowane — w zasadzie odpowiadają szumowi.

Sieć ZD: Omówiliśmy na początku tego roku modele oparte na energii, JEPA i H-JEPA. Mam wrażenie, jeśli dobrze cię rozumiem, znajdujesz punkt o niskiej energii, w którym te dwie prognozy osadzania X i Y są najbardziej podobne, co oznacza, że ​​jeśli w jednym drzewie jest gołąb, a coś jest w tym tło sceny, mogą to nie być istotne punkty, które sprawiają, że te osadzania są blisko siebie.

YL: Prawidłowy. Tak więc architektura JEPA w rzeczywistości próbuje znaleźć kompromis, kompromis między wyodrębnianiem reprezentacji, które są maksymalnie informujące o danych wejściowych, ale także są przewidywalne od siebie nawzajem z pewnym poziomem dokładności lub niezawodności. Znajduje kompromis. Tak więc, jeśli ma wybór między wydaniem ogromnej ilości zasobów, w tym szczegółów ruchu liści, a następnie modelowaniem dynamiki, która zadecyduje o tym, jak liście będą się poruszać za sekundę od teraz, lub po prostu zrzuceniem tego na podłogę przez po prostu przepuszczając zmienną Y przez predyktor, który eliminuje wszystkie te szczegóły, prawdopodobnie po prostu ją wyeliminuje, ponieważ jest po prostu zbyt trudna do modelowania i uchwycenia.

Sieć ZD: Jedną rzeczą, która jest zaskoczona, jest to, że byłeś wielkim zwolennikiem powiedzenia: „To działa, później odkryjemy teorię termodynamiki, aby to wyjaśnić”. Tutaj przyjęliście podejście: „Nie wiem, jak koniecznie zamierzamy to rozwiązać, ale chcę przedstawić kilka pomysłów do przemyślenia”, a może nawet podchodząc do teorii lub hipotezy, na najmniej. To ciekawe, ponieważ wiele osób wydaje dużo pieniędzy, pracując nad samochodem, który widzi pieszego niezależnie od tego, czy samochód ma zdrowy rozsądek. Wyobrażam sobie, że niektórzy z tych ludzi nie będą wkurzeni, ale powiedzą: „W porządku, nie obchodzi nas to, że to nie ma zdrowego rozsądku, zbudowaliśmy symulację, symulacja jest niesamowita, i zamierzamy się doskonalić, będziemy nadal skalować symulację”. 

A więc interesujące jest to, że jesteś teraz w stanie powiedzieć, cofnijmy się o krok i zastanówmy się nad tym, co robimy. Przemysł mówi, że będziemy po prostu skalować, skalować, skalować, skalować, bo ta korba naprawdę działa. Mam na myśli, że półprzewodnikowa korba GPU naprawdę działa.

YL: Jest tam jakieś pięć pytań. Więc skalowanie jest konieczne. Nie krytykuję tego, że powinniśmy skalować. Powinniśmy skalować. Te sieci neuronowe stają się coraz lepsze, gdy stają się większe. Nie ma wątpliwości, że powinniśmy skalować. A te, które będą miały pewien poziom zdrowego rozsądku, będą duże. Myślę, że nie da się tego obejść. Tak więc skalowanie jest dobre, jest konieczne, ale niewystarczające. To jest punkt, o którym mówię. To nie tylko skalowanie. To pierwszy punkt. 

Druga kwestia, czy teoria jest najważniejsza i takie rzeczy. Więc myślę, że są koncepcje, które są pierwsze, trzeba zrobić krok w tył i powiedzieć, w porządku, zbudowaliśmy tę drabinę, ale chcemy polecieć na Księżyc i nie ma mowy, żeby ta drabina nas tam zaprowadziła. Więc w zasadzie to, o czym tutaj piszę, jest takie, że musimy budować rakiety. Nie mogę podać szczegółów, jak budujemy rakiety, ale oto podstawowe zasady. I nie piszę na to teorii ani nic, ale to będzie rakieta, ok? Albo winda kosmiczna, czy cokolwiek. Możemy nie mieć wszystkich szczegółów dotyczących całej technologii. Staramy się, aby niektóre z tych rzeczy działały, tak jak ja pracowałem nad JEPA. Osadzanie wspólne działa naprawdę dobrze w przypadku rozpoznawania obrazów, ale używanie go do trenowania modelu świata wiąże się z trudnościami. Pracujemy nad tym, mamy nadzieję, że nam się uda soon, ale możemy napotkać tam pewne przeszkody, których prawdopodobnie nie będziemy w stanie przezwyciężyć. 

Następnie w artykule pojawia się kluczowy pomysł dotyczący rozumowania, w którym jeśli chcemy, aby systemy były w stanie planować, co można traktować jako prostą formę rozumowania, muszą mieć ukryte zmienne. Innymi słowy, rzeczy, które nie są obliczane przez żadną sieć neuronową, ale rzeczy, które są – których wartość jest wywnioskowana tak, aby zminimalizować jakąś funkcję celu, jakąś funkcję kosztu. Następnie możesz użyć tej funkcji kosztu do sterowania zachowaniem systemu. I to wcale nie jest nowy pomysł, prawda? To bardzo klasyczna, optymalna kontrola, której podstawy sięgają późnych lat 50-tych i wczesnych 60-tych. Więc nie twierdząc tutaj żadnej nowości. Ale mówię, że ten rodzaj wnioskowania musi być częścią inteligentnego systemu, który jest zdolny do planowania, i którego zachowanie można określić lub kontrolować nie za pomocą wbudowanego zachowania, nie przez imitację pochylania się, ale przez funkcję obiektywną, która napędza zachowanie — niekoniecznie napędza naukę, ale napędza zachowanie. Wiesz, mamy to w naszym mózgu, a każde zwierzę ma wewnętrzny koszt lub wewnętrzną motywację do rzeczy. To sprawia, że ​​dziewięciomiesięczne dzieci chcą wstać. Koszt bycia szczęśliwym, kiedy wstajesz, ten termin w funkcji kosztów jest na stałe. Ale to, jak wstajesz, nie jest nauką.

yann-lecun-wrzesień-2022-4

„Skalowanie jest dobre, jest konieczne, ale niewystarczające”, mówi LeCun o gigantycznych modelach językowych, takich jak programy oparte na Transformatorach odmiany GPT-3. Wielbiciele Transformera wierzą: „Tokenizujemy wszystko i trenujemy gigantyczniemodele do tworzenia dyskretnych prognoz, a jakoś wyłoni się z tego sztuczna inteligencja… ale myślę, że brakuje podstawowych elementów”.

Sieć ZD: Aby uzupełnić ten punkt, większość społeczności głębokiego uczenia się wydaje się dobrze robić coś, co nie ma zdrowego rozsądku. Wygląda na to, że przedstawiasz tutaj dość jasny argument, że w pewnym momencie staje się to impasem. Niektórzy twierdzą, że nie potrzebujemy autonomicznego samochodu ze zdrowym rozsądkiem, ponieważ skalowanie to zrobi. Wygląda na to, że mówisz, że nie jest w porządku po prostu iść dalej tą ścieżką?

YL: Wiesz, myślę, że jest całkiem możliwe, że będziemy mieli autonomiczne samochody piątego poziomu bez zdrowego rozsądku. Ale problem z tym podejściem będzie tymczasowy, ponieważ będziesz musiał z tego wypracować. Tak więc, wiecie, mapuj cały świat, ustalaj na stałe wszystkie rodzaje konkretnych zachowań narożnych, zbieraj wystarczającą ilość danych, aby mieć wszystkie dziwne sytuacje, które możesz napotkać na drogach, bla, bla, bla. Domyślam się, że przy wystarczającej ilości inwestycji i czasu można po prostu zaprojektować z tego piekło. Ale ostatecznie będzie bardziej satysfakcjonujące i prawdopodobnie lepsze rozwiązanie, które obejmuje systemy, które lepiej rozumieją sposób, w jaki działa świat i mają, wiecie, pewien poziom tego, co nazwalibyśmy zdrowym rozsądkiem. Nie musi to być zdrowy rozsądek na poziomie ludzkim, ale pewien rodzaj wiedzy, którą system może zdobyć, obserwując, ale nie obserwując, jak ktoś jeździ, po prostu obserwując poruszające się rzeczy i rozumiejąc dużo o świecie, budując podstawy tła wiedza o tym, jak działa świat, na której możesz nauczyć się jeździć. 

Pozwolę sobie wziąć historyczny przykład. Klasyczna wizja komputerowa opierała się na wielu okablowanych, zaprojektowanych modułach, na których można było zdobyć, w pewnym sensie, cienką warstwę nauki. Tak więc rzeczy, które zostały pokonane przez AlexNet w 2012 roku, miały w zasadzie pierwszy etap, rodzaj ręcznie wykonanych ekstrakcji cech, takich jak SIFT [Scale-Invariant Feature Transform (SIFT), klasyczna technika wizyjna do identyfikacji istotnych obiektów na obrazie]. i HOG [Histogram of Oriented Gradients, kolejna klasyczna technika] i różne inne rzeczy. A potem druga warstwa, w pewnym sensie, funkcji średniego poziomu, opartych na jądrach funkcji i czymkolwiek innym, oraz jakiejś nienadzorowanej metodzie. A potem na dodatek umieszczasz maszynę wektorów nośnych lub stosunkowo prosty klasyfikator. I to był, w pewnym sensie, standardowy potok od połowy 2000 roku do 2012 roku. I został on zastąpiony przez kompleksowe sieci konwolucyjne, w których nie łączy się nic z tego na stałe, po prostu masz dużo danych, i trenujesz tę rzecz od początku do końca, co jest podejściem, które propagowałem przez długi czas, ale wiesz, do tego czasu nie było to praktyczne w przypadku dużych problemów. 

Podobna historia miała miejsce w rozpoznawaniu mowy, gdzie znowu było mnóstwo szczegółowej inżynierii dotyczącej wstępnego przetwarzania danych, wyodrębniania cepstrum na skalę masową [odwrotność szybkiej transformacji Fouriera do przetwarzania sygnału], a następnie masz Ukryte modele Markowa, z pewną, wstępnie ustawioną architekturą, bla, bla, bla, z Mieszanką Gaussów. Jest to więc trochę taka sama architektura jak wizja, w której masz ręcznie wykonany front-end, a następnie nieco nienadzorowaną, wyszkoloną warstwę środkową, a następnie warstwę nadzorowaną na wierzchu. A teraz zostało to w zasadzie wymazane przez kompleksowe sieci neuronowe. Widzę tam coś podobnego, próbuję nauczyć się wszystkiego, ale trzeba mieć właściwą przeszłość, właściwą architekturę, właściwą strukturę.

yann-lecun-wrzesień-2022-5

Tłum autonomicznych samochodów, startupy, takie jak Waymo i Wayve, były „trochę zbyt optymistyczne”, mówi, myśląc, że mogą „wrzucić w to dane i można się nauczyć prawie wszystkiego”. Samojezdne samochody na poziomie 5 ADAS są możliwe, „ale będziesz musiał z tego wymyślić” i będą „kruche” jak wczesne modele komputerowego widzenia.

Sieć ZD: Mówisz, że niektórzy ludzie będą próbować zaprojektować coś, co obecnie nie działa z uczeniem głębokim, aby zastosować je, powiedzmy, w przemyśle, i zaczną tworzyć coś, co stało się przestarzałe w wizji komputerowej?

YL: Prawidłowy. Częściowo dlatego, że ludzie pracujący nad autonomiczną jazdą byli trochę zbyt optymistyczni w ciągu ostatnich kilku lat, ponieważ, wiesz, masz te, coś w rodzaju, ogólne rzeczy, takie jak splotowe sieci i transformatory, które można w nie rzucać danymi i może nauczyć się praktycznie wszystkiego. Więc mówisz: OK, mam rozwiązanie tego problemu. Pierwszą rzeczą, którą robisz, jest zbudowanie demonstracji, w której samochód jedzie sam przez kilka minut, nie raniąc nikogo. A potem uświadamiasz sobie, że jest wiele przypadków narożnych i próbujesz wykreślić krzywą pokazującą, o ile lepiej się czuję, gdy podwajam zestaw treningowy, i zdajesz sobie sprawę, że nigdy tam nie dotrzesz, ponieważ są różne rodzaje przypadków narożnych . A trzeba mieć samochód, który spowoduje śmiertelny wypadek rzadziej niż co 200 milionów kilometrów, prawda? Więc co robisz? Cóż, idziesz w dwóch kierunkach. 

Pierwszym kierunkiem jest to, jak mogę zmniejszyć ilość danych potrzebnych do uczenia się przez mój system? I tu właśnie pojawia się samonadzorowane uczenie się. Tak więc wiele samochodów do samodzielnego prowadzenia jest bardzo zainteresowanych uczeniem się samonadzorowanym, ponieważ jest to sposób na wykorzystanie gigantycznych ilości danych nadzorczych do imitacji uczenia się, ale uzyskanie lepszej wydajności dzięki w zasadzie przedtreningiem. I to jeszcze nie wyszło, ale tak się stanie. I jest jeszcze inna opcja, którą przyjęło większość firm, które są bardziej zaawansowane w tym momencie, a mianowicie, w porządku, możemy przeprowadzić kompleksowe szkolenie, ale jest wiele przypadków, w których możemy”. t obsłużyć, więc zamierzamy po prostu zaprojektować systemy, które zajmą się tymi narożnymi przypadkami i, w zasadzie, traktują je jako przypadki specjalne, i podłącza sterowanie, a następnie podłącza wiele podstawowych zachowań, aby poradzić sobie ze specjalnymi sytuacjami. A jeśli masz wystarczająco duży zespół inżynierów, możesz to zrobić. Ale zajmie to dużo czasu i ostatecznie nadal będzie trochę kruche, może na tyle niezawodne, że można je wdrożyć, ale z pewnym poziomem kruchości, co przy podejściu bardziej opartym na nauce, które może pojawić się w przyszłości samochody nie będą miały, ponieważ może mieć pewien poziom zdrowego rozsądku i zrozumienia, jak działa świat. 

W krótkim okresie zwycięży podejście inżynieryjne — już wygrywa. To Waymo i Cruise świata i Wayvei cokolwiek, to właśnie robią. Następnie istnieje samonadzorowane podejście do uczenia się, które prawdopodobnie pomoże w osiągnięciu postępów przez podejście inżynieryjne. Ale na dłuższą metę, która może być zbyt długa dla tych firm, prawdopodobnie będzie to bardziej zintegrowany autonomiczny inteligentny system jazdy.

Sieć ZD: Mówimy poza horyzontem inwestycyjnym większości inwestorów.

YL: Zgadza się. Tak więc pytanie brzmi, czy ludzie stracą cierpliwość lub skończą się pieniądze, zanim wydajność osiągnie pożądany poziom.

Sieć ZD: Czy jest coś ciekawego do powiedzenia na temat tego, dlaczego wybrałeś niektóre elementy, które wybrałeś w modelu? Ponieważ cytujesz Kennetha Craika [1943,Natura wyjaśnienia], a ty cytujesz Brysona i Ho [1969, Zastosowana optymalna kontrola], a jestem ciekaw, dlaczego zacząłeś od tych wpływów, skoro szczególnie wierzyłeś, że ci ludzie doszli do tego, co zrobili. Dlaczego tam zacząłeś?

YL: Cóż, nie sądzę, na pewno mieli wszystkie szczegóły. Więc, Bryson i Ho, to jest książka, którą przeczytałem w 1987 roku, kiedy byłem podoktorem z Geoffreyem Hintonem w Toronto. Ale wiedziałem o tym zawodzie już wcześniej, kiedy pisałem doktorat, i zasadniczo połączyłem optymalną kontrolę z podporą tylną. Gdybyś naprawdę chciał być, no wiesz, kolejnym Schmidhuberem, powiedziałbyś, że prawdziwymi wynalazcami wsparcia tylnego byli w rzeczywistości teoretycy kontroli optymalnej Henry J. Kelley, Arthur Bryson, a może nawet Lew Pontryagin, który jest rosyjskim teoretykiem kontroli optymalnej. pod koniec lat pięćdziesiątych. 

Więc zrozumieli to i faktycznie można zobaczyć korzenie tego, matematykę pod spodem, to mechanika Lagrange'a. Tak więc możesz wrócić do Eulera i Lagrange'a, i znaleźć coś takiego w ich definicji mechaniki klasycznej Lagrange'a, naprawdę. Tak więc, w kontekście optymalnej kontroli, tym, czym interesowali się ci faceci, było po prostu obliczanie trajektorii rakiet. Wiesz, to była wczesna epoka kosmiczna. A jeśli masz model rakiety, powie Ci, jaki jest stan rakiety w czasie t, a oto akcja, którą zamierzam podjąć, więc ciąg i siłowniki różnego rodzaju, oto stan rakiety w czasie t + 1.

Sieć ZD: Model państwa-działania, model wartości.

YL: Zgadza się, podstawa kontroli. Więc teraz możesz symulować wystrzelenie twojej rakiety, wyobrażając sobie sekwencję poleceń, a potem masz pewną funkcję kosztu, która jest odległością rakiety od celu, stacji kosmicznej lub cokolwiek to jest. A potem przez jakiś rodzaj opadania gradientu możesz dowiedzieć się, w jaki sposób mogę zaktualizować moją sekwencję działań, aby moja rakieta faktycznie zbliżyła się do celu tak blisko, jak to możliwe. A to musi nastąpić w wyniku wstecznej propagacji sygnałów wstecz w czasie. I to jest propagacja wsteczna, propagacja wsteczna gradientu. Te sygnały, w mechanice Lagrange'a, nazywane są zmiennymi sprzężonymi, ale w rzeczywistości są to gradienty. Wynaleźli więc podporę, ale nie zdawali sobie sprawy, że ta zasada może być wykorzystana do wytrenowania wielostopniowego systemu, który potrafi rozpoznawać wzorce lub coś w tym rodzaju. Nie zdano sobie z tego sprawy aż do późnych lat 70-tych, wczesnych 80-tych, a potem nie zostało właściwie zaimplementowane i uruchomione do połowy lat 80-tych. Okej, więc tutaj naprawdę, jakby, wystartowało backprop, ponieważ ludzie pokazali tutaj kilka linijek kodu, dzięki którym można wytrenować sieć neuronową, od końca do końca, wielowarstwowo. A to znosi ograniczenia Perceptrona. I tak, są połączenia z optymalną kontrolą, ale to jest w porządku.

Sieć ZD: Więc to długa droga do powiedzenia, że ​​te wpływy, z którymi zaczynałeś, wracały do ​​tyłu i było to dla ciebie ważne jako punkt wyjścia?

YL: Tak, ale myślę, o czym ludzie trochę zapomnieli, było sporo pracy nad tym, wiesz, w latach 90., a nawet 80., w tym przez ludzi takich jak Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] i takich ludzi, którzy nie zajmują się już sieciami neuronowymi, ale pomysł, że można używać sieci neuronowych do kontroli i można używać klasycznych koncepcji optymalnej kontroli. A więc takie rzeczy jak tak zwana kontrola predykcyjna modelu, teraz nazywana kontrolą predykcyjną modelu, pomysł, że możesz symulować lub wyobrażać sobie wynik sekwencji działań, jeśli masz dobry model systemu, który próbujesz kontrolować i środowisko, w którym się znajduje. A potem, zasadniczo, poprzez opadanie gradientowe — to nie jest uczenie się, to jest wnioskowanie — możesz ustalić, jaka jest najlepsza sekwencja działań, która zminimalizuje mój cel. Tak więc użycie funkcji kosztu ze zmienną utajoną do wnioskowania jest, jak sądzę, czymś, o czym zapomniały współczesne uprawy wielkoskalowych sieci neuronowych. Ale przez długi czas był to bardzo klasyczny element uczenia maszynowego. Tak więc każdy model sieci bayesowskiej lub model graficzny lub probabilistyczny model graficzny wykorzystywał ten rodzaj wnioskowania. Masz model, który wychwytuje zależności między wieloma zmiennymi, mówi się ci o wartości niektórych zmiennych, a następnie musisz wywnioskować najbardziej prawdopodobną wartość pozostałych zmiennych. To podstawowa zasada wnioskowania w modelach graficznych i sieciach bayesowskich, i tym podobnych. I myślę, że na tym właśnie powinno polegać rozumowanie, rozumowanie i planowanie.

Sieć ZD: Jesteś Bayesianem w szafie.

YL: Jestem nieprobabilistycznym bayesjanem. Żartowałem już wcześniej. Byłem w NeurIPS kilka lat temu, myślę, że było to w 2018 lub 2019 roku, i zostałem przyłapany na wideo przez Bayesian, który zapytał mnie, czy jestem Bayesianem, i powiedziałem: Tak, jestem Bayesianem, ale ja Jestem nieprobabilistycznym bayesjanem, w pewnym sensie, bazującym na energii bayesowcem, jeśli chcesz. 

Sieć ZD: Co zdecydowanie brzmi jak coś z Star Trek. Wspomniałeś na końcu tego artykułu, że zrealizowanie tego, co sobie wyobrażasz, zajmie lata naprawdę ciężkiej pracy. Opowiedz mi, na czym polega część tej pracy w tej chwili.

YL: Więc wyjaśniam w gazecie, jak trenujesz i budujesz JEPA. A kryterium, za którym się opowiadam, jest posiadanie sposobu na zmaksymalizowanie zawartości informacyjnej, jaką wyekstrahowane reprezentacje mają na temat danych wejściowych. A druga to minimalizacja błędu przewidywania. A jeśli masz w predyktorze zmienną latentną, która pozwala, by predyktor był niedeterministyczny, musisz uregulować również tę zmienną latentną, minimalizując jej zawartość informacyjną. Więc masz teraz dwa problemy, które polegają na tym, jak zmaksymalizować zawartość informacyjną wyjścia jakiejś sieci neuronowej, a drugim jest to, jak zminimalizować zawartość informacyjną jakiejś ukrytej zmiennej? A jeśli nie zrobisz tych dwóch rzeczy, system się zawali. Nie nauczy się niczego ciekawego. Doda do wszystkiego zero energii, coś w tym stylu, co nie jest dobrym modelem zależności. Wspominam o problemie zapobiegania upadkom. 

Mówię o wszystkich rzeczach, które ludzie kiedykolwiek zrobili, istnieją tylko dwie kategorie metod, aby zapobiec upadkowi. Jedna to metody kontrastywne, a druga to metody uregulowane. Tak więc pomysł maksymalizacji zawartości informacyjnej reprezentacji dwóch wejść i minimalizacji zawartości informacyjnej zmiennej latentnej, która należy do metod uregulowanych. Jednak wiele prac w tych połączonych architekturach osadzania wykorzystuje metody kontrastowe. W rzeczywistości są obecnie prawdopodobnie najbardziej popularne. Tak więc pytanie brzmi dokładnie, jak mierzyć zawartość informacji w sposób, który można zoptymalizować lub zminimalizować? I tutaj sprawy się komplikują, ponieważ tak naprawdę nie wiemy, jak mierzyć zawartość informacji. Możemy ją przybliżać, możemy ją ograniczyć do góry, możemy robić takie rzeczy. Ale w rzeczywistości nie mierzą zawartości informacji, która w rzeczywistości do pewnego stopnia nie jest nawet dobrze zdefiniowana.

Sieć ZD: To nie jest prawo Shannona? To nie jest teoria informacji? Masz pewną ilość entropii, dobrą entropię i złą entropię, a dobra entropia to system symboli, który działa, zła entropia to szum. Czy to wszystko nie rozwiązał Shannon?

YL: Masz rację, ale kryje się za tym poważna wada. Masz rację w tym sensie, że jeśli masz dane przychodzące do ciebie i możesz w jakiś sposób skwantyfikować dane na dyskretne symbole, a następnie zmierzyć prawdopodobieństwo każdego z tych symboli, wtedy maksymalna ilość informacji przenoszonych przez te symbole jest suma nad możliwymi symbolami Pi log Pi, prawo? Gdzie Pi jest prawdopodobieństwo symbolu i - to jest entropia Shannona. [Prawo Shannona jest powszechnie formułowane jako H = – ∑ pi log pi.]

Oto jednak problem: Co to jest Pi? Jest to łatwe, gdy liczba symboli jest niewielka, a symbole są rysowane niezależnie. Kiedy jest wiele symboli i zależności, jest to bardzo trudne. Tak więc, jeśli masz sekwencję bitów i założysz, że bity są od siebie niezależne, a prawdopodobieństwo jest równe od jednego do zera lub cokolwiek innego, możesz łatwo zmierzyć entropię, nie ma problemu. Ale jeśli rzeczy, które do ciebie przychodzą, to wektory wielowymiarowe, takie jak ramki danych lub coś w tym rodzaju, to Pi? Jaka jest dystrybucja? Najpierw musisz skwantować tę przestrzeń, która jest wielowymiarową, ciągłą przestrzenią. Nie masz pojęcia, jak właściwie to skwantyzować. Możesz użyć k-średnich itp. To właśnie robią ludzie, gdy wykonują kompresję wideo i kompresję obrazu. Ale to tylko przybliżenie. A potem musisz przyjąć założenia niezależności. Jasne jest więc, że w filmie kolejne klatki nie są niezależne. Są zależności, a ta ramka może zależeć od innej ramki, którą widziałeś godzinę temu, która była obrazem tego samego. Więc wiesz, nie możesz zmierzyć Pi. Zmierzyć Pi, musisz mieć system uczenia maszynowego, który uczy się przewidywać. Wracasz więc do poprzedniego problemu. Tak więc zasadniczo można tylko przybliżyć miarę informacji. 

yann-lecun-wrzesień-2022-6

„Pytanie brzmi dokładnie, jak mierzyć zawartość informacji w sposób, który można zoptymalizować lub zminimalizować?” mówi LeCun. „I właśnie wtedy sprawy się komplikują, ponieważ tak naprawdę nie wiemy, jak mierzyć zawartość informacji”. Najlepsze, co można zrobić do tej pory, to znaleźć proxy, które jest „wystarczająco dobre do zadania, które chcemy”.

Podam bardziej konkretny przykład. Jednym z algorytmów, z którymi się bawiliśmy, io którym mówiłem w tym utworze, jest ta rzecz o nazwie VICReg, regularyzacja wariancji-niezmienności-kowariancji. Jest w osobnym artykule opublikowanym w ICLR i został umieszczony na arXiv około rok wcześniej, 2021. I chodzi o maksymalizację informacji. A pomysł wyszedł z wcześniejszego artykułu mojej grupy zatytułowanego Bliźniaczki Barlowa. Maksymalizujesz zawartość informacyjną wektora wychodzącego z sieci neuronowej, po prostu zakładając, że jedyną zależnością między zmiennymi jest korelacja, zależność liniowa. Tak więc, jeśli założysz, że jedyną możliwą zależnością między parami zmiennych lub między zmiennymi w twoim systemie, są korelacje między parami cennych rzeczy, co jest bardzo przybliżonym przybliżeniem, możesz zmaksymalizować zawartość informacji wychodzącą z twojego systemu upewniając się, że wszystkie zmienne mają niezerową wariancję — powiedzmy, wariancja pierwsza, nie ma znaczenia, co to jest — a następnie skorelować je wstecznie, ten sam proces, który nazywa się wybielaniem, też nie jest nowy. Problem polega na tym, że możesz mieć bardzo złożone zależności między grupami zmiennych lub nawet parami zmiennych, które nie są zależnościami liniowymi i nie pojawiają się w korelacjach. Na przykład, jeśli masz dwie zmienne i wszystkie punkty tych dwóch zmiennych układają się w jakąś spiralę, to istnieje bardzo silna zależność między tymi dwiema zmiennymi, prawda? Ale w rzeczywistości, jeśli obliczysz korelację między tymi dwiema zmiennymi, nie są one skorelowane. Oto przykład, w którym zawartość informacyjna tych dwóch zmiennych jest w rzeczywistości bardzo mała, to tylko jedna wielkość, ponieważ jest to twoja pozycja w spirali. Są one skorelowane, więc myślisz, że masz dużo informacji pochodzących z tych dwóch zmiennych, podczas gdy w rzeczywistości nie masz, masz tylko, wiesz, zasadniczo możesz przewidzieć jedną ze zmiennych na podstawie drugiej. To pokazuje, że mamy tylko bardzo przybliżone sposoby mierzenia zawartości informacji.

Sieć ZD: I to jest jedna z rzeczy, nad którymi musisz teraz pracować z tym? To jest większe pytanie, skąd wiemy, kiedy maksymalizujemy i minimalizujemy zawartość informacji?

YL:  Lub czy serwer proxy, którego używamy do tego celu, jest wystarczająco dobry do zadania, które chcemy. W rzeczywistości robimy to cały czas w uczeniu maszynowym. Funkcje kosztów, które minimalizujemy, nigdy nie są tymi, które faktycznie chcemy zminimalizować. Więc, na przykład, chcesz zrobić klasyfikację, dobrze? Funkcja kosztu, którą chcesz zminimalizować podczas uczenia klasyfikatora, to liczba błędów, które popełnia klasyfikator. Ale jest to nieróżnicowalna, straszna funkcja kosztu, której nie można zminimalizować, ponieważ wiesz, że zmienisz wagi swojej sieci neuronowej, nic się nie zmieni, dopóki jedna z tych próbek nie zmieni swojej decyzji, a następnie przeskoczy w błędzie, dodatnim lub ujemnym.

Sieć ZD: Więc masz proxy, które jest funkcją celu, którą możesz zdecydowanie powiedzieć, możemy zdecydowanie płynąć gradientami tej rzeczy.

YL: Zgadza się. Więc ludzie używają tej straty entropii krzyżowej lub SOFTMAX, masz na to kilka nazw, ale to jest to samo. I jest to w zasadzie płynne przybliżenie liczby błędów popełnianych przez system, gdzie wygładzanie odbywa się w zasadzie poprzez uwzględnienie punktacji, jaką system nadaje każdej z kategorii.

Sieć ZD: Czy jest coś, czego nie omówiliśmy, a co chciałbyś omówić?

YL: Prawdopodobnie podkreśla główne punkty. Myślę, że systemy AI muszą być w stanie rozumować, a proces, za którym się opowiadam, minimalizuje pewien cel w odniesieniu do jakiejś ukrytej zmiennej. To pozwala systemom planować i rozumować. Myślę, że powinniśmy porzucić schemat probabilistyczny, ponieważ jest on trudny do zrealizowania, gdy chcemy robić takie rzeczy, jak przechwytywanie zależności między wielowymiarowymi, ciągłymi zmiennymi. A ja opowiadam się za porzuceniem modeli generatywnych, ponieważ system będzie musiał poświęcić zbyt wiele zasobów na przewidywanie rzeczy, które są zbyt trudne do przewidzenia i być może pochłaniają zbyt dużo zasobów. I to prawie wszystko. To są główne wiadomości, jeśli chcesz. A potem ogólna architektura. Potem są te spekulacje o naturze świadomości i roli konfiguratora, ale to jest tak naprawdę spekulacja.

Sieć ZD: Dojdziemy do tego następnym razem. Chciałem cię zapytać, jak oceniasz tę rzecz? Ale myślę, że jesteś teraz trochę dalej od benchmarkingu?

YL: Niekoniecznie tak daleko w, jakby uproszczonych wersjach. Możesz robić to, co wszyscy robią w nauce kontroli lub wzmacniania, czyli trenujesz, aby grać w gry Atari lub coś w tym rodzaju lub w inną grę, w której jest pewna niepewność.

Sieć ZD: Dzięki za poświęcony czas, Yann.

Źródło