Guru dell’intelligenza artificiale di Meta, LeCun: La maggior parte degli approcci odierni all’intelligenza artificiale non porterà mai alla vera intelligenza

yann-lecun-settembre-2022-1

"Penso che i sistemi di intelligenza artificiale debbano essere in grado di ragionare", afferma Yann LeCun, capo scienziato dell'intelligenza artificiale di Meta. I popolari approcci all'intelligenza artificiale di oggi come Transformers, molti dei quali si basano sul suo lavoro pionieristico nel campo, non saranno sufficienti. "Bisogna fare un passo indietro e dire, okay, abbiamo costruito questa scala, ma vogliamo andare sulla luna, e non c'è alcuna possibilità che questa scala ci porti lì", dice LeCun.

Yann LeCun, capo scienziato dell'intelligenza artificiale di Meta Properties, proprietario di Facebook, Instagram e WhatsApp, probabilmente piacerà a molte persone nel suo campo. 

Con la pubblicazione a giugno di un pezzo di riflessione sul server Open Review, LeCun ha offerto un'ampia panoramica di un approccio che ritiene promettente per raggiungere un'intelligenza di livello umano nelle macchine. 

Implicita, se non articolata, nel documento è la tesi secondo cui la maggior parte dei grandi progetti odierni nel campo dell'intelligenza artificiale non saranno mai in grado di raggiungere quell'obiettivo a livello umano.

In una discussione questo mese con ZDNet tramite Zoom, LeCun ha chiarito che vede con grande scetticismo molte delle vie di ricerca di maggior successo al momento nel campo del deep learning.

"Penso che siano necessari ma non sufficienti", ha detto il vincitore del Premio Turing ZDNet delle attività dei suoi coetanei. 

Questi includono modelli linguistici di grandi dimensioni come GPT-3 basato su Transformer e simili. Come lo definisce LeCun, i devoti di Transformer credono: “Gettiamo tutto in simboli e ci alleniamo in modo gigantescomodelli per fare previsioni discrete, e in qualche modo l’intelligenza artificiale emergerà da questo”.

"Non hanno torto", dice, "nel senso che potrebbe essere un componente di un futuro sistema intelligente, ma penso che manchino pezzi essenziali".

Inoltre: Il luminare dell'intelligenza artificiale di Meta, LeCun, esplora la frontiera energetica del deep learning

È una critica sorprendente a ciò che sembra funzionare proveniente dallo studioso che ha perfezionato l'uso delle reti neurali convoluzionali, una tecnica pratica che si è rivelata incredibilmente produttiva nei programmi di deep learning. 

LeCun vede difetti e limiti in molte altre aree di grande successo della disciplina. 

Anche l’apprendimento per rinforzo non sarà mai sufficiente, sostiene. Ricercatori come David Silver di DeepMind, che ha sviluppato il programma AlphaZero che padroneggiava scacchi, Shogi e Go, si stanno concentrando su programmi che sono “molto basati sull'azione”, osserva LeCun, ma “la maggior parte dell'apprendimento che facciamo, non lo facciamo. lo facciamo agendo concretamente, lo facciamo osservando”. 

Lecun, 62 anni, in una prospettiva di decenni di successi, esprime tuttavia l'urgenza di affrontare quelli che pensa siano i vicoli ciechi verso i quali molti potrebbero correre, e di cercare di convincere il suo campo nella direzione in cui pensa che le cose dovrebbero andare. 

“Vediamo molte affermazioni su cosa dovremmo fare per avanzare verso un’intelligenza artificiale a livello umano”, afferma. "E ci sono idee che penso siano mal indirizzate."

"Non siamo al punto in cui le nostre macchine intelligenti hanno tanto buon senso quanto un gatto", osserva Lecun. "Allora perché non iniziamo da lì?" 

Ha abbandonato la sua precedente fiducia nell’uso delle reti generative in cose come la previsione del fotogramma successivo in un video. “È stato un completo fallimento”, dice. 

LeCun denigra quelli che chiama i “probabilisti religiosi”, che “pensano che la teoria della probabilità sia l’unico quadro che si può usare per spiegare l’apprendimento automatico”. 

L’approccio puramente statistico è intrattabile, dice. “È troppo chiedere che un modello mondiale sia completamente probabilistico; non sappiamo come farlo”.

Non solo il mondo accademico, ma l’intelligenza artificiale industriale ha bisogno di un profondo ripensamento, sostiene LeCun. Il pubblico delle auto a guida autonoma, le startup come Wayve, sono state “un po’ troppo ottimiste”, dice, pensando che potrebbero “lanciare dati su” grandi reti neurali “e si può imparare praticamente qualsiasi cosa”.

"Sai, penso che sia del tutto possibile che avremo auto autonome di livello cinque senza buon senso", dice, riferendosi all'ADAS. sistema avanzato di assistenza alla guida termini per la guida autonoma, "ma dovrai ingegnerizzarla a tutti i costi".

Una tecnologia di guida autonoma così sovraingegnerizzata sarà qualcosa di fragile e scricchiolante come tutti i programmi di visione artificiale resi obsoleti dal deep learning, a suo avviso.

“Alla fine, ci sarà una soluzione più soddisfacente e forse migliore che coinvolga sistemi in grado di comprendere meglio il modo in cui funziona il mondo”.

Lungo il percorso, LeCun offre alcune opinioni fulminanti dei suoi più grandi critici, come il professore della New York University Gary Marcus – “non ha mai contribuito con nulla all’intelligenza artificiale” – e Jürgen Schmidhuber, co-direttore dell’Istituto Dalle Molle per la ricerca sull’intelligenza artificiale – “è è molto facile piantare le bandiere”.

Al di là delle critiche, il punto più importante sollevato da LeCun è che l’intera intelligenza artificiale deve affrontare alcuni problemi fondamentali, in particolare, come misurare le informazioni.

"Bisogna fare un passo indietro e dire, okay, abbiamo costruito questa scala, ma vogliamo andare sulla luna, e non c'è alcuna possibilità che questa scala ci porti lì", dice LeCun del suo desiderio di stimolare un ripensamento dei concetti base. "Fondamentalmente, quello che sto scrivendo qui è che dobbiamo costruire razzi, non posso darvi i dettagli su come costruiamo i razzi, ma ecco i principi di base."

L'articolo e i pensieri di LeCun nell'intervista possono essere meglio compresi leggendo l'intervista di LeCun all'inizio di quest'anno con ZDNet in cui sostiene l'apprendimento autosupervisionato basato sull'energia come percorso verso l'apprendimento profondo. Queste riflessioni danno un’idea dell’approccio fondamentale a ciò che spera di costruire come alternativa a ciò che, secondo lui, non arriverà al traguardo. 

Quella che segue è una trascrizione leggermente modificata dell'intervista.

Rete ZD: L'oggetto della nostra chiacchierata è questo documento, "Un percorso verso l'intelligenza artificiale autonoma", di cui la versione 0.9.2 è quella esistente, vero?

Yann LeCun: Sì, lo considero, in un certo senso, un documento di lavoro. Quindi l'ho pubblicato su Open Review, aspettando che le persone facciano commenti e suggerimenti, magari riferimenti aggiuntivi, e poi produrrò una versione rivista. 

Rete ZD: Vedo che Juergen Schmidhuber ha già aggiunto alcuni commenti a Open Review.

YL: Beh, sì, lo fa sempre. Cito uno dei suoi articoli nel mio articolo. Penso che le argomentazioni che ha avanzato sui social network secondo cui fondamentalmente ha inventato tutto questo nel 1991, come ha fatto in altri casi, semplicemente non sono vere. Voglio dire, è molto facile da farepiantare bandiere e, in un certo senso, scrivere un'idea senza esperimenti, senza alcuna teoria, suggerire semplicemente che potresti farlo in questo modo. Ma, sai, c'è una grande differenza tra avere semplicemente un'idea, e poi farla funzionare su un problema giocattolo, e poi farla funzionare su un problema reale, e poi elaborare una teoria che mostri perché funziona, e poi distribuendolo. C'è un'intera catena, e la sua idea di credito scientifico è che è la primissima persona che, in un certo senso, ha avuto l'idea di ciò, che dovrebbe ottenere tutto il merito. E questo è ridicolo. 

Rete ZD: Non credere a tutto ciò che senti sui social media. 

YL: Voglio dire, l'articolo principale che dice che dovrei citare non contiene nessuna delle idee principali di cui parlo nell'articolo. Lo ha fatto anche con i GAN e altre cose, il che non si è rivelato vero. È facile piantare bandiere, è molto più difficile dare un contributo. E, a proposito, in questo particolare articolo ho detto esplicitamente che non si tratta di un articolo scientifico nel senso comune del termine. È più un documento di posizione su dove dovrebbe andare questa cosa. E ci sono un paio di idee che potrebbero essere nuove, ma la maggior parte non lo è. In sostanza, non rivendico alcuna priorità sulla maggior parte di ciò che ho scritto in quell'articolo.

yann-lecun-settembre-2022-2

Anche l’apprendimento per rinforzo non sarà mai sufficiente, sostiene LeCun. Ricercatori come David Silver di DeepMind, che ha sviluppato il programma AlphaZero che padroneggiava scacchi, Shogi e Go, sono "molto basati sull'azione", osserva LeCun, ma "la maggior parte dell'apprendimento che facciamo, non lo facciamo prendendolo effettivamente in considerazione". azioni, lo facciamo osservando.” 

Rete ZD: E questo forse è un buon punto di partenza, perché sono curioso di sapere perché hai intrapreso questa strada adesso? Cosa ti ha fatto pensare a questo? Perché hai voluto scrivere questo?

YL: Ebbene, è da molto tempo che ci penso, a un percorso verso l'intelligenza o l'apprendimento e le capacità di livello umano o animale. E nei miei discorsi sono stato piuttosto esplicito riguardo al fatto che sia l'apprendimento supervisionato che l'apprendimento per rinforzo sono insufficienti per emulare il tipo di apprendimento che osserviamo negli animali e negli esseri umani. Lo faccio da qualcosa come sette o otto anni. Quindi non è recente. Ho avuto un keynote al NeurIPS molti anni fa in cui ho sottolineato questo punto, essenzialmente, e vari discorsi, ci sono registrazioni. Ora, perché scrivere un articolo adesso? Sono arrivato al punto - [il ricercatore di Google Brain] Geoff Hinton aveva fatto qualcosa di simile - voglio dire, certamente, lui più di me, vediamo che il tempo stringe. Non siamo giovani.

Rete ZD: Sessanta sono i nuovi cinquanta. 

YL: È vero, ma il punto è che vediamo molte affermazioni su cosa dovremmo fare per avanzare verso un'intelligenza artificiale a livello umano. E ci sono idee che penso siano mal indirizzate. Quindi, un'idea è: Oh, dovremmo semplicemente aggiungere il ragionamento simbolico oltre alle reti neurali. E non so come farlo. Quindi, forse quello che ho spiegato nell’articolo potrebbe essere un approccio che farebbe la stessa cosa senza la manipolazione esplicita dei simboli. Questo è il tipo di Gary Marcuses tradizionalmente del mondo. Gary Marcus non è un esperto di intelligenza artificiale, tra l'altro è uno psicologo. Non ha mai contribuito in alcun modo all'intelligenza artificiale. Ha svolto un ottimo lavoro in psicologia sperimentale, ma non ha mai scritto un articolo sottoposto a revisione paritaria sull'intelligenza artificiale. Quindi ci sono quelle persone. 

C'è il [scienziato ricercatore di DeepMind] David Silvers del mondo che dice, sai, la ricompensa è sufficiente, fondamentalmente, è tutta una questione di apprendimento per rinforzo, dobbiamo solo renderlo un po' più efficiente, ok? E penso che non abbiano torto, ma penso che i passi necessari per rendere l'apprendimento per rinforzo più efficiente, in sostanza, relegherebbero l'apprendimento per rinforzo a una sorta di ciliegina sulla torta. E la parte principale mancante è imparare come funziona il mondo, principalmente attraverso l’osservazione senza azione. L’apprendimento per rinforzo è molto basato sull’azione, impari cose sul mondo intraprendendo azioni e vedendo i risultati.

Rete ZD: Ed è incentrato sulla ricompensa.

YL: È incentrato sulla ricompensa ed è anche incentrato sull'azione. Quindi, devi agire nel mondo per poter imparare qualcosa sul mondo. E l'affermazione principale che faccio nell'articolo sull'apprendimento auto-supervisionato è che la maggior parte dell'apprendimento che facciamo, non lo facciamo intraprendendo effettivamente azioni, lo facciamo osservando. Ed è molto poco ortodosso, sia per le persone che apprendono per rinforzo, in particolare, ma anche per molti psicologi e scienziati cognitivi che pensano che, sai, l'azione è - non sto dicendo che l'azione non sia essenziale, è is essenziale. Ma penso che la maggior parte di ciò che impariamo riguardi principalmente la struttura del mondo e implica, ovviamente, interazione, azione, gioco e cose del genere, ma in gran parte è osservativo.

Rete ZD: Riuscirai anche a spuntare il popolo Transformer, il popolo della lingua, allo stesso tempo. Come puoi costruirlo senza prima la lingua? Potresti riuscire a spuntare molte persone. 

YL: Sì, ci sono abituato. Quindi sì, ci sono quelli che privilegiano il linguaggio e dicono che l'intelligenza riguarda il linguaggio, il substrato dell'intelligenza è il linguaggio, blah, blah, blah. Ma questo, in un certo senso, respinge l’intelligenza animale. Sapete, non siamo al punto in cui le nostre macchine intelligenti hanno tanto buon senso quanto un gatto. Quindi, perché non iniziamo da lì? Cos'è che permette a un gatto di comprendere il mondo circostante, di fare cose piuttosto intelligenti, di pianificare e cose del genere, e ai cani ancora meglio? 

Poi ci sono tutte le persone che dicono: Oh, l'intelligenza è una cosa sociale, giusto? Siamo intelligenti perché ci parliamo e ci scambiamo informazioni, e bla, bla, bla. Ci sono tutti i tipi di specie non sociali che non incontrano mai i loro genitori molto intelligenti, come i polpi o gli oranghi.Voglio dire, loro [gli oranghi] sono certamente educati dalla madre, ma non sono animali sociali. 

Ma l’altra categoria di persone che potrei sottolineare è quella di persone che dicono che il ridimensionamento è sufficiente. Quindi, fondamentalmente, usiamo semplicemente Transformers giganteschi, li addestriamo su dati multimodali che coinvolgono, sai, video, testo, blah, blah, blah. Noi, in un certo senso, pietrifichiamotutto, e tokenizzare tutto, e poi allenarsi in modo gigantescomodelli per fare previsioni discrete, in sostanza, e in qualche modo l’intelligenza artificiale emergerà da questo. Non hanno torto, nel senso che potrebbe essere una componente di un futuro sistema intelligente. Ma penso che manchino pezzi essenziali. 

C'è un'altra categoria di persone che selezionerò con questo articolo. E sono i probabilisti, i probabilisti religiosi. Quindi, le persone che pensano che la teoria della probabilità sia l'unico quadro che puoi usare per spiegare l'apprendimento automatico. E come ho cercato di spiegare nell'articolo, è praticamente troppo chiedere che un modello mondiale sia completamente probabilistico. Non sappiamo come farlo. C'è l'intrattabilità computazionale. Quindi propongo di abbandonare l'intera idea. E ovviamente, si sa, questo è un enorme pilastro non solo dell'apprendimento automatico, ma di tutta la statistica, che pretende di essere il normale formalismo per l'apprendimento automatico. 

L'altra cosa... 

Rete ZD: Sei alla grande...

YL: – è quello che viene chiamato modello generativo. Quindi, l'idea che puoi imparare a fare previsioni, e forse puoi imparare molto sul mondo tramite la previsione. Quindi, ti do un pezzo di video e chiedo al sistema di prevedere cosa succederà dopo nel video. E potrei chiederti di prevedere i fotogrammi video reali con tutti i dettagli. Ma ciò di cui sostengo nel documento è che in realtà è chiedere troppo ed è troppo complicato. E questo è qualcosa su cui ho cambiato idea. Fino a circa due anni fa ero un sostenitore di quelli che io chiamo modelli generativi a variabili latenti, modelli che prevedono cosa accadrà dopo o le informazioni che mancano, possibilmente con l'aiuto di una variabile latente, se la previsione non può essere deterministico. E ho rinunciato a questo. E il motivo per cui ho rinunciato si basa su risultati empirici, in cui le persone hanno provato ad applicare, in un certo senso, una formazione basata sulla previsione o sulla ricostruzione del tipo utilizzato in BERTe modelli linguistici di grandi dimensioni, hanno provato ad applicarlo alle immagini, ed è stato un completo fallimento. E il motivo per cui è un completo fallimento è, ancora una volta, a causa dei vincoli dei modelli probabilistici in cui è relativamente facile prevedere token discreti come le parole perché possiamo calcolare la distribuzione di probabilità su tutte le parole nel dizionario. Questo è facile. Ma se chiediamo al sistema di produrre la distribuzione di probabilità su tutti i possibili fotogrammi video, non abbiamo idea di come parametrizzarla, oppure abbiamo qualche idea di come parametrizzarla, ma non sappiamo come normalizzarla. Si tratta di un problema matematico intrattabile che non sappiamo come risolvere. 

yann-lecun-settembre-2022-3

"Non siamo al punto in cui le nostre macchine intelligenti hanno tanto buon senso quanto un gatto", osserva Lecun. “Allora perché non iniziamo da lì? Cos’è che permette a un gatto di comprendere il mondo circostante, di fare cose piuttosto intelligenti, di pianificare e cose del genere, e ai cani ancora meglio?

Quindi, ecco perché dico di abbandonare la teoria della probabilità o il quadro per cose del genere, quello più debole, i modelli basati sull'energia. Anche io lo sostengo da decenni, quindi non è una cosa recente. Ma allo stesso tempo abbandonando l’idea di modelli generativi perché ci sono molte cose al mondo che non sono comprensibili e non prevedibili. Se sei un ingegnere, lo chiami rumore. Se sei un fisico, lo chiami calore. E se sei una persona che apprende l'apprendimento automatico, lo chiami, sai, dettagli irrilevanti o altro.

Quindi, l'esempio che ho usato nel giornale, o che ho usato nei discorsi, è: vuoi un sistema di previsione mondiale che possa aiutare in un'auto a guida autonoma, giusto? Vuole essere in grado di prevedere in anticipo le traiettorie di tutte le altre auto, cosa succederà agli altri oggetti che potrebbero muoversi, pedoni, biciclette, un bambino che corre dietro a un pallone da calcio, cose del genere. Quindi, ogni genere di cose sul mondo. Ma lungo la strada potrebbero esserci degli alberi, e oggi c'è vento, quindi le foglie si muovono nel vento, e dietro gli alberi c'è uno stagno, e ci sono delle increspature nello stagno. E questi sono, essenzialmente, fenomeni largamente imprevedibili. Inoltre, non vuoi che il tuo modello spenda una quantità significativa di risorse per prevedere cose difficili da prevedere e irrilevanti. Ecco perché sostengo l'architettura di incorporamento congiunto, quelle cose in cui la variabile che stai cercando di modellare, non stai cercando di prevederla, stai cercando di modellarla, ma scorre attraverso un codificatore e quel codificatore può eliminare molti dettagli sull'input che sono irrilevanti o troppo complicati, sostanzialmente equivalenti al rumore.

Rete ZD: All’inizio di quest’anno abbiamo discusso dei modelli basati sull’energia, JEPA e H-JEPA. La mia sensazione, se ho capito bene, è che stai trovando il punto di bassa energia in cui queste due previsioni degli incorporamenti X e Y sono più simili, il che significa che se c'è un piccione su un albero in uno, e c'è qualcosa nel sfondo di una scena, potrebbero non essere questi i punti essenziali che avvicinano queste incorporazioni.

YL: Giusto. Quindi, l’architettura JEPA cerca effettivamente di trovare un compromesso, tra l’estrazione di rappresentazioni che siano il più possibile informative sugli input ma anche prevedibili le une dalle altre con un certo livello di accuratezza o affidabilità. Trova un compromesso. Quindi, se può scegliere tra spendere un'enorme quantità di risorse, compresi i dettagli del movimento delle foglie, e poi modellare le dinamiche che decideranno come si muoveranno le foglie tra un secondo, o semplicemente lasciarle cadere sul pavimento semplicemente eseguendo la variabile Y attraverso un predittore che elimina tutti quei dettagli, probabilmente la eliminerà semplicemente perché è semplicemente troppo difficile da modellare e da catturare.

Rete ZD: Una cosa che sorprende è che tu sei stato un grande sostenitore del detto "Funziona, troveremo più tardi la teoria della termodinamica per spiegarlo". Qui hai adottato un approccio del tipo: "Non so come risolveremo necessariamente questo problema, ma voglio proporre alcune idee per pensarci", e forse anche avvicinandoti a una teoria o a un'ipotesi, a meno. Questo è interessante perché ci sono molte persone che spendono molti soldi per lavorare su un'auto che può vedere il pedone indipendentemente dal fatto che l'auto abbia buon senso. E immagino che alcune di queste persone non saranno irritate, ma diranno: "Va bene, non ci interessa se non ha buon senso, abbiamo costruito una simulazione, la simulazione è fantastica, e continueremo a migliorare, continueremo a ridimensionare la simulazione. 

E quindi è interessante che tu sia nella posizione di dire ora, facciamo un passo indietro e pensiamo a quello che stiamo facendo. E l'industria dice che aumenteremo, aumenteremo, aumenteremo, aumenteremo, perché quella manovella funziona davvero. Voglio dire, la manovella a semiconduttore delle GPU funziona davvero.

YL: Ci sono tipo cinque domande lì. Quindi, voglio dire, il ridimensionamento è necessario. Non sto criticando il fatto che dovremmo ridimensionarci. Dovremmo ridimensionare. Quelle reti neurali migliorano man mano che diventano più grandi. Non c’è dubbio che dovremmo ridimensionare. E quelli che avranno un certo livello di buon senso saranno grandi. Non c'è modo di aggirarlo, penso. Quindi il ridimensionamento è positivo, è necessario, ma non sufficiente. Questo è il punto che sto sottolineando. Non si tratta solo di ridimensionamento. Questo è il primo punto. 

Secondo punto, se la teoria viene prima e cose del genere. Quindi, penso che ci siano concetti che vengono prima, devi fare un passo indietro e dire, okay, abbiamo costruito questa scala, ma vogliamo andare sulla luna e non c'è modo che questa scala ci porti lì. Quindi, in sostanza, quello che sto scrivendo qui è che dobbiamo costruire razzi. Non posso darti i dettagli su come costruiamo i razzi, ma ecco i principi di base. E non sto scrivendo una teoria o altro, ma sarà un razzo, ok? O un ascensore spaziale o altro. Potremmo non avere tutti i dettagli di tutta la tecnologia. Stiamo cercando di far funzionare alcune di queste cose, come ho lavorato su JEPA. L'incorporamento congiunto funziona molto bene per il riconoscimento delle immagini, ma per utilizzarlo per addestrare un modello mondiale ci sono difficoltà. Ci stiamo lavorando, speriamo di farlo funzionare soon, ma lì potremmo incontrare degli ostacoli che forse non potremo superare. 

Poi c'è un'idea chiave nel documento sul ragionamento secondo cui se vogliamo che i sistemi siano in grado di pianificare, che puoi considerare come una semplice forma di ragionamento, devono avere variabili latenti. In altre parole, cose che non sono calcolate da alcuna rete neurale ma cose che lo sono, il cui valore è dedotto in modo da minimizzare qualche funzione obiettivo, qualche funzione di costo. E quindi puoi utilizzare questa funzione di costo per guidare il comportamento del sistema. E questa non è affatto un'idea nuova, giusto? Questo è un controllo molto classico e ottimale, le cui basi risalgono alla fine degli anni '50, all'inizio degli anni '60. Quindi, non pretendo alcuna novità qui. Ma quello che sto dicendo è che questo tipo di inferenza deve essere parte di un sistema intelligente in grado di pianificare e il cui comportamento può essere specificato o controllato non da un comportamento cablato, non dalla tendenza all'imitazione, ma da una funzione oggettiva che guida il comportamento: non necessariamente guida l'apprendimento, ma guida il comportamento. Sapete, ce l'abbiamo nel cervello e ogni animale ha un costo intrinseco o motivazioni intrinseche per le cose. Ciò spinge i bambini di nove mesi a voler alzarsi. Il costo di essere felici quando ti alzi, questo termine nella funzione di costo è cablato. Ma il modo in cui ti alzi non lo è, questo è imparare.

yann-lecun-settembre-2022-4

"La scalabilità è buona, è necessaria, ma non sufficiente", dice LeCun dei modelli linguistici giganteschi come i programmi basati su Transformer della varietà GPT-3. I devoti di Transformer credono: “Gettiamo tutto in simboli e ci alleniamo in modo gigantescomodelli per fare previsioni discrete, e in qualche modo l’intelligenza artificiale emergerà da tutto questo… ma penso che manchino pezzi essenziali”.

Rete ZD: Giusto per concludere questo punto, gran parte della comunità del deep learning sembra andare avanti con qualcosa che non ha buon senso. Sembra che tu stia sostenendo un argomento abbastanza chiaro che a un certo punto diventa un vicolo cieco. Alcuni dicono che non abbiamo bisogno di un’auto autonoma con buon senso perché il ridimensionamento basterà a farlo. Sembra che tu stia dicendo che non va bene continuare semplicemente su quella strada?

YL: Sapete, penso che sia del tutto possibile che avremo auto autonome di livello cinque senza il buon senso. Ma il problema con questo approccio sarà temporaneo, perché dovrai organizzarlo a fondo. Quindi, sai, mappare il mondo intero, cablare tutti i tipi di comportamenti specifici, raccogliere dati sufficienti per avere tutte le situazioni strane che puoi incontrare sulle strade, blah, blah, blah. E la mia ipotesi è che con abbastanza investimenti e tempo, puoi semplicemente progettarlo fino in fondo. Ma alla fine, ci sarà una soluzione più soddisfacente e forse migliore, che coinvolga sistemi che svolgano un lavoro migliore nel comprendere il modo in cui funziona il mondo, e abbiano, sapete, un certo livello di quello che chiameremmo buon senso. Non è necessario che si tratti di buon senso a livello umano, ma di un qualche tipo di conoscenza che il sistema può acquisire osservando, ma non guardando qualcuno guidare, semplicemente osservando cose che si muovono e comprendendo molto del mondo, costruendo una base di background conoscenza su come funziona il mondo, oltre alla quale puoi imparare a guidare. 

Vorrei fare un esempio storico di questo. La visione artificiale classica era basata su molti moduli ingegnerizzati e cablati, sopra i quali avresti, in un certo senso, un sottile strato di apprendimento. Quindi, il materiale che è stato battuto da AlexNet nel 2012, aveva fondamentalmente una prima fase, una sorta di estrazione di caratteristiche artigianale, come i SIFT [Scale-Invariant Feature Transform (SIFT), una tecnica di visione classica per identificare gli oggetti salienti in un'immagine] e HOG [Istogramma dei gradienti orientati, un'altra tecnica classica] e varie altre cose. E poi il secondo livello di funzionalità di livello medio basate su kernel di funzionalità e quant'altro, e una sorta di metodo non supervisionato. E poi oltre a questo, metti una macchina vettoriale di supporto, oppure un classificatore relativamente semplice. E quella era, più o meno, la pipeline standard dalla metà degli anni 2000 al 2012. E questa è stata sostituita da reti convoluzionali end-to-end, dove non si collega nulla di tutto ciò, si hanno solo molti dati, e alleni la cosa da un capo all'altro, che è l'approccio che sostenevo da molto tempo, ma sai, fino ad allora, non era pratico per problemi di grandi dimensioni. 

C'è stata una storia simile nel riconoscimento vocale dove, ancora una volta, c'era un'enorme quantità di ingegneria dettagliata su come preelaborare i dati, estrarre il cepstrum su scala di massa [un inverso della trasformata veloce di Fourier per l'elaborazione del segnale], e poi hai modelli di Markov nascosti, con una sorta di architettura preimpostata, blah, blah, blah, con una miscela di gaussiane. E quindi, è un po' la stessa architettura della visione in cui hai un front-end artigianale, e poi uno strato intermedio un po' non supervisionato, addestrato, e poi uno strato supervisionato in cima. E ora questo è stato, sostanzialmente, spazzato via dalle reti neurali end-to-end. Quindi in un certo senso vedo qualcosa di simile nel cercare di imparare tutto, ma devi avere le giuste basi, la giusta architettura, la giusta struttura.

yann-lecun-settembre-2022-5

Il pubblico delle auto a guida autonoma, startup come Waymo e Wayve, sono stati "un po' troppo ottimisti", dice, pensando che avrebbero potuto "gettare dati e si può imparare praticamente qualsiasi cosa". Le auto a guida autonoma al livello 5 dell'ADAS sono possibili, "Ma dovrai ingegnerizzarle a fondo" e saranno "fragili" come i primi modelli di visione artificiale.

Rete ZD: Quello che stai dicendo è che alcune persone proveranno a progettare ciò che attualmente non funziona con il deep learning per applicarlo, diciamo, all'industria, e inizieranno a creare qualcosa che è diventato obsoleto nella visione artificiale?

YL: Giusto. Ed è in parte il motivo per cui le persone che lavorano sulla guida autonoma sono state un po' troppo ottimiste negli ultimi anni, è perché, sai, ci sono queste cose generiche come le reti convoluzionali e i Transformer, a cui puoi lanciare dati e può imparare praticamente qualsiasi cosa. Quindi dici: Ok, ho la soluzione a questo problema. La prima cosa che fai è costruire una demo in cui l'auto guida da sola per alcuni minuti senza fare male a nessuno. E poi ti rendi conto che ci sono molti casi limite, e provi a tracciare la curva di quanto sto migliorando raddoppiando il set di allenamento, e ti rendi conto che non ci arriverai mai perché ci sono tutti i tipi di casi limite . E devi avere un'auto che causi un incidente mortale meno di ogni 200 milioni di chilometri, giusto? Allora cosa fai? Bene, cammini in due direzioni. 

La prima direzione è: come posso ridurre la quantità di dati necessari per l'apprendimento del mio sistema? Ed è qui che entra in gioco l'apprendimento auto-supervisionato. Quindi, molti produttori di auto a guida autonoma sono molto interessati all'apprendimento auto-supervisionato perché è un modo per continuare a utilizzare enormi quantità di dati di supervisione per l'apprendimento per imitazione, ma ottenendo prestazioni migliori attraverso pre-allenamento, essenzialmente. E non ha ancora avuto successo, ma lo farà. E poi c'è l'altra opzione, che la maggior parte delle aziende che sono più avanzate a questo punto hanno adottato, cioè, okay, possiamo fare la formazione end-to-end, ma ci sono molti casi limite che possiamo' non gestire, quindi progetteremo semplicemente sistemi che si prenderanno cura di questi casi limite e, fondamentalmente, li tratteremo come casi speciali, e collegheremo il controllo, e poi collegheremo molti comportamenti di base per gestire situazioni speciali. E se disponi di un team di ingegneri abbastanza numeroso, potresti farcela. Ma ci vorrà molto tempo e, alla fine, sarà ancora un po' fragile, forse abbastanza affidabile da poter essere implementato, ma con un certo livello di fragilità, che, con un approccio più basato sull'apprendimento che potrebbe apparire nel In futuro, le auto non lo avranno perché potrebbero avere un certo livello di buon senso e comprensione su come funziona il mondo. 

Nel breve termine, l’approccio, per così dire, ingegnerizzato vincerà – vince già. Questo è il Waymo e il Cruise del mondo e il Wayvee qualunque cosa, questo è quello che fanno. Poi c’è l’approccio di apprendimento auto-supervisionato, che probabilmente aiuterà l’approccio ingegnerizzato a fare progressi. Ma poi, a lungo termine, che potrebbe essere troppo lungo da aspettare per quelle aziende, probabilmente si tratterebbe di un sistema di guida intelligente autonomo più integrato.

Rete ZD: Diciamo oltre l'orizzonte di investimento della maggior parte degli investitori.

YL: Giusto. Quindi, la domanda è: le persone perderanno la pazienza o finiranno i soldi prima che le prestazioni raggiungano il livello desiderato.

Rete ZD: C'è qualcosa di interessante da dire sul perché hai scelto alcuni degli elementi che hai scelto nel modello? Perché citi Kenneth Craik [1943,La natura della spiegazione], e citi Bryson e Ho [1969, Controllo ottimale applicato], e sono curioso di sapere perché hai iniziato con queste influenze, se credevi soprattutto che queste persone avessero centrato l'obiettivo di quello che avevano fatto. Perché hai iniziato da lì?

YL: Beh, non penso che, certamente, avessero chiarito tutti i dettagli. Quindi, Bryson e Ho, questo è un libro che ho letto nel 1987 quando ero un postdoc con Geoffrey Hinton a Toronto. Ma conoscevo questa linea di lavoro in anticipo quando stavo scrivendo il mio dottorato di ricerca, e essenzialmente ho stabilito la connessione tra controllo ottimale e backprop. Se davvero volessi essere, sai, un altro Schmidhuber, diresti che i veri inventori del backprop sono stati in realtà i teorici del controllo ottimale Henry J. Kelley, Arthur Bryson e forse anche Lev Pontryagin, che è un teorico russo del controllo ottimale. alla fine degli anni '50. 

Quindi, l'hanno capito, e infatti potete vederne la radice, la matematica sottostante è la meccanica lagrangiana. Quindi potete tornare a Eulero e Lagrange, in effetti, e trovarne un accenno nella loro definizione di meccanica classica lagrangiana, davvero. Quindi, nel contesto del controllo ottimale, ciò che interessava a questi ragazzi era fondamentalmente calcolare le traiettorie dei razzi. Sapete, questa era la prima era spaziale. E se hai un modello del razzo, ti dice che ecco lo stato del razzo in quel momento t, ed ecco l'azione che andrò a compiere, quindi, spinta ed attuatori di vario genere, ecco lo stato del razzo in quel momento t + 1.

Rete ZD: Un modello stato-azione, un modello di valore.

YL: Esatto, la base del controllo. Quindi, ora puoi simulare il lancio del tuo razzo immaginando una sequenza di comandi, e poi hai una funzione di costo, che è la distanza del razzo dal suo bersaglio, una stazione spaziale o qualunque cosa sia. E poi con una sorta di gradiente di discesa, puoi capire come posso aggiornare la mia sequenza di azioni in modo che il mio razzo si avvicini il più possibile al bersaglio. E ciò deve avvenire propagando i segnali all’indietro nel tempo. E questa è propagazione all'indietro, propagazione all'indietro del gradiente. Questi segnali sono chiamati variabili coniugate nella meccanica lagrangiana, ma in realtà sono gradienti. Quindi hanno inventato il backprop, ma non si sono resi conto che questo principio poteva essere utilizzato per addestrare un sistema a più fasi in grado di eseguire il riconoscimento di schemi o qualcosa del genere. Questo non fu realmente realizzato fino forse alla fine degli anni '70, all'inizio degli anni '80, e poi non fu effettivamente implementato e reso operativo fino alla metà degli anni '80. Ok, quindi, è qui che il backprop è davvero, in un certo senso, decollato perché le persone hanno mostrato alcune righe di codice che puoi addestrare una rete neurale, end-to-end, multistrato. E questo elimina i limiti del Perceptron. E sì, ci sono connessioni con un controllo ottimale, ma va bene.

Rete ZD: Quindi, è un modo lungo per dire che queste influenze con cui hai iniziato sarebbero tornate in secondo piano, e questo è stato importante come punto di partenza per te?

YL: Sì, ma penso che ciò di cui la gente si è un po' dimenticata è che c'era un bel po' di lavoro su questo argomento, sai, negli anni '90, o anche negli anni '80, anche da parte di persone come Michael Jordan [MIT Dept. of Brain e scienze cognitive] e persone come loro che non realizzano più reti neurali, ma l'idea che è possibile utilizzare le reti neurali per il controllo e che è possibile utilizzare le idee classiche di controllo ottimale. Quindi, cose come quello che viene chiamato controllo predittivo del modello, quello che ora viene chiamato controllo predittivo del modello, questa idea che puoi simulare o immaginare il risultato di una sequenza di azioni se hai un buon modello del sistema che stai cercando di controllare e l'ambiente in cui si trova. E poi attraverso la discesa del gradiente, essenzialmente - questo non è apprendimento, questa è inferenza - puoi capire qual è la migliore sequenza di azioni che minimizzerà il mio obiettivo. Quindi, penso che l’uso di una funzione di costo con una variabile latente per l’inferenza sia qualcosa di cui le attuali reti neurali su larga scala si sono dimenticate. Ma per molto tempo è stata una componente molto classica dell’apprendimento automatico. Quindi, ogni rete bayesiana o modello grafico o modello grafico probabilistico utilizzava questo tipo di inferenza. Hai un modello che cattura le dipendenze tra un gruppo di variabili, ti viene detto il valore di alcune variabili e quindi devi dedurre il valore più probabile del resto delle variabili. Questo è il principio base dell'inferenza nei modelli grafici e nelle reti bayesiane e cose del genere. E penso che fondamentalmente il ragionamento dovrebbe riguardare questo, ragionare e pianificare.

Rete ZD: Sei un bayesiano nascosto.

YL: Sono un bayesiano non probabilistico. Ho già fatto quella battuta. In realtà ero a NeurIPS qualche anno fa, penso che fosse nel 2018 o 2019, e sono stato ripreso in video da un bayesiano che mi ha chiesto se ero bayesiano, e ho detto: Sì, sono bayesiano, ma io Sono un bayesiano non probabilistico, una specie di bayesiano basato sull'energia, se vuoi. 

Rete ZD: Il che suona sicuramente come qualcosa da Star Trek. Alla fine di questo articolo hai menzionato che ci vorranno anni di duro lavoro per realizzare ciò che immagini. Raccontami in cosa consiste parte di quel lavoro al momento.

YL: Quindi nel documento spiego come formare e costruire la JEPA. E il criterio che sostengo è avere un modo per massimizzare il contenuto informativo che le rappresentazioni estratte hanno sull'input. E poi il secondo è ridurre al minimo l'errore di previsione. E se nel predittore è presente una variabile latente che consente al predittore di essere non deterministico, è necessario regolarizzare anche questa variabile latente minimizzando il suo contenuto informativo. Quindi, ora hai due problemi: come massimizzare il contenuto informativo dell'output di una rete neurale e l'altro è come ridurre al minimo il contenuto informativo di alcune variabili latenti? E se non si fanno queste due cose, il sistema crollerà. Non imparerà nulla di interessante. Darà energia zero a tutto, qualcosa del genere, che non è un buon modello di dipendenza. È il problema della prevenzione del collasso quello che menziono. 

E sto dicendo che tra tutte le cose che le persone hanno mai fatto, ci sono solo due categorie di metodi per prevenire il collasso. Uno sono i metodi contrastivi e l'altro sono i metodi regolarizzati. Quindi, questa idea di massimizzare il contenuto informativo delle rappresentazioni dei due input e minimizzare il contenuto informativo della variabile latente, appartiene ai metodi regolarizzati. Ma gran parte del lavoro in queste architetture di incorporamento congiunto utilizza metodi contrastivi. In effetti, sono probabilmente i più popolari al momento. Quindi, la domanda è esattamente: come misurare il contenuto delle informazioni in modo da poterlo ottimizzare o minimizzare? Ed è qui che le cose si complicano perché non sappiamo effettivamente come misurare il contenuto informativo. Possiamo approssimarlo, possiamo limitarlo verso l'alto, possiamo fare cose del genere. Ma in realtà non misurano il contenuto dell'informazione, che anzi in una certa misura non è nemmeno ben definita.

Rete ZD: Non è la legge di Shannon? Non è teoria dell'informazione? Hai una certa quantità di entropia, entropia buona e entropia cattiva, e l'entropia buona è un sistema di simboli che funziona, l'entropia cattiva è rumore. Non è tutto risolto da Shannon?

YL: Hai ragione, ma dietro c'è un grosso difetto. Hai ragione nel senso che se ricevi dei dati e puoi in qualche modo quantizzarli in simboli discreti e poi misurare la probabilità di ciascuno di quei simboli, allora la quantità massima di informazioni trasportate da quei simboli è il somma sui possibili simboli di Pi log Pi, Giusto? Dove Pi è la probabilità del simbolo io - questa è l'entropia di Shannon. [La legge di Shannon è comunemente formulata come H = – ∑ pi log pi.]

Ecco il problema, però: cos'è Pi? È facile quando il numero di simboli è piccolo e i simboli vengono disegnati in modo indipendente. Quando ci sono molti simboli e dipendenze, è molto difficile. Quindi, se hai una sequenza di bit e presumi che i bit siano indipendenti l'uno dall'altro e che la probabilità sia uguale tra uno e zero o qualsiasi altra cosa, allora puoi facilmente misurare l'entropia, nessun problema. Ma se le cose che arrivano a te sono vettori ad alta dimensione, come, sai, frame di dati, o qualcosa del genere, cosa succede Pi? Qual è la distribuzione? Per prima cosa devi quantizzare quello spazio, che è uno spazio continuo e ad alta dimensione. Non hai idea di come quantizzarlo correttamente. Puoi usare k-means, ecc. Questo è ciò che fanno le persone quando eseguono la compressione video e la compressione delle immagini. Ma è solo un'approssimazione. E poi bisogna fare ipotesi di indipendenza. Quindi è chiaro che in un video i fotogrammi successivi non sono indipendenti. Ci sono delle dipendenze e quel frame potrebbe dipendere da un altro frame che hai visto un'ora fa, che era un'immagine della stessa cosa. Quindi, sai, non puoi misurare Pi. Misurare Pi, devi disporre di un sistema di apprendimento automatico che impari a prevedere. E così torni al problema precedente. Quindi, in sostanza, puoi solo approssimare la misura delle informazioni. 

yann-lecun-settembre-2022-6

"La domanda è esattamente come misurare il contenuto delle informazioni in modo da poterlo ottimizzare o minimizzare?" dice LeCun. "Ed è qui che le cose si complicano perché non sappiamo effettivamente come misurare il contenuto delle informazioni." La cosa migliore che si possa fare finora è trovare un proxy che sia “abbastanza buono per il compito che vogliamo”.

Faccio un esempio più concreto. Uno degli algoritmi con cui abbiamo giocato, e di cui ho parlato nel pezzo, è questa cosa chiamata VICReg, regolarizzazione della varianza-invarianza-covarianza. È in un documento separato che è stato pubblicato presso l'ICLR, e è stato messo su arXiv circa un anno prima, nel 2021. E l’idea è quella di massimizzare le informazioni. E l'idea in realtà è nata da un precedente articolo del mio gruppo intitolato Gemelli Barlow. Si massimizza il contenuto informativo di un vettore che esce da una rete neurale assumendo, fondamentalmente, che l'unica dipendenza tra le variabili sia la correlazione, dipendenza lineare. Quindi, se presumi che l'unica dipendenza possibile tra coppie di variabili, o tra variabili nel tuo sistema, sia la correlazione tra coppie di valori, che è l'approssimazione estremamente approssimativa, allora puoi massimizzare il contenuto informativo che esce dal tuo sistema assicurandosi che tutte le variabili abbiano una varianza diversa da zero - diciamo, varianza uno, non importa quale sia - e poi correlandole all'indietro, lo stesso processo chiamato sbiancamento, non è neanche nuovo. Il problema con questo è che puoi benissimo avere dipendenze estremamente complesse tra gruppi di variabili o anche solo coppie di variabili che non sono dipendenze lineari e non vengono visualizzate nelle correlazioni. Quindi, per esempio, se hai due variabili, e tutti i punti di queste due variabili si allineano in una sorta di spirale, c'è una dipendenza molto forte tra queste due variabili, giusto? Ma in realtà, se calcoli la correlazione tra queste due variabili, non sono correlate. Quindi, ecco un esempio in cui il contenuto informativo di queste due variabili è in realtà molto piccolo, è solo una quantità perché è la tua posizione nella spirale. Sono decorrelate, quindi pensi di avere molte informazioni che escono da queste due variabili quando in realtà non è così, hai solo, sai, puoi prevedere una delle variabili dall'altra, essenzialmente. Ciò dimostra quindi che disponiamo solo di metodi molto approssimativi per misurare il contenuto informativo.

Rete ZD: E quindi questa è una delle cose su cui devi lavorare adesso? Questa è la domanda più ampia: come facciamo a sapere quando stiamo massimizzando e minimizzando il contenuto informativo?

YL:  O se il proxy che utilizziamo per questo è abbastanza buono per l'attività che desideriamo. In effetti, lo facciamo continuamente nel machine learning. Le funzioni di costo che minimizziamo non sono mai quelle che effettivamente vogliamo minimizzare. Quindi, per esempio, vuoi fare una classificazione, ok? La funzione di costo che vuoi minimizzare quando addestri un classificatore è il numero di errori commessi dal classificatore. Ma questa è una funzione di costo orribile e non differenziabile che non puoi minimizzare perché sai che cambierai i pesi della tua rete neurale, nulla cambierà finché uno di quei campioni non invertirà la sua decisione, e poi un salto nell'errore, positivo o negativo.

Rete ZD: Quindi hai un proxy che è una funzione oggettiva che puoi sicuramente dire, possiamo sicuramente far fluire i gradienti di questa cosa.

YL: Giusto. Quindi le persone usano questa perdita di entropia incrociata, o SOFTMAX, ci sono diversi nomi per questo, ma è la stessa cosa. E fondamentalmente si tratta di un'approssimazione uniforme del numero di errori commessi dal sistema, dove il livellamento viene effettuato, sostanzialmente, tenendo conto del punteggio che il sistema assegna a ciascuna delle categorie.

Rete ZD: C'è qualcosa di cui non abbiamo parlato e che vorresti coprire?

YL: Probabilmente sta enfatizzando i punti principali. Penso che i sistemi di intelligenza artificiale debbano essere in grado di ragionare, e il processo che sto sostenendo è quello di minimizzare alcuni obiettivi rispetto ad alcune variabili latenti. Ciò consente ai sistemi di pianificare e ragionare. Penso che dovremmo abbandonare il quadro probabilistico perché è intrattabile quando vogliamo fare cose come catturare le dipendenze tra variabili continue ad alta dimensione. E sto sostenendo di abbandonare i modelli generativi perché il sistema dovrà dedicare troppe risorse alla previsione di cose che sono troppo difficili da prevedere e forse consumerà troppe risorse. E questo è più o meno tutto. Questi sono i messaggi principali, se vuoi. E poi l'architettura complessiva. Poi ci sono quelle speculazioni sulla natura della coscienza e sul ruolo del configuratore, ma queste sono in realtà speculazioni.

Rete ZD: Ci arriveremo la prossima volta. Stavo per chiederti, come valuti questa cosa? Ma immagino che tu sia un po' più lontano dal benchmarking in questo momento?

YL: Non necessariamente così lontano nelle versioni semplificate. Puoi fare quello che fanno tutti nell'apprendimento di controllo o di rinforzo, ovvero addestrare la cosa a giocare ai giochi Atari o qualcosa del genere o qualche altro gioco che presenta qualche incertezza.

Rete ZD: Grazie per il tuo tempo, Yann.

Fonte