Guru de IA da Meta LeCun: A maioria das abordagens de IA de hoje nunca levará à verdadeira inteligência

yann-lecun-set-2022-1

“Acho que os sistemas de IA precisam ser capazes de raciocinar”, diz Yann LeCun, cientista-chefe de IA da Meta. As abordagens populares de IA atuais, como Transformers, muitas das quais se baseiam em seu próprio trabalho pioneiro na área, não serão suficientes. “Você tem que dar um passo para trás e dizer: Ok, construímos essa escada, mas queremos ir para a lua, e não há como essa escada nos levar até lá”, diz LeCun.

Yann LeCun, cientista chefe de IA da Meta Properties, dona do Facebook, Instagram e WhatsApp, provavelmente irritará muitas pessoas em seu campo. 

Com a publicação em junho de um artigo de reflexão no servidor Open Review, LeCun ofereceu uma ampla visão geral de uma abordagem que ele acredita ser promissora para alcançar inteligência de nível humano em máquinas. 

Implícita, se não articulada no artigo, está a afirmação de que a maioria dos grandes projetos de IA de hoje nunca será capaz de atingir esse objetivo em nível humano.

Em uma discussão este mês com ZDNet via Zoom, LeCun deixou claro que vê com grande ceticismo muitas das avenidas de pesquisa mais bem-sucedidas em aprendizado profundo no momento.

“Acho que eles são necessários, mas não suficientes”, disse o vencedor do Prêmio Turing ZDNet das atividades de seus pares. 

Isso inclui grandes modelos de linguagem, como o GPT-3 baseado em Transformer e seus semelhantes. Como LeCun o caracteriza, os devotos do Transformer acreditam: “Tokenizamos tudo e treinamos gigantesmodelos para fazer previsões discretas e, de alguma forma, a IA emergirá disso.”

“Eles não estão errados”, diz ele, “no sentido de que isso pode ser um componente de um futuro sistema inteligente, mas acho que está faltando peças essenciais”.

Também: O luminar de IA da Meta, LeCun, explora a fronteira de energia do aprendizado profundo

É uma crítica surpreendente do que parece funcionar vindo do estudioso que aperfeiçoou o uso de redes neurais convolucionais, uma técnica prática que tem sido incrivelmente produtiva em programas de aprendizado profundo. 

LeCun vê falhas e limitações em muitas outras áreas de grande sucesso da disciplina. 

O aprendizado por reforço também nunca será suficiente, ele afirma. Pesquisadores como David Silver, da DeepMind, que desenvolveu o programa AlphaZero, que dominou Chess, Shogi e Go, estão se concentrando em programas que são “muito baseados em ação”, observa LeCun, mas “a maior parte do aprendizado que fazemos, não fazemos isso realmente tomando ações, nós fazemos isso observando”. 

Lecun, 62, de uma perspectiva de décadas de conquistas, no entanto, expressa uma urgência em confrontar o que ele pensa serem os becos sem saída para os quais muitos podem estar correndo, e tentar persuadir seu campo na direção que ele acha que as coisas deveriam seguir. 

“Vemos muitas alegações sobre o que devemos fazer para avançar em direção à IA em nível humano”, diz ele. “E há ideias que eu acho que são mal direcionadas.”

“Não chegamos ao ponto de nossas máquinas inteligentes terem tanto senso comum quanto um gato”, observa Lecun. “Então, por que não começamos por aí?” 

Ele abandonou sua fé anterior em usar redes generativas em coisas como prever o próximo quadro em um vídeo. “Foi um fracasso total”, diz ele. 

LeCun condena aqueles que ele chama de “probabilistas religiosos”, que “pensam que a teoria da probabilidade é a única estrutura que você pode usar para explicar o aprendizado de máquina”. 

A abordagem puramente estatística é intratável, diz ele. “É pedir demais que um modelo de mundo seja completamente probabilístico; não sabemos como fazê-lo”.

Não apenas os acadêmicos, mas a IA industrial precisa repensar profundamente, argumenta LeCun. A multidão de carros autônomos, startups como Wayve, tem sido “um pouco otimista demais”, diz ele, pensando que poderia “jogar dados em” grandes redes neurais “e você pode aprender praticamente qualquer coisa”.

“Sabe, acho perfeitamente possível que tenhamos carros autônomos de nível cinco sem bom senso”, diz ele, referindo-se ao “ADAS”. sistema avançado de assistência ao motorista termos para direção autônoma, “mas você vai ter que projetar o inferno fora disso”.

Essa tecnologia de direção autônoma com engenharia excessiva será algo tão frágil e frágil quanto todos os programas de visão computacional que se tornaram obsoletos pelo aprendizado profundo, acredita ele.

“Em última análise, haverá uma solução mais satisfatória e possivelmente melhor que envolva sistemas que façam um trabalho melhor de entender como o mundo funciona.”

Ao longo do caminho, LeCun oferece algumas visões fulminantes de seus maiores críticos, como o professor da NYU Gary Marcus – “ele nunca contribuiu com nada para a IA” – e Jürgen Schmidhuber, codiretor do Instituto Dalle Molle para Pesquisa em Inteligência Artificial – “é muito fácil de plantar bandeiras.”

Além das críticas, o ponto mais importante feito por LeCun é que certos problemas fundamentais confrontam toda a IA, em particular, como medir informações.

“Você tem que dar um passo para trás e dizer: Ok, nós construímos essa escada, mas queremos ir para a lua, e não há como essa escada nos levar até lá”, diz LeCun sobre seu desejo de repensar de conceitos básicos. “Basicamente, o que estou escrevendo aqui é que precisamos construir foguetes, não posso dar os detalhes de como construímos foguetes, mas aqui estão os princípios básicos.”

O artigo, e os pensamentos de LeCun na entrevista, podem ser melhor compreendidos lendo a entrevista de LeCun no início deste ano com ZDNet no qual ele defende o aprendizado autossupervisionado baseado em energia como um caminho a seguir para o aprendizado profundo. Essas reflexões dão uma ideia da abordagem central do que ele espera construir como uma alternativa às coisas que ele afirma que não chegarão à linha de chegada. 

O que se segue é uma transcrição levemente editada da entrevista.

ZDNet: O assunto do nosso bate-papo é este artigo, “Um caminho para a inteligência de máquina autônoma”, de qual versão 0.9.2 é a versão existente, sim?

Yann LeCun: Sim, considero isso meio que um documento de trabalho. Então, postei no Open Review, esperando que as pessoas fizessem comentários e sugestões, talvez referências adicionais, e então produzirei uma versão revisada. 

ZDNet: Vejo que Juergen Schmidhuber já adicionou alguns comentários ao Open Review.

YL: Bem, sim, ele sempre faz. Cito um de seus trabalhos lá no meu jornal. Acho que os argumentos que ele fez nas redes sociais de que basicamente inventou tudo isso em 1991, como fez em outros casos, simplesmente não são o caso. Quero dizer, é muito fácil de fazerplantação de bandeiras, e para, mais ou menos, escrever uma ideia sem nenhum experimento, sem nenhuma teoria, apenas sugerir que você poderia fazer dessa maneira. Mas, você sabe, há uma grande diferença entre apenas ter a ideia, e então fazê-la funcionar em um problema de brinquedo, e então fazê-la funcionar em um problema real, e então fazer uma teoria que mostre por que ela funciona, e então implantando-o. Há toda uma cadeia, e sua ideia de crédito científico é que é a primeira pessoa que, tipo, você sabe, teve a ideia disso, que deveria receber todo o crédito. E isso é ridículo. 

ZDNet: Não acredite em tudo que ouve nas redes sociais. 

YL: Quer dizer, o artigo principal que ele diz que eu deveria citar não tem nenhuma das ideias principais sobre as quais falo no artigo. Ele também fez isso com GANs e outras coisas, o que não era verdade. É fácil plantar bandeiras, é muito mais difícil fazer uma contribuição. E, a propósito, neste artigo em particular, eu disse explicitamente que este não é um artigo científico no sentido usual do termo. É mais um documento de posição sobre onde essa coisa deve ir. E há algumas ideias lá que podem ser novas, mas a maioria não é. Não estou reivindicando nenhuma prioridade sobre a maior parte do que escrevi naquele artigo, essencialmente.

yann-lecun-set-2022-2

O aprendizado por reforço também nunca será suficiente, afirma LeCun. Pesquisadores como David Silver, da DeepMind, que desenvolveu o programa AlphaZero que dominou Chess, Shogi e Go, são “muito baseados em ação”, observa LeCun, mas “a maior parte do aprendizado que fazemos, não o fazemos realmente tomando ações, fazemos isso observando”. 

ZDNet: E talvez seja um bom lugar para começar, porque estou curioso por que você seguiu esse caminho agora? O que fez você pensar sobre isso? Por que você quis escrever isso?

YL: Bem, então, eu venho pensando sobre isso há muito tempo, sobre um caminho para a inteligência ou aprendizado e capacidades em nível humano ou animal. E, em minhas palestras, tenho falado bastante sobre essa coisa toda de que tanto o aprendizado supervisionado quanto o aprendizado por reforço são insuficientes para emular o tipo de aprendizado que observamos em animais e humanos. Eu tenho feito isso por algo como sete ou oito anos. Então, não é recente. Eu tive uma palestra no NeurIPS muitos anos atrás, onde falei sobre isso, essencialmente, e várias palestras, há gravações. Agora, por que escrever um artigo agora? Cheguei ao ponto — [o pesquisador do Google Brain] Geoff Hinton havia feito algo semelhante — quero dizer, certamente, mais ele do que eu, vemos o tempo se esgotando. Não somos jovens.

ZDNet: Sessenta é o novo cinquenta. 

YL: Isso é verdade, mas o ponto é que vemos muitas reivindicações sobre o que devemos fazer para avançar em direção ao nível humano da IA. E há ideias que eu acho que são mal direcionadas. Então, uma ideia é: Oh, devemos apenas adicionar raciocínio simbólico em cima das redes neurais. E eu não sei como fazer isso. Então, talvez o que expliquei no artigo possa ser uma abordagem que faria a mesma coisa sem manipulação explícita de símbolos. Este é o tipo de Gary Marcuses tradicionalmente do mundo. Gary Marcus não é uma pessoa de IA, aliás, ele é um psicólogo. Ele nunca contribuiu com nada para a IA. Ele fez um trabalho muito bom em psicologia experimental, mas nunca escreveu um artigo revisado por pares sobre IA. Então, há essas pessoas. 

Há o [principal cientista de pesquisa da DeepMind] David Silvers do mundo que diz, você sabe, recompensa é suficiente, basicamente, é tudo uma questão de aprendizado por reforço, só precisamos torná-lo um pouco mais eficiente, ok? E, eu acho que eles não estão errados, mas acho que os passos necessários para tornar o aprendizado por reforço mais eficiente, basicamente, relegaria o aprendizado por reforço a uma espécie de cereja no bolo. E a parte principal que falta é aprender como o mundo funciona, principalmente pela observação sem ação. O aprendizado por reforço é muito baseado em ações, você aprende coisas sobre o mundo realizando ações e vendo os resultados.

ZDNet: E é focado em recompensas.

YL: É focado na recompensa e também é focado na ação. Então, você tem que agir no mundo para poder aprender algo sobre o mundo. E a principal afirmação que faço no artigo sobre o aprendizado autossupervisionado é que a maior parte do aprendizado que fazemos, não o fazemos realmente realizando ações, o fazemos observando. E é muito pouco ortodoxo, tanto para pessoas que aprendem por reforço, em particular, mas também para muitos psicólogos e cientistas cognitivos que pensam que, você sabe, ação é – não estou dizendo que ação não é essencial, é is essencial. Mas acho que a maior parte do que aprendemos é principalmente sobre a estrutura do mundo e envolve, é claro, interação, ação e brincadeiras, e coisas assim, mas muito disso é observacional.

ZDNet: Você também conseguirá marcar as pessoas do Transformer, as pessoas que priorizam a linguagem, ao mesmo tempo. Como você pode construir isso sem linguagem primeiro? Você pode conseguir marcar um monte de gente. 

YL: Sim, estou acostumado com isso. Então, sim, há as pessoas que priorizam a linguagem, que dizem, você sabe, a inteligência é sobre a linguagem, o substrato da inteligência é a linguagem, blá, blá, blá. Mas isso meio que descarta a inteligência animal. Você sabe, não chegamos ao ponto de nossas máquinas inteligentes terem tanto senso comum quanto um gato. Então, por que não começamos por aí? O que é que permite que um gato apreenda o mundo ao seu redor, faça coisas muito inteligentes, planeje e coisas assim, e os cães ainda melhor? 

Depois, há todas as pessoas que dizem: Ah, a inteligência é uma coisa social, certo? Somos inteligentes porque conversamos e trocamos informações, e blá, blá, blá. Existem todos os tipos de espécies não sociais que nunca conhecem seus pais que são muito inteligentes, como polvos ou orangotangos.Quero dizer, eles [orangotangos] certamente são educados pela mãe, mas não são animais sociais. 

Mas a outra categoria de pessoas que eu poderia destacar são as pessoas que dizem que escalar é suficiente. Então, basicamente, nós usamos transformadores gigantescos, nós os treinamos em dados multimodais que envolvem, você sabe, vídeo, texto, blá, blá, blá. Nós, meio que petrificamostudo, e tokenize tudo, e depois treine gigantesmodelos para fazer previsões discretas, basicamente, e de alguma forma a IA emergirá disso. Eles não estão errados, no sentido de que isso pode ser um componente de um futuro sistema inteligente. Mas acho que faltam peças essenciais. 

Há outra categoria de pessoas que vou destacar com este artigo. E são os probabilistas, os probabilistas religiosos. Então, as pessoas que pensam que a teoria da probabilidade é a única estrutura que você pode usar para explicar o aprendizado de máquina. E como tentei explicar na peça, é basicamente pedir demais que um modelo de mundo seja completamente probabilístico. Não sabemos como fazê-lo. Há a intratabilidade computacional. Então, estou propondo abandonar toda essa ideia. E, claro, você sabe, esse é um enorme pilar não apenas do aprendizado de máquina, mas de toda a estatística, que afirma ser o formalismo normal do aprendizado de máquina. 

A outra coisa - 

ZDNet: Você está em um rolo…

YL: — é o que chamamos de modelos generativos. Então, a ideia de que você pode aprender a prever, e talvez possa aprender muito sobre o mundo pela previsão. Então, eu lhe dou um pedaço de vídeo e peço ao sistema para prever o que acontece a seguir no vídeo. E posso pedir que você preveja quadros de vídeo reais com todos os detalhes. Mas o que eu argumento no artigo é que isso é realmente pedir demais e muito complicado. E isso é algo que eu mudei de ideia. Até cerca de dois anos atrás, eu costumava ser um defensor do que chamo de modelos geradores de variáveis ​​latentes, modelos que preveem o que vai acontecer a seguir ou as informações que estão faltando, possivelmente com a ajuda de uma variável latente, se a previsão não puder ser determinista. E eu desisti disso. E a razão pela qual eu desisti disso é baseada em resultados empíricos, onde as pessoas tentaram aplicar, mais ou menos, treinamento baseado em previsão ou reconstrução do tipo usado no BERTe grandes modelos de linguagem, eles tentaram aplicar isso a imagens, e foi um fracasso completo. E a razão pela qual é uma falha completa é, novamente, por causa das restrições dos modelos probabilísticos onde é relativamente fácil prever tokens discretos como palavras porque podemos calcular a distribuição de probabilidade sobre todas as palavras no dicionário. Isso é fácil. Mas se pedirmos ao sistema para produzir a distribuição de probabilidade sobre todos os quadros de vídeo possíveis, não temos ideia de como parametrizá-la, ou temos alguma ideia de como parametrizá-la, mas não sabemos como normalizá-la. Ele atinge um problema matemático intratável que não sabemos como resolver. 

yann-lecun-set-2022-3

“Não chegamos ao ponto de nossas máquinas inteligentes terem tanto senso comum quanto um gato”, observa Lecun. “Então, por que não começamos por aí? O que é que permite que um gato apreenda o mundo ao seu redor, faça coisas muito inteligentes, planeje e coisas assim, e os cães ainda melhor?”

Então, é por isso que eu digo vamos abandonar a teoria da probabilidade ou a estrutura para coisas assim, a mais fraca, modelos baseados em energia. Eu tenho defendido isso também há décadas, então isso não é uma coisa recente. Mas, ao mesmo tempo, abandonando a ideia de modelos generativos porque há muitas coisas no mundo que não são compreensíveis e não previsíveis. Se você é engenheiro, chama isso de ruído. Se você é um físico, você chama isso de calor. E se você é uma pessoa de aprendizado de máquina, você chama isso de detalhes irrelevantes ou qualquer outra coisa.

Então, o exemplo que usei no jornal, ou que usei em palestras, é, você quer um sistema de previsão mundial que ajude em um carro autônomo, certo? Quer ser capaz de prever, antecipadamente, as trajetórias de todos os outros carros, o que vai acontecer com outros objetos que possam se mover, pedestres, bicicletas, uma criança correndo atrás de uma bola de futebol, coisas assim. Então, todos os tipos de coisas sobre o mundo. Mas na beira da estrada, pode haver árvores, e há vento hoje, então as folhas estão se movendo com o vento, e atrás das árvores há um lago, e há ondulações no lago. E esses são, essencialmente, fenômenos amplamente imprevisíveis. E você não quer que seu modelo gaste uma quantidade significativa de recursos prevendo coisas que são difíceis de prever e irrelevantes. É por isso que estou defendendo a arquitetura de incorporação conjunta, aquelas coisas em que a variável que você está tentando modelar, não está tentando prever, está tentando modelá-la, mas passa por um codificador e esse codificador pode eliminar muitos detalhes sobre a entrada que são irrelevantes ou muito complicados - basicamente, equivalentes a ruído.

ZDNet: Discutimos no início deste ano modelos baseados em energia, o JEPA e o H-JEPA. Meu sentido, se entendi corretamente, é que você está encontrando o ponto de baixa energia onde essas duas previsões de embeddings X e Y são mais semelhantes, o que significa que se há um pombo em uma árvore em um, e há algo no fundo de uma cena, esses podem não ser os pontos essenciais que aproximam esses encaixes.

YL: Certo. Assim, a arquitetura JEPA realmente tenta encontrar uma compensação, um compromisso, entre extrair representações que sejam o máximo informativas sobre as entradas, mas também previsíveis umas das outras com algum nível de precisão ou confiabilidade. Ele encontra uma compensação. Então, se ele tem a escolha entre gastar uma enorme quantidade de recursos, incluindo os detalhes do movimento das folhas, e então modelar a dinâmica que decidirá como as folhas estão se movendo daqui a um segundo, ou simplesmente jogar isso no chão por apenas executando a variável Y por meio de um preditor que elimina todos esses detalhes, provavelmente a eliminará porque é muito difícil de modelar e capturar.

ZDNet: Uma coisa que surpreende é que você foi um grande defensor de dizer “funciona, descobriremos mais tarde a teoria da termodinâmica para explicá-lo”. Aqui você adotou uma abordagem de “não sei como vamos necessariamente resolver isso, mas quero apresentar algumas ideias para pensar sobre isso”, e talvez até abordar uma teoria ou uma hipótese, no ao menos. Isso é interessante porque tem muita gente gastando muito dinheiro trabalhando no carro que consegue ver o pedestre independentemente de o carro ter bom senso. E imagino que algumas dessas pessoas ficarão, não irritadas, mas dirão: “Tudo bem, não nos importamos se não tiver bom senso, construímos uma simulação, a simulação é incrível, e continuaremos melhorando, continuaremos dimensionando a simulação.” 

E é interessante que você esteja em posição de dizer agora, vamos dar um passo para trás e pensar sobre o que estamos fazendo. E a indústria está dizendo que vamos escalar, escalar, escalar, escalar, porque essa manivela realmente funciona. Quero dizer, a manivela semicondutora das GPUs realmente funciona.

YL: Há, tipo, cinco perguntas lá. Então, quero dizer, a escala é necessária. Não estou criticando o fato de que devemos escalar. Devemos escalar. Essas redes neurais ficam melhores à medida que crescem. Não há dúvida de que devemos escalar. E os que tiverem algum nível de bom senso serão grandes. Não tem jeito, eu acho. Portanto, dimensionar é bom, é necessário, mas não suficiente. Esse é o ponto que estou fazendo. Não é apenas escalar. Esse é o primeiro ponto. 

Segundo ponto, se a teoria vem primeiro e coisas assim. Então, acho que há conceitos que vêm primeiro que, você tem que dar um passo para trás e dizer, ok, nós construímos essa escada, mas queremos ir para a lua e não há como essa escada nos levar até lá. Então, basicamente, o que estou escrevendo aqui é que precisamos construir foguetes. Não posso dar os detalhes de como construímos foguetes, mas aqui estão os princípios básicos. E não estou escrevendo uma teoria para isso nem nada, mas vai ser um foguete, ok? Ou um elevador espacial ou qualquer outra coisa. Podemos não ter todos os detalhes de toda a tecnologia. Estamos tentando fazer algumas dessas coisas funcionarem, como se eu estivesse trabalhando no JEPA. A incorporação conjunta funciona muito bem para o reconhecimento de imagens, mas para usá-la para treinar um modelo mundial, há dificuldades. Estamos trabalhando nisso, esperamos que funcione soon, mas podemos encontrar alguns obstáculos que não podemos superar, possivelmente. 

Depois, há uma ideia-chave no artigo sobre raciocínio em que, se quisermos que os sistemas sejam capazes de planejar, o que você pode pensar como uma forma simples de raciocínio, eles precisam ter variáveis ​​latentes. Em outras palavras, coisas que não são computadas por nenhuma rede neural, mas coisas que são – cujo valor é inferido de modo a minimizar alguma função objetivo, alguma função de custo. E então você pode usar essa função de custo para direcionar o comportamento do sistema. E essa não é uma ideia nova, certo? Isso é muito clássico, controle ideal, onde a base disso remonta ao final dos anos 50, início dos anos 60. Portanto, não reivindicando nenhuma novidade aqui. Mas o que estou dizendo é que esse tipo de inferência tem que ser parte de um sistema inteligente que é capaz de planejar, e cujo comportamento pode ser especificado ou controlado não por um comportamento hardwired, não por imitação, mas por uma função objetiva que impulsiona o comportamento – não impulsiona o aprendizado, necessariamente, mas impulsiona o comportamento. Você sabe, nós temos isso em nosso cérebro, e todo animal tem um custo intrínseco ou motivações intrínsecas para as coisas. Isso leva bebês de nove meses a quererem se levantar. O custo de ser feliz quando você se levanta, esse termo na função de custo está programado. Mas como você se levanta não é, isso é aprendizado.

yann-lecun-set-2022-4

“O dimensionamento é bom, é necessário, mas não suficiente”, diz LeCun sobre modelos de linguagem gigantes, como os programas baseados em Transformer da variedade GPT-3. Os devotos do Transformer acreditam: “Tokenizamos tudo e treinamos gigantesmodelos para fazer previsões discretas e, de alguma forma, a IA emergirá disso … mas acho que está faltando peças essenciais”.

ZDNet: Apenas para completar esse ponto, grande parte da comunidade de aprendizado profundo parece bem em seguir em frente com algo que não tem bom senso. Parece que você está fazendo um argumento bastante claro aqui de que em algum momento isso se torna um impasse. Algumas pessoas dizem que não precisamos de um carro autônomo com bom senso porque a escala fará isso. Parece que você está dizendo que não há problema em continuar nesse caminho?

YL: Sabe, acho que é perfeitamente possível que tenhamos carros autônomos de nível cinco sem bom senso. Mas o problema com essa abordagem, isso será temporário, porque você terá que projetar muito. Então, você sabe, mapeie o mundo inteiro, conecte todos os tipos de comportamento específico em casos de canto, colete dados suficientes para que você tenha todas as situações estranhas que você pode encontrar nas estradas, blá, blá, blá. E meu palpite é que com investimento e tempo suficientes, você pode simplesmente projetar o inferno. Mas, em última análise, haverá uma solução mais satisfatória e possivelmente melhor que envolva sistemas que façam um trabalho melhor de entender a maneira como o mundo funciona e tenha, você sabe, algum nível do que chamaríamos de bom senso. Não precisa ser senso comum no nível humano, mas algum tipo de conhecimento que o sistema pode adquirir observando, mas não observando alguém dirigir, apenas observando coisas se movendo e entendendo muito sobre o mundo, construindo uma base de fundo conhecimento sobre como o mundo funciona, além do qual você pode aprender a dirigir. 

Deixe-me dar um exemplo histórico disso. A visão computacional clássica era baseada em muitos módulos projetados e conectados, sobre os quais você teria, mais ou menos, uma fina camada de aprendizado. Então, o material que foi derrotado pelo AlexNet em 2012, teve basicamente um primeiro estágio, meio que extrações de recursos artesanais, como SIFTs [Scale-Invariant Feature Transform (SIFT), uma técnica de visão clássica para identificar objetos salientes em uma imagem] e HOG [Histograma de Gradientes Orientados, outra técnica clássica] e várias outras coisas. E então a segunda camada de recursos de nível médio baseados em kernels de recursos e qualquer outra coisa, e algum tipo de método não supervisionado. E em cima disso, você coloca uma máquina de vetores de suporte, ou então um classificador relativamente simples. E esse foi meio que o pipeline padrão de meados dos anos 2000 a 2012. E isso foi substituído por redes convolucionais de ponta a ponta, onde você não conecta nada disso, apenas tem muitos dados, e você treina a coisa de ponta a ponta, que é a abordagem que eu vinha defendendo há muito tempo, mas você sabe, até então, não era prático para grandes problemas. 

Houve uma história semelhante no reconhecimento de fala, onde, novamente, havia uma enorme quantidade de engenharia detalhada sobre como você pré-processa os dados, extrai cepstrum em escala de massa [um inverso da Transformada Rápida de Fourier para processamento de sinal] e, em seguida, você tem Hidden Markov Models, com arquitetura pré-definida, blá, blá, blá, com mistura de gaussianos. E assim, é um pouco da mesma arquitetura da visão, onde você criou o front-end e, em seguida, uma camada intermediária não supervisionada e treinada e, em seguida, uma camada supervisionada no topo. E agora isso foi, basicamente, eliminado por redes neurais de ponta a ponta. Então, eu meio que estou vendo algo parecido com tentar aprender tudo, mas você tem que ter a prévia certa, a arquitetura certa, a estrutura certa.

yann-lecun-set-2022-5

A multidão de carros autônomos, startups como Waymo e Wayve, têm sido “um pouco otimistas demais”, diz ele, pensando que poderiam “jogar dados nele e você pode aprender praticamente qualquer coisa”. Carros autônomos no nível 5 do ADAS são possíveis, “Mas você vai ter que projetar muito” e serão “frágeis” como os primeiros modelos de visão computacional.

ZDNet: O que você está dizendo é que algumas pessoas tentarão projetar o que atualmente não funciona com aprendizado profundo para aplicabilidade, digamos, na indústria, e começarão a criar algo que se tornou obsoleto na visão computacional?

YL: Certo. E é em parte porque as pessoas que trabalham em direção autônoma têm sido um pouco otimistas demais nos últimos anos, é porque, você sabe, você tem essas coisas genéricas, como redes convolucionais e transformadores, que você pode jogar dados nele , e pode aprender praticamente qualquer coisa. Então, você diz: Ok, eu tenho a solução para esse problema. A primeira coisa que você faz é construir uma demo onde o carro dirige sozinho por alguns minutos sem machucar ninguém. E então você percebe que há muitos casos de canto, e você tenta traçar a curva de quão melhor estou ficando quando dobro o conjunto de treinamento, e você percebe que nunca chegará lá porque há todos os tipos de casos de canto . E você precisa ter um carro que cause um acidente fatal menos que a cada 200 milhões de quilômetros, certo? Então, o que você faz? Bem, você anda em duas direções. 

A primeira direção é: como posso reduzir a quantidade de dados necessária para o meu sistema aprender? E é aí que entra o aprendizado autossupervisionado. Então, muitas empresas de carros autônomos estão muito interessadas no aprendizado autossupervisionado porque essa é uma maneira de ainda usar quantidades gigantescas de dados de supervisão para aprendizado por imitação, mas obtendo melhor desempenho por pré-treinamento, essencialmente. E ainda não deu certo, mas vai. E depois há a outra opção, que a maioria das empresas que estão mais avançadas neste momento adotou, que é, ok, podemos fazer o treinamento de ponta a ponta, mas há muitos casos de canto que podemos ' t lidar, então vamos apenas projetar sistemas que cuidarão desses casos de canto e, basicamente, tratá-los como casos especiais, e conectar o controle e, em seguida, conectar um monte de comportamento básico para lidar com situações especiais. E se você tem uma equipe grande o suficiente de engenheiros, você pode conseguir. Mas levará muito tempo e, no final, ainda será um pouco frágil, talvez confiável o suficiente para que você possa implantar, mas com algum nível de fragilidade, o que, com uma abordagem mais baseada em aprendizado que pode aparecer no No futuro, os carros não terão porque podem ter algum nível de bom senso e compreensão sobre como o mundo funciona. 

No curto prazo, a abordagem meio projetada vencerá – ela já vence. Esse é o Waymo e Cruise do mundo e Wayvee tudo mais, isso é o que eles fazem. Depois, há a abordagem de aprendizagem autossupervisionada, que provavelmente ajudará a abordagem de engenharia a progredir. Mas então, a longo prazo, o que pode ser muito longo para essas empresas esperarem, provavelmente seria um sistema de direção inteligente autônomo mais integrado.

ZDNet: Dizemos além do horizonte de investimento da maioria dos investidores.

YL: Isso mesmo. Então, a questão é, as pessoas vão perder a paciência ou ficar sem dinheiro antes que o desempenho atinja o nível desejado.

ZDNet: Há algo interessante a dizer sobre por que você escolheu alguns dos elementos que escolheu no modelo? Porque você cita Kenneth Craik [1943,A Natureza da Explicação], e você cita Bryson e Ho [1969, Controle ótimo aplicado], e estou curioso para saber por que você começou com essas influências, se você acreditasse especialmente que essas pessoas acertaram tanto quanto o que fizeram. Por que você começou lá?

YL: Bem, eu não acho, certamente, que eles tinham todos os detalhes acertados. Então, Bryson e Ho, este é um livro que li em 1987, quando era pós-doc com Geoffrey Hinton em Toronto. Mas eu conhecia essa linha de trabalho de antemão quando estava escrevendo meu doutorado e fiz a conexão entre controle ideal e backprop, essencialmente. Se você realmente quisesse ser outro Schmidhuber, diria que os verdadeiros inventores do backprop foram os teóricos do controle ótimo Henry J. Kelley, Arthur Bryson e talvez até Lev Pontryagin, que é um teórico russo do controle ótimo. no final dos anos 50. 

Então, eles descobriram e, de fato, você pode realmente ver a raiz disso, a matemática por trás disso, é a mecânica lagrangeana. Então você pode voltar para Euler e Lagrange, de fato, e meio que encontrar um pouco disso em sua definição de mecânica clássica Lagrange, na verdade. Então, no contexto de controle ótimo, o que esses caras estavam interessados ​​era basicamente calcular trajetórias de foguetes. Você sabe, esta foi a era espacial inicial. E se você tiver um modelo do foguete, ele informa que aqui está o estado do foguete no momento t, e aqui está a ação que vou tomar, então, empuxo e atuadores de vários tipos, aqui está o estado do foguete no momento t + 1.

ZDNet: Um modelo de ação do estado, um modelo de valor.

YL: Isso mesmo, a base do controle. Então, agora você pode simular o disparo do seu foguete imaginando uma sequência de comandos, e aí você tem alguma função de custo, que é a distância do foguete até seu alvo, uma estação espacial ou o que for. E então, por algum tipo de gradiente descendente, você pode descobrir como posso atualizar minha sequência de ação para que meu foguete chegue o mais próximo possível do alvo. E isso tem que vir pela retropropagação de sinais para trás no tempo. E isso é retropropagação, retropropagação gradiente. Esses sinais são chamados de variáveis ​​conjugadas na mecânica Lagrangiana, mas na verdade são gradientes. Então, eles inventaram o backprop, mas não perceberam que esse princípio poderia ser usado para treinar um sistema de vários estágios que pode fazer reconhecimento de padrões ou algo assim. Isso não foi realmente realizado até o final dos anos 70, início dos anos 80, e então não foi realmente implementado e feito para funcionar até meados dos anos 80. Ok, então, é aqui que o backprop realmente decolou porque as pessoas mostraram aqui algumas linhas de código que você pode treinar uma rede neural, de ponta a ponta, multicamadas. E isso levanta as limitações do Perceptron. E, sim, há conexões com controle ideal, mas tudo bem.

ZDNet: Então, isso é um longo caminho para dizer que essas influências com as quais você começou estavam voltando ao backprop, e isso foi importante como ponto de partida para você?

YL: Sim, mas acho que o que as pessoas esqueceram um pouco, houve muito trabalho nisso, sabe, nos anos 90, ou mesmo nos anos 80, inclusive por pessoas como Michael Jordan [Depto. de Cérebro do MIT e Ciências Cognitivas] e pessoas assim que não estão mais fazendo redes neurais, mas a ideia de que você pode usar redes neurais para controle, e você pode usar ideias clássicas de controle ótimo. Então, coisas como o que é chamado de controle preditivo de modelo, o que agora é chamado de controle preditivo de modelo, essa ideia de que você pode simular ou imaginar o resultado de uma sequência de ações se tiver um bom modelo do sistema que está tentando controlar e o ambiente em que está. E então por gradiente descendente, essencialmente - isso não é aprendizado, isso é inferência - você pode descobrir qual é a melhor sequência de ações que minimizará meu objetivo. Então, o uso de uma função de custo com uma variável latente para inferência é, eu acho, algo que as safras atuais de redes neurais de grande escala esqueceram. Mas foi um componente muito clássico de aprendizado de máquina por muito tempo. Assim, toda Rede Bayesiana ou modelo gráfico ou modelo gráfico probabilístico utilizou esse tipo de inferência. Você tem um modelo que captura as dependências entre várias variáveis, é informado sobre o valor de algumas das variáveis ​​e, em seguida, precisa inferir o valor mais provável do restante das variáveis. Esse é o princípio básico de inferência em modelos gráficos e redes Bayesianas, e coisas assim. E acho que é basicamente isso que deve ser o raciocínio, raciocínio e planejamento.

ZDNet: Você é um Bayesiano do armário.

YL: Eu sou um Bayesiano não probabilístico. Eu fiz essa piada antes. Na verdade, estive no NeurIPS há alguns anos, acho que foi em 2018 ou 2019, e fui flagrado em vídeo por um bayesiano que me perguntou se eu era bayesiano e eu disse: Sim, sou bayesiano, mas Sou um Bayesiano não probabilístico, mais ou menos, um Bayesiano baseado em energia, se você quiser. 

ZDNet: O que definitivamente soa como algo de Star Trek. Você mencionou no final deste artigo, vai levar anos de muito trabalho para realizar o que você imagina. Conte-me sobre em que consiste parte desse trabalho no momento.

YL: Então, eu explico como você treina e constrói o JEPA no artigo. E o critério que defendo é ter alguma forma de maximizar o conteúdo de informação que as representações extraídas têm sobre a entrada. E então o segundo é minimizar o erro de previsão. E se você tem uma variável latente no preditor que permite que o preditor seja não determinístico, você tem que regularizar também essa variável latente minimizando seu conteúdo de informação. Então, você tem dois problemas agora, que é como você maximiza o conteúdo de informação da saída de alguma rede neural, e o outro é como você minimiza o conteúdo de informação de alguma variável latente? E se você não fizer essas duas coisas, o sistema entrará em colapso. Ele não vai aprender nada de interessante. Vai dar energia zero para tudo, algo assim, que não é um bom modelo de dependência. É o problema de prevenção de colapso que menciono. 

E estou dizendo de todas as coisas que as pessoas já fizeram, existem apenas duas categorias de métodos para evitar o colapso. Um são os métodos contrastivos e o outro são os métodos regularizados. Então, essa ideia de maximizar o conteúdo informacional das representações das duas entradas e minimizar o conteúdo informacional da variável latente, que pertence aos métodos regularizados. Mas muito do trabalho nessas arquiteturas de incorporação conjunta está usando métodos contrastantes. Na verdade, eles são provavelmente os mais populares no momento. Então, a questão é exatamente como você mede o conteúdo da informação de forma que você possa otimizar ou minimizar? E é aí que as coisas se complicam porque não sabemos realmente como medir o conteúdo da informação. Podemos aproximá-lo, podemos limitá-lo, podemos fazer coisas assim. Mas na verdade eles não medem o conteúdo da informação, o que, na verdade, até certo ponto nem é bem definido.

ZDNet: Não é a Lei de Shannon? Não é teoria da informação? Você tem uma certa quantidade de entropia, entropia boa e entropia ruim, e a entropia boa é um sistema de símbolos que funciona, a entropia ruim é ruído. Não é tudo resolvido por Shannon?

YL: Você está certo, mas há uma grande falha por trás disso. Você está certo no sentido de que se você tem dados chegando até você e você pode de alguma forma quantizá-los em símbolos discretos, e então você mede a probabilidade de cada um desses símbolos, então a quantidade máxima de informação transportada por esses símbolos é a soma sobre os possíveis símbolos de Pi log Pi, certo? Onde Pi é a probabilidade do símbolo eu - essa é a entropia de Shannon. [A Lei de Shannon é comumente formulada como H = – ∑ pi log pi.]

Aqui está o problema, no entanto: O que é Pi? É fácil quando o número de símbolos é pequeno e os símbolos são desenhados independentemente. Quando há muitos símbolos e dependências, é muito difícil. Então, se você tem uma sequência de bits e assume que os bits são independentes uns dos outros e a probabilidade é igual entre um e zero ou qualquer outra coisa, então você pode medir facilmente a entropia, sem problemas. Mas se as coisas que vêm a você são vetores de alta dimensão, como, você sabe, quadros de dados, ou algo assim, o que é Pi? Qual é a distribuição? Primeiro você tem que quantizar esse espaço, que é um espaço contínuo de alta dimensão. Você não tem ideia de como quantizar isso corretamente. Você pode usar k-means, etc. Isto é o que as pessoas fazem quando fazem compressão de vídeo e compressão de imagem. Mas é apenas uma aproximação. E então você tem que fazer suposições de independência. Assim, fica claro que em um vídeo, os quadros sucessivos não são independentes. Existem dependências, e esse quadro pode depender de outro quadro que você viu uma hora atrás, que era uma imagem da mesma coisa. Então, você sabe, você não pode medir Pi. Medir Pi, você precisa ter um sistema de aprendizado de máquina que aprenda a prever. E assim você está de volta ao problema anterior. Então, você só pode aproximar a medida da informação, essencialmente. 

yann-lecun-set-2022-6

“A questão é exatamente como você mede o conteúdo da informação de uma maneira que você possa otimizar ou minimizar?” diz LeCun. “E é aí que as coisas se complicam porque não sabemos realmente como medir o conteúdo da informação.” O melhor que pode ser feito até agora é encontrar um proxy que seja “bom o suficiente para a tarefa que queremos”.

Deixe-me dar um exemplo mais concreto. Um dos algoritmos com os quais estamos brincando, e sobre o qual falei no artigo, é essa coisa chamada VICReg, regularização de variância-invariância-covariância. Está em um artigo separado que foi publicado no ICLR, e foi colocado no arXiv cerca de um ano antes, 2021. E a ideia aí é maximizar a informação. E a ideia surgiu de um artigo anterior do meu grupo chamado Gêmeos Barlow. Você maximiza o conteúdo de informação de um vetor que sai de uma rede neural, basicamente, assumindo que a única dependência entre variáveis ​​é a correlação, a dependência linear. Então, se você assumir que a única dependência possível entre pares de variáveis, ou entre variáveis ​​em seu sistema, são correlações entre pares de valores, que é a aproximação extremamente grosseira, então você pode maximizar o conteúdo de informação que sai do seu sistema certificando-se de que todas as variáveis ​​tenham variância diferente de zero - digamos, variância um, não importa o que seja - e depois correlacionando-as de volta, o mesmo processo que é chamado de clareamento, também não é novo. O problema com isso é que você pode muito bem ter dependências extremamente complexas entre grupos de variáveis ​​ou mesmo apenas pares de variáveis ​​que não são dependências lineares, e elas não aparecem em correlações. Então, por exemplo, se você tem duas variáveis, e todos os pontos dessas duas variáveis ​​se alinham em algum tipo de espiral, há uma dependência muito forte entre essas duas variáveis, certo? Mas, na verdade, se você calcular a correlação entre essas duas variáveis, elas não serão correlacionadas. Então, aqui está um exemplo onde o conteúdo de informação dessas duas variáveis ​​é realmente muito pequeno, é apenas uma quantidade porque é a sua posição na espiral. Eles são descorrelacionados, então você acha que tem muita informação saindo dessas duas variáveis ​​quando na verdade você não tem, você só tem, sabe, você pode prever uma das variáveis ​​da outra, essencialmente. Então, isso mostra que só temos maneiras muito aproximadas de medir o conteúdo da informação.

ZDNet: E então essa é uma das coisas que você tem que trabalhar agora com isso? Esta é a questão maior de como sabemos quando estamos maximizando e minimizando o conteúdo da informação?

YL:  Ou se o proxy que estamos usando para isso é bom o suficiente para a tarefa que queremos. Na verdade, fazemos isso o tempo todo no aprendizado de máquina. As funções de custo que minimizamos nunca são aquelas que realmente queremos minimizar. Então, por exemplo, você quer fazer classificação, ok? A função de custo que você deseja minimizar ao treinar um classificador é o número de erros que o classificador está cometendo. Mas essa é uma função de custo horrível e não diferenciável que você não pode minimizar porque sabe que vai alterar os pesos de sua rede neural, nada vai mudar até que uma dessas amostras mude sua decisão e, em seguida, um salto no erro, positivo ou negativo.

ZDNet: Então você tem um proxy que é uma função objetivo que você pode dizer definitivamente, podemos definitivamente fluir gradientes dessa coisa.

YL: Isso mesmo. Então as pessoas usam essa perda de entropia cruzada, ou SOFTMAX, você tem vários nomes para isso, mas é a mesma coisa. E basicamente é uma aproximação suave do número de erros que o sistema comete, onde a suavização é feita, basicamente, levando em consideração a pontuação que o sistema dá para cada uma das categorias.

ZDNet: Há algo que não cobrimos que você gostaria de abordar?

YL: Provavelmente está enfatizando os pontos principais. Acho que os sistemas de IA precisam ser capazes de raciocinar, e o processo para isso que estou defendendo é minimizar algum objetivo em relação a alguma variável latente. Isso permite que os sistemas planejem e raciocinem. Acho que devemos abandonar a estrutura probabilística porque é intratável quando queremos fazer coisas como capturar dependências entre variáveis ​​contínuas de alta dimensão. E estou defendendo o abandono dos modelos generativos porque o sistema terá que dedicar muitos recursos para prever coisas que são muito difíceis de prever e talvez consumam muitos recursos. E é quase isso. Essas são as principais mensagens, se você quiser. E então a arquitetura geral. Depois, há aquelas especulações sobre a natureza da consciência e o papel do configurador, mas isso é realmente especulação.

ZDNet: Chegaremos a isso na próxima vez. Eu ia te perguntar, como você compara essa coisa? Mas acho que você está um pouco mais longe do benchmarking agora?

YL: Não necessariamente tão longe em versões simplificadas. Você pode fazer o que todo mundo faz no aprendizado de controle ou reforço, ou seja, você treina a coisa para jogar jogos de Atari ou algo assim ou algum outro jogo que tenha alguma incerteza nele.

ZDNet: Obrigado pelo seu tempo, Yan.

fonte