El gurú de la IA de Meta, LeCun: La mayoría de los enfoques de IA actuales nunca conducirán a una verdadera inteligencia

yann-lecun-septiembre-2022-1

“Creo que los sistemas de IA deben poder razonar”, dice Yann LeCun, científico jefe de IA de Meta. Los enfoques de IA populares de hoy, como Transformers, muchos de los cuales se basan en su propio trabajo pionero en el campo, no serán suficientes. “Tienes que dar un paso atrás y decir, está bien, construimos esta escalera, pero queremos ir a la luna, y no hay forma de que esta escalera nos lleve allí”, dice LeCun.

Yann Le Cun, científico jefe de IA de Meta Properties, propietario de Facebook, Instagram y WhatsApp, es probable que moleste a mucha gente en su campo. 

Con la publicación en junio de un artículo de opinión en el servidor Open Review, LeCun ofreció una visión general amplia de un enfoque que cree que es prometedor para lograr inteligencia a nivel humano en las máquinas. 

Implícito, si no articulado en el documento, está la afirmación de que la mayoría de los grandes proyectos actuales en IA nunca podrán alcanzar esa meta a nivel humano.

En una discusión este mes con ZDNet a través de Zoom, LeCun dejó en claro que ve con gran escepticismo muchas de las vías de investigación más exitosas en el aprendizaje profundo en este momento.

“Creo que son necesarios pero no suficientes”, dijo el ganador del Premio Turing ZDNet de las actividades de sus compañeros. 

Esos incluyen modelos de lenguaje grande como el GPT-3 basado en Transformer y otros similares. Como lo caracteriza LeCun, los devotos de Transformer creen: “Lo tokenizamos todo y entrenamos gigantesmodelos para hacer predicciones discretas, y de alguna manera la IA surgirá de esto”.

"No están equivocados", dice, "en el sentido de que eso puede ser un componente de un futuro sistema inteligente, pero creo que le faltan piezas esenciales".

También: La luminaria de IA de Meta, LeCun, explora la frontera energética del aprendizaje profundo

Es una crítica sorprendente de lo que parece funcionar viniendo del académico que perfeccionó el uso de redes neuronales convolucionales, una técnica práctica que ha sido increíblemente productiva en programas de aprendizaje profundo. 

LeCun ve fallas y limitaciones en muchas otras áreas altamente exitosas de la disciplina. 

El aprendizaje por refuerzo tampoco será nunca suficiente, sostiene. Investigadores como David Silver de DeepMind, quien desarrolló el programa AlphaZero que domina el ajedrez, el shogi y el go, se están enfocando en programas que están "muy basados ​​en la acción", observa LeCun, pero "la mayor parte del aprendizaje que hacemos, no lo hacemos". lo hacemos tomando acciones, lo hacemos observando”. 

Lecun, de 62 años, desde la perspectiva de décadas de logros, sin embargo, expresa la urgencia de confrontar lo que él cree que son los callejones sin salida hacia los cuales muchos pueden estar corriendo, y tratar de engatusar a su campo en la dirección que él cree que deberían ir las cosas. 

“Vemos muchas afirmaciones sobre qué debemos hacer para avanzar hacia la IA a nivel humano”, dice. “Y hay ideas que creo que están mal dirigidas”.

“No hemos llegado al punto de que nuestras máquinas inteligentes tengan tanto sentido común como un gato”, observa Lecun. Entonces, ¿por qué no empezamos por ahí? 

Ha abandonado su fe anterior en el uso de redes generativas en cosas como predecir el siguiente cuadro en un video. “Ha sido un completo fracaso”, dice. 

LeCun critica a los que él llama los "probabilistas religiosos", que "piensan que la teoría de la probabilidad es el único marco que se puede utilizar para explicar el aprendizaje automático". 

El enfoque puramente estadístico es intratable, dice. “Es demasiado pedir que un modelo mundial sea completamente probabilístico; no sabemos cómo hacerlo”.

No solo los académicos, sino también la IA industrial necesita un replanteamiento profundo, argumenta LeCun. La multitud de autos sin conductor, nuevas empresas como Wayve, han sido "un poco demasiado optimistas", dice, al pensar que podrían "arrojar datos a" grandes redes neuronales "y se puede aprender prácticamente cualquier cosa".

"Sabes, creo que es muy posible que tengamos autos autónomos de nivel cinco sin sentido común", dice, refiriéndose al "ADAS". sistema avanzado de asistencia al conductor términos para autoconducción, "pero vas a tener que diseñarlo a tope".

Él cree que esta tecnología de conducción autónoma con un exceso de ingeniería será algo tan chirriante y frágil como todos los programas de visión por computadora que quedaron obsoletos debido al aprendizaje profundo.

"En última instancia, habrá una solución más satisfactoria y posiblemente mejor que involucre sistemas que comprendan mejor la forma en que funciona el mundo".

En el camino, LeCun ofrece algunas opiniones fulminantes de sus mayores críticos, como el profesor de la Universidad de Nueva York, Gary Marcus, "nunca ha contribuido con nada a la IA", y Jürgen Schmidhuber, codirector del Instituto Dalle Molle para la Investigación de Inteligencia Artificial, "es muy fácil de plantar banderas”.

Más allá de las críticas, el punto más importante señalado por LeCun es que ciertos problemas fundamentales a los que se enfrenta toda la IA, en particular, cómo medir la información.

“Tienes que dar un paso atrás y decir, está bien, construimos esta escalera, pero queremos ir a la luna, y no hay forma de que esta escalera nos lleve allí”, dice LeCun sobre su deseo de impulsar un replanteamiento. de conceptos básicos. “Básicamente, lo que estoy escribiendo aquí es que necesitamos construir cohetes, no puedo darte los detalles de cómo construimos cohetes, pero estos son los principios básicos”.

El artículo y los pensamientos de LeCun en la entrevista se pueden entender mejor leyendo la entrevista de LeCun a principios de este año con ZDNet en el que aboga por el aprendizaje autosupervisado basado en la energía como un camino a seguir para el aprendizaje profundo. Esas reflexiones dan una idea del enfoque central de lo que espera construir como una alternativa a las cosas que afirma que no llegarán a la meta. 

Lo que sigue es una transcripción ligeramente editada de la entrevista.

ZDNet: El tema de nuestro chat es este documento, "Un camino hacia la inteligencia artificial autónoma", de la cual la versión 0.9.2 es la versión existente, ¿no?

Yann Le Cun: Sí, considero esto, una especie de, un documento de trabajo. Entonces, lo publiqué en Open Review, esperando que la gente hiciera comentarios y sugerencias, tal vez referencias adicionales, y luego produciré una versión revisada. 

ZDNet: Veo que Juergen Schmidhuber ya agregó algunos comentarios a Open Review.

YL: Bueno, sí, siempre lo hace. Cito uno de sus artículos allí en mi artículo. Creo que los argumentos que hizo en las redes sociales de que básicamente inventó todo esto en 1991, como lo ha hecho en otros casos, simplemente no es el caso. Quiero decir, es muy fácil de hacer.plantar banderas y, en cierto modo, escribir una idea sin ningún experimento, sin ninguna teoría, solo sugiera que podría hacerlo de esta manera. Pero, sabes, hay una gran diferencia entre simplemente tener la idea y luego hacer que funcione en un problema con un juguete, y luego hacer que funcione en un problema real, y luego hacer una teoría que muestre por qué funciona, y luego desplegándolo. Hay toda una cadena, y su idea del crédito científico es que es la primera persona que, más o menos, tuvo la idea de eso, la que debería recibir todo el crédito. Y eso es ridículo. 

ZDNet: No creas todo lo que escuchas en las redes sociales. 

YL: Quiero decir, el artículo principal que dice que debo citar no tiene ninguna de las ideas principales de las que hablo en el artículo. También ha hecho esto con GAN y otras cosas, lo que no resultó ser cierto. Es fácil plantar banderas, es mucho más difícil hacer una contribución. Y, por cierto, en este artículo en particular, dije explícitamente que no se trata de un artículo científico en el sentido habitual del término. Es más un documento de posición sobre dónde debería ir esto. Y hay un par de ideas que podrían ser nuevas, pero la mayoría no lo es. No estoy reclamando ninguna prioridad sobre la mayor parte de lo que escribí en ese documento, esencialmente.

yann-lecun-septiembre-2022-2

El aprendizaje por refuerzo tampoco será suficiente, sostiene LeCun. Investigadores como David Silver de DeepMind, que desarrolló el programa AlphaZero que dominaba el ajedrez, el shogi y el go, están "muy basados ​​en la acción", observa LeCun, pero "la mayor parte del aprendizaje que hacemos, no lo hacemos tomando acciones, lo hacemos observando”. 

ZDNet: Y ese es quizás un buen lugar para comenzar, porque tengo curiosidad, ¿por qué seguiste este camino ahora? ¿Qué te hizo pensar en esto? ¿Por qué quisiste escribir esto?

YL: Bueno, he estado pensando en esto durante mucho tiempo, en un camino hacia la inteligencia o el aprendizaje y las capacidades a nivel humano o animal. Y, en mis charlas, he hablado bastante sobre todo esto de que tanto el aprendizaje supervisado como el aprendizaje por refuerzo son insuficientes para emular el tipo de aprendizaje que observamos en animales y humanos. He estado haciendo esto durante unos siete u ocho años. Entonces, no es reciente. Tuve un discurso de apertura en NeurIPS hace muchos años donde planteé ese punto, esencialmente, y varias charlas, hay grabaciones. Ahora, ¿por qué escribir un artículo ahora? Llegué al punto: [el investigador de Google Brain] Geoff Hinton había hecho algo similar; quiero decir, ciertamente, él más que yo, vemos que el tiempo se acaba. No somos jóvenes.

ZDNet: Los sesenta son los nuevos cincuenta. 

YL: Eso es cierto, pero el punto es que vemos muchas afirmaciones sobre qué debemos hacer para avanzar hacia el nivel humano de IA. Y hay ideas que creo que están mal dirigidas. Entonces, una idea es, Oh, deberíamos simplemente agregar razonamiento simbólico encima de las redes neuronales. Y no sé cómo hacer esto. Entonces, tal vez lo que expliqué en el documento podría ser un enfoque que haría lo mismo sin la manipulación explícita de símbolos. Este es el tipo de tradicionalmente Gary Marcuses del mundo. Gary Marcus no es una persona de IA, por cierto, es psicólogo. Nunca ha contribuido con nada a AI. Ha hecho un trabajo realmente bueno en psicología experimental, pero nunca ha escrito un artículo revisado por pares sobre IA. Entonces, ahí está esa gente. 

Está el [científico investigador principal de DeepMind] David Silvers del mundo que dice, ya sabes, la recompensa es suficiente, básicamente, se trata de aprendizaje por refuerzo, solo necesitamos hacerlo un poco más eficiente, ¿de acuerdo? Y creo que no están equivocados, pero creo que los pasos necesarios para hacer que el aprendizaje por refuerzo sea más eficiente, básicamente, relegarían el aprendizaje por refuerzo a una especie de cereza en el pastel. Y la principal parte que falta es aprender cómo funciona el mundo, principalmente mediante la observación sin acción. El aprendizaje por refuerzo está muy basado en la acción, aprendes cosas sobre el mundo tomando acciones y viendo los resultados.

ZDNet: Y está centrado en la recompensa.

YL: Se centra en la recompensa y también se centra en la acción. Entonces, tienes que actuar en el mundo para poder aprender algo sobre el mundo. Y la afirmación principal que hago en el documento sobre el aprendizaje autosupervisado es que la mayor parte del aprendizaje que hacemos, no lo hacemos tomando acciones, lo hacemos observando. Y es muy poco ortodoxo, tanto para las personas que aprenden por refuerzo, en particular, como para muchos psicólogos y científicos cognitivos que piensan que, ya sabes, la acción es, no digo que la acción no sea esencial, es is básico. Pero creo que la mayor parte de lo que aprendemos es principalmente sobre la estructura del mundo e involucra, por supuesto, interacción, acción y juego, y cosas así, pero gran parte es observacional.

ZDNet: También logrará marcar al mismo tiempo a la gente de Transformer, la gente que prioriza el lenguaje. ¿Cómo puedes construir esto sin lenguaje primero? Puede que te las arregles para fastidiar a mucha gente. 

YL: Sí, estoy acostumbrado a eso. Entonces, sí, están las personas que priorizan el lenguaje, que dicen, ya sabes, la inteligencia tiene que ver con el lenguaje, el sustrato de la inteligencia es el lenguaje, bla, bla, bla. Pero eso, más o menos, descarta la inteligencia animal. Sabes, no hemos llegado al punto en que nuestras máquinas inteligentes tengan tanto sentido común como un gato. Entonces, ¿por qué no empezamos por ahí? ¿Qué es lo que le permite a un gato aprehender el mundo que lo rodea, hacer cosas bastante inteligentes y planificar y cosas así, y a los perros aún mejor? 

Luego están todas las personas que dicen, Oh, la inteligencia es algo social, ¿no? Somos inteligentes porque hablamos entre nosotros e intercambiamos información, y bla, bla, bla. Hay todo tipo de especies no sociales que nunca conocen a sus padres que son muy inteligentes, como los pulpos o los orangutanes.Quiero decir, ellos [los orangutanes] ciertamente son educados por su madre, pero no son animales sociales. 

Pero la otra categoría de personas que podría marcar es la gente que dice que escalar es suficiente. Entonces, básicamente, solo usamos transformadores gigantes, los entrenamos en datos multimodales que involucran, ya sabes, video, texto, bla, bla, bla. Nosotros, tipo de, petrificamostodo, y tokenizar todo, y luego entrenar gigantesmodelos para hacer predicciones discretas, básicamente, y de alguna manera la IA surgirá de esto. No están equivocados, en el sentido de que eso puede ser un componente de un futuro sistema inteligente. Pero creo que le faltan piezas esenciales. 

Hay otra categoría de personas a las que voy a señalar con este artículo. Y son los probabilistas, los probabilistas religiosos. Entonces, las personas que piensan que la teoría de la probabilidad es el único marco que puede usar para explicar el aprendizaje automático. Y como traté de explicar en el artículo, básicamente es demasiado pedir que un modelo mundial sea completamente probabilístico. No sabemos cómo hacerlo. Está la intratabilidad computacional. Así que propongo abandonar toda esta idea. Y, por supuesto, este es un pilar enorme no solo del aprendizaje automático, sino de todas las estadísticas, que pretende ser el formalismo normal para el aprendizaje automático. 

La otra cosa - 

ZDNet: Estás en racha…

YL: — es lo que se llama modelos generativos. Entonces, la idea de que puedes aprender a predecir, y quizás puedas aprender mucho sobre el mundo mediante la predicción. Entonces, les doy un fragmento de video y le pido al sistema que prediga lo que sucederá a continuación en el video. Y puedo pedirle que prediga cuadros de video reales con todos los detalles. Pero lo que argumento en el documento es que en realidad es demasiado pedir y demasiado complicado. Y esto es algo sobre lo que cambié de opinión. Hasta hace unos dos años, solía ser un defensor de lo que llamo modelos generativos de variables latentes, modelos que predicen lo que sucederá a continuación o la información que falta, posiblemente con la ayuda de una variable latente, si la predicción no puede ser determinista Y me he dado por vencido en esto. Y la razón por la que he renunciado a esto se basa en resultados empíricos, donde las personas han tratado de aplicar, más o menos, entrenamiento basado en predicción o reconstrucción del tipo que se usa en BERT.y modelos de lenguaje grande, han intentado aplicar esto a las imágenes, y ha sido un completo fracaso. Y la razón por la que es un completo fracaso es, nuevamente, por las limitaciones de los modelos probabilísticos donde es relativamente fácil predecir tokens discretos como palabras porque podemos calcular la distribución de probabilidad sobre todas las palabras en el diccionario. Eso es fácil. Pero si le pedimos al sistema que produzca la distribución de probabilidad sobre todos los cuadros de video posibles, no tenemos idea de cómo parametrizarla, o tenemos alguna idea de cómo parametrizarla, pero no sabemos cómo normalizarla. Golpea un problema matemático intratable que no sabemos cómo resolver. 

yann-lecun-septiembre-2022-3

“No hemos llegado al punto de que nuestras máquinas inteligentes tengan tanto sentido común como un gato”, observa Lecun. Entonces, ¿por qué no empezamos por ahí? ¿Qué es lo que le permite a un gato aprehender el mundo que lo rodea, hacer cosas bastante inteligentes y planificar y cosas así, y a los perros aún mejor?

Entonces, es por eso que digo que abandonemos la teoría de la probabilidad o el marco para cosas así, los modelos más débiles, basados ​​en la energía. También he estado abogando por esto durante décadas, así que esto no es algo reciente. Pero al mismo tiempo, abandonar la idea de los modelos generativos porque hay muchas cosas en el mundo que no son comprensibles ni predecibles. Si eres ingeniero, lo llamas ruido. Si eres físico, lo llamas calor. Y si eres una persona de aprendizaje automático, lo llamas, ya sabes, detalles irrelevantes o lo que sea.

Entonces, el ejemplo que usé en el documento, o que he usado en las charlas, es que quieres un sistema de predicción mundial que ayude en un automóvil autónomo, ¿verdad? Quiere poder predecir, de antemano, las trayectorias de todos los otros autos, qué va a pasar con otros objetos que puedan moverse, peatones, bicicletas, un niño corriendo detrás de una pelota de fútbol, ​​cosas así. Entonces, todo tipo de cosas sobre el mundo. Pero bordeando el camino, puede haber árboles, y hoy hay viento, así que las hojas se mueven con el viento, y detrás de los árboles hay un estanque, y hay ondas en el estanque. Y esos son, esencialmente, fenómenos en gran parte impredecibles. Y no desea que su modelo gaste una cantidad significativa de recursos en predecir cosas que son difíciles de predecir e irrelevantes. Es por eso que abogo por la arquitectura de incrustación conjunta, esas cosas donde la variable que intentas modelar, no intentas predecirla, intentas modelarla, pero se ejecuta a través de un codificador, y ese codificador puede eliminar muchos detalles sobre la entrada que son irrelevantes o demasiado complicados, básicamente, equivalentes al ruido.

ZDNet: A principios de este año, discutimos los modelos basados ​​en energía, JEPA y H-JEPA. Mi sensación, si te entiendo correctamente, es que estás encontrando el punto de baja energía donde estas dos predicciones de incrustaciones X e Y son más similares, lo que significa que si hay una paloma en un árbol en uno, y hay algo en el fondo de una escena, esos pueden no ser los puntos esenciales que hacen que estas incrustaciones sean cercanas entre sí.

YL: Derecha. Entonces, la arquitectura JEPA en realidad trata de encontrar una compensación, un compromiso, entre extraer representaciones que sean máximamente informativas sobre las entradas pero también predecibles entre sí con cierto nivel de precisión o confiabilidad. Encuentra una compensación. Entonces, si tiene la opción de gastar una gran cantidad de recursos, incluidos los detalles del movimiento de las hojas, y luego modelar la dinámica que decidirá cómo se mueven las hojas dentro de un segundo, o simplemente dejarlo caer al suelo por Básicamente, al ejecutar la variable Y a través de un predictor que elimina todos esos detalles, probablemente solo lo elimine porque es demasiado difícil de modelar y capturar.

ZDNet: Una cosa que sorprende es que haya sido un gran defensor de decir "Funciona, descubriremos más tarde la teoría de la termodinámica para explicarlo". Aquí ha tomado un enfoque de, "No sé cómo vamos a resolver esto necesariamente, pero quiero presentar algunas ideas para pensar al respecto", y tal vez incluso acercarse a una teoría o una hipótesis, en el menos. Eso es interesante porque hay mucha gente que gasta mucho dinero trabajando en el automóvil que puede ver al peatón sin importar si el automóvil tiene sentido común. E imagino que algunas de esas personas no estarán molestas, pero dirán: "Está bien, no nos importa si no tiene sentido común, hemos construido una simulación, la simulación es increíble, y vamos a seguir mejorando, vamos a seguir escalando la simulación”. 

Y es interesante que ahora estés en condiciones de decir, demos un paso atrás y pensemos en lo que estamos haciendo. Y la industria dice que simplemente vamos a escalar, escalar, escalar, escalar, porque esa manivela realmente funciona. Quiero decir, la manivela de semiconductores de las GPU realmente funciona.

YL: Hay, como, cinco preguntas allí. Entonces, quiero decir, la escala es necesaria. No estoy criticando el hecho de que deberíamos escalar. Deberíamos escalar. Esas redes neuronales mejoran a medida que crecen. No hay duda de que debemos escalar. Y los que tendrán algún nivel de sentido común serán grandes. No hay manera de evitar eso, creo. Entonces escalar es bueno, es necesario, pero no suficiente. Ese es el punto que estoy haciendo. No es solo escalar. Ese es el primer punto. 

Segundo punto, si la teoría viene primero y cosas así. Entonces, creo que hay conceptos que vienen primero, que tienes que dar un paso atrás y decir, está bien, construimos esta escalera, pero queremos ir a la luna y no hay forma de que esta escalera nos lleve allí. Entonces, básicamente, lo que estoy escribiendo aquí es que necesitamos construir cohetes. No puedo darte los detalles de cómo construimos cohetes, pero estos son los principios básicos. Y no estoy escribiendo una teoría para eso ni nada, pero va a ser un cohete, ¿de acuerdo? O un ascensor espacial o lo que sea. Es posible que no tengamos todos los detalles de toda la tecnología. Estamos tratando de hacer que algunas de esas cosas funcionen, como he estado trabajando en JEPA. La incrustación conjunta funciona muy bien para el reconocimiento de imágenes, pero hay dificultades para usarla para entrenar un modelo mundial. Estamos trabajando en ello, esperamos hacerlo funcionar. soon, pero es posible que nos encontremos con algunos obstáculos que posiblemente no podamos superar. 

Luego, hay una idea clave en el documento sobre el razonamiento: si queremos que los sistemas puedan planificar, lo que se puede considerar como una forma simple de razonamiento, deben tener variables latentes. En otras palabras, cosas que no son computadas por ninguna red neuronal pero sí cosas cuyo valor se infiere para minimizar alguna función objetivo, alguna función de costo. Y luego puede usar esta función de costo para impulsar el comportamiento del sistema. Y esto no es una idea nueva en absoluto, ¿verdad? Este es un control óptimo muy clásico donde la base de esto se remonta a finales de los años 50, principios de los 60. Entonces, no pretendo ninguna novedad aquí. Pero lo que digo es que este tipo de inferencia tiene que ser parte de un sistema inteligente que sea capaz de planificar, y cuyo comportamiento pueda ser especificado o controlado no por un comportamiento cableado, no por una inclinación a la imitación, sino por una función objetiva que impulsa el comportamiento: no impulsa el aprendizaje, necesariamente, pero impulsa el comportamiento. Sabes, tenemos eso en nuestro cerebro, y cada animal tiene un costo intrínseco o motivaciones intrínsecas para las cosas. Eso hace que los bebés de nueve meses quieran ponerse de pie. El costo de ser feliz cuando te pones de pie, ese término en la función de costo está programado. Pero cómo te pones de pie no es, eso es aprender.

yann-lecun-septiembre-2022-4

“El escalado es bueno, es necesario, pero no suficiente”, dice LeCun sobre los modelos de lenguaje gigante, como los programas basados ​​en Transformer de la variedad GPT-3. Los devotos de Transformer creen: “Lo tokenizamos todo y entrenamos gigantesmodelos para hacer predicciones discretas, y de alguna manera la IA surgirá de esto... pero creo que le faltan piezas esenciales".

ZDNet: Solo para redondear ese punto, gran parte de la comunidad de aprendizaje profundo parece estar bien con algo que no tiene sentido común. Parece que estás haciendo un argumento bastante claro aquí de que en algún momento se convierte en un callejón sin salida. Algunas personas dicen que no necesitamos un automóvil autónomo con sentido común porque la escala lo hará. ¿Parece que estás diciendo que no está bien seguir por ese camino?

YL: Sabes, creo que es muy posible que tengamos autos autónomos de nivel cinco sin sentido común. Pero el problema con este enfoque, será temporal, porque tendrás que diseñarlo a fondo. Así que, ya sabes, trazar un mapa del mundo entero, conectar todo tipo de comportamiento específico de caso de esquina, recopilar suficientes datos para tener todas las situaciones extrañas que puedes encontrar en las carreteras, bla, bla, bla. Y supongo que con suficiente inversión y tiempo, puedes simplemente diseñarlo. Pero en última instancia, habrá una solución más satisfactoria y posiblemente mejor que involucre sistemas que comprendan mejor la forma en que funciona el mundo y que tenga, ya sabes, cierto nivel de lo que llamaríamos sentido común. No necesita ser sentido común a nivel humano, sino algún tipo de conocimiento que el sistema puede adquirir observando, pero no observando a alguien conducir, simplemente observando cómo se mueven las cosas y entendiendo mucho sobre el mundo, construyendo una base de antecedentes. conocimiento sobre cómo funciona el mundo, además de lo cual puedes aprender a conducir. 

Permítanme tomar un ejemplo histórico de esto. La visión por computadora clásica se basaba en una gran cantidad de módulos de ingeniería cableados, encima de los cuales tendrías una especie de capa delgada de aprendizaje. Por lo tanto, el material que fue superado por AlexNet en 2012, tenía básicamente una primera etapa, extracciones de características hechas a mano, como SIFT [Transformación de características invariantes a escala (SIFT), una técnica de visión clásica para identificar objetos sobresalientes en una imagen] y HOG [Histograma de Gradientes Orientados, otra técnica clásica] y varias cosas más. Y luego la segunda capa de características de nivel medio basadas en núcleos de características y lo que sea, y algún tipo de método no supervisado. Y además de esto, pones una máquina de vectores de soporte, o un clasificador relativamente simple. Y esa fue, más o menos, la tubería estándar desde mediados de la década de 2000 hasta 2012. Y eso fue reemplazado por redes convolucionales de extremo a extremo, donde no conectas nada de esto, solo tienes una gran cantidad de datos, y entrenas la cosa de principio a fin, que es el enfoque que he estado defendiendo durante mucho tiempo, pero sabes, hasta entonces, no era práctico para problemas grandes. 

Ha habido una historia similar en el reconocimiento de voz donde, nuevamente, hubo una gran cantidad de ingeniería detallada sobre cómo preprocesar los datos, extraer cepstrum a escala masiva [una inversa de la transformada rápida de Fourier para el procesamiento de señales], y luego tienes modelos ocultos de Markov, con una especie de arquitectura preestablecida, bla, bla, bla, con mezcla de gaussianas. Y así, es un poco de la misma arquitectura que la visión en la que ha creado un front-end hecho a mano, y luego una capa intermedia capacitada y sin supervisión, y luego una capa supervisada en la parte superior. Y ahora eso ha sido, básicamente, eliminado por redes neuronales de extremo a extremo. Así que estoy viendo algo similar allí de tratar de aprender todo, pero tienes que tener la información previa correcta, la arquitectura correcta, la estructura correcta.

yann-lecun-septiembre-2022-5

La multitud de autos sin conductor, nuevas empresas como Waymo y Wayve, han sido "un poco demasiado optimistas", dice, al pensar que podrían "arrojarle datos, y puedes aprender casi cualquier cosa". Los autos sin conductor en el Nivel 5 de ADAS son posibles, "pero tendrás que diseñarlo a fondo" y serán "frágiles" como los primeros modelos de visión por computadora.

ZDNet: Lo que estás diciendo es que algunas personas intentarán diseñar lo que actualmente no funciona con el aprendizaje profundo para su aplicabilidad, digamos, en la industria, y comenzarán a crear algo que se volvió obsoleto en la visión por computadora.

YL: Derecha. Y es en parte por lo que las personas que trabajan en la conducción autónoma han sido demasiado optimistas en los últimos años, es porque, ya sabes, tienes estas cosas genéricas como redes convolucionales y transformadores, que puedes arrojar datos. , y puede aprender casi cualquier cosa. Entonces, dices, está bien, tengo la solución a ese problema. Lo primero que debe hacer es crear una demostración en la que el automóvil se conduce solo durante unos minutos sin lastimar a nadie. Y luego te das cuenta de que hay muchos casos de esquina, y tratas de trazar la curva de cuánto mejor estoy mejorando a medida que duplico el conjunto de entrenamiento, y te das cuenta de que nunca vas a llegar allí porque hay todo tipo de casos de esquina. . Y necesitas tener un auto que provoque un accidente fatal menos de cada 200 millones de kilómetros, ¿verdad? ¿Entonces, Qué haces? Bueno, caminas en dos direcciones. 

La primera dirección es, ¿cómo puedo reducir la cantidad de datos necesarios para que mi sistema aprenda? Y ahí es donde entra en juego el aprendizaje autosupervisado. Por lo tanto, muchos equipos de automóviles autónomos están muy interesados ​​en el aprendizaje autosupervisado porque es una forma de seguir usando cantidades gigantescas de datos de supervisión para el aprendizaje por imitación, pero obteniendo un mejor rendimiento al pre-entrenamiento, esencialmente. Y aún no ha funcionado del todo, pero lo hará. Y luego está la otra opción, que la mayoría de las empresas que están más avanzadas en este punto han adoptado, que es, está bien, podemos hacer la capacitación de extremo a extremo, pero hay muchos casos de esquina en los que podemos. t manejar, por lo que solo vamos a diseñar sistemas que se encargarán de esos casos de esquina y, básicamente, tratarlos como casos especiales, y cablear el control, y luego conectar mucho comportamiento básico para manejar situaciones especiales. Y si tiene un equipo de ingenieros lo suficientemente grande, puede lograrlo. Pero tomará mucho tiempo y, al final, seguirá siendo un poco frágil, tal vez lo suficientemente confiable como para implementarlo, pero con cierto nivel de fragilidad que, con un enfoque más basado en el aprendizaje que podría aparecer en el futuro, los automóviles no tendrán porque podría tener cierto nivel de sentido común y comprensión sobre cómo funciona el mundo. 

A corto plazo, el enfoque de ingeniería ganará, ya gana. Así son los Waymo y Cruise del mundo y Wayvey lo que sea, eso es lo que hacen. Luego está el enfoque de aprendizaje autosupervisado, que probablemente ayudará al enfoque de ingeniería a progresar. Pero luego, a la larga, lo que puede ser demasiado tiempo para que esas empresas esperen, probablemente sería, en cierto modo, un sistema de conducción inteligente autónomo más integrado.

ZDNet: Decimos más allá del horizonte de inversión de la mayoría de los inversores.

YL: Así es. Entonces, la pregunta es, ¿la gente perderá la paciencia o se quedará sin dinero antes de que el rendimiento alcance el nivel deseado?

ZDNet: ¿Hay algo interesante que decir sobre por qué eligió algunos de los elementos que eligió en el modelo? Porque cita a Kenneth Craik [1943,La naturaleza de la explicación], y cita a Bryson y Ho [1969, Control óptimo aplicado], y tengo curiosidad acerca de por qué empezaste con estas influencias, si creías especialmente que estas personas habían dado en el clavo en cuanto a lo que habían hecho. ¿Por qué empezaste ahí?

YL: Bueno, no creo, ciertamente, que tuvieran todos los detalles clavados. Entonces, Bryson y Ho, este es un libro que leí en 1987 cuando era un posdoctorado con Geoffrey Hinton en Toronto. Pero conocía esta línea de trabajo de antemano cuando estaba escribiendo mi doctorado e hice la conexión entre control óptimo y backprop, esencialmente. Si realmente quisiera ser, ya sabe, otro Schmidhuber, diría que los verdaderos inventores de backprop fueron en realidad los teóricos del control óptimo Henry J. Kelley, Arthur Bryson y quizás incluso Lev Pontryagin, que es un teórico ruso del control óptimo. a finales de los años 50. 

Entonces, lo descubrieron y, de hecho, puedes ver la raíz de esto, las matemáticas debajo de eso, es la mecánica lagrangiana. Así que puedes volver a Euler y Lagrange, de hecho, y encontrar una pizca de esto en su definición de la mecánica clásica lagrangiana, de verdad. Entonces, en el contexto del control óptimo, lo que les interesaba a estos muchachos era básicamente calcular las trayectorias de los cohetes. Ya sabes, esto fue la era espacial temprana. Y si tienes un modelo del cohete, te dice aquí está el estado del cohete en ese momento t, y aquí está la acción que voy a tomar, entonces, empuje y actuadores de varios tipos, aquí está el estado del cohete en ese momento t + 1.

ZDNet: Un modelo de estado-acción, un modelo de valor.

YL: Así es, la base del control. Entonces, ahora puedes simular el disparo de tu cohete imaginando una secuencia de comandos, y luego tienes una función de costo, que es la distancia del cohete a su objetivo, una estación espacial o lo que sea. Y luego, mediante algún tipo de descenso de gradiente, puedes descubrir cómo puedo actualizar mi secuencia de acción para que mi cohete se acerque lo más posible al objetivo. Y eso tiene que venir retropropagando señales hacia atrás en el tiempo. Y eso es retropropagación, gradiente de retropropagación. Esas señales, se llaman variables conjugadas en la mecánica de Lagrange, pero de hecho, son gradientes. Por lo tanto, inventaron backprop, pero no se dieron cuenta de que este principio podría usarse para entrenar un sistema de múltiples etapas que puede reconocer patrones o algo así. Esto no se realizó realmente hasta finales de los 70, principios de los 80, y luego no se implementó ni se hizo funcionar hasta mediados de los 80. De acuerdo, entonces, aquí es donde backprop realmente despegó porque la gente mostró que aquí hay algunas líneas de código que pueden entrenar una red neuronal, de extremo a extremo, multicapa. Y eso elimina las limitaciones del Perceptrón. Y sí, hay conexiones con un control óptimo, pero está bien.

ZDNet: Entonces, esa es una manera larga de decir que estas influencias con las que empezaste estaban regresando al backprop, ¿y eso fue importante como punto de partida para ti?

YL: Sí, pero creo que lo que la gente olvidó un poco es que hubo bastante trabajo en esto, ya sabes, en los años 90, o incluso en los 80, incluso por personas como Michael Jordan [MIT Dept. of Brain and Cognitive Sciences] y gente así que ya no está haciendo redes neuronales, sino la idea de que puedes usar redes neuronales para el control, y puedes usar ideas clásicas de control óptimo. Entonces, cosas como lo que se llama control predictivo del modelo, lo que ahora se llama control predictivo del modelo, esta idea de que puede simular o imaginar el resultado de una secuencia de acciones si tiene un buen modelo del sistema que está tratando de controlar. y el entorno en el que se encuentra. Y luego, por descenso de gradiente, esencialmente, esto no es aprendizaje, esto es inferencia, puede descubrir cuál es la mejor secuencia de acciones que minimizará mi objetivo. Entonces, el uso de una función de costo con una variable latente para la inferencia es, creo, algo que los cultivos actuales de redes neuronales a gran escala han olvidado. Pero fue un componente muy clásico del aprendizaje automático durante mucho tiempo. Entonces, cada Red Bayesiana o modelo gráfico o modelo gráfico probabilístico usaba este tipo de inferencia. Tiene un modelo que captura las dependencias entre un grupo de variables, se le dice el valor de algunas de las variables y luego tiene que inferir el valor más probable del resto de las variables. Ese es el principio básico de inferencia en modelos gráficos y redes bayesianas, y cosas por el estilo. Y creo que eso es básicamente de lo que debería tratarse el razonamiento, el razonamiento y la planificación.

ZDNet: Eres un bayesiano de armario.

YL: Soy un bayesiano no probabilístico. Hice ese chiste antes. De hecho, estuve en NeurIPS hace unos años, creo que fue en 2018 o 2019, y un bayesiano me grabó en video y me preguntó si era bayesiano, y dije: Sí, soy bayesiano, pero Soy un bayesiano no probabilístico, una especie de bayesiano basado en la energía, si quieres. 

ZDNet: Lo que definitivamente suena como algo de Star Trek. Mencionaste al final de este documento que se necesitarán años de trabajo muy duro para realizar lo que imaginas. Cuéntame en qué consiste parte de ese trabajo en este momento.

YL: Entonces, explico cómo se entrena y construye la JEPA en el documento. Y el criterio por el que abogo es tener alguna forma de maximizar el contenido de información que las representaciones que se extraen tienen sobre la entrada. Y luego el segundo es minimizar el error de predicción. Y si tiene una variable latente en el predictor que permite que el predictor sea no determinista, debe regularizar también esta variable latente minimizando su contenido de información. Entonces, ahora tiene dos problemas: cómo maximizar el contenido de información de la salida de alguna red neuronal, y el otro es cómo minimizar el contenido de información de alguna variable latente. Y si no haces esas dos cosas, el sistema colapsará. No aprenderá nada interesante. Dará energía cero a todo, algo así, que no es un buen modelo de dependencia. Es el problema de prevención de colapso que menciono. 

Y digo que de todas las cosas que la gente ha hecho alguna vez, solo hay dos categorías de métodos para prevenir el colapso. Uno son los métodos contrastivos y el otro son los métodos regularizados. Entonces, esta idea de maximizar el contenido de información de las representaciones de las dos entradas y minimizar el contenido de información de la variable latente, eso pertenece a los métodos regularizados. Pero gran parte del trabajo en esas arquitecturas de incrustación conjunta está utilizando métodos contrastivos. De hecho, son probablemente los más populares en este momento. Entonces, la pregunta es exactamente ¿cómo se mide el contenido de la información de manera que se pueda optimizar o minimizar? Y ahí es donde las cosas se complican porque en realidad no sabemos cómo medir el contenido de la información. Podemos aproximarlo, podemos darle un límite superior, podemos hacer cosas así. Pero en realidad no miden el contenido de la información, que, en realidad, hasta cierto punto ni siquiera está bien definido.

ZDNet: ¿No es la Ley de Shannon? ¿No es teoría de la información? Tienes una cierta cantidad de entropía, buena entropía y mala entropía, y la buena entropía es un sistema de símbolos que funciona, la mala entropía es ruido. ¿No está todo resuelto por Shannon?

YL: Tienes razón, pero hay un gran defecto detrás de eso. Tiene razón en el sentido de que si tiene datos que le llegan y de alguna manera puede cuantificar los datos en símbolos discretos, y luego mide la probabilidad de cada uno de esos símbolos, entonces la cantidad máxima de información transportada por esos símbolos es el suma sobre los posibles símbolos de registro pi pi, ¿Correcto? Dónde Pi es la probabilidad del símbolo i - esa es la entropía de Shannon. [La Ley de Shannon se formula comúnmente como H = – ∑ pi log pi.]

Aquí está el problema, sin embargo: ¿Qué es Pi? Es fácil cuando el número de símbolos es pequeño y los símbolos se dibujan de forma independiente. Cuando hay muchos símbolos y dependencias, es muy difícil. Entonces, si tiene una secuencia de bits y asume que los bits son independientes entre sí y la probabilidad es igual entre uno y cero o lo que sea, entonces puede medir fácilmente la entropía, no hay problema. Pero si las cosas que te llegan son vectores de alta dimensión, como, ya sabes, marcos de datos, o algo así, ¿qué es Pi? ¿Cuál es la distribución? Primero tienes que cuantizar ese espacio, que es un espacio continuo de alta dimensión. No tienes idea de cómo cuantificar esto correctamente. Puede usar k-means, etc. Esto es lo que hace la gente cuando comprime video y comprime imágenes. Pero es solo una aproximación. Y luego tienes que hacer suposiciones de independencia. Entonces, está claro que en un video, los cuadros sucesivos no son independientes. Hay dependencias, y ese marco podría depender de otro marco que viste hace una hora, que era una imagen de lo mismo. Entonces, ya sabes, no puedes medir Pi. Para medir Pi, debe tener un sistema de aprendizaje automático que aprenda a predecir. Y entonces vuelves al problema anterior. Entonces, solo puedes aproximar la medida de la información, esencialmente. 

yann-lecun-septiembre-2022-6

“La pregunta es exactamente cómo se mide el contenido de la información de manera que se pueda optimizar o minimizar”. dice Le Cun. “Y ahí es donde las cosas se complican porque en realidad no sabemos cómo medir el contenido de la información”. Lo mejor que se puede hacer hasta ahora es encontrar un proxy que sea "lo suficientemente bueno para la tarea que queremos".

Permítanme tomar un ejemplo más concreto. Uno de los algoritmos con los que hemos estado jugando, y de los que he hablado en el artículo, es algo llamado VICReg, regularización de varianza-invarianza-covarianza. Está en un documento separado que se publicó en ICLR, y fue puesto en arXiv aproximadamente un año antes, 2021. Y la idea allí es maximizar la información. Y la idea en realidad surgió de un artículo anterior de mi grupo llamado Gemelos Barlow. Maximizas el contenido de información de un vector que sale de una red neuronal, básicamente, asumiendo que la única dependencia entre las variables es la correlación, la dependencia lineal. Entonces, si asume que la única dependencia posible entre pares de variables, o entre variables en su sistema, son las correlaciones entre pares de valores, que es una aproximación extremadamente aproximada, entonces puede maximizar el contenido de información que sale de su sistema. asegurándose de que todas las variables tengan una varianza distinta de cero, digamos, varianza uno, no importa cuál sea, y luego correlacionándolas, el mismo proceso que se llama blanqueamiento, tampoco es nuevo. El problema con esto es que puedes tener dependencias extremadamente complejas entre grupos de variables o incluso solo pares de variables que no son dependencias lineales, y no aparecen en las correlaciones. Entonces, por ejemplo, si tiene dos variables y todos los puntos de esas dos variables se alinean en una especie de espiral, hay una dependencia muy fuerte entre esas dos variables, ¿verdad? Pero, de hecho, si calcula la correlación entre esas dos variables, no están correlacionadas. Entonces, aquí hay un ejemplo donde el contenido de información de estas dos variables es realmente muy pequeño, es solo una cantidad porque es su posición en la espiral. Están descorrelacionados, por lo que cree que tiene mucha información proveniente de esas dos variables cuando, de hecho, no es así, solo tiene, ya sabe, puede predecir una de las variables a partir de la otra, esencialmente. Entonces, eso muestra que solo tenemos formas muy aproximadas de medir el contenido de la información.

ZDNet: ¿Y esa es una de las cosas en las que tienes que estar trabajando ahora con esto? Esta es la pregunta más importante: ¿cómo sabemos cuándo estamos maximizando y minimizando el contenido de la información?

YL:  O si el proxy que estamos usando para esto es lo suficientemente bueno para la tarea que queremos. De hecho, hacemos esto todo el tiempo en el aprendizaje automático. Las funciones de costo que minimizamos nunca son las que realmente queremos minimizar. Entonces, por ejemplo, quieres hacer una clasificación, ¿de acuerdo? La función de costo que desea minimizar cuando entrena a un clasificador es la cantidad de errores que comete el clasificador. Pero esa es una función de costo horrible no diferenciable que no puede minimizar porque sabe que va a cambiar los pesos de su red neuronal, nada va a cambiar hasta que una de esas muestras cambie su decisión, y luego un salto en el error, positivo o negativo.

ZDNet: Así que tienes un proxy que es una función objetiva que definitivamente puedes decir, definitivamente podemos fluir gradientes de esta cosa.

YL: Así es. Entonces, la gente usa esta pérdida de entropía cruzada, o SOFTMAX, tiene varios nombres, pero es lo mismo. Y básicamente es una aproximación suave del número de errores que comete el sistema, donde el suavizado se hace, básicamente, teniendo en cuenta la puntuación que el sistema le da a cada una de las categorías.

ZDNet: ¿Hay algo que no hayamos cubierto que le gustaría cubrir?

YL: Probablemente esté enfatizando los puntos principales. Creo que los sistemas de IA deben ser capaces de razonar, y el proceso por el que abogo es minimizar algún objetivo con respecto a alguna variable latente. Eso permite que los sistemas planifiquen y razonen. Creo que deberíamos abandonar el marco probabilístico porque es intratable cuando queremos hacer cosas como capturar dependencias entre variables continuas de alta dimensión. Y estoy abogando por abandonar los modelos generativos porque el sistema tendrá que dedicar demasiados recursos a predecir cosas que son demasiado difíciles de predecir y tal vez consuman demasiados recursos. Y eso es todo. Esos son los mensajes principales, si quieres. Y luego la arquitectura general. Luego están esas especulaciones sobre la naturaleza de la conciencia y el papel del configurador, pero esto es realmente especulación.

ZDNet: Llegaremos a eso la próxima vez. Iba a preguntarte, ¿cómo comparas esto? Pero supongo que estás un poco más lejos de la evaluación comparativa en este momento.

YL: No necesariamente tan lejos en versiones más o menos simplificadas. Puedes hacer lo que todo el mundo hace en el control o el aprendizaje por refuerzo, es decir, entrenas la cosa para jugar juegos de Atari o algo así o algún otro juego que tenga cierta incertidumbre.

ZDNet: Gracias por tu tiempo, Yann.

Fuente