El pionero de la IA, Cerebras, abre la IA generativa donde OpenAI se oscurece

cerebras-andromeda-puertas-cerradas-2022

La supercomputadora Andromeda de Cerebras se utilizó para entrenar siete programas de idiomas similares a ChatGPT de OpenAI. 

Sistemas Cerebras

El mundo de la inteligencia artificial, especialmente el rincón que es muy popular conocido como "IA generativa" (que crea escritura e imágenes automáticamente), corre el riesgo de cerrar sus horizontes debido al efecto paralizador de las empresas que deciden no publicar los detalles de sus investigación. 

Pero el giro hacia el secreto puede haber llevado a algunos participantes en el mundo de la IA a intervenir y llenar el vacío de divulgación.

El martes, el pionero de la IA Cerebras Systems, creadores de una computadora de IA dedicada y el chip de computadora más grande del mundo, publicado como código abierto varias versiones de programas generativos de IA para usar sin restricciones. 

Los programas son “entrenados” por Cerebras, es decir, llevados a un rendimiento óptimo utilizando la poderosa supercomputadora de la compañía, lo que reduce parte del trabajo que tienen que hacer los investigadores externos. 

“Las empresas están tomando decisiones diferentes a las que tomaron hace uno o dos años, y no estamos de acuerdo con esas decisiones”, dijo el cofundador y director ejecutivo de Cerebras, Andrew Feldman, en una entrevista con ZDNET, en alusión a la decisión de OpenAI, el creador de ChatGPT, no publicar detalles técnicos cuando reveló su último programa de IA generativa este mes, GPT-4, un movimiento que fue ampliamente criticado en el mundo de la investigación de IA. 

También: Con GPT-4, OpenAI opta por el secreto frente a la divulgación

Cerebras-anuncio-marzo-2023-distribución-versión-diapositiva-2

Sistemas Cerebras
Cerebras-anuncio-marzo-2023-distribución-versión-diapositiva-3

Sistemas Cerebras

“Creemos que una comunidad abierta y vibrante, no solo de investigadores, y no solo de tres o cuatro o cinco u ocho LLM, sino una comunidad vibrante en la que las nuevas empresas, las empresas medianas y las empresas están capacitando a grandes modelos lingüísticos, es bueno para nosotros, y es bueno para los demás”, dijo Feldman.

El término modelo de lenguaje grande se refiere a programas de IA basados ​​en principios de aprendizaje automático en los que una red neuronal captura la distribución estadística de palabras en datos de muestra. Ese proceso permite que un modelo de lenguaje grande prediga la siguiente palabra en secuencia. Esa capacidad subyace a los populares programas generativos de IA como ChatGPT. 

El mismo tipo de enfoque de aprendizaje automático se aplica a la IA generativa en otros campos, como Dall*E de OpenAI, que genera imágenes basadas en una frase sugerida. 

También: Los mejores generadores de arte con IA: DALL-E2 y otras divertidas alternativas para probar

Cerebras publicó siete modelos de lenguaje grande que tienen el mismo estilo que el programa GPT de OpenAI, que comenzó la moda de la IA generativa en 2018. El código es disponible en el sitio web de la startup de IA Hugging Face y más GitHub.

Los programas varían en tamaño, desde 111 millones de parámetros, o pesos neurales, hasta trece mil millones. Más parámetros hacen que un programa de IA sea más poderoso, en términos generales, de modo que el código de Cerebras ofrece un rango de rendimiento. 

La empresa publicó no solo el código fuente de los programas, en formato Python y TensorFlow, bajo la licencia de código abierto Apache 2.0, sino también los detalles del régimen de capacitación mediante el cual los programas se llevaron a un estado de funcionalidad desarrollado. 

Esa divulgación permite a los investigadores examinar y reproducir el trabajo de Cerebras. 

El lanzamiento de Cerebras, dijo Feldman, es la primera vez que un programa de estilo GPT se hace público "utilizando técnicas de eficiencia de entrenamiento de última generación".

Otro trabajo de capacitación de IA publicado tiene datos técnicos ocultos, como GPT-4 de OpenAI, o los programas no se han optimizado en su desarrollo, lo que significa que los datos que se alimentan al programa no se han ajustado al tamaño del programa. como se explica en una publicación técnica del blog de Cerebras. 

Cerebras-anuncio-marzo-2023-distribución-versión-diapositiva-11

Sistemas Cerebras

Tales modelos de lenguaje grandes son notoriamente intensivos en computación. El trabajo de Cerebras publicado el martes se desarrolló en un grupo de dieciséis de sus computadoras CS-2, computadoras del tamaño de refrigeradores de dormitorios que están sintonizadas especialmente para programas de estilo AI. El clúster, previamente revelado por la compañía, se conoce como su supercomputadora Andromeda, que puede reducir drásticamente el trabajo para entrenar LLM en miles de chips GPU de Nvidia.

También: El éxito de ChatGPT podría provocar un cambio dañino hacia el secreto en la IA, dice el pionero de la IA Bengio

Como parte del comunicado del martes, Cerebras ofreció lo que dijo que era la primera ley de escalado de código abierto, una regla de referencia sobre cómo aumenta la precisión de dichos programas con el tamaño de los programas basados ​​en datos de código abierto. El conjunto de datos utilizado es de código abierto. La pila, una colección de textos de 825 gigabytes, en su mayoría textos profesionales y académicos, presentada en 2020 por un laboratorio sin fines de lucro Eleuther.   

Cerebras-anuncio-marzo-2023-distribución-versión-diapositiva-12

Sistemas Cerebras

Las leyes de escalamiento anteriores de OpenAI y DeepMind de Google usaban datos de capacitación que no eran de código abierto. 

En el pasado, Cerebras ha defendido las ventajas de eficiencia de sus sistemas. La capacidad de entrenar eficientemente los exigentes programas de lenguaje natural es fundamental para los problemas de la publicación abierta, dijo Feldman.

“Si puede lograr eficiencias, puede darse el lujo de poner cosas en la comunidad de código abierto”, dijo Feldman. “La eficiencia nos permite hacer esto rápida y fácilmente y hacer nuestra parte por la comunidad”.

Una razón principal por la que OpenAI, y otros, están comenzando a cerrar su trabajo al resto del mundo es porque deben proteger la fuente de ganancias frente al creciente costo de capacitación de AI, dijo. 

También: GPT-4: Una nueva capacidad para ofrecer consejos ilícitos y mostrar 'comportamientos emergentes de riesgo'

“Es tan caro que han decidido que es un activo estratégico y han decidido ocultárselo a la comunidad porque es estratégico para ellos”, dijo. “Y creo que esa es una estrategia muy razonable. 

“Es una estrategia razonable si una empresa desea invertir una gran cantidad de tiempo, esfuerzo y dinero y no compartir los resultados con el resto del mundo”, agregó Feldman. 

Sin embargo, “Creemos que eso lo convierte en un ecosistema menos interesante y, a la larga, limita la marea creciente” de la investigación, dijo.

Las empresas pueden "acumular" recursos, como conjuntos de datos o experiencia en modelos, atesorándolos, observó Feldman.

También: El retador de IA Cerebras ensambla la supercomputadora modular 'Andromeda' para acelerar modelos de lenguaje grandes

“La pregunta es cómo se utilizan estratégicamente estos recursos en el paisaje”, dijo. “Creemos que podemos ayudar presentando modelos que son abiertos, utilizando datos que todos pueden ver”. 

Cuando se le preguntó cuál podría ser el producto de la versión de código abierto, Feldman comentó: "Cientos de instituciones distintas pueden trabajar con estos modelos GPT que de otro modo no habrían podido, y resolver problemas que de otro modo podrían haberse dejado de lado".

Fuente