O ‘Gato’ da DeepMind é medíocre, então por que eles o construíram?

deepmind-gato-slash-image-closer-in.png

A rede neural “Gato” da DeepMind é excelente em inúmeras tarefas, incluindo controlar braços robóticos que empilham blocos, jogar jogos do Atari 2600 e legendar imagens.


DeepMind

O mundo está acostumado a ver manchetes sobre as últimas inovações em formas de aprendizagem profunda de inteligência artificial. A mais recente conquista da divisão DeepMind do Google, no entanto, pode ser resumida como: “Um programa de IA que faz um trabalho razoável em muitas coisas”. 

Gato, como é chamado o programa da DeepMind, foi revelado esta semana como o chamado programa multimodal, que pode jogar videogame, conversar, escrever composições, legendar imagens e controlar um braço robótico que empilha blocos. É uma rede neural que pode trabalhar com vários tipos de dados para realizar vários tipos de tarefas. 

“Com um único conjunto de pesos, Gato pode dialogar, legendar imagens, empilhar blocos com um braço robótico real, superar os humanos em jogos de Atari, navegar em ambientes 3D simulados, seguir instruções e muito mais”, escreve o autor principal Scott Reed. e colegas em seu artigo, “A Generalist Agent”, postado no servidor de pré-impressão Arxiv

O cofundador da DeepMind, Demis Hassabis, torceu pela equipe, exclamando em um tweet, “Nosso agente mais geral até agora!! Trabalho fantástico da equipe!” 

Também: Um novo experimento: a IA realmente conhece gatos ou cachorros – ou algo assim?

O único problema é que Gato não é tão bom em diversas tarefas. 

Por um lado, o programa é capaz de fazer melhor do que um programa dedicado de aprendizado de máquina no controle de um braço robótico de Sawyer que empilha blocos. Por outro lado, produz legendas para imagens que em muitos casos são bastante pobres. Sua capacidade de diálogo padrão por bate-papo com um interlocutor humano é igualmente medíocre, às vezes provocando declarações contraditórias e sem sentido. 

E o jogo de videogame Atari 2600 fica abaixo da maioria dos programas de ML dedicados projetados para competir no benchmark Ambiente de aprendizagem de arcade

Por que você criaria um programa que faz algumas coisas muito bem e um monte de outras não tão bem? Precedente e expectativa, segundo os autores. 

Há precedentes para tipos mais gerais de programas que se tornam o que há de mais moderno em IA, e há uma expectativa de que quantidades crescentes de poder de computação compensarão no futuro as deficiências. 

A generalidade pode tender a triunfar na IA. Como observam os autores, citando o estudioso de IA Richard Sutton, “Historicamente, os modelos genéricos que são melhores no aproveitamento da computação também tendem a ultrapassar abordagens mais especializadas de domínios específicos”.

Como Sutton escreveu em sua própria postagem no blog, “A maior lição que pode ser aprendida em 70 anos de pesquisa em IA é que os métodos gerais que aproveitam a computação são, em última análise, os mais eficazes, e por uma grande margem.”

Colocado em uma tese formal, Reed e equipe escrevem que “testamos aqui a hipótese de que é possível treinar um agente que geralmente é capaz de realizar um grande número de tarefas; e que este agente geral pode ser adaptado com poucos dados extras para ter sucesso em um número ainda maior de tarefas.”

Também: O luminar de IA da Meta, LeCun, explora a fronteira de energia do aprendizado profundo

O modelo, neste caso, é, de facto, muito geral. É uma versão do Transformer, o tipo dominante de modelo baseado na atenção que se tornou a base de vários programas, incluindo o GPT-3. Um transformador modela a probabilidade de algum elemento dados os elementos que o cercam, como palavras em uma frase. 

No caso do Gato, os cientistas da DeepMind são capazes de usar a mesma pesquisa de probabilidade condicional em vários tipos de dados. 

Conforme Reed e colegas descrevem a tarefa de treinar Gato, 

Durante a fase de treinamento do Gato, os dados de diferentes tarefas e modalidades são serializados em uma sequência plana de tokens, agrupados e processados ​​por uma rede neural transformadora semelhante a um grande modelo de linguagem. A perda é mascarada para que Gato apenas preveja alvos de ação e texto.

Gato, em outras palavras, não trata os tokens de maneira diferente, sejam eles palavras em um bate-papo ou vetores de movimento em um exercício de empilhamento de blocos. É tudo a mesma coisa. 

deepmind-how-gato-is-trained.png

Cenário de treinamento Gato.


Reed et al. 2022

Enterrado na hipótese de Reed e da equipe está um corolário, ou seja, que mais e mais poder de computação vencerá, eventualmente. No momento, Gato está limitado pelo tempo de resposta de um braço robótico Sawyer que empilha blocos. Com 1.18 bilhão de parâmetros de rede, o Gato é muito menor do que modelos de IA muito grandes, como o GPT-3. À medida que os modelos de aprendizagem profunda crescem, a realização de inferências leva a uma latência que pode falhar no mundo não determinístico de um robô do mundo real. 

Mas Reed e seus colegas esperam que esse limite seja ultrapassado à medida que o hardware de IA se torna mais rápido no processamento.

“Concentramos nosso treinamento no ponto operacional em escala de modelo que permite o controle em tempo real de robôs do mundo real, atualmente em torno de parâmetros de 1.2B no caso do Gato”, escreveram. “À medida que as arquiteturas de hardware e modelo melhoram, este ponto operacional aumentará naturalmente o tamanho viável do modelo, empurrando os modelos generalistas para cima na curva da lei de escala.”

Conseqüentemente, Gato é realmente um modelo de como a escala da computação continuará a ser o principal vetor de desenvolvimento do aprendizado de máquina, tornando os modelos gerais cada vez maiores. Quanto maior, melhor, em outras palavras. 

deepmind-fica-melhor-com-escala.png

Gato melhora à medida que o tamanho da rede neural em parâmetros aumenta.


Reed et al. 2022

E os autores têm algumas evidências disso. Gato parece melhorar à medida que fica maior. Eles comparam as pontuações médias em todas as tarefas de benchmark para três tamanhos de modelo de acordo com os parâmetros, 79 milhões, 364 milhões, e o modelo principal, 1.18 bilhão. “Podemos ver que, para uma contagem de tokens equivalente, há uma melhoria significativa no desempenho com o aumento da escala”, escrevem os autores. 

Uma questão futura interessante é se um programa generalista é mais perigoso do que outros tipos de programas de IA. Os autores passam muito tempo no artigo discutindo o fato de que existem perigos potenciais ainda não bem compreendidos.  

A ideia de um programa que lide com múltiplas tarefas sugere ao leigo uma espécie de adaptabilidade humana, mas isso pode ser um equívoco perigoso. “Por exemplo, a incorporação física pode levar os usuários a antropomorfizar o agente, levando à confiança perdida no caso de um sistema com defeito, ou ser explorada por maus atores”, escrevem Reed e equipe. 

“Além disso, embora a transferência de conhecimento entre domínios seja frequentemente um objetivo na pesquisa de ML, ela pode criar resultados inesperados e indesejados se certos comportamentos (por exemplo, luta em jogos de arcade) forem transferidos para o contexto errado.”

Por isso, escrevem: “As considerações éticas e de segurança da transferência de conhecimento podem exigir novas pesquisas substanciais à medida que os sistemas generalistas avançam”.

(Como uma observação interessante, o artigo da Gato emprega um esquema para descrever o risco desenvolvido pela ex-pesquisadora de IA do Google Margaret Michell e colegas, chamado Model Cards. Os Model Cards fornecem um resumo conciso do que é um programa de IA, o que ele faz e o que fatores afetam o modo como ela opera. Michell escreveu no ano passado que foi forçada a deixar o Google por apoiar seu ex-colega, Timnit Gebru, cujas preocupações éticas sobre IA entraram em conflito com a liderança de IA do Google.)

Gato não é de forma alguma o único em sua tendência generalizadora. Faz parte da ampla tendência à generalização e de modelos maiores que utilizam baldes de potência. O mundo sentiu pela primeira vez a inclinação do Google nessa direção no verão passado, com a rede neural “Perceiver” do Google, que combinava tarefas de transformador de texto com imagens, som e coordenadas espaciais LiDAR.

Também: Supermodelo do Google: DeepMind Perceiver é um passo no caminho para uma máquina de IA que pode processar tudo e qualquer coisa

Entre seus pares está o PaLM o Pathways Language Model apresentado este ano por cientistas do Google, um modelo de 540 bilhões de parâmetros que utiliza uma nova tecnologia para coordenar milhares de chips, conhecido como Caminhos, também inventado no Google. Uma rede neural lançada em janeiro pela Meta, chamada “data2vec”, usa Transformers para dados de imagem, formas de onda de áudio de fala e representações de linguagem de texto, tudo em um. 

O que há de novo no Gato, ao que parece, é a intenção de pegar a IA usada para tarefas não robóticas e empurrá-la para o domínio da robótica.

Os criadores do Gato, observando as conquistas do Pathways e de outras abordagens generalistas, veem a conquista final na IA que pode operar no mundo real, com qualquer tipo de tarefa. 

“Trabalhos futuros devem considerar como unificar essas capacidades de texto em um agente totalmente generalista que também possa atuar em tempo real no mundo real, em diversos ambientes e modalidades.” 

Você poderia, então, considerar o Gato como um passo importante no caminho para resolver o problema mais difícil da IA, a robótica. 



fonte