O 'data2vec' da Meta é o próximo passo em direção a uma rede neural para governá-los todos

A corrida está para criar uma rede neural que possa processar vários tipos de dados, a noção de uma inteligência artificial mais geral que não discrimina os tipos de dados, mas pode processá-los todos dentro da mesma estrutura básica.

O gênero de multimodalidade, como essas redes neurais são chamadas, está vendo uma enxurrada de atividades na qual dados diferentes, como imagem, texto e áudio de fala, são passados ​​pelo mesmo algoritmo para produzir uma pontuação em diferentes testes, como reconhecimento de imagem, compreensão de linguagem natural ou detecção de fala.

E essas redes ambidestras estão acumulando pontuações em testes de benchmark de IA. A mais recente conquista é o que é chamado de 'data2vec', desenvolvido por pesquisadores da divisão de IA da Meta, controladora do Facebook, Instagram e WhatsApp. 

O ponto, como escrevem os cientistas da Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu e Michael Auli, é abordar algo mais parecido com a capacidade geral de aprendizado que a mente humana parece abranger.

“Enquanto as pessoas parecem aprender de maneira semelhante, independentemente de como obtêm informações – se usam visão ou som, por exemplo”, escrevem os autores em um post de blog, “atualmente existem grandes diferenças na maneira como as redes neurais lidam com diferentes tipos de dados, como imagens, fala, texto “e outras modalidades”.

“A ideia central dessa abordagem”, eles declaram da data2vec, “é aprender de forma mais geral: a IA deve ser capaz de aprender a fazer muitas tarefas diferentes, incluindo aquelas que são totalmente desconhecidas”.

O CEO da Meta, Mark Zuckerberg, ofereceu uma citação sobre o trabalho, vinculando-o a um futuro Metaverso:

Avanço emocionante: a pesquisa da Meta AI construiu um sistema que aprende com a fala, a visão e o texto sem precisar de dados de treinamento rotulados. As pessoas experimentam o mundo através de uma combinação de visão, som e palavras, e sistemas como esse podem um dia entender o mundo do jeito que nós o fazemos. Isso tudo acabará sendo incorporado aos óculos AR com um assistente de IA para, por exemplo, ajudá-lo a cozinhar o jantar, percebendo se você perder um ingrediente, solicitando que você abaixe o fogo ou tarefas mais complexas.

O nome data2vec é uma brincadeira com o nome de um programa para “incorporação” de linguagem desenvolvido no Google em 2013 chamado "palavra2vec." Esse programa previu como as palavras se agrupam e, portanto, o word2vec é representativo de uma rede neural projetada para um tipo específico de dados, nesse caso, texto. 

Também: Abra as portas do compartimento do pod, por favor, HAL: A IA do Meta simula a leitura labial

No caso do data2vec, no entanto, Baevski e colegas estão adotando uma versão padrão do que é chamado de Transformer, desenvolvido por Ashish Vaswani e colegas no Google em 2017 e estendendo-o para ser usado para vários tipos de dados. 

A rede neural Transformer foi originalmente desenvolvida para tarefas de linguagem, mas foi amplamente adaptada nos anos seguintes para muitos tipos de dados. Baevski et ai. mostram que o Transformer pode ser usado para processar vários tipos de dados sem serem alterados, e a rede neural treinada resultante pode ser executada em várias tarefas diferentes. 

No documento oficial, “data2vec: uma estrutura geral para aprendizagem auto-supervisionada em fala, visão e linguagem”, Baevski et al., treinam o Transformer para dados de imagem, formas de onda de áudio de fala e representações de linguagem de texto. 

O Data2vec é “o primeiro algoritmo autossupervisionado de alto desempenho que funciona para várias modalidades, ou seja, fala, visão e texto”, escrevem Baevski e equipe na postagem do blog.

O Transformer muito geral torna-se o que é chamado de pré-treinamento que pode ser aplicado a redes neurais específicas para executar tarefas específicas. Por exemplo, os autores usam o data2vec como pré-treinamento para equipar o que é chamado de “ViT”, o “transformador de visão”, uma rede neural projetada especificamente para tarefas de visão que foi introduzido no ano passado por Alexey Dosovitskiy e colegas do Google. 

Meta-2022-Data2Vec-Scores-ON-Vit-test.jpg

Meta mostra as melhores pontuações para a venerável competição de reconhecimento de imagem ImageNet.


Meta 2022

Quando usado no ViT para tentar resolver o teste padrão ImageNet de reconhecimento de imagem, seus resultados chegam no topo do pacote, com precisão de 84.1%, melhor do que a pontuação de 83.2% recebida por uma equipe da Microsoft que pré-treinou ViT, liderado por Hangbo Bao, ano passado.

E o mesmo Data2vec Transformer produz resultados que são de última geração para reconhecimento de fala e que são competitivos, se não os melhores, para aprendizado de linguagem natural:

Resultados experimentais mostram que o data2vec é eficaz em todas as três modalidades, estabelecendo um novo estado da arte para ViT-B e ViT-L no ImageNet-1K, melhorando em relação ao melhor trabalho anterior em processamento de fala em reconhecimento de fala e desempenho a par do RoBERTa no benchmark de compreensão de linguagem natural GLUE. 

O ponto crucial é que isso está acontecendo sem qualquer modificação da rede neural para ser sobre imagens, e o mesmo para fala e texto. Em vez disso, cada tipo de entrada está entrando na mesma rede e concluindo a mesma tarefa geral. Essa tarefa é a mesma que as redes Transformer sempre usam, conhecida como “previsão mascarada”. 

Também: Supermodelo do Google: DeepMind Perceiver é um passo no caminho para uma máquina de IA que pode processar tudo e qualquer coisa

A maneira como o data2vec realiza a previsão mascarada, no entanto, é uma abordagem conhecida como aprendizado “autossupervisionado”. Em uma configuração autossupervisionada, uma rede neural é treinada ou desenvolvida tendo que passar por vários estágios. 

Primeiro, a rede constrói uma representação da probabilidade conjunta de entrada de dados, sejam imagens, fala ou texto. Então, uma segunda versão da rede tem alguns desses itens de dados de entrada “mascarados”, não revelados. Ele tem que reconstruir a probabilidade conjunta que a primeira versão da rede havia construído, o que o força a criar representações cada vez melhores dos dados essencialmente preenchendo os espaços em branco. 

meta-2022-data2vec-network-architecture.jpg

Uma visão geral da abordagem data2vec.


Meta 2022

As duas redes, aquela com o padrão completo da probabilidade conjunta e aquela com a versão incompleta que está tentando completar, são chamadas, com bastante sensatez, “Professor” e “Aluno”. A rede Aluno tenta desenvolver seu senso dos dados, se você quiser, reconstruindo o que o Professor já havia alcançado.

Você pode veja o código para os modelos no Github.

Qual é o desempenho da rede neural Professor e Aluno para três tipos de dados muito diferentes? A chave é que o “alvo” da probabilidade conjunta, em todos os três casos de dados, não é um tipo de dado de saída específico, como é o caso nas versões do Transformer para um tipo de dado específico, como o BERT do Google ou o GPT-3 da OpenAI . 

Em vez disso, o data2vec está pegando um monte de camadas de rede neural que são dentro a rede neural, em algum lugar no meio, que representa os dados antes de serem produzidos como uma saída final. 

Como os autores escrevem: “Uma das principais diferenças do nosso método […] além de realizar a previsão mascarada, é o uso de alvos baseados na média de várias camadas da rede de professores”. Especificamente, “regredimos várias representações da camada de rede neural em vez de apenas a camada superior”, para que “data2vec preveja as representações latentes dos dados de entrada”.

Eles acrescentam: “Geralmente, usamos a saída da FFN [rede feed-forward] antes da última conexão residual em cada bloco como alvo”, onde um “bloco” é o equivalente do Transformer de uma camada de rede neural.

A questão é que cada tipo de dado que entra se torna o mesmo desafio para a rede do Aluno de reconstruir algo dentro da rede neural que o Professor havia composto.

Essa média é diferente de outras abordagens recentes para construir uma rede para triturar todos os dados. Por exemplo, no verão passado, a unidade DeepMind do Google ofereceu o que chama de “Perceiver”, sua própria versão multimodal do Transformer. O treinamento da rede neural Perceiver é o processo mais padrão de produzir uma saída que é a resposta a uma tarefa rotulada e supervisionada, como o ImageNet. Na abordagem autossupervisionada, o data2vec não está usando esses rótulos, está apenas tentando reconstruir a representação interna da rede dos dados. 

Esforços ainda mais ambiciosos estão nos bastidores. Jeff Dean, chefe dos esforços de IA do Google, brincou em outubro sobre “Pathways”, o que Dean afirma ser um “arquitetura de IA de próxima geração” para processamento de dados multimodal.

Lembre-se, a abordagem muito geral do data2vec para uma única rede neural para várias modalidades ainda tem muitas informações sobre os diferentes tipos de dados. Imagem, fala e texto são todos preparados pelo pré-processamento dos dados. Dessa forma, o aspecto multimodal da rede ainda depende de pistas sobre os dados, o que a equipe chama de “pequenos codificadores de entrada específicos da modalidade”.

Também: Google revela 'Pathways', uma IA de última geração que pode ser treinada para multitarefa

“Apesar do regime de aprendizado unificado, ainda usamos extratores de recursos específicos da modalidade e estratégias de mascaramento”, explicam eles.

Portanto, ainda não estamos em um mundo onde uma rede neural é treinada sem nenhum sentido dos tipos de dados de entrada. Também não estamos em um momento em que a rede neural possa construir uma representação que combine todos os diferentes tipos de dados, de modo que a rede neural esteja aprendendo coisas em combinação.

Esse fato fica claro a partir de uma troca entre ZDNet e os autores. ZDNet entrou em contato com Baevski e sua equipe e perguntou: “As representações latentes que servem como alvos são uma codificação combinada de todas as três modalidades em qualquer etapa de tempo ou geralmente são apenas uma das modalidades?”

Baevski e equipe respondem que é o último caso, e seus reply é interessante citar longamente:

As variáveis ​​latentes não são uma codificação combinada para as três modalidades. Treinamos modelos separados para cada modalidade, mas o processo pelo qual os modelos aprendem é idêntico. Esta é a principal inovação do nosso projeto, pois antes havia grandes diferenças na forma como os modelos são treinados em diferentes modalidades. Os neurocientistas também acreditam que os humanos aprendem de maneira semelhante sobre sons e o mundo visual. Nosso projeto mostra que o aprendizado autossupervisionado também pode funcionar da mesma forma para diferentes modalidades.

Dadas as limitações específicas da modalidade do data2vec, uma rede neural que pode realmente ser Uma rede para governar a todos continua a ser a tecnologia do futuro.

fonte