메타의 'data2vec'는 모든 것을 지배하는 하나의 신경망을 향한 다음 단계입니다.

여러 종류의 데이터를 처리할 수 있는 하나의 신경망, 즉 데이터 유형을 구별하지 않고 동일한 기본 구조 내에서 모든 데이터를 처리할 수 있는 보다 일반적인 인공 지능의 개념을 만들기 위한 경쟁이 진행 중입니다.

이러한 신경망이라고 하는 다중 모드의 장르는 이미지, 텍스트 및 음성 오디오와 같은 서로 다른 데이터가 동일한 알고리즘을 통해 전달되어 이미지 인식, 자연어 이해 또는 음성 감지.

그리고 이러한 양손잡이 네트워크는 AI의 벤치마크 테스트에서 높은 점수를 받고 있습니다. 가장 최근의 성과는 페이스북과 인스타그램, 왓츠앱의 모회사인 메타(Meta) AI 부문 연구원들이 개발한 'data2vec'이다. 

메타의 과학자인 Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli가 쓴 것처럼 요점은 인간의 마음이 포괄하는 것처럼 보이는 일반적인 학습 능력과 더 유사한 것에 접근하는 것입니다.

"사람들은 정보를 얻는 방법, 예를 들어 시각이나 청각을 사용하는지 여부에 관계없이 비슷한 방식으로 배우는 것처럼 보이지만" 블로그 게시물에서, "현재 방법에 큰 차이가 있습니다." 신경망은 이미지, 음성, 텍스트 및 기타 양식과 같은 다양한 유형의 데이터를 처리합니다.

그들은 data2vec에 대해 "이 접근 방식의 핵심 아이디어는 보다 일반적으로 학습하는 것입니다. AI는 완전히 익숙하지 않은 작업을 포함하여 다양한 작업을 수행하는 방법을 배울 수 있어야 합니다."라고 선언합니다.

메타의 CEO인 마크 주커버그(Mark Zuckerberg)는 미래의 메타버스(Metaverse)와 관련하여 작업에 대한 인용문을 제공했습니다.

흥미로운 혁신: Meta AI 연구는 레이블이 지정된 교육 데이터 없이 음성, 시각 및 텍스트에서 학습하는 시스템을 구축했습니다. 사람들은 시각, 청각, 언어의 조합을 통해 세상을 경험하고, 이와 같은 시스템이 언젠가는 우리가 하는 방식으로 세상을 이해할 수 있을 것입니다. 이 모든 것이 결국 AI 비서와 함께 AR 안경에 내장될 것이므로 예를 들어 저녁 요리를 하거나 재료를 놓쳤는지 알아차리거나 불을 낮추라는 메시지를 표시하거나 더 복잡한 작업을 하는 데 도움이 될 수 있습니다.

data2vec라는 이름은 언어 "임베딩"을 위한 프로그램 이름의 유희입니다. 2013년 구글에서 개발 "word2vec"라고 합니다. 이 프로그램은 단어가 어떻게 함께 클러스터링되는지 예측하므로 word2vec는 특정 유형의 데이터(이 경우 텍스트)용으로 설계된 신경망을 나타냅니다. 

또한 : 포드 베이 도어를 열어주세요. HAL: Meta의 AI가 입술 읽기를 시뮬레이션합니다.

그러나 data2vec의 경우 Baevski와 동료들은 Ashish Vaswani와 동료들이 개발한 Transformer의 표준 버전을 사용하고 있습니다. 2017년 구글에서 여러 데이터 유형에 사용하도록 확장합니다. 

Transformer 신경망은 원래 언어 작업을 위해 개발되었지만 이후 여러 종류의 데이터에 널리 적용되었습니다. Baevski et al. Transformer는 변경되지 않고 여러 종류의 데이터를 처리하는 데 사용할 수 있으며 결과는 여러 다른 작업에서 수행할 수 있는 훈련된 신경망을 보여줍니다. 

공식 논문에서 "data2vec: 음성, 시각 및 언어의 자가 지도 학습을 위한 일반 프레임워크,” Baevski et al.은 이미지 데이터, 음성 오디오 파형 및 텍스트 언어 표현을 위해 변환기를 훈련합니다. 

Data2vec은 "음성, 시각 및 텍스트와 같은 여러 양식에 대해 작동하는 최초의 고성능 자가 감독 알고리즘"이라고 Baevski와 팀은 블로그 게시물에 썼습니다.

매우 일반적인 Transformer는 특정 작업을 수행하기 위해 특정 신경망에 적용할 수 있는 사전 훈련이라고 합니다. 예를 들어, 저자는 data2vec를 사전 훈련으로 사용하여 비전 작업을 위해 특별히 설계된 신경망인 "ViT", "vision Transformer"를 준비합니다. 작년에 도입된 Google의 Alexey Dosovitskiy 및 동료가 작성했습니다. 

메타-2022-data2vec-점수-on-vit-test.jpg

Meta는 유서 깊은 ImageNet 이미지 인식 대회에서 최고 점수를 받았습니다.


메타 2022

이미지 인식의 표준 ImageNet 테스트를 해결하기 위해 ViT에서 사용할 때, 그 결과는 84.1%의 정확도로 팩의 맨 위에 나타났습니다. 항보바오가 이끄는 ViT, 작년.

그리고 동일한 data2vec Transformer는 음성 인식을 위한 최첨단 결과를 출력하고 자연어 학습에서는 최고는 아닐지라도 경쟁력 있는 결과를 출력합니다.

실험 결과는 data2vec가 세 가지 방식 모두에서 효과적인 것으로 나타났으며, ImageNet-1K의 ViT-B 및 ViT-L에 대한 새로운 기술 상태를 설정하고, 음성 인식에 대한 음성 처리에서 최고의 이전 작업을 개선하고 RoBERTa와 동등한 성능을 발휘합니다. GLUE 자연어 이해 벤치마크에서 

요점은 이것이 이미지에 대한 신경망의 수정 없이 발생하고 있으며 음성 및 텍스트에 대해서도 동일하다는 것입니다. 대신, 모든 입력 유형은 동일한 네트워크에 들어가고 동일한 매우 일반적인 작업을 완료합니다. 이 작업은 Transformer 네트워크가 항상 사용하는 "마스킹된 예측"과 동일한 작업입니다. 

또한 : Google의 슈퍼모델: DeepMind Perceiver는 모든 것을 처리할 수 있는 AI 기계로 가는 한 단계입니다.

그러나 data2vec가 마스크된 예측을 수행하는 방식은 "자가 지도" 학습으로 알려진 접근 방식입니다. 자체 감독 설정에서 신경망은 여러 단계를 거쳐야 훈련되거나 개발됩니다. 

첫째, 네트워크는 데이터 입력의 결합 확률(이미지, 음성 또는 텍스트)의 표현을 구성합니다. 그런 다음 네트워크의 두 번째 버전에는 이러한 입력 데이터 항목 중 일부가 "마스킹 처리되어" 공개되지 않은 채로 남아 있습니다. 네트워크의 첫 번째 버전이 구성한 결합 확률을 재구성해야 하므로 기본적으로 공백을 채워 데이터를 더 잘 표현해야 합니다. 

메타-2022-data2vec-네트워크-아키텍처.jpg

data2vec 접근 방식의 개요입니다.


메타 2022

결합 확률의 전체 패턴이 있는 네트워크와 완료하려고 하는 불완전한 버전이 있는 두 네트워크를 현명하게 "Teacher" 및 "Student"라고 합니다. 학생 네트워크는 교사가 이미 달성한 것을 재구성하여 데이터 감각을 개발하려고 합니다.

여러분의 시간과 재능으로 Github에서 모델에 대한 코드를 참조하십시오..

신경망은 매우 다른 세 가지 유형의 데이터에 대해 교사와 학생을 어떻게 수행합니까? 핵심은 Google의 BERT 또는 OpenAI의 GPT-3과 같은 특정 데이터 유형에 대한 Transformer 버전의 경우와 같이 세 가지 데이터 경우 모두에서 결합 확률의 "목표"가 특정 출력 데이터 유형이 아니라는 것입니다. . 

오히려 data2vec는 내부 중간 어딘가에 있는 신경망은 최종 출력으로 생성되기 전에 데이터를 나타냅니다. 

저자는 "마스킹된 예측을 수행하는 것 외에 우리 방법의 주요 차이점 중 하나는 [… 특히 "data2vec가 입력 데이터의 잠재된 표현을 예측"하도록 "우리는 최상위 계층 대신 여러 신경망 계층 표현을 회귀합니다."

그들은 "우리는 일반적으로 각 블록의 마지막 잔여 연결 이전에 FFN[피드포워드 네트워크]의 출력을 대상으로 사용합니다."라고 덧붙입니다. 여기서 "블록"은 신경망 계층에 해당하는 Transformer입니다.

요점은 들어오는 모든 데이터 유형이 Teacher가 구성한 신경망 내부에서 무언가를 재구성하는 Student 네트워크에 대해 동일한 도전이 된다는 것입니다.

이 평균화는 모든 데이터를 처리하는 하나의 네트워크를 구축하는 다른 최근 접근 방식과 다릅니다. 예를 들어, 지난 여름 Google의 DeepMind 부서는 Transformer의 자체 다중 모드 버전인 "Perceiver"를 제공했습니다. Perceiver 신경망의 훈련은 ImageNet과 같은 레이블이 지정된 감독 작업에 대한 답변인 출력을 생성하는 보다 표준적인 프로세스입니다. 자체 감독 방식에서 data2vec는 해당 레이블을 사용하지 않고 데이터에 대한 네트워크의 내부 표현을 재구성하려고 합니다. 

더 야심 찬 노력이 날개에 있습니다. Google의 AI 노력 책임자인 Jeff Dean은 XNUMX월에 "Pathways"에 대해 놀렸습니다. Dean이 주장하는 것은 "차세대 AI 아키텍처” 다중 모드 데이터 처리용.

다중 양식에 대한 단일 신경망에 대한 data2vec의 매우 일반적인 접근 방식에는 여전히 다양한 데이터 유형에 대한 많은 정보가 있습니다. 이미지, 음성 및 텍스트는 모두 데이터를 사전 처리하여 준비됩니다. 그런 식으로 네트워크의 다중 모드 측면은 팀이 "작은 모드별 입력 인코더"라고 부르는 데이터에 대한 단서에 여전히 의존합니다.

또한 : 구글, 멀티태스킹 훈련 가능한 차세대 AI '패스웨이즈' 공개

"통합된 학습 체제에도 불구하고 우리는 여전히 양식별 특징 추출기와 마스킹 전략을 사용합니다."라고 그들은 설명합니다.

따라서 우리는 입력 데이터 유형에 대한 감각 없이 신경망이 훈련되는 세상에 아직 이르지 않았습니다. 우리는 또한 신경망이 모든 다른 데이터 유형을 결합하는 하나의 표현을 구성할 수 있는 시점에 있지 않으므로 신경망이 조합하여 학습합니다.

그 사실은 다음과 같은 교환을 통해 명확해진다. 그리고 저자. Baevski와 팀에게 연락하여 "표적 역할을 하는 잠재된 표현은 주어진 시간 단계에서 세 가지 양식 모두의 결합된 인코딩입니까, 아니면 일반적으로 양식 중 하나입니까?"

Baevski와 팀은 그것이 후자의 경우라고 응답하고 그들의 reply 길게 인용하는 것은 흥미롭습니다.

잠재 변수는 세 가지 양식에 대한 결합된 인코딩이 아닙니다. 우리는 각 양식에 대해 별도의 모델을 훈련하지만 모델이 학습하는 과정은 동일합니다. 이것은 모델이 다른 방식으로 훈련되는 방식에 큰 차이가 있기 이전부터 우리 프로젝트의 주요 혁신입니다. 신경 과학자들은 또한 인간이 소리와 시각 세계에 대해 비슷한 방식으로 학습한다고 믿습니다. 우리 프로젝트는 자기 지도 학습이 다른 방식에 대해서도 동일한 방식으로 작동할 수 있음을 보여줍니다.

data2vec의 양식별 제한 사항이 주어지면 신경망은 모든 것을 지배하는 하나의 네트워크 미래의 기술로 남아 있습니다.

출처