딥마인드의 '가토'는 평범한데 왜 지었을까?

deepmind-gato-슬래시-이미지-closer-in.png

DeepMind의 "Gato" 신경망은 블록을 쌓는 로봇 팔 제어, Atari 2600 게임 플레이, 이미지 캡션 작성 등 수많은 작업에서 탁월합니다.


Deepmind

세계는 딥 러닝 형태의 인공 지능에 의한 최신 혁신에 대한 헤드라인을 보는 데 익숙합니다. 그러나 구글 딥마인드 사업부의 최근 성과는 “여러 가지 일을 하는 하나의 AI 프로그램”으로 요약할 수 있다. 

딥마인드의 프로그램이라고 불리는 Gato는 이번주에 공개된 비디오 게임, 채팅, 작문 작성, 사진 캡션, 블록 쌓기 로봇 팔을 제어할 수 있는 소위 멀티모달 프로그램입니다. 여러 종류의 작업을 수행하기 위해 여러 종류의 데이터와 함께 작동할 수 있는 하나의 신경망입니다. 

수석 저자인 Scott Reed는 "하나의 무게 세트로 Gato는 대화, 캡션 이미지, 실제 로봇 팔로 블록 쌓기, Atari 게임 플레이에서 인간보다 뛰어난 성능, 시뮬레이션된 3D 환경에서 탐색, 지침 따르기 등을 수행할 수 있습니다."라고 썼습니다. 그리고 동료들은 "A Generalist Agent"라는 논문에서 Arxiv 사전 인쇄 서버에 게시됨

DeepMind 공동 창립자 Demis Hassabis는 팀을 응원했습니다. 트윗으로 외친다, “역대 우리 중 가장 종합대리인!! 팀의 환상적인 작업!” 

또한 : 새로운 실험: AI는 정말로 고양이나 개를 알고 있습니까?

유일한 캐치는 Gato가 실제로 여러 작업에서 그다지 훌륭하지 않다는 것입니다. 

한편으로 이 프로그램은 블록을 쌓는 로봇 소이어 팔을 제어할 때 전용 기계 학습 프로그램보다 더 잘 할 수 있습니다. 반면에 많은 경우에 매우 열악한 이미지에 대한 캡션을 생성합니다. 인간 대담자와의 표준 채팅 대화에서의 능력은 마찬가지로 평범하며 때로는 모순되고 무의미한 발화를 이끌어냅니다. 

그리고 Atari 2600 비디오 게임 플레이는 벤치마크에서 경쟁하도록 설계된 대부분의 전용 ML 프로그램보다 떨어집니다. 아케이드 학습 환경

어떤 것은 꽤 잘하고 다른 많은 것은 잘 하지 못하는 프로그램을 왜 만드시겠습니까? 저자에 따르면 선례와 기대. 

보다 일반적인 종류의 프로그램이 AI에서 최첨단이 되는 선례가 있으며, 향후 컴퓨팅 성능의 증가가 단점을 보완할 것이라는 기대가 있습니다. 

일반성은 AI에서 승리하는 경향이 있습니다. 저자는 AI 학자 Richard Sutton을 인용하여 "역사적으로 계산을 더 잘 활용하는 일반 모델은 결국 더 전문화된 도메인별 접근 방식을 추월하는 경향이 있었습니다."라고 말했습니다.

Sutton이 쓴 것처럼 자신의 블로그 게시물에서, “70년의 AI 연구에서 읽을 수 있는 가장 큰 교훈은 컴퓨팅을 활용하는 일반적인 방법이 궁극적으로 가장 효과적이며 큰 차이가 있다는 것입니다.”

Reed와 팀은 공식 논문에 다음과 같이 썼습니다. 그리고 이 일반 에이전트는 훨씬 더 많은 작업에서 성공하기 위해 약간의 추가 데이터로 적응할 수 있습니다.”

또한 : Meta의 AI 전문가 LeCun은 딥 러닝의 에너지 프론티어를 탐구합니다.

이 경우 모델은 실제로 매우 일반적입니다. 이것은 GPT-3를 비롯한 수많은 프로그램의 기반이 된 지배적인 관심 기반 모델인 Transformer의 버전입니다. 변환기는 문장의 단어와 같이 요소를 둘러싼 요소가 주어진 일부 요소의 확률을 모델링합니다. 

Gato의 경우 DeepMind 과학자들은 수많은 데이터 유형에 대해 동일한 조건부 확률 검색을 사용할 수 있습니다. 

Reed와 동료들은 Gato를 훈련시키는 작업을 설명합니다. 

Gato의 훈련 단계에서 다양한 작업과 양식의 데이터는 토큰의 평면 시퀀스로 직렬화되고 일괄 처리되며 대형 언어 모델과 유사한 변압기 신경망에 의해 처리됩니다. 손실은 마스킹되어 Gato가 작업 및 텍스트 대상만 예측하도록 합니다.

즉, Gato는 채팅의 단어든 블록 쌓기 운동의 이동 벡터든 토큰을 다르게 취급하지 않습니다. 다 똑같습니다. 

deepmind-how-gato-is-trained.png

가토 훈련 시나리오.


Reedet al. 2022년

Reed와 팀의 가설에는 결과적으로 점점 더 많은 컴퓨팅 성능이 승리할 것이라는 결론이 내포되어 있습니다. 현재 Gato는 블록 쌓기를 수행하는 Sawyer 로봇 팔의 응답 시간에 의해 제한됩니다. 1.18억 3천만 개의 네트워크 매개변수에서 Gato는 GPT-XNUMX와 같은 매우 큰 AI 모델보다 훨씬 작습니다. 딥 러닝 모델이 커짐에 따라 추론을 수행하면 실제 로봇의 비결정론적 세계에서 실패할 수 있는 대기 시간이 발생합니다. 

그러나 Reed와 동료들은 AI 하드웨어가 처리 속도가 빨라짐에 따라 그 한계를 넘어설 것으로 예상합니다.

"우리는 현재 Gato의 경우 약 1.2B 매개변수인 실제 로봇을 실시간으로 제어할 수 있는 모델 규모의 작동 지점에서 훈련에 집중합니다."라고 그들은 썼습니다. "하드웨어 및 모델 아키텍처가 개선됨에 따라 이 작동 지점은 실행 가능한 모델 크기를 자연스럽게 증가시켜 일반 모델을 스케일링 법칙 곡선 위로 더 높이 밀어냅니다."

따라서 Gato는 일반 모델을 점점 더 크게 만들어 컴퓨팅 규모가 기계 학습 개발의 주요 벡터가 되는 방법에 대한 모델입니다. 즉, 클수록 좋습니다. 

deepmind-gets-better-with-scale.png

Gato는 매개변수의 신경망 크기가 커질수록 좋아집니다.


Reedet al. 2022년

그리고 저자는 이에 대한 몇 가지 증거를 가지고 있습니다. 가토는 커질수록 좋아지는 것 같습니다. 매개변수 79만, 364억 1.18만 및 기본 모델 XNUMX억 XNUMX만에 따라 세 가지 크기의 모델에 대한 모든 벤치마크 작업의 평균 점수를 비교합니다. 저자는 "동일한 토큰 수에 대해 규모가 증가함에 따라 상당한 성능 향상이 있음을 알 수 있습니다."라고 썼습니다. 

흥미로운 미래 질문은 제너럴리스트인 프로그램이 다른 종류의 AI 프로그램보다 더 위험한지 여부입니다. 저자는 아직 잘 이해되지 않은 잠재적인 위험이 있다는 사실을 논의하는 데 많은 시간을 할애합니다.  

여러 작업을 처리하는 프로그램에 대한 아이디어는 평신도에게 일종의 인간 적응성을 암시하지만 이는 위험한 오해일 수 있습니다. "예를 들어 물리적 구현은 사용자가 에이전트를 의인화하여 오작동하는 시스템의 경우 잘못된 신뢰로 이어지거나 악의적인 행위자에 의해 악용될 수 있습니다."라고 Reed와 팀은 썼습니다. 

"또한 도메인 간 지식 이전이 ML 연구의 목표인 경우가 많지만 특정 행동(예: 아케이드 게임 격투)이 잘못된 컨텍스트로 이전되면 예상치 못한 바람직하지 않은 결과가 발생할 수 있습니다."

따라서 그들은 "지식 전달의 윤리 및 안전 고려 사항은 일반 시스템이 발전함에 따라 상당한 새로운 연구가 필요할 수 있습니다."라고 씁니다.

(흥미로운 여담으로, Gato 논문은 전직 Google AI 연구원인 Margaret Michell과 동료들이 고안한 모델 카드라고 하는 위험을 설명하기 위해 체계를 사용합니다. 모델 카드는 AI 프로그램이 무엇인지, 무엇을 하는지, 무엇을 하는지에 대한 간결한 요약을 제공합니다. Michell은 작년에 AI에 대한 윤리적 우려가 Google의 AI 리더십을 위반한 이전 동료인 Timnit Gebru을 지원한 이유로 Google에서 쫓겨났다고 썼습니다.)

Gato는 일반화 경향이 결코 독특하지 않습니다. 그것은 일반화에 대한 광범위한 추세의 일부이며 마력 양동이를 사용하는 더 큰 모델입니다. 세계는 지난 여름 텍스트 트랜스포머 작업을 이미지, 사운드 및 LiDAR 공간 좌표와 결합한 Google의 "Perceiver" 신경망을 통해 Google이 이 방향으로 기울이는 것을 처음으로 맛보았습니다.

또한 : Google의 슈퍼모델: DeepMind Perceiver는 모든 것을 처리할 수 있는 AI 기계로 가는 한 단계입니다.

동료 중에는 Pathways 언어 모델인 PaLM이 있습니다. 올해 Google 과학자들이 소개한, 수천 개의 칩을 조정하기 위한 새로운 기술을 사용하는 540억 개의 매개변수 모델, 경로로 알려진, 또한 Google에서 발명했습니다. "data2vec"라고 하는 Meta에서 XNUMX월에 발표한 신경망은 이미지 데이터, 음성 오디오 파형 및 텍스트 언어 표현을 모두 하나로 통합하기 위해 Transformers를 사용합니다. 

Gato의 새로운 점은 비로봇 작업에 사용되는 AI를 로봇 영역으로 밀어 넣으려는 의도인 것 같습니다.

Gato의 제작자는 Pathways의 성과 및 기타 일반적인 접근 방식에 주목하여 모든 종류의 작업으로 실제 세계에서 작동할 수 있는 AI의 궁극적인 성과를 확인합니다. 

"미래의 작업은 이러한 텍스트 기능을 실제 세계, 다양한 환경 및 실시예에서 실시간으로 작동할 수 있는 하나의 완전한 범용 에이전트로 통합하는 방법을 고려해야 합니다." 

그렇다면 Gato를 AI의 가장 어려운 문제인 로봇 공학을 해결하기 위한 중요한 단계로 간주할 수 있습니다. 



출처