Meta의 AI 전문가 LeCun: 오늘날 대부분의 AI 접근 방식은 결코 진정한 지능으로 이어지지 않습니다.

yann-lecun-2022월-1-XNUMX

Meta의 수석 AI 과학자인 Yann LeCun은 “AI 시스템은 추론할 수 있어야 한다고 생각합니다. Transformers와 같은 오늘날의 인기 있는 AI 접근 방식으로는 그 분야에서 자신의 선구적인 작업을 기반으로 하는 접근 방식만으로는 충분하지 않습니다. "한 걸음 뒤로 물러나서 말해야 합니다. 좋아요, 우리는 이 사다리를 만들었지만 달에 가고 싶습니다. 이 사다리가 우리를 거기까지 데려다 줄 방법은 없습니다."라고 LeCun은 말합니다.

얀 르쿤, 수석 AI 과학자 Facebook, Instagram 및 WhatsApp의 소유자인 Meta Properties의 는 자신의 분야에서 많은 사람들을 틱틱 거리게 할 것입니다. 

XNUMX월에 올린 씽크 피스와 함께 오픈 리뷰 서버에서, LeCun은 기계에서 인간 수준의 지능을 달성할 가능성이 있다고 생각하는 접근 방식에 대한 광범위한 개요를 제공했습니다. 

백서에 명시되어 있지 않더라도 오늘날 AI의 대부분의 대규모 프로젝트는 인간 수준의 목표에 결코 도달할 수 없을 것이라는 주장이 내포되어 있습니다.

이번 달 토론에서 Zoom을 통해 LeCun은 현재 딥 러닝 분야에서 가장 성공적인 연구 방법 중 많은 부분을 매우 회의적으로 보고 있음을 분명히 했습니다.

튜링상 수상자는 “필요하지만 충분하지 않다고 생각한다”고 말했다. 동료의 추구. 

여기에는 Transformer 기반 GPT-3 및 해당 유사 모델과 같은 대규모 언어 모델이 포함됩니다. LeCun이 정의하듯이, Transformer 신봉자들은 “우리는 모든 것을 토큰화하고이산 예측을 하기 위한 모델, 그리고 어떻게든 AI가 여기서 나올 것입니다."

그는 "그것이 미래 지능 시스템의 한 구성요소가 될 수 있다는 의미에서 틀린 것은 아니지만 필수적인 부분이 빠져 있다고 생각합니다."라고 말했습니다.

또한 : Meta의 AI 전문가 LeCun은 딥 러닝의 에너지 프론티어를 탐구합니다.

딥 러닝 프로그램에서 믿을 수 없을 정도로 생산적인 실용적인 기술인 컨볼루션 신경망의 사용을 완벽하게 한 학자가 효과가 있는 것처럼 보이는 것에 대한 놀라운 비판입니다. 

LeCun은 이 분야의 매우 성공적인 다른 많은 영역에서 결함과 한계를 보고 있습니다. 

강화 학습도 결코 충분하지 않을 것이라고 그는 주장합니다. Chess, Shogi 및 Go를 마스터한 AlphaZero 프로그램을 개발한 DeepMind의 David Silver와 같은 연구원들은 "매우 액션 기반"인 프로그램에 초점을 맞추고 있다고 LeCun은 말합니다. 실제로 행동을 취함으로써 그것을 하고, 우리는 관찰함으로써 그것을 한다.” 

그럼에도 불구하고 62세의 Lecun은 수십 년 간의 성취의 관점에서 많은 사람들이 서두르고 있는 막다른 골목이라고 생각하는 것에 맞서고 자신이 생각하는 방향으로 자신의 분야를 동감시키려는 시급함을 표현합니다. 

"인간 수준의 AI를 향해 나아가기 위해 우리가 무엇을 해야 하는지에 대한 많은 주장을 봅니다."라고 그는 말합니다. "그리고 잘못된 방향으로 생각되는 아이디어가 있습니다."

"우리는 우리의 지능형 기계가 고양이만큼 상식을 갖고 있는 수준이 아닙니다."라고 Lecun은 말합니다. “그럼 거기서 시작하지 않겠습니까?” 

그는 비디오의 다음 프레임을 예측하는 것과 같은 일에서 생성 네트워크를 사용하는 것에 대한 이전의 믿음을 버렸습니다. 그는 “완전히 실패했다. 

LeCun은 "확률 이론이 기계 학습을 설명하는 데 사용할 수 있는 유일한 프레임워크라고 생각하는" "종교적 확률론자"라고 부르는 사람들을 질책합니다. 

순전히 통계적 접근은 다루기 어렵다고 그는 말합니다. “세계 모델이 완전히 확률적이라고 요구하는 것은 너무 많습니다. 우리는 그것을 하는 방법을 모릅니다.”

학계뿐만 아니라 산업용 AI는 깊이 재고할 필요가 있다고 LeCun은 주장합니다. 웨이브(Wayve)와 같은 스타트업인 자율주행 자동차 군중은 "대형 신경망에 데이터를 던지면 거의 모든 것을 배울 수 있다"고 생각함으로써 "조금 너무 낙관적"이었다고 그는 말합니다.

"알다시피, 상식이 없는 레벨 XNUMX의 자율주행 자동차가 있을 가능성은 충분히 있다고 생각합니다."라고 그는 "ADAS"를 언급하며 말합니다. 고급 운전자 지원 시스템 "하지만 당신은 그것을 완전히 엔지니어링해야 할 것입니다."

그는 이렇게 과도하게 설계된 자율주행 기술은 딥 러닝으로 인해 쓸모없게 된 모든 컴퓨터 비전 프로그램만큼 삐걱거리고 부서지기 쉬운 것이 될 것이라고 믿습니다.

"궁극적으로, 세상이 작동하는 방식을 더 잘 이해하는 시스템을 포함하는 더 만족스럽고 아마도 더 나은 솔루션이 있을 것입니다."

그 과정에서 LeCun은 NYU 교수 Gary Marcus와 같은 그의 가장 큰 비평가들에 대해 시들고 있는 견해를 제시합니다. "그는 AI에 공헌한 적이 없습니다.", 그리고 Dalle Molle 인공 지능 연구 연구소의 공동 소장인 Jürgen Schmidhuber는 "그것은 깃발 심기가 매우 쉽습니다.”

비판을 넘어 LeCun의 더 중요한 점은 특정 근본적인 문제가 모든 AI, 특히 정보를 측정하는 방법이 직면하고 있다는 것입니다.

"한 걸음 뒤로 물러나서 말해야 합니다. 좋아요, 우리는 이 사다리를 만들었습니다. 하지만 우리는 달에 가고 싶습니다. 그리고 이 사다리가 우리를 거기에 데려다 줄 방법은 없습니다." 기본 개념의. "기본적으로 여기에서 내가 쓰고 있는 것은 로켓을 만들어야 한다는 것입니다. 로켓을 만드는 방법에 대한 자세한 내용은 말할 수 없지만 기본 원칙은 다음과 같습니다."

논문과 인터뷰에서 LeCun의 생각은 올해 초 LeCun의 인터뷰를 읽으면 더 잘 이해할 수 있습니다. 그는 에너지 기반 자기 지도 학습을 딥 러닝을 위한 경로로 주장합니다. 이러한 반성은 그가 결승선에 도달하지 못할 것이라고 주장하는 것들에 대한 대안으로 그가 만들고자 하는 것에 대한 핵심 접근 방식을 알려줍니다. 

다음은 인터뷰 내용을 가볍게 편집한 것입니다.

지디넷: 우리 채팅의 주제는 "자율적인 기계 지능을 향한 길"이라는 논문입니다. 그 중 버전 0.9.2가 현재 버전이죠?

얀 르쿤: 네, 저는 이것을 일종의 작업 문서라고 생각합니다. 그래서 Open Review에 게시하고 사람들이 의견과 제안, 추가 참조를 할 때까지 기다렸다가 수정된 버전을 생성할 것입니다. 

지디넷: Juergen Schmidhuber가 이미 Open Review에 몇 가지 의견을 추가했음을 알 수 있습니다.

YL: 예, 그는 항상 그렇습니다. 나는 내 논문에서 그의 논문 중 하나를 인용합니다. 그가 소셜 네트워크에 대해 주장한 주장은 그가 다른 경우와 마찬가지로 1991년에 기본적으로 이 모든 것을 발명했다는 것은 사실이 아니라고 생각합니다. 하기가 아주 쉽단 말이에요깃발을 꽂고, 어떤 실험도, 이론도 없이 아이디어를 쓰려면 이런 식으로 할 수 있다고 제안합니다. 하지만, 알다시피, 아이디어를 가지고 있는 것, 그리고 나서 그것을 장난감 문제에 적용하게 하는 것, 그리고 나서 그것을 실제 문제에 적용하는 것, 그리고 나서 그것이 작동하는 이유를 보여주는 이론을 수행하는 것, 그런 다음 배포합니다. 전체 사슬이 있고 과학적 신용에 대한 그의 생각은 바로, 일종의, 알다시피, 모든 신용을 받아야 한다는 생각을 가진 최초의 사람이라는 것입니다. 그리고 그건 말도 안돼. 

지디넷: 소셜 미디어에서 듣는 모든 것을 믿지 마십시오. 

YL: 내 말은, 그가 내가 인용해야 한다고 말하는 주요 논문에는 내가 그 논문에서 이야기하는 주요 아이디어가 전혀 없습니다. 그는 GAN과 다른 것들에 대해서도 이 작업을 수행했지만 사실로 밝혀지지 않았습니다. 깃발을 꽂는 것은 쉽지만 기여하는 것은 훨씬 어렵습니다. 그리고 그건 그렇고, 이 특정 논문에서 나는 이것이 일반적인 의미의 과학 논문이 아니라고 명시적으로 말했습니다. 이것이 어디로 가야 하는지에 대한 입장 문서에 가깝습니다. 그리고 새로운 아이디어가 몇 가지 있지만 대부분은 그렇지 않습니다. 나는 본질적으로 내가 그 논문에 쓴 대부분의 내용에 대해 우선권을 주장하지 않습니다.

yann-lecun-2022월-2-XNUMX

강화 학습도 결코 충분하지 않을 것이라고 LeCun은 주장합니다. LeCun은 Chess, Shogi 및 Go를 마스터한 AlphaZero 프로그램을 개발한 DeepMind의 David Silver와 같은 연구원은 "매우 행동 기반"이라고 말합니다. 행동, 우리는 관찰함으로써 그것을 한다.” 

지디넷: 그리고 그것이 시작하기에 좋은 곳일 것입니다. 왜 지금 이 길을 추구했는지 궁금하기 때문입니다. 무슨 생각을 하게 되었나요? 왜 이것을 쓰고 싶었습니까?

YL: 글쎄요, 그래서 저는 인간 수준이나 동물 수준의 지능이나 학습과 능력을 향한 길에 대해 아주 오랫동안 이것에 대해 생각해 왔습니다. 그리고 제 강연에서 저는 감독 학습과 강화 학습 모두 우리가 동물과 인간에서 관찰하는 종류의 학습을 모방하기에 불충분하다는 이 모든 것에 대해 꽤 목소리를 냈습니다. 저는 이 일을 XNUMX~XNUMX년 동안 해왔습니다. 그래서 최근이 아닙니다. 저는 몇 년 전에 NeurIPS에서 기조연설을 한 적이 있습니다. 여기서 저는 본질적으로 그 점을 지적했고 다양한 대화에는 녹음이 있었습니다. 자, 왜 지금 논문을 작성합니까? [Google Brain 연구원] Geoff Hinton이 비슷한 일을 했다는 요점에 도달했습니다. 내 말은, 확실히 나보다 그를 더 많이, 우리는 시간이 촉박하다는 것을 알고 있습니다. 우리는 젊지 않습니다.

지디넷: XNUMX은 새로운 XNUMX입니다. 

YL: 그것은 사실이지만 요점은 우리가 인간 수준의 AI를 향해 나아가기 위해 무엇을 해야 하는지에 대한 주장이 많다는 것입니다. 그리고 제가 생각하는 방향이 잘못된 아이디어가 있습니다. 따라서 한 가지 아이디어는 오, 신경망 위에 상징적 추론을 추가해야 한다는 것입니다. 그리고 나는 이것을 하는 방법을 모른다. 따라서 아마도 내가 이 논문에서 설명한 것은 명백한 기호 조작 없이 동일한 작업을 수행하는 하나의 접근 방식일 수 있습니다. 이것은 세계의 전통적으로 Gary Marcuses의 종류입니다. Gary Marcus는 AI 사람이 아니라 심리학자입니다. 그는 AI에 기여한 적이 없습니다. 그는 실험 심리학에서 정말 좋은 일을 해냈지만 AI에 대한 동료 평가 논문을 쓴 적이 없습니다. 그래서, 그 사람들이 있습니다. 

세계의 [DeepMind 원리 연구 과학자] David Silvers가 말합니다. 보상은 충분합니다. 기본적으로 강화 학습에 관한 것입니다. 우리는 그것을 좀 더 효율적으로 만들 필요가 있습니다. 알겠죠? 그리고 저는 그것들이 틀리지 않다고 생각하지만 강화 학습을 더 효율적으로 만드는 데 필요한 단계는 기본적으로 강화 학습을 케이크 위의 체리처럼 분류하는 것입니다. 그리고 주요 누락 부분은 주로 행동 없이 관찰함으로써 세상이 어떻게 작동하는지 배우는 것입니다. 강화 학습은 매우 행동 기반이며, 행동을 취하고 결과를 보고 세상에 대해 배우게 됩니다.

지디넷: 그리고 보상 중심적입니다.

YL: 보상 중심적이며 행동 중심적이기도 합니다. 따라서 세상에 대해 무언가를 배우려면 세상에서 행동해야 합니다. 자기 지도 학습에 관한 논문에서 제가 주장하는 주된 주장은 우리가 하는 대부분의 학습은 실제로 행동을 취함으로써 하는 것이 아니라 관찰함으로써 하는 것입니다. 강화 학습을 하는 사람들, 특히 많은 심리학자들과 인지 과학자들 모두에게 이것은 매우 이례적인 일입니다. 아시다시피 행동은 — 행동이 필수적이지 않다고 말하는 것이 아닙니다. is 필수적인. 하지만 우리가 배우는 대부분은 세계의 구조에 관한 것이며, 물론 상호 작용, 행동, 놀이 등을 포함하지만 많은 부분이 관찰에 관한 것입니다.

지디넷: 당신은 또한 동시에 언어 제일의 사람들인 Transformer 사람들을 체크할 수 있을 것입니다. 먼저 언어 없이 어떻게 이것을 구축할 수 있습니까? 당신은 많은 사람들을 체크할 수 있습니다. 

YL: 네, 익숙합니다. 그래서, 네, 언어를 우선시하는 사람들이 있습니다. 아시다시피 지능은 언어에 관한 것이고 지능의 기초는 언어입니다. ㅋ, ㅋ, ㅋ. 그러나 그것은 일종의 동물 지능을 무시하는 것입니다. 알다시피, 우리는 우리의 지능적인 기계가 고양이만큼 상식을 가지고 있는 수준이 아닙니다. 그럼 거기서 시작하지 않겠습니까? 고양이가 주변 세계를 이해하고, 꽤 똑똑한 일을 하고, 그런 계획을 세우고, 개를 더 잘할 수 있게 하는 것은 무엇입니까? 

그러면 '아, 지능은 사회적인 것'이라고 말하는 사람들이 다 있죠? 우리는 서로 이야기하고 정보를 교환하기 때문에 똑똑합니다. 문어나 오랑우탄처럼 아주 똑똑하고 부모를 만나지 못하는 온갖 종류의 비사회적 종이 있습니다.내 말은, 그들은 [오랑우탄] 확실히 그들의 어머니에게 교육을 받았지만 사회적 동물이 아닙니다. 

그러나 내가 체크할 수 있는 다른 범주의 사람들은 스케일링이면 충분하다고 말하는 사람들입니다. 그래서 기본적으로 우리는 거대한 트랜스포머를 사용합니다. 알다시피 비디오, 텍스트, ㅋ, ㅋ, ㅋ이 포함된 다중 모드 데이터에 대해 교육합니다. 우리는 일종의 석화모든 것을 토큰화한 다음 거대 훈련이산 예측을 하는 모델은 기본적으로 어떻게든 AI가 여기서 나올 것입니다. 미래의 지능형 시스템의 구성 요소가 될 수 있다는 점에서 그것들은 틀리지 않습니다. 그러나 나는 그것이 필수적인 부분을 놓치고 있다고 생각합니다. 

이 문서에서 체크 표시할 또 다른 범주의 사람들이 있습니다. 그리고 그것은 확률론자들, 종교적 확률론자들입니다. 그래서 확률 이론이 기계 학습을 설명하는 데 사용할 수 있는 유일한 프레임워크라고 생각하는 사람들입니다. 그리고 제가 이 작품에서 설명하려고 했듯이, 세계 모델이 완전히 확률적이라고 요구하는 것은 기본적으로 너무 많습니다. 우리는 그것을 하는 방법을 모릅니다. 계산의 난해함이 있습니다. 그래서 나는 이 모든 아이디어를 포기할 것을 제안합니다. 그리고 물론 이것은 기계 학습뿐만 아니라 기계 학습의 일반적인 형식이라고 주장하는 모든 통계의 거대한 기둥입니다. 

다른 것은 - 

지디넷: 당신은 롤에 ...

YL: — 생성 모델이라고 하는 것입니다. 그래서 예측하는 법을 배울 수 있고 예측을 통해 세상에 대해 많은 것을 배울 수 있다는 생각입니다. 그래서 저는 여러분에게 비디오 한 장을 주고 비디오에서 다음에 일어날 일을 예측하도록 시스템에 요청합니다. 그리고 모든 세부 사항으로 실제 비디오 프레임을 예측하도록 요청할 수 있습니다. 그러나 내가 이 논문에서 주장하는 것은 그것이 실제로 너무 많이 요구하고 너무 복잡하다는 것입니다. 그리고 이것은 내가 생각을 바꾼 것입니다. 약 XNUMX년 전까지만 해도 저는 잠재 변수 생성 모델이라고 부르는 것을 옹호했습니다. 예측이 불가능할 경우 잠재적 변수의 도움으로 다음에 일어날 일이나 누락된 정보를 예측하는 모델입니다. 결정적. 그리고 저는 이것을 포기했습니다. 그리고 내가 이것을 포기한 이유는 사람들이 BERT에서 사용되는 유형의 일종의 예측 또는 재구성 기반 교육을 적용하려고 시도한 경험적 결과를 기반으로 합니다.그리고 큰 언어 모델에서, 그들은 이것을 이미지에 적용하려고 시도했지만 완전히 실패했습니다. 그리고 그것이 완전한 실패인 이유는 다시 말하지만 사전에 있는 모든 단어에 대한 확률 분포를 계산할 수 있기 때문에 단어와 같은 개별 토큰을 비교적 쉽게 예측할 수 있는 확률 모델의 제약 때문입니다. 그건 쉽습니다. 그러나 시스템에 가능한 모든 비디오 프레임에 대한 확률 분포를 생성하도록 요청하면 매개변수화하는 방법을 모르거나 매개변수화하는 방법은 알지만 정규화하는 방법을 모릅니다. 해결 방법을 모르는 난해한 수학적 문제에 부딪힙니다. 

yann-lecun-2022월-3-XNUMX

"우리는 우리의 지능형 기계가 고양이만큼 상식을 갖고 있는 수준이 아닙니다."라고 Lecun은 말합니다. “그럼 거기서 시작하지 않겠습니까? 고양이가 주변 세계를 이해하고, 꽤 똑똑한 일을 하고, 그런 계획을 세우고, 개를 더 잘할 수 있게 하는 것은 무엇입니까?”

그래서 제가 확률 이론이나 그런 것들에 대한 틀, 약한 것, 에너지 기반 모델을 포기하자고 말하는 이유입니다. 저는 수십 년 동안 이것을 옹호해 왔으며 이것은 최근의 일이 아닙니다. 그러나 동시에 세상에는 이해할 수 없고 예측할 수 없는 일들이 많기 때문에 생성 모델에 대한 아이디어를 포기합니다. 엔지니어라면 소음이라고 합니다. 당신이 물리학자라면, 당신은 그것을 열이라고 부릅니다. 그리고 당신이 머신 러닝을 하는 사람이라면, 알다시피, 관련 없는 세부 사항이나 무엇이든 호출합니다.

그래서 제가 논문에서 사용했거나 강연에서 사용한 예는 자율주행차에 도움이 될 세계 예측 시스템을 원한다는 것입니다. 맞죠? 다른 모든 자동차의 궤적, 움직일 수 있는 다른 물체, 보행자, 자전거, 축구공을 쫓아가는 아이 등의 상황을 미리 예측할 수 있기를 원합니다. 그래서, 세상에 관한 모든 종류의 것들. 그러나 길을 접경하는 곳에는 나무가 있을지도 모르고, 오늘은 바람이 분다. 그래서 나뭇잎은 바람에 흔들리고, 나무 뒤에는 연못이 있고, 연못에는 잔물결이 있다. 그리고 그것들은 본질적으로 대체로 예측할 수 없는 현상입니다. 그리고 모델이 예측하기 어렵고 관련성이 없는 것을 예측하는 데 상당한 양의 리소스를 소비하는 것을 원하지 않습니다. 그래서 제가 공동 임베딩 아키텍처를 옹호하는 이유는 변수를 모델링하려고 할 때 예측하려고 하지 않고 모델링하려고 하지만 인코더를 통해 실행되는 것입니다. 그 인코더는 관련이 없거나 너무 복잡한 입력에 대한 많은 세부 정보를 제거할 수 있습니다. 기본적으로 노이즈와 동일합니다.

지디넷: 우리는 올해 초 에너지 기반 모델인 JEPA와 H-JEPA에 대해 논의했습니다. 내 감각, 내가 당신을 올바르게 이해한다면, 당신은 X와 Y 임베딩에 대한 이 두 가지 예측이 가장 유사한 낮은 에너지 지점을 찾고 있다는 것입니다. 장면의 배경은 이러한 임베딩을 서로 가깝게 만드는 필수 포인트가 아닐 수 있습니다.

YL: 오른쪽. 따라서 JEPA 아키텍처는 실제로 입력에 대해 최대한의 정보를 제공하지만 어느 정도의 정확도 또는 신뢰성으로 서로 예측 가능한 표현을 추출하는 것 사이에서 절충안, 즉 절충안을 찾으려고 합니다. 절충안을 찾습니다. 따라서 나뭇잎의 움직임에 대한 세부 정보를 포함하여 엄청난 양의 리소스를 소비한 다음 지금부터 몇 초 후에 나뭇잎이 어떻게 움직이는지를 결정하는 역학을 모델링하거나 바닥에 떨어뜨리는 옵션 중에서 선택할 수 있는 경우 기본적으로 모든 세부 사항을 제거하는 예측자를 통해 Y 변수를 실행하면 모델링하고 캡처하기가 너무 어렵기 때문에 아마도 제거할 것입니다.

지디넷: 한 가지 놀라운 사실은 당신이 "그것은 효과가 있습니다. 우리는 그것을 설명하기 위해 나중에 열역학 이론을 알아낼 것입니다." 여기에서 "우리가 이 문제를 어떻게 해결해야 할지 모르겠지만 생각해 볼 몇 가지 아이디어를 제시하고 싶습니다."라는 접근 방식을 취했으며 어쩌면 이론이나 가설에 접근할 수도 있습니다. 최소. 차가 상식이 있건 없건 보행자를 볼 수 있는 차를 만드는 데 돈을 많이 쓰는 사람이 많다는 게 흥미롭다. 그리고 저는 그 사람들 중 일부가 눈에 띄지 않고 이렇게 말할 것이라고 상상합니다. "괜찮아, 상식이 통하지 않아도 상관없어. 계속해서 개선하고 시뮬레이션을 계속 확장할 것입니다.” 

이제 한 걸음 물러서서 우리가 하고 있는 일에 대해 생각해 봅시다. 그리고 업계에서는 크랭크가 실제로 작동하기 때문에 확장, 확장, 확장, 확장을 할 것이라고 말합니다. 내 말은, GPU의 반도체 크랭크가 실제로 작동한다는 것입니다.

YL: XNUMX가지 질문이 있습니다. 그래서 스케일링이 필요하다는 것입니다. 저는 우리가 규모를 키워야 한다는 사실을 비판하는 것이 아닙니다. 규모를 키워야 합니다. 그 신경망은 커질수록 좋아집니다. 규모를 확장해야 한다는 데는 의문의 여지가 없습니다. 그리고 어느 정도 상식이 있는 사람들은 클 것입니다. 방법이 없다고 생각합니다. 따라서 스케일링은 훌륭하고 필요하지만 충분하지 않습니다. 그것이 내가 말하는 요점이다. 단순히 스케일링이 아닙니다. 그것이 첫 번째 요점입니다. 

두 번째 요점은 이론이 먼저인지, 그와 같은 것입니다. 그래서 먼저 생각하는 개념이 있다고 생각합니다. 한발 물러서서 말해야 합니다. 좋아요, 우리는 이 사다리를 만들었지만 우리는 달에 가고 싶고 이 사다리가 우리를 거기까지 데려다 줄 방법은 없습니다. 그래서 기본적으로 제가 여기서 쓰고 있는 것은 로켓을 만들어야 한다는 것입니다. 로켓을 만드는 방법에 대해 자세히 설명할 수는 없지만 기본 원칙은 다음과 같습니다. 그리고 나는 그것에 대한 이론을 쓰는 것이 아닙니다. 그러나 그것은 로켓이 될 것입니다. 알겠죠? 또는 우주 엘리베이터 또는 무엇이든. 우리는 모든 기술의 모든 세부 사항을 가지고 있지 않을 수 있습니다. 우리는 JEPA에서 작업한 것처럼 이러한 작업 중 일부를 작동시키려고 노력하고 있습니다. 조인트 임베딩은 이미지 인식에 정말 잘 작동하지만 세계 모델을 훈련하는 데 사용하기에는 어려움이 있습니다. 우리는 그것을 위해 노력하고 있습니다, 우리는 우리가 그것을 작동시키기를 바랍니다 soon하지만 그곳에서 우리가 극복할 수 없는 장애물을 만날 수도 있습니다. 

그런 다음 이 문서에는 단순한 형태의 추론으로 생각할 수 있는 시스템이 계획할 수 있도록 하려면 잠재적인 변수가 있어야 하는 추론에 대한 핵심 아이디어가 있습니다. 다른 말로 하면, 어떤 신경망에 의해 계산되지 않고 존재하는 것, 어떤 목적 함수, 어떤 비용 함수를 최소화하기 위해 값이 추론되는 것입니다. 그런 다음 이 비용 함수를 사용하여 시스템의 동작을 구동할 수 있습니다. 그리고 이것은 전혀 새로운 아이디어가 아닙니다. 그렇죠? 이것은 50년대 후반, 60년대 초반으로 거슬러 올라가는 매우 고전적인 최적의 컨트롤입니다. 따라서 여기서 참신함을 주장하지 않습니다. 그러나 내가 말하려는 것은 이러한 유형의 추론은 계획할 수 있는 지능 시스템의 일부여야 하며 그 행동은 고정된 행동에 의해 지정되거나 제어될 수 있다는 것입니다. 모방 성향이 아니라 행동을 유도합니다. 학습을 유도하는 것은 아니지만 행동을 유도합니다. 알다시피, 우리는 뇌에 ​​그것을 가지고 있으며 모든 동물은 사물에 대한 내재적 비용 또는 내재적 동기를 가지고 있습니다. 그것은 XNUMX개월 된 아기들이 일어서고 싶게 만듭니다. 당신이 일어설 때 행복해지는 비용은 비용 함수의 그 용어가 고정되어 있습니다. 그러나 당신이 일어서는 방법은 배우는 것이 아닙니다.

yann-lecun-2022월-4-XNUMX

GPT-3 다양성의 Transformer 기반 프로그램과 같은 거대한 언어 모델의 LeCun은 "확장은 좋습니다. 필요하지만 충분하지 않습니다."라고 말합니다. Transformer 신봉자들은 “우리는 모든 것을 토큰화하고이산 예측을 하기 위해 모델을 사용하고 어떻게든 AI가 여기서 나올 것입니다. 하지만 필수적인 부분이 빠져 있다고 생각합니다.”

지디넷: 그 요점을 마무리하기 위해 딥 러닝 커뮤니티의 대부분은 상식이 통하지 않는 일을 진행하는 것이 좋아 보입니다. 당신은 여기에서 어느 시점에서 그것이 교착 상태가 된다는 꽤 분명한 주장을 하고 있는 것 같습니다. 어떤 사람들은 상식적인 자율주행차가 필요하지 않다고 말합니다. 스케일링이 알아서 해주기 때문입니다. 그 길을 계속 가면 안 된다고 말하는 것 같죠?

YL: 상식이 통하지 않는 레벨 XNUMX의 자율주행 자동차가 있다는 것은 전적으로 가능하다고 생각합니다. 그러나 이 접근 방식의 문제는 일시적일 것입니다. 왜냐하면 여러분은 지옥을 설계해야 하기 때문입니다. 그래서, 전 세계를 지도로 만들고, 모든 종류의 특정 코너 케이스 동작을 연결하고, 도로에서 만날 수 있는 모든 종류의 이상한 상황이 있을 만큼 충분한 데이터를 수집합니다. 그리고 내 생각에 충분한 투자와 시간만 있다면 지옥을 설계할 수 있을 것입니다. 그러나 궁극적으로, 세상이 작동하는 방식을 더 잘 이해하고 우리가 상식이라고 부르는 수준의 시스템을 포함하는 더 만족스럽고 아마도 더 나은 솔루션이 있을 것입니다. 인간 수준의 상식일 필요는 없지만, 누군가가 운전하는 것을 지켜보는 것이 아니라 시스템이 습득할 수 있는 일종의 지식, 그저 돌아다니는 물건을 보고 세계에 대해 많이 이해하고, 배경의 기반을 구축하는 것 세상이 어떻게 돌아가는지에 대한 지식과 운전을 배울 수 있습니다. 

이에 대한 역사적 예를 들어보겠습니다. 고전적인 컴퓨터 비전은 고정 배선된 많은 엔지니어링 모듈을 기반으로 했으며 그 위에 일종의 얇은 학습 레이어가 있었습니다. 따라서 2012년 AlexNet에 의해 패배한 것은 기본적으로 SIFT[Scale-Invariant Feature Transform(SIFT), 이미지에서 두드러진 개체를 식별하는 고전적인 비전 기술]와 같은 일종의 손으로 만든 기능 추출을 하는 첫 번째 단계였습니다. 및 HOG [Histogram of Oriented Gradients, 또 다른 고전적인 기법] 및 기타 다양한 것들. 그리고 두 번째 레이어는 기능 커널과 무엇이든, 일종의 비지도 방법을 기반으로 하는 일종의 중간 수준 기능입니다. 그리고 그 위에 서포트 벡터 머신이나 비교적 간단한 분류기를 넣습니다. 그리고 그것은 2000년대 중반부터 2012년까지의 일종의 표준 파이프라인이었습니다. 그리고 그것은 엔드 투 엔드 컨볼루션 네트로 대체되었습니다. 여기에서 어떤 것도 연결하지 않고 많은 데이터만 가지고 있습니다. 그리고 당신은 처음부터 끝까지 훈련합니다. 이것은 제가 오랫동안 옹호해 왔던 접근 방식입니다. 그러나 그때까지는 큰 문제에 대해서는 실용적이지 않았습니다. 

음성 인식에도 비슷한 이야기가 있었는데, 데이터를 사전 처리하는 방법에 대한 엄청난 양의 세부 엔지니어링이 있었고, 대규모 켑스트럼[신호 처리를 위한 고속 푸리에 변환의 역]을 추출한 다음, 가우스 혼합이 포함된 일종의 사전 설정된 아키텍처가 있는 숨겨진 마르코프 모델이 있습니다. 따라서 프런트 엔드를 손으로 만든 다음 약간의 감독되지 않은 훈련된 중간 계층을 만든 다음 맨 위에 감독되는 계층을 만든 비전과 약간 동일한 아키텍처입니다. 그리고 이제는 기본적으로 종단 간 신경망에 의해 지워졌습니다. 그래서 저는 모든 것을 배우려고 노력하는 것과 비슷한 것을 보고 있습니다. 하지만 올바른 사전, 올바른 아키텍처, 올바른 구조가 있어야 합니다.

yann-lecun-2022월-5-XNUMX

웨이모(Waymo)와 웨이브(Wayve)와 같은 신생 기업인 자율주행 자동차 군중은 "데이터를 던지면 거의 모든 것을 배울 수 있다"고 생각함으로써 "약간 너무 낙관적"이었다고 그는 말합니다. ADAS의 레벨 5에 있는 자율주행 자동차는 가능합니다. "그러나 당신은 그것을 완전히 엔지니어링해야 할 것입니다." 그리고 초기 컴퓨터 비전 모델처럼 "취약해질" 것입니다.

지디넷: 당신이 말하는 것은, 어떤 사람들은 예를 들어 산업에서 적용 가능성을 위해 현재 딥 러닝으로 작동하지 않는 것을 엔지니어링하려고 시도할 것이고 그들은 컴퓨터 비전에서 쓸모없게 된 것을 만들기 시작할 것입니다.

YL: 오른쪽. 자율 주행을 연구하는 사람들이 지난 몇 년 동안 너무 낙관적이었던 이유 중 일부는 컨볼루션 네트 및 트랜스포머와 같은 일종의 일반적인 것들이 있어서 데이터를 던질 수 있기 때문입니다. , 그리고 거의 모든 것을 배울 수 있습니다. 그래서, 당신은 말하죠, 좋아, 나는 그 문제에 대한 해결책을 가지고 있습니다. 가장 먼저 하는 일은 자동차가 아무도 다치게 하지 않고 몇 분 동안 스스로 운전하는 데모를 만드는 것입니다. 그리고 나서 당신은 코너 케이스가 많다는 것을 깨닫고 훈련 세트를 두 배로 늘리면서 내가 얼마나 좋아지고 있는지 곡선을 그리려고 합니다. 그리고 당신은 코너 케이스의 모든 종류가 있기 때문에 결코 거기에 도달할 수 없다는 것을 깨닫습니다. . 그리고 200억 킬로미터마다 치명적인 사고를 일으키는 자동차가 있어야 하지 않습니까? 그래서, 당신은 무엇을합니까? 글쎄, 당신은 두 가지 방향으로 걷습니다. 

첫 번째 방향은 시스템이 학습하는 데 필요한 데이터 양을 어떻게 줄일 수 있습니까? 그리고 그것이 자기 지도 학습이 필요한 곳입니다. 그래서 많은 자율 운전 자동차 복장은 자기 지도 학습에 큰 관심을 가지고 있습니다. 왜냐하면 그것이 여전히 모방 학습을 위해 엄청난 양의 감독 데이터를 사용하지만 다음을 통해 더 나은 성능을 얻는 방법이기 때문입니다. 기본적으로 사전 훈련. 그리고 아직 완전히 구체화되지는 않았지만 그렇게 될 것입니다. 그리고 다른 옵션이 있습니다. 이 시점에서 더 발전된 대부분의 회사가 채택한 것입니다. 즉, 우리는 종단 간 교육을 수행할 수 있지만 우리가 할 수 있는 많은 코너 케이스가 있습니다. t 핸들, 그래서 우리는 이러한 코너 케이스를 처리할 시스템을 엔지니어링할 것입니다. 기본적으로 이를 특수한 경우로 취급하고 제어를 하드와이어링한 다음 특수한 상황을 처리하기 위해 많은 기본 동작을 하드와이어링합니다. 그리고 충분한 규모의 엔지니어 팀이 있다면 해낼 수 있습니다. 그러나 시간이 오래 걸리고 결국에는 배포할 수 있을 만큼 충분히 안정적일 수 있지만 약간의 취약성이 있을 것입니다. 미래에 자동차는 세상이 어떻게 돌아가는지에 대해 어느 정도 상식과 이해가 있을 수 있기 때문에 그렇지 않을 것입니다. 

단기적으로는 일종의 공학적 접근 방식이 승리할 것입니다. 이미 승리한 것입니다. 그것이 바로 Waymo와 세계와 Wayve의 크루즈입니다.그리고 무엇이든, 그것이 그들이 하는 일입니다. 그런 다음 자체 지도 학습 접근 방식이 있는데, 이는 아마도 엔지니어링 접근 방식이 발전하는 데 도움이 될 것입니다. 하지만 장기적으로 보면 그 회사들이 기다리기에는 너무 오래 걸릴 수 있는 일종의 보다 통합된 자율 지능 운전 시스템이 될 것입니다.

지디넷: 우리는 대부분의 투자자들의 투자 범위를 넘어선다고 말합니다.

YL: 좋아요. 따라서 문제는 성능이 원하는 수준에 도달하기 전에 사람들이 인내심을 잃거나 돈이 바닥날 것인가입니다.

지디넷: 모델에서 선택한 요소 중 일부를 선택한 이유에 대해 흥미로운 점이 있습니까? Kenneth Craik [1943,설명의 본질], 그리고 당신은 Bryson과 Ho [1969, 최적제어 적용], 그리고 만약 당신이 특히 이 사람들이 그들이 한 일만큼 그것을 못 박았다고 믿었다면 왜 이러한 영향력으로 시작했는지 궁금합니다. 왜 거기서 시작했나요?

YL: 글쎄요, 확실히, 그들이 모든 세부 사항을 못 박았다고 생각하지 않습니다. 그래서, Bryson과 Ho, 이것은 제가 1987년에 토론토에서 Geoffrey Hinton과 박사후 연구원으로 있을 때 읽었던 책입니다. 그러나 저는 박사 학위를 쓸 때 이 작업 라인에 대해 미리 알고 있었고, 기본적으로 최적의 제어와 백프롭을 연결했습니다. 만약 당신이 정말로 또 다른 Schmidhuber가 되고 싶다면, 당신은 backprop의 진짜 발명가들이 실제로 최적 제어 이론가인 Henry J. Kelley, Arthur Bryson, 그리고 아마도 러시아의 최적 제어 이론가인 Lev Pontryagin이라고 말할 것입니다. 50년대 후반. 

그래서 그들은 그것을 알아냈습니다. 그리고 사실, 여러분은 실제로 이것의 근원을 볼 수 있습니다. 그 밑에 있는 수학은 라그랑주 역학입니다. 따라서 실제로 오일러와 라그랑주로 돌아가서 라그랑주 고전 역학에 대한 그들의 정의에서 이것의 냄새를 찾을 수 있습니다. 따라서 최적 제어의 맥락에서 이 사람들이 관심을 두었던 것은 기본적으로 로켓 궤적을 계산하는 것이었습니다. 이것은 초기 우주 시대였습니다. 그리고 로켓의 모델이 있다면 당시 로켓의 상태를 알려줍니다. t, 그리고 여기에 내가 취할 행동이 있습니다. 그래서 다양한 종류의 추력과 액추에이터, 여기에 로켓의 시간 상태가 있습니다. t + 1.

지디넷: 상태-행동 모델, 가치 모델.

YL: 바로, 통제의 기초입니다. 따라서 이제 일련의 명령을 상상하여 로켓 발사를 시뮬레이션할 수 있으며 로켓에서 목표물, 우주 정거장 또는 무엇이든 간에 거리를 나타내는 비용 함수가 생깁니다. 그런 다음 일종의 경사 하강법을 통해 로켓이 실제로 목표에 가능한 한 가까워지도록 일련의 동작을 업데이트할 수 있는 방법을 알아낼 수 있습니다. 그리고 그것은 신호를 시간적으로 역전파함으로써 이루어져야 합니다. 그리고 그것은 역전파, 기울기 역전파입니다. 이러한 신호는 라그랑주 역학에서 켤레 변수라고 하지만 실제로는 기울기입니다. 그래서 그들은 역전파를 발명했지만 이 원리가 패턴 인식이나 이와 유사한 것을 할 수 있는 다단계 시스템을 훈련하는 데 사용될 수 있다는 것을 깨닫지 못했습니다. 이것은 70년대 후반, 80년대 초반까지는 실제로 실현되지 않았고, 80년대 중반까지 실제로 구현되지 않고 작동하도록 만들어졌습니다. 자, 여기에서 backprop이 실제로, 일종의 시작되었습니다. 사람들이 여기에 몇 줄의 코드를 보여주었기 때문에 신경망을 종단 간 다층으로 훈련할 수 있습니다. 그리고 그것은 퍼셉트론의 한계를 뛰어넘습니다. 그리고, 네, 최적의 제어와 연결되어 있지만 괜찮습니다.

지디넷: 그래서, 그것은 당신이 시작한 이러한 영향이 역전파로 돌아가고 있다는 것을 말하는 긴 방법이며, 그것이 당신의 출발점으로 중요했습니까?

YL: 예, 하지만 사람들이 조금 잊고 있었던 것은 마이클 조던[MIT Dept. of Brain and Cognitive Sciences] 그리고 그런 사람들은 더 이상 신경망을 사용하지 않지만 제어를 위해 신경망을 사용할 수 있고 최적의 제어에 대한 고전적인 아이디어를 사용할 수 있다는 생각입니다. 따라서 모델 예측 제어라고 하는 것, 현재 모델 예측 제어라고 하는 것, 제어하려는 시스템의 좋은 모델이 있는 경우 일련의 작업 결과를 시뮬레이션하거나 상상할 수 있다는 아이디어가 있습니다. 그리고 그것이 있는 환경. 그리고 나서 경사하강법에 의해, 본질적으로 - 이것은 학습이 아니라 추론입니다 - 당신은 나의 목표를 최소화할 행동의 가장 좋은 순서를 알아낼 수 있습니다. 따라서 추론을 위해 잠재 변수와 함께 비용 함수를 사용하는 것은 현재 대규모 신경망이 잊고 있는 부분이라고 생각합니다. 그러나 그것은 오랫동안 기계 학습의 매우 고전적인 구성 요소였습니다. 따라서 모든 베이지안 네트워크 또는 그래픽 모델 또는 확률적 그래픽 모델은 이러한 유형의 추론을 사용했습니다. 여러 변수 간의 종속성을 캡처하는 모델이 있고 일부 변수의 값을 듣고 나머지 변수의 가장 가능성 있는 값을 추론해야 합니다. 이것이 그래픽 모델과 베이지안 네트 등에서 추론의 기본 원칙입니다. 그리고 저는 그것이 기본적으로 추론, 추론 및 계획에 관한 것이어야 한다고 생각합니다.

지디넷: 당신은 옷장 베이지안입니다.

YL: 저는 비확률적 베이지안입니다. 전에 그 농담을 했습니다. 저는 사실 몇 년 전에 NeurIPS에 있었습니다. 2018년이나 2019년에 있었던 것 같습니다. 제가 베이지안인지 묻는 베이지안에게 비디오가 잡혔고 저는 말했습니다. 네, 저는 베이지안입니다. 하지만 저는 원하는 경우 비확률적 베이지안, 일종의 에너지 기반 베이지안입니다. 

지디넷: 확실히 뭔가 들린다 스타 트렉. 이 문서의 끝부분에서 언급했듯이, 당신이 상상하는 것을 실현하기 위해서는 정말 힘든 노력이 수년이 걸릴 것입니다. 현재 그 작업 중 일부가 무엇으로 구성되어 있는지 알려주세요.

YL: 그래서 논문에서 JEPA를 어떻게 훈련시키고 구축하는지 설명합니다. 그리고 내가 옹호하는 기준은 추출된 표현이 입력에 대해 갖는 정보 내용을 극대화하는 방법을 갖는 것입니다. 그리고 두 번째는 예측 오차를 최소화하는 것입니다. 예측자가 비결정적일 수 있도록 하는 잠재 변수가 예측자에 있는 경우 정보 내용을 최소화하여 이 잠재 변수도 정규화해야 합니다. 이제 두 가지 문제가 있습니다. 일부 신경망 출력의 정보 내용을 최대화하는 방법과 다른 하나는 일부 잠재 변수의 정보 내용을 최소화하는 방법입니다. 그리고 이 두 가지를 하지 않으면 시스템이 무너집니다. 그것은 흥미로운 것을 배우지 않을 것입니다. 그것은 의존성의 좋은 모델이 아닌 모든 것에 제로 에너지를 줄 것입니다. 제가 언급한 붕괴 방지 문제입니다. 

그리고 저는 사람들이 지금까지 했던 모든 일에 대해 말하고 있습니다. 붕괴를 방지하는 방법에는 두 가지 범주만 있습니다. 하나는 대조적 방법이고 다른 하나는 정규화된 방법입니다. 따라서 정규화 방법에 속하는 두 입력 표현의 정보 내용을 최대화하고 잠재 변수의 정보 내용을 최소화하는 이 아이디어. 그러나 이러한 공동 임베딩 아키텍처의 많은 작업은 대조적 방법을 사용하고 있습니다. 사실, 그들은 아마도 현재 가장 인기가 있습니다. 따라서 문제는 정보 콘텐츠를 최적화하거나 최소화할 수 있는 방식으로 정확히 어떻게 측정하는가 하는 것입니다. 정보 내용을 측정하는 방법을 실제로 알지 못하기 때문에 상황이 복잡해집니다. 우리는 그것을 근사할 수 있고, 상한을 할 수 있고, 그런 일을 할 수 있습니다. 그러나 그들은 실제로 정보 내용을 측정하지 않으며, 실제로 어느 정도는 잘 정의되지도 않습니다.

지디넷: 섀넌의 법칙 아닌가요? 정보론 아니야? 어느 정도의 엔트로피, 좋은 엔트로피와 나쁜 엔트로피가 있습니다. 좋은 엔트로피는 작동하는 기호 시스템이고 나쁜 엔트로피는 소음입니다. 섀넌으로 다 해결되는거 아님?

YL: 당신 말이 맞아요. 하지만 그 뒤에는 큰 결함이 있습니다. 데이터가 수신되고 데이터를 이산 기호로 어떻게든 양자화할 수 있고 각 기호의 확률을 측정하면 해당 기호가 전달하는 정보의 최대량은 다음과 같다는 의미에서 맞습니다. 가능한 기호에 대한 합계 파이 로그 파이, 오른쪽? 어디에 Pi 는 기호의 확률입니다. 나 - 그것이 섀넌 엔트로피입니다. [섀넌의 법칙은 일반적으로 H = – ∑ pi log pi로 공식화됩니다.]

하지만 여기에 문제가 있습니다. Pi? 기호의 수가 적고 기호가 독립적으로 그려지면 쉽습니다. 많은 기호와 종속성이 있으면 매우 어렵습니다. 따라서 비트 시퀀스가 ​​있고 비트가 서로 독립적이고 확률이 XNUMX과 XNUMX 사이에 있다고 가정하면 엔트로피를 쉽게 측정할 수 있습니다. 문제는 없습니다. 하지만 데이터 프레임이나 이와 유사한 것과 같은 고차원 벡터가 여러분에게 제공된다면, Pi? 분포는 무엇입니까? 먼저 고차원의 연속 공간인 해당 공간을 양자화해야 합니다. 이것을 적절하게 양자화하는 방법을 모릅니다. k-means 등을 사용할 수 있습니다. 이것은 사람들이 비디오 압축 및 이미지 압축을 할 때 하는 일입니다. 그러나 그것은 근사치일 뿐입니다. 그리고 나서 독립성을 가정해야 합니다. 따라서 비디오에서 연속 프레임은 독립적이지 않습니다. 종속성이 있으며 해당 프레임은 XNUMX시간 전에 본 다른 프레임에 따라 달라질 수 있습니다. 따라서 측정할 수 없습니다. Pi. 측정 Pi, 예측을 학습하는 기계 학습 시스템이 있어야 합니다. 그래서 당신은 이전 문제로 돌아갑니다. 따라서 기본적으로 정보의 측정값을 대략적으로만 계산할 수 있습니다. 

yann-lecun-2022월-6-XNUMX

"문제는 정보 콘텐츠를 최적화하거나 최소화할 수 있는 방식으로 정확히 어떻게 측정하는가 하는 것입니다." "라고 LeCun은 말합니다. "정보 콘텐츠를 측정하는 방법을 실제로 알지 못하기 때문에 상황이 복잡해집니다." 지금까지 할 수 있는 최선은 "우리가 원하는 작업에 충분히 좋은" 프록시를 찾는 것입니다.

좀 더 구체적인 예를 들어보겠다. 우리가 가지고 놀고 제가 이 작품에서 이야기한 알고리즘 중 하나는 VICReg, 즉 분산-불변-공분산 정규화입니다. ICLR에서 발표된 별도의 논문에 있습니다. arXiv에 올렸습니다 약 2021년 전인 XNUMX년. 정보를 극대화하는 아이디어입니다. 그리고 아이디어는 실제로 제 그룹의 이전 논문에서 나왔습니다. 바로우 트윈스. 기본적으로 변수 간의 유일한 종속성이 상관 관계, 선형 종속성이라고 가정하여 신경망에서 나오는 벡터의 정보 내용을 최대화합니다. 따라서 변수 쌍 사이 또는 시스템의 변수 사이에 가능한 유일한 종속성이 매우 대략적인 근사값인 값 쌍 간의 상관 관계라고 가정하면 시스템에서 나오는 정보 콘텐츠를 최대화할 수 있습니다. 모든 변수가 XNUMX이 아닌 분산을 갖도록 하여(예를 들어 분산 XNUMX, 그것이 무엇인지는 중요하지 않습니다) 그런 다음 미백이라고 하는 동일한 프로세스를 역상관합니다. 이는 새로운 것도 아닙니다. 이것의 문제는 변수 그룹 또는 선형 종속성이 아닌 변수 쌍 사이에 매우 복잡한 종속성을 가질 수 있으며 상관 관계에 표시되지 않는다는 것입니다. 예를 들어, 두 개의 변수가 있고 이 두 변수의 모든 점이 일종의 나선형으로 정렬되어 있는 경우 두 변수 간에 매우 강한 종속성이 있습니다. 그렇죠? 그러나 실제로 두 변수 간의 상관 관계를 계산하면 상관 관계가 없습니다. 그래서, 여기 이 두 변수의 정보 내용이 실제로 매우 작은 예가 있습니다. 나선에서 당신의 위치이기 때문에 그것은 단지 하나의 양입니다. 그것들은 상관관계가 없습니다. 그래서 당신은 두 변수로부터 많은 정보가 나온다고 생각합니다. 실제로는 그렇지 않습니다. 당신은 본질적으로 다른 변수로부터 하나의 변수를 예측할 수 있을 뿐입니다. 따라서 정보 내용을 측정하는 데에는 매우 근사한 방법만 있음을 알 수 있습니다.

지디넷: 그리고 그것이 당신이 지금 이것으로 작업해야 하는 것 중 하나입니까? 이것은 정보 콘텐츠를 최대화하고 최소화할 때를 어떻게 알 수 있는지에 대한 더 큰 질문입니다.

YL:  또는 우리가 이것을 위해 사용하는 프록시가 우리가 원하는 작업에 충분히 좋은지 여부. 실제로 우리는 기계 학습에서 항상 이 작업을 수행합니다. 우리가 최소화하는 비용 함수는 결코 실제로 최소화하고 싶은 것이 아닙니다. 예를 들어 분류를 하고 싶습니다. 알겠죠? 분류기를 훈련할 때 최소화하려는 비용 함수는 분류기가 저지르는 실수의 수입니다. 그러나 그것은 미분할 수 없고, 최소화할 수 없는 끔찍한 비용 함수입니다. 왜냐하면 신경망의 가중치를 변경할 것이라는 것을 알고 있기 때문입니다. 샘플 중 하나가 결정을 뒤집고 점프할 때까지 아무 것도 변경되지 않을 것입니다. 오류에서 양수 또는 음수.

지디넷: 그래서 당신은 확실히 말할 수 있는 목적 함수인 프록시를 가지고 있습니다. 우리는 확실히 이것의 그라디언트를 흐를 수 있습니다.

YL: 좋아요. 그래서 사람들은 이 교차 엔트로피 손실 또는 SOFTMAX를 사용합니다. 여러 이름이 있지만 동일한 것입니다. 기본적으로 시스템이 각 범주에 부여하는 점수를 고려하여 스무딩이 수행되는 시스템에서 발생하는 오류 수의 부드러운 근사값입니다.

지디넷: 우리가 다루지 않은 것 중 당신이 다루고 싶은 것이 있습니까?

YL: 아마도 요점을 강조하는 것 같습니다. 저는 AI 시스템이 추론할 수 있어야 한다고 생각하며, 이를 위한 프로세스는 일부 잠재 변수와 관련하여 일부 목표를 최소화하는 것입니다. 이를 통해 시스템은 계획하고 추론할 수 있습니다. 고차원의 연속 변수 간의 종속성을 캡처하는 것과 같은 작업을 수행할 때 다루기 어렵기 때문에 확률적 프레임워크를 포기해야 한다고 생각합니다. 그리고 저는 시스템이 예측하기 어렵고 너무 많은 리소스를 소비하는 것을 예측하는 데 너무 많은 리소스를 투자해야 하기 때문에 생성 모델을 포기할 것을 지지합니다. 그리고 그 정도입니다. 원하는 경우 이것이 주요 메시지입니다. 그런 다음 전체 아키텍처입니다. 그런 다음 의식의 본질과 구성자의 역할에 대한 추측이 있지만 이것은 실제로는 추측입니다.

지디넷: 다음 시간에 알아보겠습니다. 나는 당신에게 이것을 묻고 싶었습니다. 당신은 이것을 어떻게 벤치마킹합니까? 하지만 지금은 벤치마킹에서 조금 멀어진 것 같은데요?

YL: 꼭 그렇게 멀리 있는 것은 아니지만 일종의 단순화된 버전입니다. 통제 학습이나 강화 학습에서 모두가 하는 일을 할 수 있습니다. 즉, Atari 게임이나 이와 유사한 게임이나 불확실성이 있는 다른 게임을 하도록 훈련합니다.

지디넷: 시간 내주셔서 감사합니다, 얀.

출처