Chuyên gia AI của Meta, LeCun: Hầu hết các phương pháp tiếp cận AI ngày nay sẽ không bao giờ dẫn đến trí thông minh thực sự

yann-lecun-sept-2022-1

Yann LeCun, trưởng nhóm khoa học AI của Meta cho biết: “Tôi nghĩ rằng các hệ thống AI cần phải có khả năng suy luận. Các phương pháp tiếp cận AI phổ biến hiện nay như Transformers, nhiều trong số đó được xây dựng dựa trên công việc tiên phong của chính anh ấy trong lĩnh vực này, sẽ không đủ. LeCun nói: “Bạn phải lùi lại một bước và nói, Được rồi, chúng tôi đã xây dựng chiếc thang này, nhưng chúng tôi muốn lên mặt trăng, và chiếc thang này sẽ không thể đưa chúng tôi đến đó được”.

Yann LeCun, nhà khoa học AI trưởng của Meta Properties, chủ sở hữu của Facebook, Instagram và WhatsApp, có khả năng sẽ thu hút rất nhiều người trong lĩnh vực của mình. 

Với bài đăng vào tháng XNUMX của một đoạn suy nghĩ trên máy chủ Đánh giá Mở, LeCun đã đưa ra một cái nhìn tổng thể về một cách tiếp cận mà anh cho rằng có nhiều hứa hẹn để đạt được trí thông minh cấp độ con người trong máy móc. 

Ngụ ý nếu không được trình bày rõ ràng trong bài báo là ý kiến ​​cho rằng hầu hết các dự án lớn ngày nay về AI sẽ không bao giờ có thể đạt được mục tiêu cấp độ con người đó.

Trong một cuộc thảo luận trong tháng này với ZDNet thông qua Zoom, LeCun đã nói rõ rằng anh ấy quan điểm với sự hoài nghi lớn về nhiều con đường nghiên cứu thành công nhất trong lĩnh vực học sâu vào lúc này.

“Tôi nghĩ chúng cần thiết nhưng không đủ,” người chiến thắng Giải thưởng Turing nói ZDNet theo đuổi của các đồng nghiệp của mình. 

Chúng bao gồm các mô hình ngôn ngữ lớn như GPT-3 dựa trên Transformer và ilk của chúng. Như LeCun mô tả đặc điểm của nó, các nhà phát triển của Transformer tin rằng, "Chúng tôi mã hóa mọi thứ và đào tạocác mô hình để đưa ra các dự đoán rời rạc và bằng cách nào đó AI sẽ xuất hiện từ điều này ”.

“Họ không sai,” anh nói, “theo nghĩa đó có thể là một thành phần của một hệ thống thông minh trong tương lai, nhưng tôi nghĩ nó thiếu những phần thiết yếu.”

Ngoài ra: Meta AI sáng chói LeCun khám phá biên giới năng lượng của học sâu

Đó là một lời phê bình đáng kinh ngạc về những gì có vẻ hiệu quả đến từ học giả đã hoàn thiện việc sử dụng mạng nơ-ron phức hợp, một kỹ thuật thực tế đã có hiệu quả đáng kinh ngạc trong các chương trình học sâu. 

LeCun nhận thấy những sai sót và hạn chế trong nhiều lĩnh vực rất thành công khác của ngành này. 

Anh ấy duy trì việc học tập củng cố cũng sẽ không bao giờ là đủ. Các nhà nghiên cứu như David Silver của DeepMind, người đã phát triển chương trình AlphaZero thông thạo Cờ vua, Shogi và cờ vây, đang tập trung vào các chương trình “rất dựa trên hành động”, LeCun nhận xét, nhưng “hầu hết việc học chúng tôi làm, chúng tôi không làm điều đó bằng cách thực sự hành động, chúng tôi làm điều đó bằng cách quan sát. ” 

Tuy nhiên, Lecun, 62 tuổi, nhìn từ góc độ thành tựu đã có nhiều thập kỷ, bày tỏ sự cấp bách phải đối mặt với những gì ông nghĩ là những con hẻm mù mịt mà nhiều người có thể đang lao tới, và cố gắng điều khiển lĩnh vực của mình theo hướng mà ông nghĩ rằng mọi thứ nên đi. 

Ông nói: “Chúng tôi nhận thấy rất nhiều tuyên bố về việc chúng tôi nên làm gì để hướng tới AI ở cấp độ con người. "Và có những ý tưởng mà tôi nghĩ đã bị định hướng sai."

Lecun nhận xét: “Chúng ta không đến mức mà những cỗ máy thông minh của chúng ta có nhiều nhận thức thông thường như một con mèo. "Vậy, tại sao chúng ta không bắt đầu ở đó?" 

Anh ấy đã từ bỏ niềm tin trước đây của mình vào việc sử dụng mạng tổng hợp trong những việc như dự đoán khung hình tiếp theo trong video. “Đó là một thất bại hoàn toàn,” anh nói. 

LeCun chỉ trích những người mà ông gọi là “các nhà xác suất tôn giáo”, những người “cho rằng lý thuyết xác suất là khung duy nhất mà bạn có thể sử dụng để giải thích việc học máy”. 

Ông nói, phương pháp thống kê thuần túy là không thể chữa khỏi. “Thật quá đáng khi yêu cầu một mô hình thế giới hoàn toàn có tính xác suất; chúng tôi không biết phải làm như thế nào ”.

LeCun lập luận, không chỉ giới học thuật, mà AI công nghiệp cũng cần phải suy nghĩ lại sâu sắc. Ông nói, đám đông xe hơi tự lái, những công ty khởi nghiệp như Wayve, đã “hơi lạc quan một chút”, khi nghĩ rằng họ có thể “ném dữ liệu vào” các mạng nơ-ron lớn “và bạn có thể học được khá nhiều thứ”.

“Bạn biết đấy, tôi nghĩ hoàn toàn có thể xảy ra trường hợp chúng ta sẽ có những chiếc xe tự hành cấp năm mà không có ý thức chung,” anh nói, đề cập đến “ADAS” hệ thống hỗ trợ lái xe tiên tiến các thuật ngữ cho việc tự lái xe, "nhưng bạn sẽ phải thiết kế cái quái gì cho nó."

Ông tin rằng công nghệ tự lái được chế tạo quá mức như vậy sẽ là một thứ gì đó dễ hỏng và dễ vỡ như tất cả các chương trình thị giác máy tính đã bị lỗi thời bởi học sâu.

“Cuối cùng, sẽ có một giải pháp thỏa mãn hơn và có thể tốt hơn liên quan đến các hệ thống thực hiện tốt hơn công việc hiểu cách thế giới hoạt động.”

Trên đường đi, LeCun đưa ra một số quan điểm hóm hỉnh về những nhà phê bình lớn nhất của anh ấy, chẳng hạn như giáo sư Gary Marcus của NYU - “anh ấy chưa bao giờ đóng góp gì cho AI” - và Jürgen Schmidhuber, đồng giám đốc của Viện nghiên cứu trí tuệ nhân tạo Dalle Molle - “đó là rất dễ thực hiện việc trồng cờ. ”

Ngoài những lời chỉ trích, điểm quan trọng hơn mà LeCun đưa ra là một số vấn đề cơ bản nhất định phải đối mặt với tất cả AI, đặc biệt là cách đo lường thông tin.

“Bạn phải lùi lại một bước và nói, Được rồi, chúng tôi đã xây dựng chiếc thang này, nhưng chúng tôi muốn lên mặt trăng, và không đời nào chiếc thang này đưa chúng tôi đến đó được”, LeCun nói về mong muốn của anh ấy để nhắc nhở suy nghĩ lại của các khái niệm cơ bản. “Về cơ bản, những gì tôi đang viết ở đây là, chúng ta cần chế tạo tên lửa, tôi không thể cung cấp cho bạn chi tiết về cách chúng ta chế tạo tên lửa, nhưng đây là những nguyên tắc cơ bản.”

Bài báo và suy nghĩ của LeCun trong cuộc phỏng vấn, có thể hiểu rõ hơn bằng cách đọc cuộc phỏng vấn của LeCun vào đầu năm nay với ZDNet trong đó ông lập luận về việc học tập tự giám sát dựa trên năng lượng như một con đường phía trước cho việc học sâu. Những phản ánh đó cho ta cảm giác về cách tiếp cận cốt lõi đối với những gì anh ấy hy vọng sẽ xây dựng như một sự thay thế cho những thứ mà anh ấy tuyên bố sẽ không về đích. 

Những gì sau đây là một bảng điểm được chỉnh sửa nhẹ của cuộc phỏng vấn.

ZDNet: Chủ đề của cuộc trò chuyện của chúng tôi là bài báo này, "Một con đường hướng tới trí thông minh của máy tự động", phiên bản 0.9.2 là phiên bản còn tồn tại, vâng?

Yann LeCun: Vâng, tôi coi đây là một tài liệu làm việc. Vì vậy, tôi đã đăng nó trên Open Review, chờ mọi người đưa ra nhận xét và đề xuất, có lẽ là các tài liệu tham khảo bổ sung, và sau đó tôi sẽ tạo ra một phiên bản sửa đổi. 

ZDNet: Tôi thấy rằng Juergen Schmidhuber đã thêm một số nhận xét vào Đánh giá mở.

YL: Anh ấy luôn làm vậy. Tôi trích dẫn một trong những bài báo của anh ấy ở đó trong bài báo của tôi. Tôi nghĩ rằng những lập luận mà anh ấy đưa ra trên mạng xã hội mà về cơ bản anh ấy đã phát minh ra tất cả những điều này vào năm 1991, như anh ấy đã thực hiện trong các trường hợp khác, hoàn toàn không phải như vậy. Ý tôi là, nó rất dễ làmtrồng cờ, và đại loại là viết một ý tưởng mà không cần thử nghiệm, không cần bất kỳ lý thuyết nào, chỉ cần gợi ý rằng bạn có thể làm theo cách này. Tuy nhiên, bạn biết đấy, có một sự khác biệt lớn giữa việc chỉ có ý tưởng và sau đó bắt nó giải quyết một vấn đề đồ chơi, và sau đó làm cho một vấn đề thực tế, và sau đó thực hiện một lý thuyết cho thấy lý do tại sao nó hoạt động, và sau đó triển khai nó. Có cả một chuỗi, và ý tưởng về tín dụng khoa học của ông ấy là chính người đầu tiên, đại loại là bạn biết đấy, có ý tưởng về điều đó, và sẽ nhận được tất cả tín dụng. Và điều đó thật vô lý. 

ZDNet: Đừng tin tất cả những gì bạn nghe trên mạng xã hội. 

YL: Ý tôi là, bài báo chính mà anh ấy nói tôi nên trích dẫn không có bất kỳ ý chính nào mà tôi nói trong bài báo. Anh ấy cũng đã làm điều này với GAN và những thứ khác, hóa ra không phải là sự thật. Trồng cờ thì dễ, đóng góp khó hơn nhiều. Và, nhân tiện, trong bài báo cụ thể này, tôi đã nói rõ ràng rằng đây không phải là một bài báo khoa học theo nghĩa thông thường của thuật ngữ này. Nó giống như một tờ báo định vị về nơi mà thứ này nên đi. Và có một vài ý tưởng có thể mới, nhưng hầu hết là không. Về cơ bản, tôi không yêu cầu bất kỳ ưu tiên nào đối với hầu hết những gì tôi đã viết trong bài báo đó.

yann-lecun-sept-2022-2

LeCun cho rằng việc học tập củng cố cũng sẽ không bao giờ là đủ. Các nhà nghiên cứu như David Silver của DeepMind, người đã phát triển chương trình AlphaZero thông thạo Cờ vua, Shogi và cờ vây, “rất dựa trên hành động”, LeCun nhận xét, nhưng “hầu hết những gì chúng tôi học, chúng tôi không thực hiện bằng cách thực sự hành động, chúng tôi làm điều đó bằng cách quan sát. " 

ZDNet: Và đó có lẽ là một nơi tốt để bắt đầu, bởi vì tôi tò mò tại sao bây giờ bạn lại theo đuổi con đường này? Bạn nghĩ gì về điều này? Tại sao bạn muốn viết cái này?

YL: Chà, vì vậy, tôi đã suy nghĩ về điều này trong một thời gian rất dài, về con đường hướng tới trí thông minh hoặc khả năng học tập và khả năng cấp độ người hoặc cấp độ động vật. Và, trong các bài nói chuyện của mình, tôi đã khá nói về toàn bộ điều này rằng cả học tập có giám sát và học tập củng cố đều không đủ để mô phỏng kiểu học tập mà chúng ta quan sát được ở động vật và con người. Tôi đã làm điều này trong bảy hoặc tám năm. Vì vậy, nó không phải là gần đây. Tôi đã có một bài phát biểu quan trọng tại NeurIPS nhiều năm trước, nơi tôi đưa ra quan điểm đó, về cơ bản, và các bài nói chuyện khác nhau, có ghi âm. Bây giờ, tại sao phải viết một tờ giấy bây giờ? Tôi đã đi đến vấn đề - [Nhà nghiên cứu bộ não của Google] Geoff Hinton đã làm điều gì đó tương tự - Ý tôi là, chắc chắn, anh ấy hơn tôi, chúng ta thấy thời gian không còn nhiều. Chúng tôi không còn trẻ.

ZDNet: Sáu mươi là năm mươi mới. 

YL: Điều đó đúng, nhưng vấn đề là, chúng ta thấy có rất nhiều tuyên bố về việc chúng ta nên làm gì để thúc đẩy AI ở cấp độ con người. Và có những ý tưởng mà tôi nghĩ là sai hướng. Vì vậy, một ý tưởng là, Ồ, chúng ta chỉ nên thêm suy luận tượng trưng vào đầu mạng nơ-ron. Và tôi không biết làm thế nào để làm điều này. Vì vậy, có lẽ những gì tôi giải thích trong bài báo có thể là một cách tiếp cận sẽ làm được điều tương tự mà không cần thao tác ký hiệu rõ ràng. Đây là kiểu Gary Marcuses truyền thống của thế giới. Gary Marcus không phải là một người AI, nhân tiện, anh ấy là một nhà tâm lý học. Anh ấy chưa bao giờ đóng góp bất cứ điều gì cho AI. Anh ấy đã hoàn thành rất tốt công việc trong lĩnh vực tâm lý học thực nghiệm nhưng anh ấy chưa bao giờ viết một bài báo được đồng nghiệp đánh giá về AI. Vì vậy, có những người đó. 

Có [nhà khoa học nghiên cứu nguyên lý DeepMind] David Silvers của thế giới đã nói, bạn biết đấy, phần thưởng là đủ, về cơ bản, tất cả là về học tập củng cố, chúng ta chỉ cần làm cho nó hiệu quả hơn một chút, được không? Và, tôi nghĩ rằng họ không sai, nhưng tôi nghĩ rằng các bước cần thiết để làm cho việc học tăng cường hiệu quả hơn, về cơ bản, sẽ khiến việc học tăng cường trở nên giống như một quả anh đào trên bánh. Và phần còn thiếu chính là học cách thế giới vận hành, chủ yếu bằng quan sát mà không cần hành động. Học tập củng cố rất dựa trên hành động, bạn tìm hiểu mọi thứ về thế giới bằng cách thực hiện các hành động và nhìn thấy kết quả.

ZDNet: Và nó tập trung vào phần thưởng.

YL: Nó tập trung vào phần thưởng và nó cũng tập trung vào hành động. Vì vậy, bạn phải hành động trong thế giới để có thể học được điều gì đó về thế giới. Và khẳng định chính mà tôi đưa ra trong bài báo về học tập tự giám sát là, hầu hết việc học tập mà chúng ta thực hiện, chúng ta không thực hiện bằng cách thực sự hành động, chúng ta thực hiện bằng cách quan sát. Và nó rất không chính thống, đối với cả những người học tăng cường, đặc biệt, mà còn đối với nhiều nhà tâm lý học và nhà khoa học nhận thức, những người nghĩ rằng, bạn biết đấy, hành động là - Tôi không nói rằng hành động là không cần thiết, nó is Cần thiết. Nhưng tôi nghĩ rằng phần lớn những gì chúng ta học được chủ yếu là về cấu trúc của thế giới, và tất nhiên là liên quan đến sự tương tác, hành động và vui chơi, và những thứ tương tự, nhưng phần lớn là quan sát.

ZDNet: Bạn cũng sẽ quản lý để loại bỏ những người Transformer, những người sử dụng ngôn ngữ đầu tiên, cùng một lúc. Làm thế nào bạn có thể xây dựng điều này mà không có ngôn ngữ trước tiên? Bạn có thể quản lý để đánh dấu rất nhiều người. 

YL: Vâng, tôi đã quen với điều đó. Vì vậy, vâng, có những người đầu tiên ngôn ngữ, những người nói, bạn biết đấy, trí thông minh là về ngôn ngữ, nền tảng của trí thông minh là ngôn ngữ, blah, blah, blah. Nhưng điều đó, đại loại là loại bỏ trí thông minh của động vật. Bạn biết đấy, chúng ta không đến mức cho rằng những cỗ máy thông minh của chúng ta có nhiều cảm giác thông thường như một con mèo. Vì vậy, tại sao chúng ta không bắt đầu ở đó? Điều gì cho phép một con mèo nắm bắt thế giới xung quanh, làm những việc khá thông minh, lập kế hoạch và những thứ như vậy, và những con chó thậm chí còn tốt hơn? 

Sau đó, có tất cả những người nói, Ồ, trí thông minh là một thứ xã hội, phải không? Chúng tôi thông minh bởi vì chúng tôi nói chuyện với nhau và chúng tôi trao đổi thông tin, và blah, blah, blah. Có tất cả các loài phi xã hội không bao giờ gặp cha mẹ của chúng rất thông minh, như bạch tuộc hoặc đười ươi.Ý tôi là, chúng [đười ươi] chắc chắn được mẹ chúng giáo dục, nhưng chúng không phải là động vật xã hội. 

Nhưng một nhóm người khác mà tôi có thể đánh dấu là những người nói rằng mở rộng quy mô là đủ. Vì vậy, về cơ bản, chúng tôi chỉ sử dụng Transformers khổng lồ, chúng tôi đào tạo họ trên dữ liệu đa phương thức liên quan đến video, văn bản, blah, blah, blah. Chúng tôi, đại loại, hóa đámọi thứ và mã hóa mọi thứ, sau đó đào tạovề cơ bản, các mô hình để đưa ra các dự đoán rời rạc và bằng cách nào đó AI sẽ xuất hiện từ điều này. Chúng không sai, theo nghĩa đó có thể là một thành phần của một hệ thống thông minh trong tương lai. Nhưng tôi nghĩ nó thiếu những phần thiết yếu. 

Có một hạng người khác mà tôi sẽ đánh dấu bằng bài báo này. Và đó là những người theo thuyết xác suất, những người theo thuyết xác suất tôn giáo. Vì vậy, những người nghĩ lý thuyết xác suất là khung duy nhất mà bạn có thể sử dụng để giải thích việc học máy. Và như tôi đã cố gắng giải thích trong phần này, về cơ bản là quá nhiều khi yêu cầu một mô hình thế giới hoàn toàn có tính xác suất. Chúng tôi không biết làm thế nào để làm điều đó. Có khả năng khó tính toán. Vì vậy, tôi đề xuất bỏ toàn bộ ý tưởng này. Và tất nhiên, bạn biết đấy, đây là một trụ cột to lớn của không chỉ máy học, mà còn tất cả các số liệu thống kê, được coi là phương thức hình thức bình thường cho máy học. 

Điều khác - 

ZDNet: Bạn đang trên đà…

YL: - được gọi là mô hình tổng quát. Vì vậy, ý tưởng rằng bạn có thể học cách dự đoán và bạn có thể học được nhiều điều về thế giới bằng cách dự đoán. Vì vậy, tôi cung cấp cho bạn một đoạn video và tôi yêu cầu hệ thống dự đoán điều gì sẽ xảy ra tiếp theo trong video. Và tôi có thể yêu cầu bạn dự đoán khung hình video thực tế với tất cả các chi tiết. Nhưng những gì tôi tranh luận trong bài báo là điều đó thực sự quá nhiều để hỏi và quá phức tạp. Và đây là điều mà tôi đã thay đổi suy nghĩ của mình. Cho đến khoảng hai năm trước, tôi từng là người ủng hộ cái mà tôi gọi là mô hình sinh biến tiềm ẩn, mô hình dự đoán điều gì sẽ xảy ra tiếp theo hoặc thông tin bị thiếu, có thể với sự trợ giúp của một biến tiềm ẩn, nếu dự đoán không thể xác định. Và tôi đã từ bỏ điều này. Và lý do tôi từ bỏ điều này là dựa trên kết quả thực nghiệm, nơi mọi người đã cố gắng áp dụng, sắp xếp, dự đoán hoặc đào tạo dựa trên xây dựng lại loại được sử dụng trong BERTvà các mô hình ngôn ngữ lớn, họ đã cố gắng áp dụng điều này vào hình ảnh, và đó là một thất bại hoàn toàn. Và lý do khiến nó thất bại hoàn toàn, một lần nữa, vì những hạn chế của các mô hình xác suất, nơi tương đối dễ dàng dự đoán các mã thông báo rời rạc như các từ vì chúng ta có thể tính toán phân phối xác suất cho tất cả các từ trong từ điển. Thật dễ dàng. Nhưng nếu chúng ta yêu cầu hệ thống tạo ra phân phối xác suất trên tất cả các khung hình video có thể có, chúng ta không biết cách tham số hóa nó hoặc chúng ta có một số ý tưởng về cách tham số hóa nó, nhưng chúng ta không biết cách chuẩn hóa nó. Nó đánh vào một vấn đề toán học khó giải mà chúng ta không biết làm thế nào để giải quyết. 

yann-lecun-sept-2022-3

Lecun nhận xét: “Chúng ta chưa đến mức mà những cỗ máy thông minh của chúng ta có nhiều nhận thức thông thường như một con mèo. “Vậy, tại sao chúng ta không bắt đầu ở đó? Điều gì cho phép một con mèo nắm bắt thế giới xung quanh, làm những việc khá thông minh, lập kế hoạch và những thứ như vậy, và những con chó thậm chí còn tốt hơn? ”

Vì vậy, đó là lý do tại sao tôi nói chúng ta hãy từ bỏ lý thuyết xác suất hoặc khuôn khổ cho những thứ tương tự, cái yếu hơn, các mô hình dựa trên năng lượng. Tôi cũng đã ủng hộ điều này trong nhiều thập kỷ, vì vậy đây không phải là chuyện gần đây. Nhưng đồng thời, từ bỏ ý tưởng về các mô hình tổng quát vì có rất nhiều điều trên thế giới không thể hiểu được và không thể dự đoán được. Nếu bạn là một kỹ sư, bạn gọi nó là tiếng ồn. Nếu bạn là một nhà vật lý, bạn gọi nó là nhiệt. Và nếu bạn là một người học máy, bạn biết đó là những chi tiết không liên quan hoặc bất cứ điều gì.

Vì vậy, ví dụ tôi đã sử dụng trong bài báo, hoặc tôi đã sử dụng trong các cuộc nói chuyện, là bạn muốn một hệ thống dự đoán thế giới có thể giúp ích cho một chiếc xe tự lái, phải không? Nó muốn có thể dự đoán trước quỹ đạo của tất cả những chiếc xe khác, điều gì sẽ xảy ra với những vật thể khác có thể di chuyển, người đi bộ, xe đạp, một đứa trẻ đang chạy theo một quả bóng đá, những thứ tương tự. Vì vậy, tất cả mọi thứ về thế giới. Nhưng giáp đường có thể có cây, hôm nay có gió nên lá lay động theo gió, đằng sau rặng cây có ao, trong ao có gợn sóng. Và về cơ bản, đó là những hiện tượng không thể đoán trước được. Và, bạn không muốn mô hình của mình tiêu tốn một lượng lớn tài nguyên để dự đoán những thứ vừa khó dự đoán vừa không liên quan. Vì vậy, đó là lý do tại sao tôi ủng hộ kiến ​​trúc nhúng chung, đó là những thứ mà biến mà bạn đang cố gắng lập mô hình, bạn không cố gắng dự đoán nó, bạn đang cố lập mô hình nó, nhưng nó chạy qua một bộ mã hóa, và bộ mã hóa đó có thể loại bỏ rất nhiều chi tiết về đầu vào không liên quan hoặc quá phức tạp - về cơ bản, tương đương với nhiễu.

ZDNet: Đầu năm nay chúng ta đã thảo luận về các mô hình dựa trên năng lượng, JEPA và H-JEPA. Cảm giác của tôi, nếu tôi hiểu bạn chính xác, bạn đang tìm ra điểm năng lượng thấp nơi hai dự đoán về nhúng X và Y giống nhau nhất, có nghĩa là nếu có một con chim bồ câu trên cây và có một cái gì đó trong nền của một cảnh, những điểm đó có thể không phải là những điểm thiết yếu làm cho những phần nhúng này gần nhau.

YL: Đúng. Vì vậy, kiến ​​trúc JEPA thực sự cố gắng tìm ra một sự cân bằng, một sự thỏa hiệp, giữa việc trích xuất các biểu diễn cung cấp thông tin tối đa về các đầu vào nhưng cũng có thể dự đoán được từ nhau với một số mức độ chính xác hoặc độ tin cậy. Nó tìm thấy một sự đánh đổi. Vì vậy, nếu nó có sự lựa chọn giữa việc sử dụng một lượng lớn tài nguyên bao gồm các chi tiết về chuyển động của lá, và sau đó mô hình hóa động lực học sẽ quyết định cách lá chuyển động trong một giây kể từ bây giờ, hoặc chỉ thả nó xuống sàn bằng về cơ bản chỉ cần chạy biến Y thông qua một công cụ dự đoán loại bỏ tất cả các chi tiết đó, nó có thể sẽ chỉ loại bỏ nó vì quá khó để lập mô hình và nắm bắt.

ZDNet: Một điều ngạc nhiên là bạn đã từng là người đề xuất tuyệt vời khi nói rằng "Nó hoạt động, sau này chúng ta sẽ tìm ra lý thuyết nhiệt động lực học để giải thích nó." Ở đây bạn đã thực hiện một cách tiếp cận, "Tôi không biết chúng ta sẽ nhất thiết phải giải quyết vấn đề này như thế nào, nhưng tôi muốn đưa ra một số ý tưởng để suy nghĩ về nó," và thậm chí có thể tiếp cận một lý thuyết hoặc một giả thuyết, tại ít nhất. Điều đó thật thú vị bởi vì có rất nhiều người chi nhiều tiền làm việc trên chiếc xe có thể nhìn thấy người đi bộ bất kể chiếc xe đó có thông thường hay không. Và tôi tưởng tượng một số người trong số những người đó sẽ, không bị đánh dấu, nhưng họ sẽ nói, “Tốt thôi, chúng tôi không quan tâm nếu nó không có ý thức chung, chúng tôi đã xây dựng một mô phỏng, mô phỏng thật tuyệt vời, và chúng tôi sẽ tiếp tục cải thiện, chúng tôi sẽ tiếp tục mở rộng mô phỏng. ” 

Và thật thú vị khi bây giờ bạn có thể nói rằng, hãy lùi lại một bước và suy nghĩ về những gì chúng ta đang làm. Và ngành công nghiệp đang nói rằng chúng tôi sẽ mở rộng quy mô, quy mô, quy mô, quy mô, bởi vì tay quay đó thực sự hoạt động. Ý tôi là, tay quay bán dẫn của GPU thực sự hoạt động.

YL: Có, giống như, năm câu hỏi ở đó. Vì vậy, ý tôi là, việc mở rộng quy mô là cần thiết. Tôi không chỉ trích việc chúng ta nên mở rộng quy mô. Chúng ta nên mở rộng quy mô. Những mạng lưới thần kinh đó trở nên tốt hơn khi chúng lớn hơn. Không có câu hỏi nào chúng ta nên mở rộng quy mô. Và những cái sẽ có một số mức độ thông thường sẽ lớn. Tôi nghĩ là không có cách nào để giải quyết vấn đề đó. Vì vậy, việc mở rộng quy mô là tốt, cần thiết nhưng chưa đủ. Đó là điểm tôi đang làm. Nó không chỉ là mở rộng quy mô. Đó là điểm đầu tiên. 

Điểm thứ hai, liệu lý thuyết có trước hay không và những thứ như thế. Vì vậy, tôi nghĩ rằng có những khái niệm xuất hiện trước tiên rằng, bạn phải lùi lại một bước và nói, được rồi, chúng tôi đã xây dựng chiếc thang này, nhưng chúng tôi muốn lên mặt trăng và không đời nào chiếc thang này đưa chúng tôi đến đó. Vì vậy, về cơ bản, những gì tôi đang viết ở đây là, chúng ta cần chế tạo tên lửa. Tôi không thể cung cấp cho bạn chi tiết về cách chúng tôi chế tạo tên lửa, nhưng đây là những nguyên tắc cơ bản. Và tôi không viết một lý thuyết cho nó hay bất cứ thứ gì, nhưng, nó sẽ trở thành một tên lửa, được chứ? Hoặc thang máy không gian hoặc bất cứ thứ gì. Chúng tôi có thể không có tất cả các chi tiết của tất cả các công nghệ. Chúng tôi đang cố gắng làm cho một số trong số những thứ đó hoạt động, giống như tôi đang làm việc trên JEPA. Nhúng chung hoạt động thực sự tốt để nhận dạng hình ảnh, nhưng để sử dụng nó để đào tạo một mô hình thế giới, có những khó khăn. Chúng tôi đang làm việc trên nó, chúng tôi hy vọng chúng tôi sẽ làm cho nó hoạt động soon, nhưng chúng tôi có thể gặp một số trở ngại ở đó mà chúng tôi không thể vượt qua, có thể. 

Sau đó, có một ý tưởng chính trong bài báo về lập luận, trong đó nếu chúng ta muốn các hệ thống có thể lập kế hoạch, mà bạn có thể coi như một dạng lập luận đơn giản, chúng cần phải có các biến tiềm ẩn. Nói cách khác, những thứ không được tính toán bởi bất kỳ mạng nơron nào mà là những thứ - có giá trị được suy ra để giảm thiểu một số hàm mục tiêu, một số hàm chi phí. Và sau đó bạn có thể sử dụng hàm chi phí này để điều khiển hành vi của hệ thống. Và đây không phải là một ý tưởng mới, phải không? Đây là cách điều khiển tối ưu, rất cổ điển mà cơ sở của điều này bắt nguồn từ cuối những năm 50, đầu những năm 60. Vì vậy, không yêu cầu bất kỳ tính mới ở đây. Nhưng những gì tôi đang nói là kiểu suy luận này phải là một phần của một hệ thống thông minh có khả năng lập kế hoạch và hành vi của nó có thể được chỉ định hoặc kiểm soát không phải bởi một hành vi được mô tả cứng, không phải bằng cách bắt chước, mà bởi một chức năng khách quan thúc đẩy hành vi - không nhất thiết thúc đẩy việc học, nhưng nó thúc đẩy hành vi. Bạn biết đấy, chúng ta có điều đó trong não của mình, và mọi loài động vật đều có chi phí nội tại hoặc động cơ nội tại cho mọi thứ. Điều đó khiến những đứa trẻ chín tháng tuổi muốn đứng lên. Chi phí hạnh phúc khi bạn đứng lên, thuật ngữ đó trong hàm chi phí được kết nối chặt chẽ. Nhưng bạn đứng lên như thế nào thì không, đó là học.

yann-lecun-sept-2022-4

LeCun về các mô hình ngôn ngữ khổng lồ như các chương trình dựa trên Transformer của loại GPT-3 cho biết: “Chia tỷ lệ là tốt, cần nhưng chưa đủ. Các nhà phát triển của Transformer tin rằng, "Chúng tôi mã hóa mọi thứ và đào tạocác mô hình để đưa ra các dự đoán rời rạc và bằng cách nào đó AI sẽ xuất hiện từ điều này… nhưng tôi nghĩ nó đang thiếu những phần thiết yếu. ”

ZDNet: Chỉ để làm tròn điểm đó, phần lớn cộng đồng học sâu dường như vẫn ổn khi tiếp tục với một điều gì đó không có ý nghĩa thông thường. Có vẻ như bạn đang đưa ra một lập luận khá rõ ràng ở đây rằng đến một lúc nào đó, nó sẽ trở thành một sự bế tắc. Một số người nói rằng chúng ta không cần một chiếc ô tô tự lái với suy nghĩ thông thường bởi vì việc mở rộng quy mô sẽ làm được điều đó. Có vẻ như bạn đang nói rằng sẽ không ổn nếu cứ tiếp tục đi theo con đường đó?

YL: Bạn biết đấy, tôi nghĩ hoàn toàn có khả năng chúng ta sẽ có những chiếc xe tự hành cấp XNUMX mà không có ý thức chung. Nhưng vấn đề với cách tiếp cận này, điều này sẽ chỉ là tạm thời, bởi vì bạn sẽ phải thiết kế ra cái quái gì đó. Vì vậy, bạn biết đấy, lập bản đồ toàn bộ thế giới, xác định rõ ràng tất cả các loại hành vi của từng trường hợp cụ thể, thu thập đủ dữ liệu mà bạn có tất cả các tình huống kỳ lạ mà bạn có thể gặp phải trên đường, blah, blah, blah. Và tôi đoán là với đủ đầu tư và thời gian, bạn có thể hoàn thành công việc của mình. Nhưng cuối cùng, sẽ có một giải pháp thỏa mãn hơn và có thể tốt hơn liên quan đến các hệ thống thực hiện tốt hơn công việc hiểu cách thức hoạt động của thế giới, và bạn biết đấy, ở một mức độ nào đó mà chúng ta gọi là lẽ thường. Đó không cần phải là kiến ​​thức thông thường ở cấp độ con người, mà là một số loại kiến ​​thức mà hệ thống có thể thu được bằng cách quan sát, nhưng không quan sát ai đó lái xe, chỉ quan sát mọi thứ di chuyển xung quanh và hiểu nhiều điều về thế giới, xây dựng nền tảng cơ bản kiến thức về cách vận hành của thế giới, trên đó bạn có thể học lái xe. 

Hãy để tôi lấy một ví dụ lịch sử về điều này. Thị giác máy tính cổ điển dựa trên rất nhiều mô-đun được thiết kế sẵn, được thiết kế cứng, trên đó bạn sẽ có một lớp mỏng học hỏi. Vì vậy, những thứ đã bị AlexNet đánh bại vào năm 2012, về cơ bản có giai đoạn đầu tiên, loại, chiết xuất tính năng thủ công, như SIFTs [Scale-Invariant Feature Transform (SIFT), một kỹ thuật thị giác cổ điển để xác định các đối tượng nổi bật trong một hình ảnh] và HOG [Histogram of Oriented Gradients, một kỹ thuật cổ điển khác] và nhiều thứ khác. Và sau đó là lớp thứ hai của các tính năng cấp trung bình dựa trên các hạt nhân tính năng và bất cứ thứ gì, và một số loại phương pháp không được giám sát. Và trên hết, bạn đặt một máy vector hỗ trợ, hoặc một bộ phân loại tương đối đơn giản. Và đó là, đại loại là, đường ống tiêu chuẩn từ giữa những năm 2000 đến năm 2012. Và nó đã được thay thế bằng các mạng phức hợp end-to-end, nơi bạn không cần cố định bất kỳ điều gì trong số này, bạn chỉ có rất nhiều dữ liệu, và bạn huấn luyện mọi thứ từ đầu đến cuối, đó là cách tiếp cận mà tôi đã ủng hộ trong một thời gian dài, nhưng bạn biết đấy, cho đến lúc đó, không thực tế cho những vấn đề lớn. 

Có một câu chuyện tương tự trong nhận dạng giọng nói, một lần nữa, có một lượng lớn kỹ thuật chi tiết về cách bạn xử lý trước dữ liệu, bạn trích xuất cepstrum quy mô lớn [một nghịch đảo của Fast Fourier Transform để xử lý tín hiệu], và sau đó bạn có Mô hình Markov ẩn, với kiểu kiến ​​trúc được thiết lập sẵn, blah, blah, blah, với Mixture of Gaussians. Và do đó, nó có một chút kiến ​​trúc giống như tầm nhìn nơi bạn có giao diện người dùng được tạo thủ công, và sau đó là lớp trung gian có phần không được giám sát, được đào tạo và sau đó là lớp được giám sát ở trên cùng. Và bây giờ, về cơ bản, điều đó đã bị xóa sổ bởi các mạng lưới thần kinh đầu cuối. Vì vậy, tôi đang thấy một cái gì đó tương tự ở đó khi cố gắng tìm hiểu mọi thứ, nhưng bạn phải có đúng trước, kiến ​​trúc phù hợp, cấu trúc phù hợp.

yann-lecun-sept-2022-5

Ông nói, đám đông xe hơi tự lái, những công ty khởi nghiệp như Waymo và Wayve, đã “hơi lạc quan một chút”, khi nghĩ rằng họ có thể “ném dữ liệu vào đó, và bạn có thể học được khá nhiều thứ”. Có thể sử dụng ô tô tự lái ở Cấp độ 5 của ADAS, “Nhưng bạn sẽ phải chế tạo ra nó” và sẽ “giòn” như các mô hình thị giác máy tính ban đầu.

ZDNet: Những gì bạn đang nói là, một số người sẽ cố gắng thiết kế những gì hiện không hoạt động với học sâu để ứng dụng, chẳng hạn như trong ngành, và họ sẽ bắt đầu tạo ra thứ gì đó đã trở nên lỗi thời trong thị giác máy tính?

YL: Đúng. Và đó là một phần lý do tại sao những người làm việc về lái xe tự hành đã hơi quá lạc quan trong vài năm qua, là bởi vì bạn biết đấy, bạn có những thứ này, đại loại như những thứ chung chung như lưới phức tạp và Máy biến áp, mà bạn có thể ném dữ liệu vào đó , và nó có thể học được khá nhiều thứ. Vì vậy, bạn nói, Được rồi, tôi có giải pháp cho vấn đề đó. Điều đầu tiên bạn làm là xây dựng một bản demo mà chiếc xe tự lái trong vài phút mà không làm ai bị thương. Và sau đó bạn nhận ra rằng có rất nhiều trường hợp góc, và bạn cố gắng vẽ đường cong xem tôi đã tốt hơn bao nhiêu khi tôi tăng gấp đôi tập huấn luyện, và bạn nhận ra rằng bạn sẽ không bao giờ đạt được điều đó vì có đủ loại trường hợp góc . Và bạn cần phải có một chiếc xe sẽ gây ra tai nạn chết người dưới mỗi 200 triệu km, phải không? Vậy bạn làm gì? Vâng, bạn đi theo hai hướng. 

Hướng đầu tiên là, làm thế nào tôi có thể giảm lượng dữ liệu cần thiết để hệ thống của tôi học? Và đó là lúc học tập tự giám sát ra đời. Vì vậy, rất nhiều trang phục ô tô tự lái rất quan tâm đến việc học tự giám sát bởi vì đó là một cách vẫn sử dụng lượng dữ liệu giám sát khổng lồ cho việc học bắt chước, nhưng đạt được hiệu suất tốt hơn bằng cách về cơ bản là đào tạo trước. Và nó vẫn chưa được hoàn thiện, nhưng nó sẽ xảy ra. Và sau đó, có một lựa chọn khác, mà hầu hết các công ty tiên tiến hơn vào thời điểm này đã áp dụng, đó là, được rồi, chúng tôi có thể thực hiện đào tạo từ đầu đến cuối, nhưng có rất nhiều trường hợp khó khăn mà chúng tôi có thể làm ' không xử lý, vì vậy chúng tôi sẽ chỉ thiết kế các hệ thống sẽ xử lý các trường hợp góc đó, và về cơ bản, coi chúng như các trường hợp đặc biệt, và chỉnh sửa điều khiển, sau đó chỉnh sửa rất nhiều hành vi cơ bản để xử lý các tình huống đặc biệt. Và nếu bạn có một đội ngũ kỹ sư đủ lớn, bạn có thể thành công. Nhưng sẽ mất nhiều thời gian và cuối cùng, nó vẫn sẽ giòn một chút, có thể đủ tin cậy để bạn có thể triển khai, nhưng với một số mức độ giòn, với một cách tiếp cận dựa trên học tập hơn có thể xuất hiện trong trong tương lai, ô tô sẽ không có vì nó có thể có một số mức độ thông thường và hiểu biết về cách thế giới vận hành. 

Trong ngắn hạn, cách tiếp cận được thiết kế riêng sẽ giành chiến thắng - nó đã thắng. Đó là Waymo và Cruise of the world và Wayvevà bất cứ điều gì, đó là những gì họ làm. Sau đó, có phương pháp học tập tự giám sát, có thể sẽ giúp phương pháp tiếp cận được thiết kế để đạt được tiến bộ. Nhưng sau đó, về lâu dài, có thể là quá lâu để các công ty đó chờ đợi, có lẽ sẽ là một hệ thống lái xe thông minh tự động được tích hợp nhiều hơn.

ZDNet: Chúng tôi nói rằng ngoài tầm nhìn đầu tư của hầu hết các nhà đầu tư.

YL: Đúng rồi. Vì vậy, câu hỏi đặt ra là mọi người sẽ mất kiên nhẫn hoặc hết tiền trước khi hiệu suất đạt được mức mong muốn.

ZDNet: Có điều gì thú vị để nói về lý do tại sao bạn chọn một số yếu tố bạn đã chọn trong mô hình không? Bởi vì bạn trích dẫn Kenneth Craik [1943,Bản chất của sự giải thích], và bạn trích dẫn Bryson và Ho [1969, Đã áp dụng kiểm soát tối ưu], và tôi tò mò về lý do tại sao bạn bắt đầu với những ảnh hưởng này, nếu bạn đặc biệt tin rằng những người này đã đóng đinh nó xa như những gì họ đã làm. Tại sao bạn lại bắt đầu ở đó?

YL: Chà, tôi không nghĩ chắc chắn là họ đã đóng đinh tất cả các chi tiết. Vì vậy, Bryson và Ho, đây là cuốn sách tôi đã đọc vào năm 1987 khi tôi làm postdoc với Geoffrey Hinton ở Toronto. Nhưng tôi đã biết trước về dòng công việc này khi tôi viết bài Tiến sĩ của mình, và về cơ bản, mối liên hệ giữa kiểm soát tối ưu và backprop. Nếu bạn thực sự muốn trở thành, bạn biết đấy, một Schmidhuber khác, bạn sẽ nói rằng những nhà phát minh thực sự của backprop thực sự là các nhà lý thuyết điều khiển tối ưu Henry J. Kelley, Arthur Bryson, và có lẽ thậm chí là Lev Pontryagin, một nhà lý thuyết người Nga về điều khiển tối ưu trở lại vào cuối những năm 50. 

Vì vậy, họ đã tìm ra nó, và trên thực tế, bạn thực sự có thể thấy gốc rễ của điều này, toán học bên dưới nó, là cơ học Lagrangian. Vì vậy, bạn có thể quay lại Euler và Lagrange, và thực sự tìm thấy một chút điều này trong định nghĩa của họ về cơ học cổ điển Lagrang. Vì vậy, trong bối cảnh điều khiển tối ưu, điều mà những kẻ này quan tâm về cơ bản là tính toán quỹ đạo tên lửa. Bạn biết đấy, đây là thời đại không gian ban đầu. Và nếu bạn có một mô hình tên lửa, nó cho bạn biết đây là trạng thái của tên lửa tại thời điểm tvà đây là hành động tôi sẽ thực hiện, do đó, lực đẩy và cơ cấu truyền động các loại, đây là trạng thái của tên lửa tại thời điểm t + 1.

ZDNet: Một mô hình hành động trạng thái, một mô hình giá trị.

YL: Đúng vậy, cơ sở của sự kiểm soát. Vì vậy, bây giờ bạn có thể mô phỏng việc bắn tên lửa của mình bằng cách tưởng tượng một chuỗi lệnh và sau đó bạn có một số hàm chi phí, đó là khoảng cách của tên lửa đến mục tiêu, trạm vũ trụ hoặc bất cứ thứ gì. Và sau đó bằng một số kiểu giảm dần độ dốc, bạn có thể tìm ra cách tôi có thể cập nhật trình tự hành động của mình để tên lửa của tôi thực sự đến gần mục tiêu nhất có thể. Và điều đó phải đến bằng cách truyền ngược tín hiệu ngược thời gian. Và đó là lan truyền ngược, lan truyền ngược gradient. Những tín hiệu đó, chúng được gọi là biến liên hợp trong cơ học Lagrangian, nhưng trên thực tế, chúng là gradient. Vì vậy, họ đã phát minh ra backprop, nhưng họ không nhận ra rằng nguyên tắc này có thể được sử dụng để đào tạo một hệ thống nhiều giai đoạn có thể thực hiện nhận dạng mẫu hoặc một cái gì đó tương tự. Điều này đã không thực sự được thực hiện cho đến cuối những năm 70, đầu những năm 80, và sau đó nó không thực sự được thực hiện và hoạt động cho đến giữa những năm 80. Được rồi, vì vậy, đây là nơi backprop thực sự, đại loại, đã thành công bởi vì mọi người đã cho thấy đây là một vài dòng mã mà bạn có thể đào tạo một mạng thần kinh, kết thúc, đa lớp. Và điều đó giải quyết những hạn chế của Perceptron. Và, vâng, có các kết nối với khả năng kiểm soát tối ưu, nhưng không sao cả.

ZDNet: Vì vậy, đó là một cách nói dài dòng rằng những ảnh hưởng mà bạn bắt đầu có được sẽ trở lại backprop, và đó có phải là điểm khởi đầu quan trọng đối với bạn?

YL: Vâng, nhưng tôi nghĩ mọi người đã quên một chút về điều này, bạn biết đấy, có khá nhiều công việc về vấn đề này, bạn biết đấy, trở lại những năm 90 hoặc thậm chí là những năm 80, bao gồm cả những người như Michael Jordan [MIT Dept. of Brain và Khoa học nhận thức] và những người như thế không sử dụng mạng thần kinh nữa, nhưng có ý tưởng rằng bạn có thể sử dụng mạng thần kinh để kiểm soát và bạn có thể sử dụng các ý tưởng cổ điển về điều khiển tối ưu. Vì vậy, những thứ như cái được gọi là kiểm soát dự đoán theo mô hình, cái mà bây giờ được gọi là kiểm soát dự đoán theo mô hình, ý tưởng này mà bạn có thể mô phỏng hoặc tưởng tượng kết quả của một chuỗi hành động nếu bạn có một mô hình hệ thống tốt mà bạn đang cố gắng kiểm soát và môi trường mà nó đang ở. Và sau đó bằng cách giảm dần độ dốc, về cơ bản - đây không phải là học, đây là suy luận - bạn có thể tìm ra chuỗi hành động tốt nhất sẽ giảm thiểu mục tiêu của tôi. Vì vậy, việc sử dụng hàm chi phí với một biến tiềm ẩn để suy luận, theo tôi, là điều mà các loại cây trồng hiện tại của lưới thần kinh quy mô lớn đã quên mất. Nhưng nó là một thành phần rất cổ điển của học máy trong một thời gian dài. Vì vậy, mọi Bayesian Net hoặc mô hình đồ họa hoặc mô hình đồ họa xác suất đều sử dụng kiểu suy luận này. Bạn có một mô hình nắm bắt sự phụ thuộc giữa một loạt các biến, bạn được cho biết giá trị của một số biến và sau đó bạn phải suy ra giá trị có khả năng xảy ra nhất của các biến còn lại. Đó là nguyên tắc cơ bản của suy luận trong mô hình đồ họa và Bayesian Nets, và những thứ tương tự. Và tôi nghĩ về cơ bản đó là những gì lý luận nên có, lý luận và lập kế hoạch.

ZDNet: Bạn là một Bayesian tủ quần áo.

YL: Tôi là một Bayesian không theo xác suất. Tôi đã làm trò đùa đó trước đây. Tôi thực sự đã ở NeurIPS cách đây vài năm, tôi nghĩ đó là vào năm 2018 hoặc 2019, và tôi đã bị một người Bayesian quay video, người hỏi tôi liệu tôi có phải là người Bayesian không, và tôi nói, Vâng, tôi là người Bayes, nhưng tôi là một Bayesian phi xác suất, đại loại là Bayesian dựa trên năng lượng, nếu bạn muốn. 

ZDNet: Điều đó chắc chắn giống như một cái gì đó từ Star Trek. Bạn đã đề cập trong phần cuối của bài báo này, sẽ mất nhiều năm làm việc chăm chỉ để nhận ra những gì bạn hình dung. Hãy cho tôi biết một số công việc đó hiện tại bao gồm những gì.

YL: Vì vậy, tôi giải thích cách bạn đào tạo và xây dựng JEPA trong bài báo. Và tiêu chí mà tôi đang ủng hộ là có một số cách tối đa hóa nội dung thông tin mà các đại diện được trích xuất có về đầu vào. Và sau đó điều thứ hai là giảm thiểu lỗi dự đoán. Và nếu bạn có một biến tiềm ẩn trong công cụ dự đoán cho phép biến dự báo không xác định, bạn cũng phải điều chỉnh biến tiềm ẩn này bằng cách giảm thiểu nội dung thông tin của nó. Vì vậy, bạn có hai vấn đề bây giờ, đó là cách bạn tối đa hóa nội dung thông tin của đầu ra của một mạng nơron nào đó và vấn đề còn lại là làm cách nào để bạn giảm thiểu nội dung thông tin của một số biến tiềm ẩn? Và nếu bạn không làm hai điều đó, hệ thống sẽ sụp đổ. Nó sẽ không học được bất cứ điều gì thú vị. Nó sẽ không cung cấp năng lượng cho mọi thứ, một cái gì đó tương tự, đó không phải là một mô hình phụ thuộc tốt. Đó là vấn đề ngăn chặn sự sụp đổ mà tôi đề cập. 

Và tôi đang nói về tất cả những điều mà mọi người đã từng làm, chỉ có hai loại phương pháp để ngăn chặn sự sụp đổ. Một là các phương pháp đối lập, và một là các phương pháp chính quy. Vì vậy, ý tưởng tối đa hóa nội dung thông tin của các đại diện của hai đầu vào và tối thiểu hóa nội dung thông tin của biến tiềm ẩn, thuộc về các phương pháp chính quy. Nhưng rất nhiều công việc trong các kiến ​​trúc nhúng chung đó đang sử dụng các phương pháp tương phản. Trên thực tế, chúng có lẽ là phổ biến nhất tại thời điểm này. Vì vậy, câu hỏi chính xác là làm thế nào để bạn đo lường nội dung thông tin theo cách mà bạn có thể tối ưu hóa hoặc giảm thiểu? Và đó là nơi mọi thứ trở nên phức tạp bởi vì chúng ta thực sự không biết cách đo lường nội dung thông tin. Chúng ta có thể ước lượng nó, chúng ta có thể giới hạn trên, chúng ta có thể làm những điều như thế. Nhưng chúng không thực sự đo lường nội dung thông tin, mà trên thực tế, ở một mức độ nào đó thậm chí còn không được xác định rõ ràng.

ZDNet: Đó không phải là Định luật Shannon? Đó không phải là lý thuyết thông tin? Bạn có một lượng entropy nhất định, entropy tốt và entropy xấu, và entropy tốt là một hệ thống ký hiệu hoạt động, entropy xấu là nhiễu. Tất cả không phải do Shannon giải quyết sao?

YL: Bạn nói đúng, nhưng có một lỗ hổng lớn đằng sau đó. Bạn đúng theo nghĩa là nếu bạn có dữ liệu đến với bạn và bằng cách nào đó bạn có thể lượng hóa dữ liệu thành các ký hiệu rời rạc, và sau đó bạn đo xác suất của mỗi ký hiệu đó, thì lượng thông tin tối đa được mang bởi các ký hiệu đó là tổng hợp các ký hiệu có thể có của số Pi log, bên phải? Ở đâu Pi là xác suất của ký hiệu tôi - đó là entropy Shannon. [Định luật Shannon thường được xây dựng dưới dạng H = - ∑ pi log pi.]

Tuy nhiên, đây là vấn đề: Pi? Thật dễ dàng khi số lượng ký hiệu ít và các ký hiệu được vẽ độc lập. Khi có nhiều biểu tượng và phụ thuộc, điều đó rất khó. Vì vậy, nếu bạn có một chuỗi các bit và bạn giả sử các bit độc lập với nhau và xác suất bằng nhau giữa một và không hoặc bất cứ điều gì, thì bạn có thể dễ dàng đo entropy, không vấn đề gì. Nhưng nếu những thứ đến với bạn là vectơ chiều cao, như, bạn biết đấy, khung dữ liệu hoặc thứ gì đó tương tự, thì Pi? Phân phối là gì? Đầu tiên bạn phải lượng tử hóa không gian đó, đó là một không gian liên tục, có chiều cao. Bạn không biết làm thế nào để định lượng điều này một cách chính xác. Bạn có thể sử dụng k-means, v.v. Đây là những gì mọi người làm khi họ nén video và nén hình ảnh. Nhưng nó chỉ là một sự gần đúng. Và sau đó bạn phải đưa ra các giả định về sự độc lập. Vì vậy, rõ ràng là trong một video, các khung hình liên tiếp không độc lập. Có những phụ thuộc và khung đó có thể phụ thuộc vào một khung khác mà bạn đã thấy một giờ trước, đó là một bức tranh của cùng một thứ. Vì vậy, bạn biết đấy, bạn không thể đo lường Pi. Cân đo Pi, bạn phải có một hệ thống máy học học cách dự đoán. Và như vậy bạn đang quay lại vấn đề trước đó. Vì vậy, về cơ bản, bạn chỉ có thể ước tính số đo thông tin. 

yann-lecun-sept-2022-6

“Câu hỏi chính là làm cách nào để bạn đo lường nội dung thông tin theo cách mà bạn có thể tối ưu hóa hoặc giảm thiểu?” LeCun nói. “Và đó là lúc mọi thứ trở nên phức tạp bởi vì chúng tôi thực sự không biết cách đo lường nội dung thông tin”. Điều tốt nhất có thể được thực hiện cho đến nay là tìm một proxy "đủ tốt cho nhiệm vụ mà chúng tôi muốn."

Hãy để tôi lấy một ví dụ cụ thể hơn. Một trong những thuật toán mà chúng tôi đã thử và tôi đã nói đến trong phần này, thứ này được gọi là VICReg, chính quy phương sai-bất biến-hiệp phương sai. Nó nằm trong một bài báo riêng được xuất bản tại ICLR, và nó đã được đưa vào arXiv khoảng một năm trước, năm 2021. Và ý tưởng ở đó là tối đa hóa thông tin. Và ý tưởng thực sự xuất phát từ một bài báo trước đó của nhóm tôi có tên là cặp song sinh Barlow. Về cơ bản, bạn tối đa hóa nội dung thông tin của một vectơ ra khỏi mạng nơron bằng cách giả định rằng sự phụ thuộc duy nhất giữa các biến là tương quan, phụ thuộc tuyến tính. Vì vậy, nếu bạn giả định rằng sự phụ thuộc duy nhất có thể có giữa các cặp biến hoặc giữa các biến trong hệ thống của bạn, là mối tương quan giữa các cặp giá trị, là giá trị gần đúng cực kỳ thô, thì bạn có thể tối đa hóa nội dung thông tin ra khỏi hệ thống của mình bằng cách đảm bảo rằng tất cả các biến đều có phương sai khác XNUMX - giả sử, phương sai một, không quan trọng nó là gì - và sau đó tương quan ngược lại chúng, cùng một quá trình được gọi là làm trắng, nó cũng không phải là mới. Vấn đề với điều này là bạn rất có thể có những phụ thuộc cực kỳ phức tạp giữa một trong hai nhóm biến hoặc thậm chí chỉ là các cặp biến không phải là phụ thuộc tuyến tính và chúng không hiển thị trong các mối tương quan. Vì vậy, ví dụ, nếu bạn có hai biến và tất cả các điểm của hai biến đó xếp hàng theo hình xoắn ốc nào đó, thì có một sự phụ thuộc rất mạnh giữa hai biến đó, phải không? Nhưng trên thực tế, nếu bạn tính toán mối tương quan giữa hai biến đó, chúng không tương quan với nhau. Vì vậy, đây là một ví dụ mà nội dung thông tin của hai biến này thực sự rất nhỏ, nó chỉ là một đại lượng vì đó là vị trí của bạn trong vòng xoắn. Chúng không tương quan với nhau, vì vậy bạn nghĩ rằng bạn có nhiều thông tin đến từ hai biến đó trong khi thực tế thì không, bạn chỉ có, bạn biết đấy, về cơ bản bạn có thể dự đoán một trong các biến từ biến kia. Vì vậy, điều đó cho thấy rằng chúng ta chỉ có những cách rất gần đúng để đo lường nội dung thông tin.

ZDNet: Và đó là một trong những điều mà bạn phải làm bây giờ với cái này? Đây là câu hỏi lớn hơn làm sao chúng ta biết được khi nào chúng ta đang tối đa hóa và giảm thiểu nội dung thông tin?

YL:  Hoặc liệu proxy chúng tôi đang sử dụng cho việc này có đủ tốt cho tác vụ mà chúng tôi muốn hay không. Trên thực tế, chúng tôi làm điều này mọi lúc trong học máy. Các hàm chi phí mà chúng tôi giảm thiểu không bao giờ là những hàm mà chúng tôi thực sự muốn giảm thiểu. Vì vậy, ví dụ, bạn muốn thực hiện phân loại, được không? Hàm chi phí bạn muốn giảm thiểu khi đào tạo bộ phân loại là số lỗi mà bộ phân loại đang mắc phải. Nhưng đó là một hàm chi phí kinh khủng, không thể phân biệt được mà bạn không thể giảm thiểu vì bạn biết rằng bạn sẽ thay đổi trọng lượng của mạng thần kinh của mình, sẽ không có gì thay đổi cho đến khi một trong những mẫu đó đưa ra quyết định và sau đó là một bước nhảy trong lỗi, tích cực hoặc tiêu cực.

ZDNet: Vì vậy, bạn có một proxy là một hàm mục tiêu mà bạn chắc chắn có thể nói rằng, chúng tôi chắc chắn có thể tạo dòng chuyển màu của thứ này.

YL: Đúng rồi. Vì vậy, mọi người sử dụng sự mất mát entropy chéo này, hoặc SOFTMAX, bạn có một số tên cho nó, nhưng nó giống nhau. Và về cơ bản, nó là một phép gần đúng về số lỗi mà hệ thống tạo ra, về cơ bản, việc xử lý được thực hiện bằng cách tính đến điểm mà hệ thống cho từng hạng mục.

ZDNet: Có điều gì chúng tôi chưa đề cập mà bạn muốn đề cập không?

YL: Nó có lẽ đang nhấn mạnh những điểm chính. Tôi nghĩ rằng các hệ thống AI cần phải có khả năng suy luận và quy trình cho điều này mà tôi đang ủng hộ là giảm thiểu một số mục tiêu liên quan đến một số biến tiềm ẩn. Điều đó cho phép các hệ thống lập kế hoạch và lập luận. Tôi nghĩ chúng ta nên từ bỏ khuôn khổ xác suất bởi vì nó khó thực hiện khi chúng ta muốn làm những việc như nắm bắt sự phụ thuộc giữa các biến liên tục, chiều cao. Và tôi đang ủng hộ việc từ bỏ các mô hình tổng quát vì hệ thống sẽ phải dành quá nhiều tài nguyên để dự đoán những thứ quá khó dự đoán và có thể tiêu tốn quá nhiều tài nguyên. Và đó là khá nhiều. Đó là những thông điệp chính, nếu bạn muốn. Và sau đó là kiến ​​trúc tổng thể. Sau đó, có những suy đoán về bản chất của ý thức và vai trò của người cấu hình, nhưng đây thực sự là suy đoán.

ZDNet: Chúng tôi sẽ đến đó vào lần sau. Tôi sẽ hỏi bạn, làm thế nào để bạn đánh giá thứ này? Nhưng tôi đoán bạn đang ở xa hơn một chút so với điểm chuẩn?

YL: Không nhất thiết phải là các phiên bản đơn giản, đại loại như vậy. Bạn có thể làm những gì mọi người làm trong quá trình học kiểm soát hoặc củng cố, đó là bạn huấn luyện cách chơi trò chơi Atari hoặc thứ gì đó tương tự hoặc một số trò chơi khác có một số điều không chắc chắn trong đó.

ZDNet: Cảm ơn bạn đã dành thời gian, Yann.

nguồn