Meta 'data2vec' là bước tiếp theo hướng tới Một mạng thần kinh để cai trị tất cả

Cuộc đua đang diễn ra để tạo ra một mạng nơ-ron có thể xử lý nhiều loại dữ liệu, khái niệm về trí tuệ nhân tạo tổng quát hơn không phân biệt loại dữ liệu mà thay vào đó có thể kết hợp tất cả chúng trong cùng một cấu trúc cơ bản.

Thể loại đa phương thức, như những mạng nơ-ron này được gọi, đang chứng kiến ​​một loạt hoạt động trong đó dữ liệu khác nhau, chẳng hạn như hình ảnh, văn bản và âm thanh giọng nói, được chuyển qua cùng một thuật toán để tạo ra điểm số trong các bài kiểm tra khác nhau, chẳng hạn như nhận dạng hình ảnh, hiểu ngôn ngữ tự nhiên hoặc phát hiện giọng nói.

Và các mạng thuận cả hai tay này đang nâng cao điểm số trong các bài kiểm tra điểm chuẩn của AI. Thành tựu mới nhất được gọi là 'data2vec', được phát triển bởi các nhà nghiên cứu tại bộ phận AI của Meta, công ty mẹ của Facebook, Instagram và WhatsApp. 

Theo như các nhà khoa học của Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu và Michael Auli, viết là tiếp cận một cái gì đó giống như khả năng học tập chung mà tâm trí con người bao hàm.

“Mặc dù mọi người dường như học theo cách giống nhau bất kể họ lấy thông tin bằng cách nào - ví dụ: cho dù họ sử dụng thị giác hay âm thanh,” các tác giả viết trong một bài đăng blog, “Hiện có sự khác biệt lớn trong cách” mạng nơ-ron xử lý các loại dữ liệu khác nhau như hình ảnh, giọng nói, văn bản, “và các phương thức khác”.

“Ý tưởng cốt lõi của cách tiếp cận này,” họ tuyên bố về data2vec, “là để học một cách tổng quát hơn: AI sẽ có thể học cách làm nhiều nhiệm vụ khác nhau, kể cả những nhiệm vụ hoàn toàn không quen thuộc.”

Giám đốc điều hành của Meta, Mark Zuckerberg, đã đưa ra một trích dẫn về tác phẩm, gắn nó với một Metaverse trong tương lai:

Bước đột phá thú vị: Nghiên cứu Meta AI đã xây dựng một hệ thống học từ giọng nói, tầm nhìn và văn bản mà không cần dữ liệu đào tạo được gắn nhãn. Con người trải nghiệm thế giới thông qua sự kết hợp của thị giác, âm thanh và lời nói, và những hệ thống như thế này một ngày nào đó có thể hiểu thế giới theo cách chúng ta làm. Tất cả điều này cuối cùng sẽ được tích hợp vào kính AR với trợ lý AI, chẳng hạn, nó có thể giúp bạn nấu bữa tối, để ý xem bạn có bỏ sót một nguyên liệu nào không, nhắc bạn giảm nhiệt hoặc các tác vụ phức tạp hơn.

Tên data2vec là cách chơi tên của một chương trình cho ngôn ngữ “nhúng” được phát triển tại Google vào năm 2013 được gọi là "word2vec." Chương trình đó đã dự đoán cách các từ tập hợp lại với nhau, và vì vậy word2vec nó đại diện cho một mạng nơ-ron được thiết kế cho một loại dữ liệu cụ thể, trong trường hợp đó là văn bản. 

Ngoài ra: Vui lòng mở cửa khoang chứa vỏ máy, HAL: AI của Meta mô phỏng đọc nhép môi

Tuy nhiên, trong trường hợp của data2vec, Baevski và các đồng nghiệp đang sử dụng phiên bản tiêu chuẩn của cái được gọi là Transformer, được phát triển bởi Ashish Vaswani và các đồng nghiệp tại Google vào năm 2017 và mở rộng nó để được sử dụng cho nhiều kiểu dữ liệu. 

Mạng nơ-ron Transformer ban đầu được phát triển cho các tác vụ ngôn ngữ, nhưng nó đã được điều chỉnh rộng rãi trong nhiều năm kể từ đó cho nhiều loại dữ liệu. Baevski và cộng sự. cho thấy rằng Máy biến áp có thể được sử dụng để xử lý nhiều loại dữ liệu mà không bị thay đổi và mạng nơ-ron được đào tạo mà kết quả có thể thực hiện trên nhiều tác vụ khác nhau. 

Trong bài báo chính thức, “data2vec: Khuôn khổ chung cho việc học tự giám sát bằng giọng nói, tầm nhìn và ngôn ngữ, ”Baevski và cộng sự, đào tạo Transformer cho dữ liệu hình ảnh, dạng sóng âm thanh giọng nói và biểu diễn ngôn ngữ văn bản. 

Data2vec là “thuật toán tự giám sát hiệu suất cao đầu tiên hoạt động cho nhiều phương thức, cụ thể là giọng nói, tầm nhìn và văn bản”, Baevski và nhóm viết trong bài đăng trên blog.

Transformer rất chung chung trở thành thứ được gọi là đào tạo trước, sau đó có thể được áp dụng cho các mạng nơ-ron cụ thể để thực hiện các nhiệm vụ cụ thể. Ví dụ: các tác giả sử dụng data2vec như một khóa đào tạo trước để trang bị cái gọi là “ViT”, “Vision Transformer”, một mạng nơ-ron được thiết kế đặc biệt cho các nhiệm vụ về thị giác. đã được giới thiệu vào năm ngoái của Alexey Dosovitskiy và các đồng nghiệp tại Google. 

meta-2022-data2vec-Score-on-vit-test.jpg

Meta hiển thị điểm số cao nhất cho cuộc thi nhận dạng hình ảnh ImageNet đáng kính.


Meta 2022

Khi được sử dụng trên ViT để giải quyết bài kiểm tra ImageNet tiêu chuẩn về nhận dạng hình ảnh, kết quả của họ đứng đầu bảng, với độ chính xác là 84.1%, cao hơn so với điểm số 83.2% mà một nhóm tại Microsoft đã đào tạo trước đó nhận được. ViT, dẫn bởi Hangbo Bao, năm ngoái.

Và cùng một Data2vec Transformer đầu ra các kết quả hiện đại để nhận dạng giọng nói và có tính cạnh tranh, nếu không muốn nói là tốt nhất, cho việc học ngôn ngữ tự nhiên:

Kết quả thử nghiệm cho thấy data2vec hoạt động hiệu quả ở cả ba phương thức, thiết lập một trạng thái mới cho ViT-B và ViT-L trên ImageNet-1K, cải thiện so với công việc tốt nhất trước đây trong xử lý giọng nói trên nhận dạng giọng nói và hoạt động ngang bằng với RoBERTa trên tiêu chuẩn hiểu ngôn ngữ tự nhiên GLUE. 

Điểm mấu chốt là điều này đang diễn ra mà không có bất kỳ sự sửa đổi nào đối với mạng nơ-ron về hình ảnh cũng như đối với giọng nói và văn bản. Thay vào đó, mọi loại đầu vào đều đi vào cùng một mạng và đang hoàn thành cùng một nhiệm vụ chung. Nhiệm vụ đó giống với nhiệm vụ mà mạng Biến áp luôn sử dụng, được gọi là "dự đoán được che giấu". 

Ngoài ra: Siêu mẫu của Google: DeepMind Perceiver là một bước trên con đường trở thành một cỗ máy AI có thể xử lý mọi thứ và mọi thứ

Tuy nhiên, cách data2vec thực hiện dự đoán được che giấu là một cách tiếp cận được gọi là học “tự giám sát”. Trong môi trường tự giám sát, mạng nơ-ron được đào tạo hoặc phát triển bằng cách phải trải qua nhiều giai đoạn. 

Đầu tiên, mạng xây dựng một biểu diễn xác suất chung của dữ liệu đầu vào, có thể là hình ảnh hoặc lời nói hoặc văn bản. Sau đó, phiên bản thứ hai của mạng có một số mục dữ liệu đầu vào “bị che khuất”, không được tiết lộ. Nó phải xây dựng lại xác suất chung mà phiên bản đầu tiên của mạng đã xây dựng, điều này buộc nó phải tạo ra các biểu diễn dữ liệu ngày càng tốt hơn bằng cách điền vào các ô trống về cơ bản. 

meta-2022-data2vec-network-architecture.jpg

Tổng quan về cách tiếp cận data2vec.


Meta 2022

Hai mạng, mạng có đầy đủ mẫu xác suất chung và mạng có phiên bản chưa hoàn thiện mà nó đang cố gắng hoàn thành, được gọi là “Giáo viên” và “Học sinh”. Nếu bạn muốn, mạng Sinh viên cố gắng phát triển ý thức của nó về dữ liệu bằng cách tái tạo lại những gì Giáo viên đã đạt được.

Bạn có thể xem mã cho các mô hình trên Github.

Mạng nơ-ron hoạt động như thế nào đối với Giáo viên và Học sinh đối với ba loại dữ liệu rất khác nhau? Điều quan trọng là "mục tiêu" của xác suất chung, trong cả ba trường hợp dữ liệu, không phải là một kiểu dữ liệu đầu ra cụ thể, như trường hợp trong các phiên bản của Máy biến áp cho một kiểu dữ liệu cụ thể, chẳng hạn như BERT của Google hoặc GPT-3 của OpenAI . 

Thay vào đó, data2vec đang lấy một số lớp mạng nơ-ron trong mạng nơ-ron, ở đâu đó ở giữa, đại diện cho dữ liệu trước khi nó được tạo ra như một đầu ra cuối cùng. 

Như các tác giả viết, “Một trong những điểm khác biệt chính của phương pháp của chúng tôi […] ngoài việc thực hiện dự đoán được che giấu, là việc sử dụng các mục tiêu dựa trên việc lấy trung bình nhiều lớp từ mạng giáo viên.” Cụ thể, “chúng tôi hồi quy nhiều biểu diễn lớp mạng nơ-ron thay vì chỉ lớp trên cùng,” để “data2vec dự đoán các biểu diễn tiềm ẩn của dữ liệu đầu vào”.

Họ nói thêm, “Chúng tôi thường sử dụng đầu ra của FFN [mạng chuyển tiếp] trước kết nối còn lại cuối cùng trong mỗi khối làm đích”, trong đó “khối” là Transformer tương đương với lớp mạng nơ-ron.

Vấn đề là mọi kiểu dữ liệu đi vào đều trở thành thách thức giống nhau đối với mạng Sinh viên trong việc tái tạo lại một thứ bên trong mạng nơ-ron mà Giáo viên đã tạo ra.

Mức trung bình này khác với các cách tiếp cận gần đây khác để xây dựng Một mạng để tập hợp tất cả dữ liệu. Ví dụ: vào mùa hè năm ngoái, đơn vị DeepMind của Google đã cung cấp cái mà họ gọi là “Máy thu phát”, phiên bản đa phương thức của Transformer. Việc đào tạo mạng nơ-ron của Máy thu phát là quy trình tiêu chuẩn hơn để tạo ra đầu ra là câu trả lời cho nhiệm vụ được gắn nhãn, được giám sát như ImageNet. Trong phương pháp tự giám sát, data2vec không sử dụng các nhãn đó mà chỉ đang cố gắng tái tạo lại phần trình bày dữ liệu bên trong của mạng. 

Những nỗ lực thậm chí còn nhiều tham vọng nằm trong đôi cánh. Jeff Dean, người đứng đầu các nỗ lực AI của Google, vào tháng XNUMX đã trêu chọc về “Pathways”, những gì Dean tuyên bố là “kiến trúc AI thế hệ tiếp theo”Để xử lý dữ liệu đa phương thức.

Xin lưu ý bạn, cách tiếp cận rất chung chung của data2vec đối với một mạng nơ ron duy nhất cho nhiều phương thức vẫn có rất nhiều thông tin về các kiểu dữ liệu khác nhau. Hình ảnh, lời nói và văn bản đều được chuẩn bị bằng cách xử lý trước dữ liệu. Theo cách đó, khía cạnh đa phương thức của mạng vẫn dựa vào manh mối về dữ liệu, cái mà nhóm gọi là “bộ mã hóa đầu vào dành riêng cho phương thức nhỏ”.

Ngoài ra: Google tiết lộ 'Pathways', một AI thế hệ tiếp theo có thể được đào tạo để đa nhiệm

Họ giải thích: “Bất chấp chế độ học tập thống nhất, chúng tôi vẫn sử dụng các công cụ trích xuất tính năng và chiến lược tạo mặt nạ dành riêng cho từng phương thức.

Do đó, chúng ta vẫn chưa ở trong một thế giới mà mạng nơ-ron được đào tạo mà không cần biết đến bất kỳ kiểu dữ liệu đầu vào nào. Chúng ta cũng không ở thời điểm nào khi mạng nơ-ron có thể xây dựng một biểu diễn kết hợp tất cả các kiểu dữ liệu khác nhau, để mạng nơ-ron học mọi thứ kết hợp.

Sự thật đó được làm rõ ràng từ cuộc trao đổi giữa ZDNet và các tác giả. ZDNet đã liên hệ với Baevski và nhóm và hỏi, "Các biểu diễn tiềm ẩn đóng vai trò là mục tiêu là mã hóa kết hợp của cả ba phương thức tại bất kỳ bước thời gian nhất định nào hay chúng thường chỉ là một trong các phương thức?"

Baevski và nhóm phản hồi rằng đó là trường hợp thứ hai, và reply rất thú vị khi trích dẫn dài:

Các biến tiềm ẩn không phải là một mã hóa kết hợp cho ba phương thức. Chúng tôi đào tạo các mô hình riêng biệt cho từng phương thức nhưng quy trình mà các mô hình học là giống hệt nhau. Đây là sự đổi mới chính trong dự án của chúng tôi vì trước đó có sự khác biệt lớn về cách các mô hình được đào tạo theo các phương thức khác nhau. Các nhà khoa học thần kinh cũng tin rằng con người học theo những cách tương tự về âm thanh và thế giới hình ảnh. Dự án của chúng tôi cho thấy rằng học tập tự giám sát cũng có thể hoạt động theo cách tương tự đối với các phương thức khác nhau.

Với những hạn chế cụ thể về phương thức của data2vec, một mạng nơ-ron thực sự có thể Một mạng để cai trị tất cả vẫn là công nghệ của tương lai.

nguồn