'data2vec' ของ Meta เป็นขั้นตอนต่อไปสู่ ​​One Neural Network เพื่อควบคุมพวกเขาทั้งหมด

การแข่งขันกำลังดำเนินไปเพื่อสร้างโครงข่ายประสาทเทียมหนึ่งโครงข่ายที่สามารถประมวลผลข้อมูลได้หลายประเภท ซึ่งเป็นแนวคิดของปัญญาประดิษฐ์ทั่วไปที่ไม่แบ่งแยกประเภทข้อมูลแต่สามารถบีบอัดข้อมูลทั้งหมดภายในโครงสร้างพื้นฐานเดียวกันได้

ประเภทของโครงข่ายประสาทเทียมเหล่านี้เรียกว่า ประเภทของเครือข่ายประสาทเทียมเหล่านี้เรียกว่า เห็นกิจกรรมที่วุ่นวายซึ่งข้อมูลต่างๆ เช่น รูปภาพ ข้อความ และเสียงพูด ถูกส่งผ่านอัลกอริธึมเดียวกันเพื่อสร้างคะแนนในการทดสอบต่างๆ เช่น การจดจำภาพ ความเข้าใจภาษาธรรมชาติ หรือการตรวจจับคำพูด

และเครือข่ายที่ตีสองหน้าเหล่านี้กำลังรวบรวมคะแนนในการทดสอบเกณฑ์มาตรฐานของ AI ความสำเร็จล่าสุดคือสิ่งที่เรียกว่า "data2vec" ซึ่งพัฒนาโดยนักวิจัยจากแผนก AI ของ Meta ซึ่งเป็นบริษัทแม่ของ Facebook, Instagram และ WhatsApp 

ประเด็นที่นักวิทยาศาสตร์ของ Meta, Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu และ Michael Auli เขียน คือการเข้าหาสิ่งที่คล้ายกับความสามารถในการเรียนรู้ทั่วไปที่จิตใจมนุษย์ดูเหมือนจะล้อมรอบ

“ในขณะที่คนดูเรียนรู้ในลักษณะเดียวกันโดยไม่คำนึงถึงว่าพวกเขาได้รับข้อมูลอย่างไร – ไม่ว่าพวกเขาจะใช้สายตาหรือเสียงเป็นต้น” ผู้เขียนเขียน ในโพสต์บล็อก, "ในปัจจุบันมีความแตกต่างกันอย่างมากในแนวทาง" โครงข่ายประสาทเทียมจัดการกับข้อมูลประเภทต่างๆ เช่น รูปภาพ คำพูด ข้อความ "และรูปแบบอื่นๆ"

"แนวคิดหลักของแนวทางนี้" พวกเขาประกาศจาก data2vec "คือการเรียนรู้โดยทั่วไปมากขึ้น: AI ควรจะสามารถเรียนรู้ที่จะทำงานต่างๆ มากมาย รวมถึงงานที่ไม่คุ้นเคยโดยสิ้นเชิง"

Mark Zuckerberg ซีอีโอของ Meta ได้เสนอราคาเกี่ยวกับงานนี้โดยเชื่อมโยงกับ Metaverse ในอนาคต:

ความก้าวหน้าที่น่าตื่นเต้น: การวิจัย Meta AI สร้างระบบที่เรียนรู้จากคำพูด การมองเห็น และข้อความโดยไม่ต้องระบุข้อมูลการฝึกอบรม ผู้คนสัมผัสโลกผ่านการผสมผสานของภาพ เสียง และคำพูด และระบบเช่นนี้ในวันหนึ่งอาจเข้าใจโลกอย่างที่เราทำ ทั้งหมดนี้จะถูกติดตั้งในแว่นตา AR พร้อมด้วยผู้ช่วย AI ตัวอย่างเช่น มันสามารถช่วยให้คุณทำอาหารเย็นได้ โดยสังเกตว่าคุณพลาดส่วนผสมไป ทำให้คุณลดความร้อนลง หรือทำงานที่ซับซ้อนมากขึ้น

ชื่อ data2vec เป็นการเล่นชื่อโปรแกรมสำหรับภาษา “embedding” พัฒนาที่ Google ในปี 2013 เรียกว่า “word2vec” โปรแกรมนั้นทำนายว่าคำรวมกลุ่มกันอย่างไร ดังนั้น word2vec จึงเป็นตัวแทนของโครงข่ายประสาทเทียมที่ออกแบบมาสำหรับประเภทข้อมูลเฉพาะ ในกรณีนี้คือข้อความ 

นอกจากนี้: เปิดประตูพอดเบย์ได้โปรด HAL: AI ของ Meta จำลองการอ่านริมฝีปาก

ในกรณีของ data2vec Baevski และเพื่อนร่วมงานกำลังใช้ Transformer เวอร์ชันมาตรฐานซึ่งพัฒนาโดย Ashish Vaswani และเพื่อนร่วมงาน ที่ Google ในปี 2017 และขยายการใช้งานสำหรับข้อมูลหลายประเภท 

โครงข่ายประสาท Transformer เดิมได้รับการพัฒนาสำหรับงานด้านภาษา แต่ได้รับการดัดแปลงอย่างกว้างขวางในช่วงหลายปีที่ผ่านมาสำหรับข้อมูลหลายประเภท Baevski และคณะ แสดงให้เห็นว่า Transformer สามารถใช้ในการประมวลผลข้อมูลหลายประเภทโดยไม่ต้องเปลี่ยนแปลง และโครงข่ายประสาทเทียมที่ผ่านการฝึกอบรมซึ่งผลลัพธ์สามารถทำงานที่แตกต่างกันได้หลายอย่าง 

ในเอกสารทางการ “data2vec: กรอบการทำงานทั่วไปสำหรับการเรียนรู้ด้วยตนเองในคำพูด วิสัยทัศน์ และภาษา” Baevski et al. ฝึก Transformer สำหรับข้อมูลภาพ รูปคลื่นเสียงพูด และการแสดงภาษาข้อความ 

Data2vec เป็น "อัลกอริธึมที่ควบคุมตนเองที่มีประสิทธิภาพสูงตัวแรกซึ่งทำงานได้หลายรูปแบบ ได้แก่ คำพูด การมองเห็น และข้อความ" Baevski และทีมงานเขียนไว้ในบล็อกโพสต์

Transformer ทั่วไปกลายเป็นสิ่งที่เรียกว่า pre-training ซึ่งสามารถนำไปใช้กับโครงข่ายประสาทเทียมเฉพาะเพื่อทำงานเฉพาะได้ ตัวอย่างเช่น ผู้เขียนใช้ data2vec เป็นการฝึกอบรมล่วงหน้าเพื่อจัดเตรียมสิ่งที่เรียกว่า "ViT" หรือ "vision Transformer" ซึ่งเป็นโครงข่ายประสาทเทียมที่ออกแบบมาเฉพาะสำหรับงานด้านการมองเห็นที่ เปิดตัวเมื่อปีที่แล้ว โดย Alexey Dosovitskiy และเพื่อนร่วมงานที่ Google 

meta-2022-data2vec-scores-on-vit-test.jpg

Meta แสดงคะแนนสูงสุดสำหรับการแข่งขันการรับรู้ภาพ ImageNet ที่เคารพ


เป้าหมาย 2022

เมื่อใช้กับ ViT เพื่อพยายามแก้ปัญหาการทดสอบการจดจำภาพมาตรฐาน ImageNet ผลลัพธ์ของพวกเขามาที่ด้านบนสุดของแพ็คโดยมีความแม่นยำ 84.1% ดีกว่าคะแนน 83.2% ที่ได้รับจากทีม Microsoft ที่ฝึกอบรมล่วงหน้า ViT นำโดย Hangbo Bao ปีก่อน.

และ data2vec Transformer แบบเดียวกันก็ให้ผลลัพธ์ที่ล้ำสมัยสำหรับการรู้จำคำพูดและแข่งขันได้หากไม่ใช่สิ่งที่ดีที่สุดสำหรับการเรียนรู้ภาษาธรรมชาติ:

ผลการทดลองแสดงให้เห็นว่า data2vec มีประสิทธิภาพในทั้งสามรูปแบบ กำหนดสถานะใหม่ของ ViT-B และ ViT-L บน ImageNet-1K ปรับปรุงการทำงานที่ดีที่สุดก่อนหน้าในการประมวลผลเสียงพูดในการรู้จำเสียงพูดและประสิทธิภาพเทียบเท่า RoBERTa เกี่ยวกับเกณฑ์มาตรฐานการทำความเข้าใจภาษาธรรมชาติของ GLUE 

ประเด็นสำคัญคือสิ่งนี้กำลังเกิดขึ้นโดยไม่มีการแก้ไขใดๆ ของโครงข่ายประสาทเทียมให้เกี่ยวกับรูปภาพ และเช่นเดียวกันสำหรับคำพูดและข้อความ แต่อินพุตทุกประเภทจะเข้าสู่เครือข่ายเดียวกัน และกำลังดำเนินงานทั่วไปแบบเดียวกันให้เสร็จสิ้น งานนั้นเป็นงานเดียวกันกับที่เครือข่าย Transformer ใช้เสมอ เรียกว่า "การคาดคะเนที่สวมหน้ากาก" 

นอกจากนี้: ซูเปอร์โมเดลของ Google: DeepMind Perceiver เป็นก้าวแรกสู่เครื่อง AI ที่สามารถประมวลผลได้ทุกอย่าง

อย่างไรก็ตาม วิธีที่ data2vec ทำการทำนายแบบสวมหน้ากากนั้นเป็นแนวทางที่เรียกว่าการเรียนรู้แบบ "ควบคุมตนเอง" ในสภาพแวดล้อมที่ควบคุมตนเองได้ โครงข่ายประสาทเทียมจะได้รับการฝึกหรือพัฒนาขึ้นโดยต้องผ่านหลายขั้นตอน 

ขั้นแรก เครือข่ายสร้างการแสดงความน่าจะเป็นร่วมกันของการป้อนข้อมูล ไม่ว่าจะเป็นภาพ คำพูด หรือข้อความ จากนั้น เครือข่ายรุ่นที่สองมีรายการข้อมูลอินพุตบางรายการ "ถูกปิดบัง" ที่ยังไม่ถูกเปิดเผย จะต้องสร้างความน่าจะเป็นร่วมกันขึ้นใหม่ซึ่งรุ่นแรกของเครือข่ายสร้างขึ้น ซึ่งบังคับให้สร้างการแสดงข้อมูลที่ดีขึ้นและดีขึ้นโดยการกรอกข้อมูลลงในช่องว่างเป็นหลัก 

meta-2022-data2vec-network-architecture.jpg

ภาพรวมของแนวทาง data2vec


เป้าหมาย 2022

เครือข่ายทั้งสอง เครือข่ายที่มีรูปแบบความน่าจะเป็นร่วมกันแบบเต็ม และเครือข่ายที่มีเวอร์ชันไม่สมบูรณ์ที่พยายามทำให้สมบูรณ์ เรียกว่า "ครู" และ "นักเรียน" อย่างสมเหตุสมผล เครือข่ายนักเรียนพยายามที่จะพัฒนาความรู้สึกของข้อมูล ถ้าคุณต้องการ โดยการสร้างสิ่งที่ครูทำสำเร็จแล้วขึ้นใหม่

คุณสามารถ ดูรหัสสำหรับรุ่นบน Github.

โครงข่ายประสาทเทียมทำหน้าที่ของครูและนักเรียนสำหรับข้อมูลสามประเภทที่แตกต่างกันมากอย่างไร กุญแจสำคัญคือ "เป้าหมาย" ของความน่าจะเป็นร่วมกันในทั้งสามกรณีข้อมูล ไม่ใช่ประเภทข้อมูลเอาต์พุตเฉพาะ เช่นเดียวกับใน Transformer เวอร์ชันสำหรับประเภทข้อมูลเฉพาะ เช่น BERT ของ Google หรือ GPT-3 ของ OpenAI . 

แต่ data2vec กำลังจับชั้นเครือข่ายประสาทเทียมบางตัวที่เป็น ภายใน โครงข่ายประสาทเทียม (neural network) ซึ่งอยู่ตรงกลาง ซึ่งเป็นตัวแทนของข้อมูลก่อนที่จะสร้างเป็นผลลัพธ์สุดท้ายทุกครั้ง 

ตามที่ผู้เขียนเขียนว่า “หนึ่งในความแตกต่างหลัก ๆ ของวิธีการของเรา […] นอกเหนือจากการคาดคะเนแบบสวมหน้ากาก คือการใช้เป้าหมายที่อิงจากการเฉลี่ยหลายชั้นจากเครือข่ายครู” โดยเฉพาะอย่างยิ่ง "เราลดการแสดงเลเยอร์เครือข่ายประสาทเทียมหลายตัวแทนที่จะเป็นเพียงชั้นบนสุด" เพื่อให้ "data2vec คาดการณ์การแสดงแฝงของข้อมูลอินพุต"

พวกเขาเสริมว่า "โดยทั่วไปเราใช้เอาต์พุตของ FFN [feed-forward network] ก่อนการเชื่อมต่อที่เหลือสุดท้ายในแต่ละบล็อกเป็นเป้าหมาย" โดยที่ "บล็อก" เป็น Transformer ที่เทียบเท่ากับเลเยอร์โครงข่ายประสาทเทียม

ประเด็นก็คือว่าข้อมูลทุกประเภทที่เข้าไปจะกลายเป็นความท้าทายเดียวกันสำหรับเครือข่ายนักเรียนในการสร้างบางสิ่งภายในโครงข่ายประสาทที่ครูสร้างขึ้นใหม่

ค่าเฉลี่ยนี้แตกต่างจากวิธีการล่าสุดในการสร้าง One Network To Crunch All Data ตัวอย่างเช่น เมื่อฤดูร้อนที่แล้ว หน่วย DeepMind ของ Google ได้เสนอสิ่งที่เรียกว่า "Perceiver" ซึ่งเป็นเวอร์ชันหลายรูปแบบของ Transformer การฝึกอบรมเครือข่ายประสาทเทียมของ Perceiver เป็นกระบวนการที่มีมาตรฐานมากขึ้นในการผลิตเอาต์พุตซึ่งเป็นคำตอบสำหรับงานที่มีป้ายกำกับและอยู่ภายใต้การดูแล เช่น ImageNet ในแนวทางการดูแลตนเอง data2vec ไม่ได้ใช้เลเบลเหล่านั้น มันแค่พยายามสร้างการแสดงข้อมูลภายในของเครือข่ายใหม่ 

ความพยายามที่ทะเยอทะยานยิ่งกว่านั้นอยู่ในปีก ในเดือนตุลาคม เจฟฟ์ ดีน หัวหน้าฝ่าย AI ของ Google ได้ล้อเลียนเกี่ยวกับ “เส้นทาง” ซึ่งคณบดีอ้างว่าเป็น “สถาปัตยกรรม AI รุ่นต่อไป” สำหรับการประมวลผลข้อมูลหลายรูปแบบ

โปรดทราบว่าวิธีการทั่วไปของ data2vec กับโครงข่ายประสาทเดียวสำหรับหลายรังสียังคงมีข้อมูลมากมายเกี่ยวกับประเภทข้อมูลที่แตกต่างกัน รูปภาพ คำพูด และข้อความทั้งหมดถูกจัดเตรียมโดยการประมวลผลข้อมูลล่วงหน้า ด้วยวิธีนี้ เครือข่ายหลายรูปแบบยังคงอาศัยเบาะแสเกี่ยวกับข้อมูล สิ่งที่ทีมเรียกว่า

นอกจากนี้: Google เปิดตัว 'Pathways' ซึ่งเป็น AI รุ่นต่อไปที่สามารถฝึกฝนให้ทำงานหลายอย่างได้

“ทั้งๆ ที่ระบบการเรียนรู้แบบรวมศูนย์ เรายังคงใช้ตัวแยกคุณลักษณะเฉพาะโมเดอเรชันและกลยุทธ์การปกปิด” พวกเขาอธิบาย

ดังนั้นเราจึงยังไม่อยู่ในโลกที่มีการฝึกอบรมโครงข่ายประสาทโดยไม่มีความรู้สึกใด ๆ เกี่ยวกับประเภทข้อมูลที่ป้อนเข้า เรายังไม่ได้อยู่ในจุดที่โครงข่ายประสาทเทียมสามารถสร้างการแทนแบบเดียวที่รวมประเภทข้อมูลที่แตกต่างกันทั้งหมด เพื่อให้โครงข่ายประสาทเรียนรู้สิ่งต่าง ๆ ร่วมกัน

ข้อเท็จจริงนั้นชัดเจนจากการแลกเปลี่ยนระหว่าง ZDNet และผู้เขียน ZDNet เอื้อมมือออกไปหา Baevski และทีมงานและถามว่า “การเป็นตัวแทนแฝงที่ทำหน้าที่เป็นเป้าหมายเป็นการเข้ารหัสแบบผสมผสานของทั้งสามรูปแบบในขั้นตอนใดช่วงเวลาหนึ่ง หรือโดยปกติสิ่งเหล่านี้เป็นเพียงหนึ่งในวิธีปฏิบัติเท่านั้น”

Baevski และทีมงานตอบว่าเป็นกรณีหลังและของพวกเขา reply เป็นที่น่าสนใจที่จะอ้างที่ความยาว:

ตัวแปรแฝงไม่ใช่การเข้ารหัสแบบรวมสำหรับสามรูปแบบ เราฝึกโมเดลแยกกันสำหรับกิริยาแต่ละแบบ แต่กระบวนการที่โมเดลเรียนรู้นั้นเหมือนกัน นี่เป็นนวัตกรรมหลักของโครงการของเรา เนื่องจากก่อนหน้านี้มีความแตกต่างอย่างมากในวิธีการฝึกอบรมแบบจำลองในรูปแบบต่างๆ นักประสาทวิทยายังเชื่อว่ามนุษย์เรียนรู้ในลักษณะเดียวกันเกี่ยวกับเสียงและโลกภาพ โครงการของเราแสดงให้เห็นว่าการเรียนรู้ด้วยตนเองสามารถทำงานในลักษณะเดียวกันสำหรับรูปแบบต่างๆ

ด้วยข้อจำกัดเฉพาะโมดาลิตีของ data2vec โครงข่ายประสาทเทียมที่อาจเป็นจริงได้ เครือข่ายเดียวที่จะปกครองพวกเขาทั้งหมด ยังคงเป็นเทคโนโลยีแห่งอนาคต

แหล่ง