'Gato' ของ DeepMind นั้นธรรมดา แล้วทำไมพวกเขาถึงสร้างมันขึ้นมา?

deepmind-gato-slash-image-closer-in.png

โครงข่ายประสาทเทียม “Gato” ของ DeepMind นั้นยอดเยี่ยมในงานต่างๆ มากมาย รวมถึงการควบคุมแขนหุ่นยนต์ที่ซ้อนบล็อก เล่นเกม Atari 2600 และคำบรรยายภาพ


Deepmind

โลกคุ้นเคยกับการเห็นพาดหัวข่าวเกี่ยวกับการพัฒนาล่าสุดโดยรูปแบบการเรียนรู้เชิงลึกของปัญญาประดิษฐ์ อย่างไรก็ตาม ความสำเร็จล่าสุดของแผนก DeepMind ของ Google อาจสรุปได้ว่า "โปรแกรม AI หนึ่งโปรแกรมที่ทำงานได้ดีมากในหลายๆ สิ่ง" 

Gato ตามที่โปรแกรมของ DeepMind เรียกว่า ถูกเปิดเผยในสัปดาห์นี้ เป็นโปรแกรมที่เรียกว่า multimodal โปรแกรมที่สามารถเล่นวิดีโอเกม แชท เขียนเรียงความ รูปภาพคำบรรยาย และควบคุมบล็อกการซ้อนแขนหุ่นยนต์ เป็นโครงข่ายประสาทเทียมหนึ่งเครือข่ายที่สามารถทำงานกับข้อมูลหลายประเภทเพื่อทำงานหลายประเภท 

“ด้วยน้ำหนักเพียงชุดเดียว Gato สามารถมีส่วนร่วมในบทสนทนา รูปภาพคำบรรยาย สแต็คบล็อกด้วยแขนหุ่นยนต์จริง มีประสิทธิภาพเหนือกว่ามนุษย์ในการเล่นเกม Atari นำทางในสภาพแวดล้อม 3 มิติจำลอง ทำตามคำแนะนำ และอื่นๆ” ผู้เขียนนำ Scott Reed เขียน และเพื่อนร่วมงานในบทความ "A Generalist Agent" โพสต์บนเซิร์ฟเวอร์การพิมพ์ล่วงหน้าของ Arxiv

Demis Hassabis ผู้ร่วมก่อตั้ง DeepMind เชียร์ทีม อุทานในทวีต, “ตัวแทนทั่วไปที่สุดของเราเลย!! การทำงานที่ยอดเยี่ยมจากทีม!” 

นอกจากนี้: การทดลองใหม่: AI รู้จักแมวหรือสุนัขจริงๆ หรือ?

สิ่งเดียวที่จับได้คือ Gato ทำงานได้ไม่ดีนัก 

ในอีกด้านหนึ่ง โปรแกรมสามารถทำได้ดีกว่าโปรแกรมการเรียนรู้ของเครื่องโดยเฉพาะในการควบคุมแขนหุ่นยนต์ Sawyer ที่กองบล็อก ในทางกลับกัน มันสร้างคำบรรยายสำหรับภาพที่ในหลายกรณีค่อนข้างแย่ ความสามารถในการใช้บทสนทนามาตรฐานกับคู่สนทนาที่เป็นมนุษย์นั้นอยู่ในระดับปานกลาง บางครั้งก็ทำให้เกิดคำพูดที่ขัดแย้งและไร้สาระ 

และการเล่นวิดีโอเกม Atari 2600 นั้นต่ำกว่าโปรแกรม ML เฉพาะส่วนใหญ่ที่ออกแบบมาเพื่อแข่งขันในเกณฑ์มาตรฐาน สภาพแวดล้อมการเรียนรู้อาเขต

ทำไมคุณถึงสร้างโปรแกรมที่ทำบางสิ่งได้ค่อนข้างดีและอีกหลายอย่างทำงานได้ไม่ดีนัก แบบอย่างและความคาดหวังตามที่ผู้เขียน 

มีแบบอย่างสำหรับโปรแกรมประเภททั่วไปที่กลายเป็นความทันสมัยใน AI และมีความคาดหวังว่าพลังการประมวลผลที่เพิ่มขึ้นจำนวนมากในอนาคตจะชดเชยข้อบกพร่อง 

ลักษณะทั่วไปมีแนวโน้มที่จะมีชัยใน AI ตามที่ผู้เขียนกล่าวไว้ โดยอ้างถึง Richard Sutton นักวิชาการด้าน AI ว่า "ในอดีต โมเดลทั่วไปที่ใช้ประโยชน์จากการคำนวณได้ดีกว่า มีแนวโน้มที่จะแซงหน้าวิธีการเฉพาะโดเมนเฉพาะทางในที่สุด"

ตามที่ซัตตันเขียน ในบล็อกของเขาเอง, “บทเรียนที่ใหญ่ที่สุดที่สามารถอ่านได้จากการวิจัย AI กว่า 70 ปีคือวิธีการทั่วไปที่ใช้ประโยชน์จากการคำนวณนั้นท้ายที่สุดแล้วจะมีประสิทธิภาพมากที่สุดและด้วยอัตรากำไรที่มาก”

ทำวิทยานิพนธ์อย่างเป็นทางการ Reed และทีมงานเขียนว่า "ที่นี่เราทดสอบสมมติฐานที่ว่าการฝึกอบรมตัวแทนซึ่งโดยทั่วไปมีความสามารถในงานจำนวนมากเป็นไปได้ และตัวแทนทั่วไปนี้สามารถปรับได้ด้วยข้อมูลเพิ่มเติมเพียงเล็กน้อยเพื่อให้ประสบความสำเร็จในงานจำนวนมากขึ้น”

นอกจากนี้: LeCun ผู้ทรงคุณวุฒิ AI ของ Meta สำรวจพรมแดนด้านพลังงานของการเรียนรู้เชิงลึก

ในกรณีนี้ โมเดลนี้เป็นแบบทั่วไปจริงๆ เป็นเวอร์ชันของ Transformer ซึ่งเป็นโมเดลที่เน้นความสนใจเป็นหลัก ซึ่งได้กลายเป็นพื้นฐานของโปรแกรมต่างๆ มากมาย รวมถึง GPT-3 หม้อแปลงไฟฟ้าจำลองความน่าจะเป็นขององค์ประกอบบางอย่างที่กำหนดองค์ประกอบที่ล้อมรอบเช่นคำในประโยค 

ในกรณีของ Gato นักวิทยาศาสตร์ของ DeepMind สามารถใช้การค้นหาความน่าจะเป็นแบบมีเงื่อนไขเดียวกันกับข้อมูลหลายประเภท 

อย่างที่รีดและเพื่อนร่วมงานบรรยายภารกิจการฝึกกาโต้ 

ในระหว่างขั้นตอนการฝึกอบรมของ Gato ข้อมูลจากงานและรูปแบบต่างๆ จะถูกจัดลำดับเป็นลำดับของโทเค็น แบทช์ และประมวลผลโดยโครงข่ายประสาทเทียมที่คล้ายกับแบบจำลองภาษาขนาดใหญ่ การสูญเสียถูกปิดบังเพื่อให้ Gato คาดการณ์การกระทำและเป้าหมายข้อความเท่านั้น

กล่าวอีกนัยหนึ่ง Gato ไม่ได้ปฏิบัติต่อโทเค็นต่างกันไม่ว่าจะเป็นคำในการแชทหรือเวกเตอร์การเคลื่อนไหวในแบบฝึกหัดการบล็อก มันเหมือนกันหมด 

deepmind-how-gato-is-trained.png

สถานการณ์การฝึกอบรม Gato


รีดและคณะ 2022

การฝังอยู่ภายใน Reed และสมมติฐานของทีมเป็นผลสืบเนื่อง กล่าวคือ พลังการประมวลผลที่เพิ่มมากขึ้นจะชนะในที่สุด ตอนนี้ Gato ถูกจำกัดด้วยเวลาตอบสนองของแขนหุ่นยนต์ Sawyer ที่ทำบล็อกซ้อนกัน ที่ 1.18 พันล้านพารามิเตอร์เครือข่าย Gato มีขนาดเล็กกว่าโมเดล AI ที่มีขนาดใหญ่มาก เช่น GPT-3 อย่างมาก เมื่อโมเดลการเรียนรู้เชิงลึกมีขนาดใหญ่ขึ้น การดำเนินการอนุมานจะนำไปสู่เวลาแฝงที่อาจล้มเหลวในโลกที่ไม่ได้กำหนดไว้ของหุ่นยนต์ในโลกแห่งความเป็นจริง 

แต่ Reed และเพื่อนร่วมงานคาดหวังว่าขีดจำกัดดังกล่าวจะเกินขีดจำกัด เนื่องจากฮาร์ดแวร์ AI ประมวลผลเร็วขึ้น

"เรามุ่งเน้นการฝึกอบรมของเราที่จุดปฏิบัติการของมาตราส่วนแบบจำลองที่ช่วยให้สามารถควบคุมหุ่นยนต์ในโลกแห่งความเป็นจริงได้แบบเรียลไทม์ ซึ่งปัจจุบันมีพารามิเตอร์ประมาณ 1.2B ในกรณีของ Gato" พวกเขาเขียน “ในขณะที่สถาปัตยกรรมฮาร์ดแวร์และโมเดลมีการปรับปรุง จุดปฏิบัติการนี้จะเพิ่มขนาดโมเดลที่เป็นไปได้โดยธรรมชาติ ผลักดันโมเดลทั่วไปให้สูงขึ้นตามเส้นโค้งกฎหมายการสเกล”

ดังนั้น Gato จึงเป็นแบบจำลองสำหรับขนาดของการคำนวณที่จะยังคงเป็นเวกเตอร์หลักของการพัฒนาแมชชีนเลิร์นนิง โดยทำให้โมเดลทั่วไปใหญ่ขึ้นและใหญ่ขึ้น ใหญ่กว่าดีกว่าในคำอื่น ๆ 

deepmind-gets-better-with-scale.png

Gato จะดีขึ้นเมื่อขนาดของโครงข่ายประสาทเทียมในพารามิเตอร์เพิ่มขึ้น


รีดและคณะ 2022

และผู้เขียนมีหลักฐานบางอย่างสำหรับเรื่องนี้ Gato ดูเหมือนจะดีขึ้นเมื่อโตขึ้น พวกเขาเปรียบเทียบคะแนนเฉลี่ยในงานเปรียบเทียบทั้งหมดสำหรับโมเดลสามขนาดตามพารามิเตอร์ 79 ล้าน 364 ล้าน และรุ่นหลัก 1.18 พันล้าน ผู้เขียนเขียนว่า "เราสามารถเห็นได้ว่าสำหรับจำนวนโทเค็นที่เทียบเท่ากัน มีการปรับปรุงประสิทธิภาพที่สำคัญด้วยขนาดที่เพิ่มขึ้น" 

คำถามที่น่าสนใจในอนาคตคือ โปรแกรมที่เป็น Generalist นั้นอันตรายกว่าโปรแกรม AI แบบอื่นๆ หรือไม่ ผู้เขียนใช้เวลามากมายในบทความนี้เพื่อหารือเกี่ยวกับข้อเท็จจริงที่ว่ามีอันตรายที่อาจยังไม่เข้าใจดีนัก  

แนวคิดของโปรแกรมที่จัดการงานหลายอย่างทำให้คนทั่วไปรู้จักการปรับตัวของมนุษย์ แต่นั่นอาจเป็นความเข้าใจผิดที่เป็นอันตราย “ตัวอย่างเช่น รูปลักษณ์ทางกายภาพอาจนำไปสู่ผู้ใช้ที่เปลี่ยนแปลงเอเจนต์ นำไปสู่ความไว้วางใจที่ผิดที่ในกรณีที่ระบบทำงานผิดพลาด หรือถูกเอาเปรียบโดยผู้ไม่หวังดี” รี้ดและทีมเขียน 

“นอกจากนี้ แม้ว่าการถ่ายทอดความรู้ข้ามโดเมนมักเป็นเป้าหมายในการวิจัย ML แต่ก็สามารถสร้างผลลัพธ์ที่ไม่คาดคิดและไม่พึงประสงค์ได้ หากพฤติกรรมบางอย่าง (เช่น การต่อสู้ในเกมอาร์เคด) ถูกถ่ายโอนไปยังบริบทที่ไม่ถูกต้อง”

ดังนั้นพวกเขาจึงเขียนว่า "การพิจารณาด้านจริยธรรมและความปลอดภัยของการถ่ายทอดความรู้อาจจำเป็นต้องมีการวิจัยใหม่อย่างมากในขณะที่ระบบทั่วไปก้าวหน้า"

(เป็นบันทึกย่อที่น่าสนใจ เอกสารของ Gato ใช้รูปแบบเพื่ออธิบายความเสี่ยงที่ Margaret Michell อดีตนักวิจัยของ Google AI และเพื่อนร่วมงานเรียกว่า Model Cards การ์ดแบบจำลองให้ข้อมูลสรุปโดยสังเขปว่าโปรแกรม AI คืออะไร มันทำอะไร และอะไร ปัจจัยต่างๆ ที่ส่งผลต่อการทำงาน Michell เขียนเมื่อปีที่แล้วว่าเธอถูกบังคับให้ออกจาก Google เพื่อสนับสนุน Timnit Gebru อดีตเพื่อนร่วมงานของเธอ ผู้ซึ่งข้อกังวลด้านจริยธรรมเกี่ยวกับ AI นั้นขัดแย้งกับความเป็นผู้นำด้าน AI ของ Google)

Gato ไม่ได้มีลักษณะเฉพาะในแนวโน้มทั่วไป เป็นส่วนหนึ่งของแนวโน้มในวงกว้างไปสู่ลักษณะทั่วไป และรุ่นขนาดใหญ่ที่ใช้ถังแรงม้า โลกได้ลิ้มรสความเอียงของ Google เป็นครั้งแรกเมื่อฤดูร้อนปีที่แล้ว ด้วยโครงข่ายประสาทเทียม "ผู้รับรู้" ของ Google ที่รวมงาน Transformer ข้อความกับภาพ เสียง และพิกัดเชิงพื้นที่ LiDAR

นอกจากนี้: ซูเปอร์โมเดลของ Google: DeepMind Perceiver เป็นก้าวแรกสู่เครื่อง AI ที่สามารถประมวลผลได้ทุกอย่าง

ในหมู่เพื่อนฝูงคือ PaLM ซึ่งเป็นโมเดลภาษาของ Pathways เปิดตัวในปีนี้โดยนักวิทยาศาสตร์ของ Google, โมเดลพารามิเตอร์ 540 พันล้านที่ใช้เทคโนโลยีใหม่ในการประสานงานชิปนับพัน เรียกว่า Pathwaysที่คิดค้นขึ้นที่ Google ด้วย โครงข่ายประสาทเทียมที่เปิดตัวในเดือนมกราคมโดย Meta ซึ่งเรียกว่า “data2vec” ใช้ Transformers สำหรับข้อมูลภาพ รูปคลื่นเสียงพูด และการแสดงภาษาข้อความทั้งหมดในที่เดียว 

ดูเหมือนว่ามีอะไรใหม่เกี่ยวกับ Gato คือความตั้งใจที่จะนำ AI มาใช้สำหรับงานที่ไม่ใช่หุ่นยนต์และผลักดันเข้าสู่อาณาจักรหุ่นยนต์

ผู้สร้างของ Gato สังเกตเห็นความสำเร็จของ Pathways และแนวทางทั่วไปอื่นๆ มองเห็นความสำเร็จขั้นสูงสุดใน AI ที่สามารถทำงานได้ในโลกแห่งความเป็นจริง กับงานทุกประเภท 

“งานในอนาคตควรพิจารณาวิธีรวมความสามารถด้านข้อความเหล่านี้ให้เป็นหนึ่งตัวแทนทั่วไปอย่างสมบูรณ์ ซึ่งสามารถดำเนินการแบบเรียลไทม์ในโลกแห่งความเป็นจริง ในสภาพแวดล้อมและรูปลักษณ์ที่หลากหลาย” 

จากนั้น คุณอาจพิจารณา Gato เป็นขั้นตอนสำคัญบนเส้นทางในการแก้ปัญหาที่ยากที่สุดของ AI นั่นคือหุ่นยนต์ 



แหล่ง