OpenAI ใช้เงิน $160,000 ไปกับ Upwork สำหรับเกมเมอร์ Minecraft เพื่อฝึกโครงข่ายประสาท

งานหัตถกรรมเพชร-pickaxe

จากวิดีโอของ VPT ที่ใฝ่หาการสร้างพลั่วเพชรใน Minecraft โปรแกรมคอมพิวเตอร์บรรลุผลสำเร็จในสิบนาที ซึ่งใช้เวลาเพียงครึ่งเดียวของเวลาที่ผู้เล่นที่เป็นมนุษย์มีความชำนาญในการดำเนินการ

การควบคุม "เครื่องมือเพชร" ใน Minecraft สำคัญแค่ไหน?

สำคัญพอที่จะใช้จ่าย $160,000 ตาม OpenAI การเริ่มต้นปัญญาประดิษฐ์

นั่นคือจำนวนเงินที่ทีมของ OpenAI ใช้ในการจ้างผู้เล่น Minecraft บนแพลตฟอร์มรายการงานออนไลน์ Upwork เพื่อส่งวิดีโอของตัวเองที่เล่นเกม 

Amazon Prime Day 2022: ข้อเสนอก่อนใคร

In กระดาษเปิดเผย สัปดาห์นี้ "Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos" นักวิจัย OpenAI Bowen Baker และทีมงานได้บุกเบิกการใช้ชุดข้อมูลขนาดใหญ่เพื่อฝึกโครงข่ายประสาทเทียมเพื่อเลียนแบบการกดแป้นของมนุษย์เพื่อแก้ปัญหาต่างๆ ในวิดีโอ เกม. (บล็อกโพสต์ ยังได้โพสต์ โดย OpenAI.) 

โครงข่ายประสาทเทียมจำนวนมากได้พิชิตเกมประเภทต่างๆ ผ่านสิ่งที่เรียกว่าการเรียนรู้แบบเสริมกำลังในช่วงไม่กี่ปีที่ผ่านมา รวมถึง AlphaZero ของ DeepMind DeepMind ซึ่งเล่นหมากรุก โกะ และโชกิ และต่อมา มูเซโร่ โปรแกรมที่เพิ่มความสามารถในการจัดการกับเกมอาตาริ 

เบเกอร์และทีมต้องการพัฒนาโครงข่ายประสาทเทียมสำหรับสภาพแวดล้อมเกม "โลกเปิด" ที่ซับซ้อนยิ่งขึ้นของ Minecraft ซึ่งการกดแป้นหลาย ๆ ครั้งช่วยให้ผู้เล่นมีอิสระมากขึ้นกว่าในเกมหมากรุกหรือ Atari 

นอกจากนี้: AI ในหกสิบวินาที 

วรรณกรรมการวิจัยที่ผู้เขียนเขียนนั้นรวมถึง "งานจำนวนมหาศาล" ใน Minecraft พวกเขาเขียนว่างาน VPT นั้นมีเอกลักษณ์เฉพาะตัวสำหรับขอบเขตและขนาด: “เท่าที่เราทราบ ไม่มีงานตีพิมพ์ที่ทำงานในพื้นที่การกระทำของมนุษย์ทั้งหมดที่ไม่มีการแก้ไข ซึ่งรวมถึงการจัดการสินค้าคงคลังแบบลากแล้วปล่อยและ การประดิษฐ์สิ่งของ”

งานสร้างโครงข่ายประสาทเทียมที่เรียกว่า VPT เกิดขึ้นในสองขั้นตอน ขั้นตอนแรกต้องการผู้เล่นเกมหรือผู้รับเหมาซึ่งรวบรวมการเล่นเกม 4,500 ชั่วโมง ในเวลาต่อมานักวิจัยพบว่าพวกเขาต้องการเวลาเพียง 2,000 ชั่วโมงเท่านั้น

เบเกอร์และทีมงานอธิบายกระบวนการ:

เราเปิดรับสมัครเป็นเวลา 10 วัน จากนั้นจึงสุ่มเลือกผู้สมัคร 20 คนสำหรับผู้รับเหมารอบแรก ต่อมาในโครงการ เนื่องจากเราต้องการข้อมูลเพิ่มเติม และเนื่องจากผู้รับเหมาบางรายขอให้ยุติสัญญา เราจึงเพิ่มผู้สมัครจากกลุ่มเดิมรวมถึงการอ้างอิงจากผู้รับเหมาที่ทำงานอยู่ในปัจจุบันด้วย ผู้รับเหมาได้รับเงิน 4,500 เหรียญต่อชั่วโมง (หักค่าธรรมเนียมแพลตฟอร์ม Upwork และภาษีที่เกี่ยวข้อง) ผลลัพธ์ทั้งหมดที่นำเสนอในบทความนี้อ้างอิงจากข้อมูลประมาณ 90,000 ชั่วโมง (รวมถึงข้อมูลที่บันทึกเพื่อรวบรวมสถิติการเล่นของมนุษย์ที่ไม่ได้ใช้ในการฝึกซ้อม) ซึ่งมีค่าใช้จ่ายประมาณ 160 ดอลลาร์ ตลอดระยะเวลาของโปรเจ็กต์นี้ เรารวบรวมข้อมูลบางส่วนที่เราไม่ได้ใช้เนื่องจากบั๊กในตัวบันทึก และสำหรับแนวคิดบางอย่างที่เราไม่ได้ติดตามในท้ายที่สุด โดยรวมแล้ว เราใช้จ่ายประมาณ $4.6 สำหรับค่าตอบแทนผู้รับเหมาตลอดโครงการ อย่างไรก็ตาม ตามที่เราพูดถึงใน ก.ล.ต. 2000 เราน่าจะได้ผลลัพธ์ส่วนใหญ่ของเราด้วย IDM ที่ได้รับการฝึกอบรมโดยใช้ข้อมูลมูลค่าเพียง $8000 เช่น โมเดล VPT พื้นฐาน การปรับ BC แบบละเอียดให้กับชุดข้อมูล earlygame_keyword และผลการปรับแต่ง RL การรวบรวมชุดข้อมูล contract_house มีค่าใช้จ่ายประมาณ $2000 เนื่องจากเราใช้ IDM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลผู้รับเหมาประมาณ 40,000 ชั่วโมง ต้นทุนจริงของข้อมูลผู้รับเหมาสำหรับผลลัพธ์เหล่านั้นจึงอยู่ที่ประมาณ $XNUMX

สำหรับ 4,500 ชั่วโมงนั้น พวกเขาติดป้ายกำกับที่เฟรมของวิดีโอเกมสำหรับการดำเนินการ เช่น "ช่องเก็บของ" เพื่อตรวจสอบคอลเลกชั่นวัตถุของผู้เล่นโดยใช้ปุ่ม "E" และ "แอบ" เพื่อเคลื่อน "อย่างระมัดระวัง" ไปในทิศทางปัจจุบัน โดยใช้เครื่องหมาย SHIFT กุญแจ. การกระทำเหล่านั้นจะถูกบันทึกเป็นสตริงข้อความ JSON ในแต่ละช่วงเวลาของการเล่นเกมและจัดเก็บไว้กับเฟรมวิดีโอ 

เฟรมของการเล่นเกมที่มีการกระทำที่มีป้ายกำกับถูกใช้เพื่อฝึกโครงข่ายประสาทที่เรียกว่าโมเดลไดนามิกผกผันหรือ IDM ซึ่งจะเรียนรู้ว่าการกระทำใดเกิดขึ้นกับเฟรมใด IDM เป็นการรวมโครงข่ายประสาทหลายชนิดเข้าด้วยกัน ซึ่งรวมถึงโครงข่ายประสาทเทียมสามมิติและ ResNet เพื่อแยกวิเคราะห์เฟรมวิดีโอ และเครือข่าย Transformer หลายเครือข่ายให้ความสนใจในการทำนายเฟรมวิดีโอถัดไป 

นอกจากนี้: มีสติ? Google LaMDA ให้ความรู้สึกเหมือนแชทบอททั่วไป

ความสามารถที่ได้รับการฝึกฝนของ IDM นั้นจะถูกนำไปใช้กับชุดวิดีโอฟุตเทจที่มีขนาดใหญ่กว่ามาก ซึ่งรวมฟุตเทจ Minecraft ที่ไม่มีป้ายกำกับทั้งหมด 70,000 ชั่วโมงซึ่งรวบรวมมาจากเว็บ IDM ใช้ "ฉลากหลอก" กับคอลเล็กชันที่มีขนาดใหญ่กว่าอย่างมากมาย กล่าวอีกนัยหนึ่ง IDM และค่าธรรมเนียมผู้รับเหมาเป็นวิธีการเริ่มต้นชุดฝึกอบรมวิดีโอขนาดใหญ่ 

openai-vpt-การฝึกอบรม-2022

ระบบการฝึกอบรมสำหรับ VPT

OpenAI

ผู้เขียนเขียนว่าวิธีการนี้ช่วยประหยัดต้นทุนได้มากในขณะที่การจ่ายเงินของผู้รับเหมาอาจมีราคาแพง หากพวกเขาต้องรวบรวมข้อมูลผู้รับเหมาซึ่งเทียบเท่ากับวิดีโอบนเว็บ 70,000 ชั่วโมง ก็จะมีราคาแพงกว่ามาก

“ถ้าเราสามารถรวบรวมชุดข้อมูลผู้รับเหมาที่มีป้ายกำกับซึ่งมีลำดับความสำคัญใกล้เคียงกันเป็น web_clean ได้ในราคาถูก สิ่งนี้ก็ไม่สำคัญ อย่างไรก็ตาม การรวบรวมข้อมูลในระดับนั้นจะมีค่าใช้จ่ายหลายล้านดอลลาร์”

เมื่อใช้ 70,000 ชั่วโมง ผู้เขียนจึงฝึกโครงข่ายประสาทเทียมที่สอง ซึ่งประกอบด้วยเลเยอร์ Transformer เพื่อเลียนแบบการกระทำของผู้ใช้ในวิดีโอ ซึ่งเป็นวิธีปฏิบัติทั่วไปที่เรียกว่า "การโคลนตามพฤติกรรม"

จุดประสงค์ของงานคือการหาวิธีฝึก "ตัวแทน" คอมพิวเตอร์เอนกประสงค์ที่สามารถใช้ข้อมูลมากมายบนอินเทอร์เน็ตที่ไม่มีป้ายกำกับเพื่อแก้ปัญหาที่เกี่ยวข้องกับเวรกรรม ความหมาย และลำดับของการกระทำที่มี ความสัมพันธ์ที่จำเป็นจากที่หนึ่งไปอีกที่หนึ่ง 

"ผลลัพธ์ที่นำเสนอในบทความนี้ช่วยปูทางไปสู่การใช้ความมั่งคั่งของข้อมูลที่ไม่มีป้ายกำกับบนเว็บสำหรับโดเมนการตัดสินใจตามลำดับ" พวกเขาเขียน 

งานนี้น่าจะใช้ได้กับงานคอมพิวเตอร์จำนวนมากที่ต้องใช้ลำดับของการคลิกเมาส์และส่วนควบคุมอื่นๆ ของผู้ปฏิบัติงาน 

“ในขณะที่เราทดลองใน Minecraft เท่านั้น เราเชื่อว่า VPT ให้สูตรทั่วไปสำหรับการฝึกนักบวชเชิงพฤติกรรมในพื้นที่ปฏิบัติการที่ยากแต่เป็นแบบทั่วไปในโดเมนใดๆ ที่มีข้อมูลที่ไม่มีป้ายกำกับจำนวนมากที่มีอยู่อย่างอิสระ เช่น การใช้คอมพิวเตอร์”

Open-AI เป็นที่รู้จักกันดีที่สุดสำหรับโปรแกรมภาษาขนาดใหญ่ที่เรียกว่า GPT-3 ซึ่งใช้วิธี "ฝึกอบรมล่วงหน้า" โดยอิงจากข้อมูลเว็บจำนวนมากที่ไม่ได้ติดป้ายกำกับ ในแง่หนึ่ง เกม Minecraft กำลังขยายวิธีการเลียนแบบพฤติกรรมในโดเมนของงานคอมพิวเตอร์ตามลำดับที่บันทึกผ่านวิดีโอ 

นอกจากนี้: GPT-3 คืออะไร? ทุกสิ่งที่ธุรกิจของคุณจำเป็นต้องรู้เกี่ยวกับโปรแกรมภาษา AI ที่ก้าวล้ำของ OpenAI

ความสำเร็จสูงสุดคือในบางกรณีเกินเวลาที่มนุษย์ต้องการเพื่อบรรลุหนึ่งในงานที่ยากที่สุด เพื่อให้ได้เพชรเสียม

ใน Minecraft เครื่องมือที่ทำจากเพชรจะมีอายุการใช้งานยาวนานกว่าและสามารถสร้างความเสียหายได้มากกว่า เสียมเพชรเท่านั้นที่สำคัญโดยเฉพาะสำหรับนักเล่นเกมส่วนใหญ่ คุณต้องมีเสียมเพชรเพื่อขุดแร่หินออบซิเดียนและวัตถุสมมติที่เรียกว่าเนเธอไรต์ ซึ่งทั้งสองอย่างนี้มีความสำคัญต่อกิจกรรมหลังจบเกม เช่น โต๊ะร่ายมนตร์และการทำอุปกรณ์เนเธอไรท์

หลังจากฝึก VPT เพื่อเรียนรู้งาน Minecraft ทุกประเภทแล้ว ผู้เขียนใช้วิธีการ "ปรับแต่ง" ที่พัฒนาโครงข่ายประสาทเทียมเพื่อการเรียนรู้เสริมเพื่อสร้างเพชรเสียดสีในเวลาที่เร็วกว่าปกติ 

“เพื่อแสดงให้เห็นถึงประสิทธิภาพของการปรับแต่ง RL เราจึงเลือกเป้าหมายที่ท้าทายในการรับเพชรเสียมภายใน 10 นาทีโดยเริ่มจากโลกใหม่แห่งการเอาชีวิตรอดของ Minecraft” พวกเขาเขียน 

นี่เป็นความท้าทายสำหรับมนุษย์ ซึ่งมักจะใช้เวลานานเป็นสองเท่าในการทำสิ่งนี้ หากพวกเขาสามารถทำได้เลย:

การทำเช่นนี้เกี่ยวข้องกับการได้รับลำดับของไอเท็มที่ยากต่อการรับซึ่งต้องใช้ทักษะที่ซับซ้อน เช่น การขุด การจัดการสินค้าคงคลัง การประดิษฐ์ที่มีและไม่มีโต๊ะประดิษฐ์ การใช้เครื่องมือ การควบคุมเตาหลอม และการขุดที่ระดับความลึกต่ำสุด ซึ่งมีอันตรายมากมายเช่นศัตรู และลาวามีอยู่จริง (รูปที่ 6) เพิ่มความยากเข้าไปอีก ความคืบหน้าสามารถหายไปได้อย่างง่ายดายโดยการดรอปไอเท็ม ทำลายไอเท็ม หรือตาย การได้รับเพชรเสียมบ่อยกว่าไม่ใช้มนุษย์ที่เชี่ยวชาญกว่า 20 นาที (24,000 การกระทำ)

ในการรวบรวมข้อมูลทั้งผู้รับเหมาและวิดีโอบนเว็บกว่า 70,000 ชั่วโมงที่ไม่มีป้ายกำกับ ผู้เขียนคำนึงถึงโอกาสของเนื้อหาที่ไม่เหมาะสม “ผู้รับเหมาสามารถใช้ทรัพย์สินในโลกเปิดของ Minecraft ในทางทฤษฎีเพื่อสร้างข้อมูลที่สามารถระบุตัวบุคคลได้และ/หรือเนื้อหาที่ไม่เหมาะสม (เช่นโดยใช้บล็อก Minecraft เพื่อเขียนชื่อหรือข้อความที่ไม่เหมาะสมจากนั้นค้นหาจุดที่จะมองเห็นข้อความ)” พวกเขา เขียนแม้ว่าพวกเขาจะไม่เห็นสิ่งนี้ในวิดีโอจากผู้รับเหมาที่ผู้เขียนดู 

“แน่นอน เราฝึกโมเดล BC [การโคลนพฤติกรรม] ในวิดีโอจากอินเทอร์เน็ตของผู้ที่เล่น Minecraft และหากพฤติกรรมดังกล่าวอยู่ในวิดีโอเหล่านั้น โมเดลของเราก็อาจเรียนรู้ได้เช่นกัน แม้ว่าเราจะคาดหวังว่าพฤติกรรมดังกล่าวจะหายากพอที่แบบจำลองของเรา ไม่น่าจะทำซ้ำได้” พวกเขาเขียน 

ตัวแทนทั่วไปดังกล่าวจะไปที่ไหนต่อไป? แนวคิดก็คือการพิชิตขวานเพชร, VPT หรือลูกหลานของมัน สามารถทำทุกสิ่งที่บุคคลสามารถทำได้ด้วยเมาส์และคีย์บอร์ด รวมถึงการโห่ร้องตั๋ว ท่องโซเชียลมีเดีย หรือการนำทางแผนที่ 

แหล่ง