Meta และกลุ่มนักวิจัยจาก University of Texas at Austin (UT Austin) กำลังทำงานเพื่อนำเสียงที่สมจริงมาสู่ metaverse
As Kristen Garuman ผู้อำนวยการฝ่ายวิจัยของ Meta AI อธิบาย (เปิดในแท็บใหม่) มีอะไรให้เติมแต่งและความเป็นจริงเสมือน (AR และ VR ตามลำดับ) มากกว่าแค่ภาพ เสียงมีบทบาทสำคัญในการทำให้โลกรู้สึกมีชีวิตชีวา Garuman กล่าวว่า "เสียงถูกสร้างขึ้นโดยสภาพแวดล้อมที่ [it's] อยู่" มีปัจจัยหลายอย่างที่มีอิทธิพลต่อพฤติกรรมของเสียง เช่น เรขาคณิตของห้อง สิ่งที่อยู่ในห้องนั้น และระยะห่างจากแหล่งกำเนิด
เพื่อให้บรรลุสิ่งนี้ แผนของ Meta คือการใช้แว่นตา AR เพื่อบันทึกทั้งเสียงและวิดีโอจากที่เดียว จากนั้นใช้ชุด AI สามรุ่น แปลงและล้างการบันทึกเพื่อให้รู้สึกเหมือนเกิดขึ้นต่อหน้าคุณเมื่อคุณเล่น ที่บ้าน. AI จะพิจารณาห้องที่คุณอยู่เพื่อให้เข้ากับสภาพแวดล้อม
เมื่อดูจากโปรเจ็กต์แล้ว ดูเหมือนว่า Meta จะโฟกัสไปที่แว่นตา AR แผนของ Meta สำหรับชุดหูฟัง VR นั้นรวมถึงการจำลองภาพและเสียงของสภาพแวดล้อม เช่น คอนเสิร์ต ดังนั้นคุณจึงรู้สึกเหมือนอยู่ต่อหน้า
เราถาม Meta ว่าผู้คนสามารถฟังเสียงที่ได้รับการปรับปรุงได้อย่างไร ผู้คนจะต้องใช้หูฟังคู่เพื่อฟังหรือจะมาจากหูฟัง? เราไม่ได้รับการตอบกลับ
เรายังถาม Meta ว่านักพัฒนาจะเข้าถึงโมเดล AI เหล่านี้ได้อย่างไร พวกเขาได้รับการสร้างโอเพ่นซอร์สเพื่อให้นักพัฒนาบุคคลที่สามสามารถทำงานกับเทคโนโลยีได้ แต่ Meta ไม่ได้ให้รายละเอียดเพิ่มเติม
คำถามคือ Meta สามารถบันทึกเสียงบนแว่นตา AR และสะท้อนการตั้งค่าใหม่ได้อย่างไร
วิธีแก้ปัญหาแรกเรียกว่า AViTAR ซึ่งก็คือa ”โมเดล Visual Acoustic Matching” (เปิดในแท็บใหม่) นี่คือ AI ที่แปลงเสียงให้เข้ากับสภาพแวดล้อมใหม่ Meta นำเสนอตัวอย่างของคุณแม่ที่บันทึกการบรรยายการเต้นของลูกที่หอประชุมด้วยแว่นตา AR
นักวิจัยคนหนึ่งอ้างว่ามารดาที่มีปัญหาสามารถนำการบันทึกนั้นและเล่นที่บ้านโดยที่ AI จะปรับเปลี่ยนเสียง มันจะสแกนสภาพแวดล้อม พิจารณาสิ่งกีดขวางในห้อง และทำให้เสียงบรรยายราวกับว่ามันกำลังเกิดขึ้นตรงหน้าเธอด้วยแว่นเดียวกัน ผู้วิจัยระบุว่าเสียงจะมาจากแว่นตา
เพื่อช่วยล้างเสียงมี Dereverberation ที่มองเห็นได้ด้วยสายตา (เปิดในแท็บใหม่) . โดยพื้นฐานแล้วจะลบเสียงก้องที่รบกวนสมาธิออกจากคลิป ตัวอย่างที่ให้ไว้คือการบันทึกคอนเสิร์ตไวโอลินที่สถานีรถไฟ นำกลับบ้าน และให้ AI ล้างคลิปเพื่อให้คุณไม่ได้ยินอะไรนอกจากเสียงเพลง
โมเดล AI สุดท้ายคือ วิชวลวอยซ์ (เปิดในแท็บใหม่) ซึ่งใช้การผสมผสานระหว่างภาพและเสียงเพื่อแยกเสียงออกจากเสียงอื่นๆ ลองนึกภาพการบันทึกวิดีโอของคนสองคนเถียงกัน AI นี้จะแยกเสียงหนึ่งเสียงออกมา เพื่อให้คุณเข้าใจได้ในขณะที่ปิดเสียงทุกอย่าง Meta อธิบายว่าภาพที่เห็นมีความสำคัญเนื่องจาก AI จำเป็นต้องดูว่าใครกำลังพูดอยู่เพื่อที่จะเข้าใจความแตกต่างบางประการและรู้ว่าใครกำลังพูด
ในแง่ของภาพ Meta ระบุว่าพวกเขาวางแผนที่จะนำวิดีโอและตัวชี้นำอื่น ๆ มาปรับปรุงเสียงที่ขับเคลื่อนด้วย AI ให้ดียิ่งขึ้น เนื่องจากเทคโนโลยีนี้ยังอยู่ในช่วงเริ่มต้นของการพัฒนา จึงไม่เป็นที่ทราบแน่ชัดว่า Meta จะนำ AI เหล่านี้มาสู่ชุดหูฟัง Quest ใกล้คุณหรือไม่และเมื่อใด
อย่าลืมอ่านบทวิจารณ์ล่าสุดของเราเกี่ยวกับ Oculus เควส 2 หากคุณกำลังคิดจะซื้อ การแจ้งเตือนสปอยเลอร์: เราชอบมัน