تعمل Meta ومجموعة من الباحثين من جامعة تكساس في أوستن (UT Austin) على جلب صوت واقعي إلى metaverse.
As توضح كريستين جارومان ، مديرة الأبحاث في Meta AI (يفتح في علامة تبويب جديدة) ، هناك ما هو أكثر من الواقع المعزز والافتراضي (AR و VR ، على التوالي) من مجرد المرئيات. يلعب الصوت دورًا مهمًا للغاية في جعل العالم يشعر بأنه حي. يقول Garuman: "يتشكل الصوت حسب البيئة التي يتواجد فيها." هناك العديد من العوامل التي تؤثر على كيفية تصرف الصوت مثل هندسة الغرفة ، وما يوجد في الغرفة المذكورة ، ومدى بُعد الشخص عن المصدر.
لتحقيق ذلك ، تتمثل خطة Meta في استخدام نظارات AR لتسجيل الصوت والفيديو من مكان واحد ، ثم استخدام مجموعة من ثلاثة نماذج AI ، وتحويل التسجيل وتنظيفه بحيث يبدو أنه يحدث أمامك عند إعادة تشغيله. فى المنزل. ستأخذ أنظمة الذكاء الاصطناعي في الحسبان الغرفة التي تتواجد بها حتى تتمكن من مطابقة البيئة.
بالنظر إلى المشاريع ، يبدو أن Meta تركز على نظارات الواقع المعزز. تتضمن خطة Meta لسماعات الرأس VR تكرار مشاهد وأصوات البيئة ، مثل حفلة موسيقية ، بحيث تشعر وكأنك موجود هناك شخصيًا.
سألنا Meta كيف يمكن للناس الاستماع إلى الصوت المحسن. هل سيحتاج الناس إلى زوج من سماعات الرأس للاستماع أم أنه سيأتي من سماعة الرأس؟ لم نحصل على رد.
سألنا أيضًا Meta كيف يمكن للمطورين الحصول على نماذج الذكاء الاصطناعي هذه. لقد تم جعلها مفتوحة المصدر حتى يتمكن مطورو الطرف الثالث من العمل على التقنية ، لكن Meta لم تقدم أي تفاصيل أخرى.
السؤال هو كيف يمكن لـ Meta تسجيل الصوت على زوج من نظارات AR وجعلها تعكس إعدادًا جديدًا.
يُعرف الحل الأول باسم AViTAR وهو ملف "نموذج المطابقة الصوتية المرئية." (يفتح في علامة تبويب جديدة) هذا هو الذكاء الاصطناعي الذي يحول الصوت ليلائم بيئة جديدة. تقدم Meta مثالاً على أم تسجل حفلة رقص لطفلها في قاعة مع زوج من نظارات الواقع المعزز.
يدعي أحد الباحثين أن الأم المعنية يمكنها أخذ هذا التسجيل وتشغيله في المنزل حيث يقوم الذكاء الاصطناعي بتحويل الصوت. ستقوم بمسح البيئة ، وتأخذ في الاعتبار أي عوائق في الغرفة ، والحصول على صوت الحفل كما يحدث أمامها مباشرةً بنفس النظارات. يقول الباحث أن الصوت سيأتي من النظارات.
للمساعدة في تنظيف الصوت ، هناك ملفات إزالة الصدع عن علم بصريًا (يفتح في علامة تبويب جديدة) . في الأساس ، يزيل الصدى المشتت من المقطع. المثال المذكور هو تسجيل حفلة كمان في محطة قطار ، ونقلها إلى المنزل ، وجعل الذكاء الاصطناعي ينظف المقطع حتى لا تسمع شيئًا سوى الموسيقى.
آخر نموذج للذكاء الاصطناعي هو فيجوال فويس (يفتح في علامة تبويب جديدة) ، والذي يستخدم مزيجًا من الإشارات المرئية والصوتية لفصل الأصوات عن الضوضاء الأخرى. تخيل تسجيل فيديو لشخصين يتجادلان. سيعزل هذا الذكاء الاصطناعي صوتًا واحدًا حتى تتمكن من فهمه أثناء إسكات كل شيء آخر. يشرح Meta أن الإشارات المرئية مهمة لأن الذكاء الاصطناعي يحتاج إلى معرفة من يتحدث من أجل فهم بعض الفروق الدقيقة ومعرفة من يتحدث.
فيما يتعلق بالمرئيات ، يذكر Meta أنهم يخططون لجلب إشارات الفيديو وغيرها من الإشارات لزيادة تحسين الصوت الذي يحركه الذكاء الاصطناعي. نظرًا لأن هذه التكنولوجيا لا تزال في مرحلة مبكرة من التطوير ، فمن غير المعروف ما إذا كانت Meta ستجلب هذه الذكاء الاصطناعي إلى سماعة رأس Quest القريبة منك ومتى.
تأكد من قراءة أحدث مراجعة لدينا على أوكيلوس كويست 2 إذا كنت تفكر في شراء واحدة. تنبيه المفسد: نحن نحبه.