Meta dan sekelompok peneliti dari University of Texas di Austin (UT Austin) sedang berupaya menghadirkan audio realistis ke metaverse.
As Kristen Garuman, Direktur Riset di Meta AI, menjelaskan (terbuka di tab baru) , ada lebih banyak untuk augmented dan virtual reality (AR dan VR, masing-masing) dari sekedar visual. Audio memainkan peran yang sangat penting dalam membuat dunia terasa hidup. Garuman mengatakan “audio dibentuk oleh lingkungan di mana [itu] berada.” Ada berbagai faktor yang mempengaruhi bagaimana suara berperilaku seperti geometri ruangan, apa yang ada di ruangan tersebut, dan seberapa jauh seseorang dari sumbernya.
Untuk mencapai hal ini, rencana Meta adalah menggunakan kacamata AR untuk merekam audio dan video dari satu lokasi, kemudian menggunakan satu set tiga model AI, mengubah dan membersihkan rekaman sehingga terasa seperti terjadi di depan Anda saat Anda memutarnya kembali. di rumah. AI akan memperhitungkan ruangan tempat Anda berada sehingga dapat menyesuaikan dengan lingkungan.
Melihat proyeknya, tampaknya Meta fokus pada kacamata AR. Rencana Meta untuk headset VR termasuk mereplikasi pemandangan dan suara lingkungan, seperti konser, sehingga Anda merasa seperti berada di sana secara langsung.
Kami bertanya kepada Meta bagaimana orang bisa mendengarkan audio yang disempurnakan. Apakah orang akan membutuhkan sepasang headphone untuk mendengarkan atau akankah itu berasal dari headset? Kami tidak mendapat tanggapan.
Kami juga bertanya kepada Meta bagaimana pengembang dapat menguasai model AI ini. Mereka telah dibuat open source sehingga pengembang pihak ketiga dapat mengerjakan teknologinya, tetapi Meta tidak menawarkan detail lebih lanjut.
Pertanyaannya adalah bagaimana Meta dapat merekam audio pada sepasang kacamata AR dan membuatnya mencerminkan pengaturan baru.
Solusi pertama dikenal sebagai AViTAR yang merupakan “Model Pencocokan Akustik Visual.” (terbuka di tab baru) Ini adalah AI yang mengubah audio agar sesuai dengan lingkungan baru. Meta memberikan contoh seorang ibu yang merekam resital tarian anaknya di auditorium dengan kacamata AR.
Salah satu peneliti mengklaim bahwa ibu yang bersangkutan dapat mengambil rekaman itu dan memutarnya kembali di rumah di mana AI akan mengubah audio. Ini akan memindai lingkungan, memperhitungkan rintangan di sebuah ruangan, dan memiliki suara resital seperti itu terjadi tepat di depannya dengan kacamata yang sama. Peneliti menyatakan audio akan datang dari kacamata.
Untuk membantu membersihkan audio, ada Dereverberasi yang Diinformasikan secara Visual (terbuka di tab baru) . Pada dasarnya, ini menghilangkan reverb yang mengganggu dari klip. Contoh yang diberikan adalah merekam konser biola di stasiun kereta api, membawanya pulang, dan meminta AI membersihkan klip sehingga Anda tidak mendengar apa pun selain musik.
Model AI terakhir adalah Suara Visual (terbuka di tab baru) , yang menggunakan kombinasi isyarat visual dan audio untuk memisahkan suara dari suara lain. Bayangkan merekam video dua orang berdebat. AI ini akan mengisolasi satu suara sehingga Anda dapat memahaminya sambil membungkam yang lainnya. Meta menjelaskan isyarat visual penting karena AI perlu melihat siapa yang berbicara untuk memahami nuansa tertentu dan mengetahui siapa yang berbicara.
Sehubungan dengan visual, Meta menyatakan bahwa mereka berencana untuk menghadirkan video dan isyarat lain untuk lebih meningkatkan audio yang digerakkan oleh AI. Karena teknologi ini masih dalam tahap pengembangan awal, tidak diketahui apakah dan kapan Meta akan membawa AI ini ke headset Quest di dekat Anda.
Pastikan untuk membaca ulasan terbaru kami di Pencarian Oculus 2 jika Anda berpikir untuk membeli satu. Peringatan spoiler: kami menyukainya.