Ang Meta at isang pangkat ng mga mananaliksik mula sa University of Texas sa Austin (UT Austin) ay nagsusumikap sa pagdadala ng makatotohanang audio sa metaverse.
As Ipinaliwanag ni Kristen Garuman, Direktor ng Pananaliksik sa Meta AI (bubukas sa bagong tab) , may higit pa sa augmented at virtual reality (AR at VR, ayon sa pagkakabanggit) kaysa sa mga visual lang. Ang audio ay gumaganap ng isang napakahalagang papel sa paggawa ng isang mundo pakiramdam buhay. Sinabi ni Garuman na "ang audio ay hinuhubog ng kapaligiran kung saan [ito]." Mayroong iba't ibang salik na nakakaimpluwensya sa kung paano kumikilos ang tunog tulad ng geometry ng isang silid, kung ano ang nasa nasabing silid, at kung gaano kalayo ang isang tao mula sa isang pinagmulan.
Para makamit ito, ang plano ng Meta ay gumamit ng AR glasses para i-record ang parehong audio at video mula sa isang lokasyon, pagkatapos ay gumamit ng set ng tatlong AI models, baguhin at linisin ang recording para parang nangyayari ito sa harap mo kapag i-play mo ito pabalik. sa bahay. Isasaalang-alang ng mga AI ang kwartong kinaroroonan mo para tumugma ito sa kapaligiran.
Sa pagtingin sa mga proyekto, lumilitaw na ang Meta ay nakatuon sa mga salamin sa AR. Kasama sa plano ng Meta para sa mga VR headset ang pagkopya ng mga tanawin at tunog ng isang kapaligiran, tulad ng isang konsyerto, kaya parang nandiyan ka nang personal.
Tinanong namin ang Meta kung paano makikinig ang mga tao sa pinahusay na audio. Kakailanganin ba ng mga tao ang isang pares ng headphone para makinig o manggagaling ba ito sa headset? Wala kaming nakuhang tugon.
Tinanong din namin ang Meta kung paano makukuha ng mga developer ang mga modelong ito ng AI. Ginawa silang open source para makapagtrabaho ang mga third-party na developer sa teknolohiya, ngunit hindi nag-aalok ang Meta ng anumang karagdagang detalye.
Ang tanong ay kung paano magre-record ang Meta ng audio sa isang pares ng AR glass at maipakita nito ang isang bagong setting.
Ang unang solusyon ay kilala bilang AviTAR na isang "Visual Acoustic Matching na modelo." (bubukas sa bagong tab) Ito ang AI na nagbabago ng audio upang tumugma sa isang bagong kapaligiran. Nag-aalok ang Meta ng halimbawa ng isang ina na nagre-record ng dance recital ng kanyang anak sa isang auditorium na may isang pares ng AR glasses.
Sinasabi ng isa sa mga mananaliksik na ang ina na pinag-uusapan ay maaaring kumuha ng recording na iyon at i-play ito pabalik sa bahay kung saan ang AI ay mag-morph ng audio. Susuriin nito ang kapaligiran, isasaalang-alang ang anumang mga hadlang sa isang silid, at iparinig ang recital na parang nangyayari sa harap niya na may parehong salamin. Sinasabi ng mananaliksik na ang audio ay magmumula sa mga baso.
Upang makatulong sa paglilinis ng audio, mayroon Visually-Informed Dereverberation (bubukas sa bagong tab) . Karaniwan, inaalis nito ang nakakagambalang reverb mula sa clip. Ang halimbawang ibinigay ay ang pag-record ng isang violin concert sa isang istasyon ng tren, pag-uwi nito, at pagpapalinis ng AI sa clip para wala kang marinig kundi musika.
Ang huling modelo ng AI ay VisualVoice (bubukas sa bagong tab) , na gumagamit ng kumbinasyon ng mga visual at audio cue para paghiwalayin ang mga boses sa iba pang ingay. Isipin na nagre-record ng video ng dalawang taong nagtatalo. Ihihiwalay ng AI na ito ang isang boses para maunawaan mo sila habang pinapatahimik ang lahat ng iba pa. Ipinapaliwanag ng Meta na mahalaga ang mga visual cue dahil kailangang makita ng AI kung sino ang nagsasalita upang maunawaan ang ilang partikular na nuances at malaman kung sino ang nagsasalita.
Kaugnay ng mga visual, sinabi ng Meta na plano nilang magdala ng video at iba pang mga pahiwatig upang higit pang mapahusay ang audio na hinimok ng AI. Dahil ang teknolohiyang ito ay maaga pa sa pag-unlad, hindi alam kung at kailan dadalhin ng Meta ang mga AI na ito sa isang Quest headset na malapit sa iyo.
Tiyaking basahin ang aming pinakabagong pagsusuri sa oculus quest 2 kung nag-iisip kang bumili ng isa. Spoiler alert: gusto namin ito.