Meta i grupa istraživača sa Univerziteta Teksas u Austinu (UT Austin) rade na uvođenju realističnog zvuka u metaverzum.
As Kristen Garuman, direktorica istraživanja u Meta AI, objašnjava (otvara se u novoj kartici) , u proširenoj i virtuelnoj stvarnosti (AR i VR, respektivno) postoji više od samo vizuelnih prikaza. Audio igra veoma važnu ulogu u stvaranju osjećaja da svijet živi. Garuman kaže da „zvuk oblikuje okruženje u kojem se [nalazi].“ Postoje različiti faktori koji utiču na to kako se zvuk ponaša kao geometrija sobe, šta je u toj prostoriji i koliko je neko udaljen od izvora.
Da bi to postigao, Metin plan je da koristi AR naočale za snimanje zvuka i videa sa jedne lokacije, a zatim pomoću seta od tri AI modela transformiše i očisti snimak tako da se čini kao da se dešava ispred vas kada ga reprodukujete kod kuce. AI će uzeti u obzir prostoriju u kojoj se nalazite kako bi se uskladila sa okruženjem.
Gledajući projekte, čini se da se Meta fokusira na AR naočale. Metin plan za VR slušalice uključuje repliciranje prizora i zvukova okruženja, poput koncerta, tako da se osjećate kao da ste tamo lično.
Pitali smo Metu kako ljudi mogu slušati poboljšani zvuk. Hoće li ljudima trebati par slušalica za slušanje ili će one dolaziti iz slušalica? Nismo dobili odgovor.
Također smo pitali Metu kako programeri mogu doći do ovih AI modela. Napravljeni su sa otvorenim kodom tako da programeri trećih strana mogu raditi na tehnologiji, ali Meta nije ponudila nikakve dodatne detalje.
Pitanje je kako Meta može snimiti zvuk na par AR naočara i natjerati ga da odražava novu postavku.
Prvo rješenje je poznato kao AViTAR što je a „Model vizualnog akustičnog podudaranja.” (otvara se u novoj kartici) Ovo je veštačka inteligencija koja transformiše zvuk kako bi odgovarao novom okruženju. Meta nudi primjer majke koja s AR naočalama snima plesni recital svog djeteta u dvorani.
Jedan od istraživača tvrdi da dotična majka može uzeti taj snimak i reproducirati ga kod kuće gdje će AI transformirati zvuk. Skeniraće okolinu, uzeti u obzir sve prepreke u prostoriji i imati recitalni zvuk kao da se dešava ispred nje sa istim naočarima. Istraživač navodi da će zvuk dolaziti iz naočara.
Za pomoć pri čišćenju zvuka postoji Vizuelno informisana dereverberacija (otvara se u novoj kartici) . U osnovi, uklanja ometajući reverb iz klipa. Navedeni primjer je snimanje violinskog koncerta na željezničkoj stanici, ponijeti ga kući i AI očistiti klip tako da ne čujete ništa osim muzike.
Poslednji AI model je VisualVoice (otvara se u novoj kartici) , koji koristi kombinaciju vizuelnih i audio znakova da odvoji glasove od drugih zvukova. Zamislite da snimite video na kojem se dvoje ljudi svađaju. Ovaj AI će izolovati jedan glas tako da ga možete razumjeti dok utišate sve ostalo. Meta objašnjava da su vizuelni znakovi važni jer AI treba da vidi ko govori kako bi razumeo određene nijanse i znao ko govori.
U vezi s vizualnim elementima, Meta navodi da planiraju uvesti video i druge znakove kako bi dodatno poboljšali audio vođen AI. Budući da je ova tehnologija još uvijek u ranoj fazi razvoja, nije poznato da li će i kada Meta donijeti ove AI na Quest slušalice u vašoj blizini.
Obavezno pročitajte našu najnoviju recenziju o oculus quest 2 ako razmišljate o kupovini jednog. Spoiler upozorenje: sviđa nam se.