DeepMindi "Gato" on keskpärane, miks nad siis selle ehitasid?

DeepMindi “Gato” närvivõrk on suurepärane paljude ülesannete täitmisel, sealhulgas plokke virnastavate robotkäte juhtimine, Atari 2600 mängude mängimine ja piltide pealdised.

Deepmind

Maailm on harjunud nägema pealkirju tehisintellekti süvaõppevormide uusima läbimurde kohta. Google'i DeepMindi divisjoni uusima saavutuse võib aga kokku võtta järgmiselt: "Üks AI programm, mis teeb paljude asjadega nii-nii tööd."

Gato, nagu DeepMindi programmi nimetatakse, avalikustati sel nädalal nn multimodaalse programmina, mis suudab mängida videomänge, vestelda, kirjutada kompositsioone, tiitreid pilte ja juhtida robotkätt klotside virnastamist. See on üks närvivõrk, mis võib töötada mitut tüüpi andmetega, et täita mitut tüüpi ülesandeid.

"Ühe raskuste komplektiga saab Gato osaleda dialoogis, pildiallkirjades, plokke virnastada tõelise robotkäe abil, ületada inimesi Atari mängude mängimisel, navigeerida simuleeritud 3D-keskkondades, järgida juhiseid ja palju muud," kirjutab juhtivautor Scott Reed. ja kolleegid oma artiklis "A Generalist Agent" postitatud Arxivi eeltrükiserverisse.

DeepMindi kaasasutaja Demis Hassabis rõõmustas meeskonda, hüüatab säutsus, "Meie seni kõige üldisem agent!! Fantastiline töö meeskonnalt!”

Ka: Uus eksperiment: kas AI tõesti tunneb kasse või koeri - või midagi?

Ainus konks on see, et Gato pole tegelikult mitme ülesandega nii suurepärane.

Ühest küljest suudab programm plokke virnastava robotkäe juhtimisel paremini kui spetsiaalne masinõppeprogramm. Teisest küljest loob see piltidele, mis paljudel juhtudel on üsna kehvad, pealdised. Selle võime tavavestlusdialoogis inimvestlejaga on samamoodi kesine, kutsudes mõnikord esile vastuolulisi ja mõttetuid ütlusi.

Ja selle Atari 2600 videomängude mängimine jääb alla enamiku spetsiaalsete ML-programmide omast, mis on loodud selleks, et konkureerida võrdlusaluses. Arkaadõppekeskkond.

Miks peaksite tegema programmi, mis teeb mõnda asja päris hästi ja palju muud mitte nii hästi? Autorite sõnul pretsedent ja ootus.

On pretsedent, et üldisemat tüüpi programmid muutuvad tehisintellekti tipptasemel, ja eeldatakse, et arvutusvõimsuse suurenemine korvab tulevikus puudused.

Üldisus võib AI-s triumfeerida. Nagu autorid märgivad, viidates tehisintellekti teadlasele Richard Suttonile: "Ajalooliselt on üldised mudelid, mis on arvutust paremini võimendavad, kipunud lõpuks ületama ka spetsiifilisemaid domeenispetsiifilisi lähenemisviise."

Nagu Sutton kirjutas tema enda blogipostituses, "Suurim õppetund, mida 70 aastat kestnud tehisintellekti uurimisest saab lugeda, on see, et üldised meetodid, mis võimendavad arvutusi, on lõppkokkuvõttes kõige tõhusamad ja suure varuga."

Formaalses lõputöös kirjutavad Reed ja meeskond, et „kontrollime siin hüpoteesi, mille kohaselt on võimalik koolitada agenti, kes on üldiselt võimeline paljude ülesannete täitmiseks; ja et seda üldagenti saab kohandada vähese lisaandmetega, et õnnestuda veelgi suurema hulga ülesannetega.

Ka: Meta AI valgusti LeCun uurib sügava õppimise energiapiiri

Mudel on antud juhul tõepoolest väga üldine. See on versioon Transformerist, domineerivast tähelepanupõhisest mudelist, millest on saanud paljude programmide, sealhulgas GPT-3, aluseks. Trafo modelleerib mõne elemendi tõenäosust, arvestades seda ümbritsevaid elemente, näiteks sõnu lauses.

Gato puhul saavad DeepMindi teadlased kasutada sama tingimusliku tõenäosuse otsingut paljude andmetüüpide puhul.

Nagu Reed ja kolleegid kirjeldavad Gato koolitamise ülesannet,

Gato koolitusfaasis järjestatakse erinevate ülesannete ja viiside andmed žetoonide lamedaks jadaks, pakettidena ja töödeldakse suure keelemudeliga sarnase trafo närvivõrgu abil. Kaotus on maskeeritud nii, et Gato ennustab ainult tegevust ja teksti sihtmärke.

Teisisõnu, Gato ei käsitle žetoone erinevalt, olenemata sellest, kas need on sõnad vestluses või liikumisvektorid plokkide virnastamise harjutuses. Kõik on sama.

Gato koolituse stsenaarium.

Reed et al. 2022. aasta

Reedi ja meeskonna hüpoteesi sisse maetud on tagajärg, nimelt see, et lõpuks võidab üha suurem arvutusvõimsus. Praegu piirab Gato tegevust plokkide virnastamist teostava Sawyeri robotkäe reageerimisaeg. 1.18 miljardi võrguparameetriga on Gato tunduvalt väiksem kui väga suured AI mudelid, nagu GPT-3. Kuna süvaõppe mudelid muutuvad suuremaks, viib järelduste tegemine latentsuseni, mis võib reaalse maailma roboti mittedeterministlikus maailmas ebaõnnestuda.

Kuid Reed ja tema kolleegid eeldavad, et see piir ületatakse, kuna tehisintellekti riistvara muutub töötlemisel kiiremaks.

"Me keskendume oma koolitusele mudeli skaala tööpunktile, mis võimaldab reaalajas juhtida reaalmaailma roboteid, praegu Gato puhul umbes 1.2B parameetrit," kirjutasid nad. "Riistvara- ja mudeliarhitektuuride paranedes suurendab see tööpunkt loomulikult võimalikku mudeli suurust, tõugates üldised mudelid skaleerimisseaduse kõverast kõrgemale."

Seega on Gato tõesti mudel selle kohta, kuidas arvutusmastaap jääb masinõppe arendamise peamiseks vektoriks, muutes üldmudeleid aina suuremaks. Teisisõnu, suurem on parem.

Gato muutub paremaks, kui närvivõrgu suurus parameetrites suureneb.

Reed et al. 2022. aasta

Ja autoritel on selle kohta mõned tõendid. Näib, et Gato läheb suuremaks muutudes paremaks. Nad võrdlevad kõigi võrdlusülesannete keskmisi tulemusi parameetrite järgi kolmes suuruses mudelis – 79 miljonit, 364 miljonit ja põhimudelis – 1.18 miljardit. "Näeme, et samaväärse žetoonide arvu korral on jõudluse suurenemine märkimisväärselt paranenud, " kirjutavad autorid.

Huvitav tulevikuküsimus on see, kas programm, mis on üldine, on ohtlikum kui muud tüüpi AI-programmid. Autorid veedavad artiklis palju aega, arutledes tõsiasja üle, et on võimalikke ohte, mida pole veel hästi mõistetud.

Idee programmist, mis tegeleb mitme ülesandega, viitab võhikule teatud inimlikule kohanemisvõimele, kuid see võib olla ohtlik väärarusaam. "Näiteks võib füüsiline kehastus viia selleni, et kasutajad antropomorfiseerivad agenti, mis põhjustab valesti töötava süsteemi korral usaldust või halvad osalejad," kirjutavad Reed ja meeskond.

"Lisaks, kuigi valdkonnaülene teadmiste edasiandmine on ML-uuringutes sageli eesmärk, võib see põhjustada ootamatuid ja soovimatuid tulemusi, kui teatud käitumisviisid (nt arkaadmängude võitlus) viiakse üle valesse konteksti."

Seetõttu kirjutavad nad: "Teadmiste edastamise eetika- ja ohutuskaalutlused võivad üldiste süsteemide arenedes nõuda uusi olulisi uuringuid."

(Huvitava kõrvalmärkusena on Gato artiklis kasutatud endise Google'i tehisintellekti uurija Margaret Michelli ja tema kolleegide välja töötatud skeemi Model Cards. Mudelkaardid annavad lühikokkuvõtte sellest, mis on AI programm, mida see teeb ja mida. tegurid mõjutavad selle toimimist. Michell kirjutas eelmisel aastal, et ta sunniti Google'ist lahkuma oma endise kolleegi Timnit Gebru toetamise tõttu, kelle eetilised mured tehisintellekti pärast sattusid Google'i tehisintellekti juhtimisega vastuollu.)

Gato pole oma üldistava tendentsi poolest sugugi ainulaadne. See on osa laiast üldistussuundumusest ja suurematest mudelitest, mis kasutavad hobujõude. Maailm sai Google'i selles suunas kallutamisest esimest korda tunda eelmisel suvel Google'i tajuvõrguga, mis ühendas tekstitransformaatori ülesanded piltide, heli ja LiDAR-i ruumiliste koordinaatidega.

Ka: Google'i supermudel: DeepMind Perceiver on samm teel AI-masina poole, mis suudab töödelda kõike ja kõike

Selle eakaaslaste seas on PaLM, Pathways Language Model, tutvustasid sel aastal Google'i teadlased, 540 miljardi parameetriga mudel, mis kasutab uut tehnoloogiat tuhandete kiipide koordineerimiseks, tuntud kui Pathways, mis leiutas samuti Google'is. Meta jaanuaris välja antud närvivõrk nimega "data2vec" kasutab Transformereid pildiandmete, kõne heli lainekujude ja tekstikeele esitusviiside jaoks ühes.

Näib, et Gato puhul on uus kavatsus võtta mitterobootikaga seotud ülesannete jaoks kasutatav tehisintellekt ja lükata see robootikavaldkonda.

Gato loojad, märkides Pathwaysi ja muude üldiste lähenemisviiside saavutusi, näevad tehisintellekti ülimat saavutust, mis suudab töötada reaalses maailmas ja mis tahes ülesannetega.

"Edasine töö peaks kaaluma, kuidas ühendada need tekstivõimalused üheks täielikult üldiseks agendiks, mis võib reaalajas toimida ka reaalses maailmas, erinevates keskkondades ja teostustes."

Seetõttu võiksite Gatot pidada oluliseks sammuks tehisintellekti kõige raskema probleemi, robootika, lahendamisel.

allikas

Eelmine postitus

Järgmine postitus

DeepMindi "Gato" on keskpärane, miks nad siis selle ehitasid?

2024. aasta kohustuslik tarkvara

Parimad kategooriad

Viimased arvustused

Samsung Galaxy Z Flip 5 teaservideo, enne Galaxy lahtipakkimise üritust, näitab uut hingede kujundust, värvivalikud

Twitter piirab DM-ide arvu, mida kinnitamata kasutajad saavad saata

Minu lemmik Android-telefon saab teha asju, mida minu iPhone 14 Pro Max ei suuda

ChatGPT Androidile käivitatakse järgmisel nädalal ja saate juba praegu eelregistreerida

Indias turule toodud Xiaomi Smart TV 32A, Smart TV 40A, Smart TV 43A Google TV-ga, 20 W kõlarid: : hind, tehnilised andmed

See söödav aku võiks toita diagnostika ja säästva energia maailma