Metan tekoälyguru LeCun: Suurin osa tämän päivän tekoälymenetelmistä ei koskaan johda todelliseen älykkyyteen

yann-lecun-sept-2022-1

"Mielestäni tekoälyjärjestelmien täytyy pystyä järkeilemään", sanoo Yann LeCun, Metan johtava tekoälytutkija. Nykypäivän suositut tekoälymenetelmät, kuten Transformers, joista monet perustuvat hänen omaan uraauurtavaan työhönsä alalla, eivät riitä. "Sinun on otettava askel taaksepäin ja sanottava: Okei, me rakensimme nämä tikkaat, mutta haluamme mennä kuuhun, eivätkä nämä tikkaat vie meitä sinne", LeCun sanoo.

Yann LeCun, johtava AI-tutkija Facebookin, Instagramin ja WhatsAppin omistajan Meta Propertiesin julkaisu tulee todennäköisesti näkemään monet alansa ihmiset. 

Kesäkuussa julkaistulla ajatuspalalla Open Review -palvelimella, LeCun tarjosi laajan yleiskatsauksen lähestymistavasta, jolla hänen mielestään on lupaus saavuttaa ihmistason älykkyyttä koneissa. 

Ellei artikkelissa ilmaista, väitetään, että suurin osa tämän päivän suurista tekoälyprojekteista ei koskaan pysty saavuttamaan tätä ihmistason tavoitetta.

Keskustelussa tässä kuussa kanssa ZDNet Zoomin kautta LeCun teki selväksi, että hän suhtautuu erittäin skeptisesti moniin tämän hetken menestyneimmistä syväoppimisen tutkimusmenetelmistä.

"Mielestäni ne ovat välttämättömiä, mutta eivät riittäviä", Turing-palkinnon voittaja kertoi ZDNet ikätovereidensa harrastuksista. 

Niitä ovat suuret kielimallit, kuten Transformer-pohjainen GPT-3 ja vastaavat. Kuten LeCun luonnehtii sitä, Transformer-harrastajat uskovat: "Tokenisoimme kaiken ja harjoittelemme jättimäisiämalleja tehdä diskreettejä ennusteita, ja jotenkin tekoäly syntyy tästä."

"Ne eivät ole väärässä", hän sanoo, "sillä mielessä, että se saattaa olla osa tulevaa älykästä järjestelmää, mutta mielestäni siitä puuttuu olennaisia ​​​​osia."

Myös: Metan tekoälyvalaisin LeCun tutkii syvän oppimisen energiarajoja

Se on hätkähdyttävä kritiikki sille, mikä näyttää toimivan, peräisin tutkijalta, joka on kehittänyt konvoluutiohermoverkkojen käytön. Käytännön tekniikka on ollut uskomattoman tuottava syväoppimisohjelmissa. 

LeCun näkee puutteita ja rajoituksia monilla muilla erittäin menestyneillä tieteenalan alueilla. 

Vahvistusoppiminen ei myöskään koskaan riitä, hän väittää. Tutkijat, kuten DeepMindin David Silver, joka kehitti Shakin, Shogin ja Gon hallitsevan AlphaZero-ohjelman, keskittyvät ohjelmiin, jotka ovat "erittäin toimintaan perustuvia", LeCun huomauttaa, mutta "suurinta osaa oppimisestamme emme tee. tee se toimimalla, me teemme sen tarkkailemalla." 

Lecun, 62, vuosikymmenten saavutusten näkökulmasta ilmaisee kuitenkin kiireellisyyden kohdata hänen mielestään sokeat kujat, joita kohti monet saattavat ryntää, ja yrittää houkutella alaansa siihen suuntaan, johon hänen mielestään asioiden pitäisi mennä. 

"Näemme paljon väitteitä siitä, mitä meidän pitäisi tehdä edistääksemme ihmistason tekoälyä", hän sanoo. "Ja on ajatuksia, jotka ovat mielestäni väärin suunnattuja."

"Emme ole siinä pisteessä, että älykkäillä koneillamme olisi yhtä paljon maalaisjärkeä kuin kissalla", Lecun huomauttaa. "Joten, miksi emme aloittaisi siitä?" 

Hän on hylännyt aiemman uskonsa generatiivisten verkkojen käyttöön esimerkiksi videon seuraavan kuvan ennustamisessa. "Se on ollut täydellinen epäonnistuminen", hän sanoo. 

LeCun tuomitsee ne, joita hän kutsuu "uskonnollisiksi todennäköisyydeiksi", jotka "ajattelevat, että todennäköisyysteoria on ainoa kehys, jota voit käyttää koneoppimisen selittämiseen." 

Puhtaasti tilastollinen lähestymistapa on hankala, hän sanoo. ”On liikaa vaatia, että maailmanmalli olisi täysin todennäköinen; emme tiedä miten se tehdään."

Ei vain akateemikot, vaan teollinen tekoäly tarvitsee syvällistä uudelleenarviointia, LeCun väittää. Itse ajavien autojen joukko, Wayven kaltaiset startup-yritykset, ovat olleet "hieman liian optimistisia", hän sanoo, koska he ajattelivat, että he voisivat "heittää dataa" suuriin hermoverkkoihin "ja voit oppia melkein mitä tahansa."

"Tiedätkö, mielestäni on täysin mahdollista, että meillä on viidennen tason autonomisia autoja ilman maalaisjärkeä", hän sanoo viitaten "ADASiin". edistynyt kuljettajan apujärjestelmä itse ajamisen termejä, "mutta sinun on suunniteltava siitä helvetti."

Hän uskoo, että tällainen ylisuunniteltu itseajava tekniikka on jotain yhtä narisevaa ja hauras kuin kaikki tietokonenäköohjelmat, jotka vanhentuivat syvän oppimisen vuoksi.

"Lopulta tulee olemaan tyydyttävämpi ja mahdollisesti parempi ratkaisu, joka sisältää järjestelmiä, jotka ymmärtävät paremmin, miten maailma toimii."

Matkan varrella LeCun tarjoaa joitain kuihtuvia näkemyksiä suurimmista kriitikoistaan, kuten New Yorkin yliopiston professori Gary Marcusista – "hän ei ole koskaan edistänyt tekoälyä" - ja Jürgen Schmidhuberista, Dalle Molle -instituutin tekoälyn tutkimuslaitoksen johtajasta - "se on erittäin helppo tehdä lippujen istuttaminen."

Kritiikin lisäksi LeCunin esittämä tärkeämpi seikka on, että tietyt perusongelmat kohtaavat koko tekoälyn, erityisesti tiedon mittaaminen.

"Sinun on otettava askel taaksepäin ja sanottava: Okei, me rakensimme nämä tikkaat, mutta haluamme mennä kuuhun, eikä näillä tikkailla ole mitään mahdollisuutta viedä meidät sinne", LeCun sanoo halustaan ​​herättää uudelleen ajattelua. peruskäsitteistä. "Pohjimmiltaan kirjoitan tähän, että meidän on rakennettava raketteja, en voi kertoa sinulle yksityiskohtia siitä, kuinka rakennamme raketteja, mutta tässä ovat perusperiaatteet."

Lehti ja LeCunin ajatukset haastattelussa voidaan ymmärtää paremmin lukemalla LeCunin haastattelu aiemmin tänä vuonna. ZDNet jossa hän puolustaa energiapohjaista itseohjattua oppimista tietä eteenpäin syvälliseen oppimiseen. Nämä pohdiskelut antavat käsityksen ydinlähestymistavasta siihen, mitä hän toivoo rakentavansa vaihtoehtona asioille, joita hän ei väitä pääsevän maaliin. 

Seuraavassa on hieman muokattu kopio haastattelusta.

ZDNet: Keskustelumme aiheena on tämä artikkeli "Polku autonomiseen koneälyyn", jonka versio 0.9.2 on olemassa oleva versio, eikö niin?

Yann LeCun: Joo, pidän tätä tavallaan työasiakirjana. Joten julkaisin sen Open Review -sivustolla odottaen ihmisten kommentteja ja ehdotuksia, ehkä muita viittauksia, ja sitten tuotan tarkistetun version. 

ZDNet: Näen, että Juergen Schmidhuber on jo lisännyt kommentteja Open Reviewiin.

YL: Kyllä, hän tekee aina. Lainaan yhtä hänen kirjoituksiaan siellä lehdessäni. Mielestäni hänen sosiaalisissa verkostoissa esittämät väitteet, joiden mukaan hän pohjimmiltaan keksi kaiken tämän vuonna 1991, kuten hän on tehnyt muissa tapauksissa, eivät vain pidä paikkaansa. Tarkoitan, se on erittäin helppo tehdälipunistutus, ja tavallaan kirjoittaa idea ilman kokeiluja, ilman teoriaa, ehdota vain, että voisit tehdä sen tällä tavalla. Mutta tiedättekö, on suuri ero siinä, että vain saa idean ja sitten saa sen toimimaan leluongelman kanssa ja sitten saa sen toimimaan todellisen ongelman kanssa ja sitten teorian, joka näyttää miksi se toimii, ja sitten ottaa sen käyttöön. On olemassa kokonainen ketju, ja hänen ajatuksensa tieteellisestä ansiosta on, että se on ensimmäinen henkilö, jolla tavallaan oli ajatus siitä, että hänen pitäisi saada kaikki kunnia. Ja se on naurettavaa. 

ZDNet: Älä usko kaikkea mitä kuulet sosiaalisessa mediassa. 

YL: Tarkoitan, että pääpaperissa, jota hän sanoo minun pitäisi lainata, ei ole mitään niistä pääajatuksista, joista puhun lehdessä. Hän on tehnyt tämän myös GAN:ien ja muiden asioiden kanssa, mikä ei osoittautunut todeksi. Lippujen istuttaminen on helppoa, panoksen antaminen on paljon vaikeampaa. Ja muuten, tässä nimenomaisessa artikkelissa sanoin nimenomaisesti, että tämä ei ole tieteellinen artikkeli termin tavallisessa merkityksessä. Se on enemmän kannanotto siitä, mihin tämän asian pitäisi mennä. Ja siellä on pari ideaa, jotka saattavat olla uusia, mutta suurin osa niistä ei ole. En väitä ensisijaisesti suurinta osaa siitä, mitä kirjoitin tuossa paperissa.

yann-lecun-sept-2022-2

Vahvistusoppiminen ei myöskään koskaan riitä, LeCun väittää. Tutkijat, kuten DeepMindin David Silver, joka kehitti Shakin, Shogin ja Gon hallitsevan AlphaZero-ohjelman, ovat "erittäin toimintaan perustuvia", LeCun huomauttaa, mutta "suurinta osaa opiskelusta emme tee sitä ottamalla itse huomioon toimia, teemme sen tarkkailemalla." 

ZDNet: Ja se on ehkä hyvä paikka aloittaa, koska olen utelias, miksi kuljit tällä tiellä nyt? Mikä sai sinut ajattelemaan tästä? Miksi halusit kirjoittaa tämän?

YL: No niin, olen ajatellut tätä hyvin pitkään, polkua kohti ihmis- tai eläintason älykkyyttä tai oppimista ja kykyjä. Ja puheissani olen puhunut melko äänekkäästi tästä koko asiasta, että sekä ohjattu oppiminen että vahvistusoppiminen eivät riitä jäljittelemään sellaista oppimista, jota havaitsemme eläimissä ja ihmisissä. Olen tehnyt tätä noin seitsemän tai kahdeksan vuotta. Se ei siis ole tuore. Minulla oli NeurIPSissä monia vuosia sitten pääpuheenvuoro, jossa esitin tämän asian pohjimmiltaan, ja erilaisia ​​puheita, on äänitteitä. Miksi nyt kirjoittaa paperia? Olen tullut asiaan - [Google Brain -tutkija] Geoff Hinton oli tehnyt jotain vastaavaa - tarkoitan, että hän varmasti enemmän kuin minä, näemme ajan loppuvan. Emme ole nuoria.

ZDNet: Sixty on uusi viisikymmentä. 

YL: Se on totta, mutta pointti on, että näemme paljon väitteitä siitä, mitä meidän pitäisi tehdä edistääksemme kohti ihmistason tekoälyä. Ja on ajatuksia, jotka ovat mielestäni väärin suunnattuja. Joten yksi idea on, että meidän pitäisi vain lisätä symbolinen päättely hermoverkkojen päälle. Ja en tiedä miten tämä tehdään. Joten ehkä se, mitä selitin paperissa, voisi olla yksi lähestymistapa, joka tekisi saman asian ilman nimenomaista symbolien manipulointia. Tämä on eräänlainen perinteisesti Gary Marcuses maailmassa. Gary Marcus ei muuten ole tekoäly-ihminen, hän on psykologi. Hän ei ole koskaan edistänyt tekoälyä. Hän on tehnyt todella hyvää työtä kokeellisessa psykologiassa, mutta hän ei ole koskaan kirjoittanut vertaisarvioitua artikkelia tekoälystä. Eli siellä on niitä ihmisiä. 

Maailmassa on [DeepMind-periaatteen tutkija] David Silvers, joka sanoo, että palkkio riittää, pohjimmiltaan kyse on vahvistamisesta, meidän on vain tehtävä siitä hieman tehokkaampaa, okei? Ja mielestäni ne eivät ole väärässä, mutta mielestäni tarvittavat askeleet vahvistamisoppimisen tehostamiseksi pohjimmiltaan jättäisivät vahvistusoppimisen eräänlaiseksi kirsikkaksi kakun päällä. Ja tärkein puuttuva osa on oppia kuinka maailma toimii, enimmäkseen tarkkailemalla ilman toimintaa. Vahvistusoppiminen on hyvin toimintaan perustuvaa, maailmasta oppii asioita tekemällä ja näkemällä tulokset.

ZDNet: Ja se on palkintokeskeistä.

YL: Se on palkitsemiseen keskittynyt, ja se on myös toimintaan keskittynyt. Joten sinun on toimittava maailmassa voidaksesi oppia jotain maailmasta. Ja tärkein väite, jonka esitän paperissa itseohjatusta oppimisesta, on se, että suurin osa oppimisestamme, emme tee sitä tosiasiallisesti toimimalla, me teemme sen tarkkailemalla. Ja se on hyvin epätavallista, erityisesti vahvistusta oppiville ihmisille, mutta myös monille psykologeille ja kognitiotieteilijöille, jotka ajattelevat, että toiminta on – en sano, että toiminta ei ole välttämätöntä. is välttämätön. Mutta luulen, että suurin osa siitä, mitä opimme, liittyy enimmäkseen maailman rakenteeseen, ja se sisältää tietysti vuorovaikutusta ja toimintaa ja leikkimistä ja sen kaltaisia ​​asioita, mutta suuri osa siitä on havainnointia.

ZDNet: Samalla onnistut myös rastittamaan Transformer-ihmiset, kieli-ensimmäiset ihmiset. Kuinka voit rakentaa tämän ilman kieltä ensin? Saatat onnistua saamaan monet ihmiset kiinni. 

YL: Joo, olen tottunut siihen. Joten, kyllä, siellä ovat kieli-ensimmäiset ihmiset, jotka sanovat, että älykkyys on kielestä, älykkyyden substraatti on kieli, blaa, blaa, blaa. Mutta se tavallaan hylkää eläinten älykkyyden. Tiedätkö, emme ole siinä pisteessä, että älykkäillä koneillamme olisi yhtä paljon maalaisjärkeä kuin kissalla. Joten miksi emme aloittaisi siitä? Mikä mahdollistaa sen, että kissa ymmärtää ympäröivää maailmaa, tehdä aika fiksuja asioita, suunnitella ja muuta sellaista, ja koirat vielä paremmin? 

Sitten on kaikki ihmiset, jotka sanovat: Älykkyys on sosiaalinen asia, eikö niin? Olemme älykkäitä, koska puhumme toisillemme ja vaihdamme tietoja, ja blaa, blaa, blaa. On kaikenlaisia ​​ei-sosiaalisia lajeja, jotka eivät koskaan tapaa vanhempiaan, jotka ovat erittäin älykkäitä, kuten mustekala tai orangutanit.Tarkoitan, että he [orangutanit] ovat varmasti äitinsä kouluttamia, mutta he eivät ole sosiaalisia eläimiä. 

Mutta toinen ihmisryhmä, jonka saatan rastittaa pois, ovat ihmiset, jotka sanovat, että skaalaus riittää. Käytämme siis periaatteessa jättimäisiä Transformereja, koulutamme niitä multimodaalista dataa varten, joka sisältää videota, tekstiä, blaa, blaa, blaa. Me tavallaan kiveydymmekaikki, ja tokenisoi kaikki, ja sitten harjoittele jättimäistäpohjimmiltaan erillisiä ennusteita tekeviä malleja, ja jotenkin tekoäly syntyy tästä. He eivät ole väärässä siinä mielessä, että se voi olla osa tulevaisuuden älykästä järjestelmää. Mutta mielestäni siitä puuttuu olennaisia ​​​​osia. 

Aion rastittaa tällä paperilla toisen luokan ihmisiä. Ja ne ovat todennäköisyydet, uskonnolliset probabilistit. Joten ihmiset, joiden mielestä todennäköisyysteoria on ainoa kehys, jota voit käyttää koneoppimisen selittämiseen. Ja kuten yritin selittää teoksessa, on periaatteessa liikaa vaatia maailmanmallilta täysin todennäköisyyttä. Emme tiedä, miten se tehdään. Siinä on laskennallista vaikeaselkoisuutta. Joten ehdotan koko tämän idean luopumista. Ja tietysti, tiedäthän, tämä ei ole pelkästään koneoppimisen, vaan myös kaiken tilaston valtava pilari, joka väittää olevansa koneoppimisen normaali formalismi. 

Toinen asia - 

ZDNet: Olet rullassa…

YL: — kutsutaan generatiivisiksi malleiksi. Joten ajatus siitä, että voit oppia ennustamaan, ja voit ehkä oppia paljon maailmasta ennustamalla. Joten annan sinulle videon ja pyydän järjestelmää ennustamaan, mitä videossa tapahtuu seuraavaksi. Ja voin pyytää sinua ennustamaan todelliset videokehykset kaikkine yksityiskohtineen. Mutta se, mistä väitän lehdessä, on se, että se on itse asiassa liikaa pyydetty ja liian monimutkaista. Ja tämä on asia, josta muutin mieleni. Vielä noin kaksi vuotta sitten kannatin ns. latentin muuttujan generatiivisia malleja, malleja, jotka ennustavat, mitä tapahtuu seuraavaksi tai mitä tietoa puuttuu, mahdollisesti piilevän muuttujan avulla, jos ennustetta ei voida toteuttaa. deterministinen. Ja olen luopunut tästä. Ja syy, miksi olen luopunut tästä, perustuu empiirisiin tuloksiin, joissa ihmiset ovat yrittäneet soveltaa, eräänlaista, ennustamiseen tai rekonstruktioon perustuvaa koulutusta, jollaista BERT:ssä käytetään.ja suuria kielimalleja, he ovat yrittäneet soveltaa tätä kuviin, ja se on ollut täydellinen epäonnistuminen. Ja syy sen täydelliseen epäonnistumiseen johtuu jälleen todennäköisyysmallien rajoituksista, joissa on suhteellisen helppoa ennustaa erillisiä merkkejä, kuten sanoja, koska voimme laskea todennäköisyysjakauman kaikille sanakirjan sanoille. Se on helppoa. Mutta jos pyydämme järjestelmää tuottamaan todennäköisyysjakauman kaikille mahdollisille videokehyksille, meillä ei ole aavistustakaan kuinka se parametroidaan, tai meillä on jonkinlainen käsitys kuinka se parametroidaan, mutta emme tiedä kuinka normalisoida se. Se osuu ratkaisemattomaan matemaattiseen ongelmaan, jota emme tiedä kuinka ratkaista. 

yann-lecun-sept-2022-3

"Emme ole siinä pisteessä, että älykkäillä koneillamme olisi yhtä paljon maalaisjärkeä kuin kissalla", Lecun huomauttaa. "Joten, miksi emme aloittaisi siitä? Mikä mahdollistaa sen, että kissa voi ymmärtää ympäröivää maailmaa, tehdä aika älykkäitä asioita, suunnitella ja muuta sellaista, ja koirat vielä paremmin?"

Siksi sanon, että hylätään todennäköisyysteoria tai tällaisten asioiden viitekehys, heikompi, energiapohjaiset mallit. Olen kannattanut tätä myös vuosikymmeniä, joten tämä ei ole uusi asia. Mutta samalla luopuminen generatiivisten mallien ajatuksesta, koska maailmassa on paljon asioita, jotka eivät ole ymmärrettäviä ja ennakoimattomia. Jos olet insinööri, kutsut sitä meluksi. Jos olet fyysikko, kutsut sitä lämmöksi. Ja jos olet koneoppiva henkilö, kutsut sitä epäolennaiseksi yksityiskohdaksi tai miksi tahansa.

Joten, esimerkki, jota käytin lehdessä tai olen käyttänyt keskusteluissa, on, että haluat maailmanennustusjärjestelmän, joka auttaisi itseajavassa autossa, eikö niin? Se haluaa pystyä ennustamaan etukäteen kaikkien muiden autojen liikeradat, mitä tapahtuu muille mahdollisesti liikkuville esineille, jalankulkijoille, polkupyörille, jalkapallon perässä juoksevalle lapselle, sellaisille asioille. Eli kaikenlaista maailmasta. Mutta tien reunalla saattaa olla puita ja tänään tuulee, joten lehdet liikkuvat tuulessa, ja puiden takana on lampi, ja lammikossa on aaltoilua. Ja ne ovat pohjimmiltaan suurelta osin arvaamattomia ilmiöitä. Et myöskään halua, että mallisi käyttää huomattavaa määrää resursseja sellaisten asioiden ennustamiseen, jotka ovat sekä vaikeasti ennustettavia että merkityksettömiä. Siksi kannatan yhteistä upotusarkkitehtuuria, niitä asioita, joissa muuttuja, jota yrität mallintaa, et yritä ennustaa sitä, yrität mallintaa sitä, mutta se kulkee kooderin läpi, ja tämä enkooderi voi poistaa paljon yksityiskohtia syötteestä, jotka ovat epäolennaisia ​​tai liian monimutkaisia ​​- periaatteessa vastaavat kohinaa.

ZDNet: Keskustelimme aiemmin tänä vuonna energiapohjaisista malleista, JEPAsta ja H-JEPAsta. Jos ymmärrän sinut oikein, käsitykseni on se, että löydät matalan energian pisteen, jossa nämä kaksi X- ja Y-upotusten ennustetta ovat eniten samankaltaisia, mikä tarkoittaa, että jos puussa on kyyhkynen yhdessä ja siinä on jotain. kohtauksen taustalla, ne eivät välttämättä ole olennaisia ​​kohtia, jotka tekevät näistä upotuksista lähellä toisiaan.

YL: Oikein. Joten JEPA-arkkitehtuuri yrittää itse asiassa löytää kompromissin, kompromissin sellaisten esitysten poimimisen välillä, jotka ovat mahdollisimman informatiivisia syötteistä, mutta jotka ovat myös ennustettavissa toisistaan ​​tietyllä tarkkuudella tai luotettavuudella. Se löytää kompromissin. Joten jos se voi valita, käyttääkö se valtavasti resursseja, mukaan lukien lehtien liikkeen yksityiskohdat, ja sitten mallintaa dynamiikkaa, joka päättää kuinka lehdet liikkuvat hetken kuluttua, tai pudottaako se lattialle vain periaatteessa Y-muuttujan suorittaminen ennustajan läpi, joka eliminoi kaikki nämä yksityiskohdat, se todennäköisesti vain eliminoi sen, koska sitä on liian vaikea mallintaa ja kaapata.

ZDNet: Yksi asia, joka on yllättynyt, on se, että olit suuri kannattaja sanomassa "Se toimii, me selvitämme myöhemmin termodynamiikan teorian selittääksemme sen." Tässä olet omaksunut lähestymistavan: "En tiedä, kuinka aiomme välttämättä ratkaista tämän, mutta haluan esittää ideoita sen pohtimiseksi", ja ehkä jopa lähestynyt teoriaa tai hypoteesia vähiten. Se on mielenkiintoista, koska monet ihmiset käyttävät paljon rahaa työskentelemään auton parissa ja näkevät jalankulkijan riippumatta siitä, onko autossa tervettä järkeä. Ja kuvittelen, että jotkut heistä eivät ole rastitettuja, mutta he sanovat: "Se on hyvä, emme välitä, jos siinä ei ole maalaisjärkeä, olemme rakentaneet simulaation, simulaatio on hämmästyttävä, ja aiomme parantaa jatkuvasti, aiomme skaalata simulaatiota." 

Ja siksi on mielenkiintoista, että voit nyt sanoa: otamme askeleen taaksepäin ja mietimme, mitä olemme tekemässä. Ja teollisuus sanoo, että aiomme vain skaalata, skaalata, skaalata, skaalata, koska se kampi todella toimii. Tarkoitan, että GPU:iden puolijohdekampi todella toimii.

YL: Siinä on viisi kysymystä. Tarkoitan siis, että skaalaus on välttämätöntä. En arvostele sitä tosiasiaa, että meidän pitäisi skaalata. Meidän pitäisi skaalata. Nuo hermoverkot paranevat, kun ne kasvavat. Ei ole epäilystäkään, että meidän pitäisi skaalata. Ja ne, joilla on jonkin verran tervettä järkeä, ovat suuria. Sitä ei mielestäni voi kiertää. Skaalaus on siis hyvä asia, se on välttämätöntä, mutta ei riittävää. Se on pointtini. Se ei ole vain skaalaus. Se on ensimmäinen kohta. 

Toinen kohta, tuleeko teoria ensin ja muut asiat. Joten, mielestäni on olemassa käsitteitä, jotka tulevat ensimmäiseksi, että sinun täytyy ottaa askel taaksepäin ja sanoa, okei, me rakensimme nämä tikkaat, mutta haluamme mennä kuuhun, eivätkä nämä tikkaat vie meidät sinne. Joten pohjimmiltaan kirjoitan tähän, että meidän on rakennettava raketteja. En voi antaa sinulle yksityiskohtia siitä, kuinka rakennamme raketteja, mutta tässä ovat perusperiaatteet. Enkä kirjoita sille teoriaa tai mitään, mutta siitä tulee raketti, okei? Tai avaruushissi tai mikä tahansa. Meillä ei välttämättä ole kaikkia tekniikan yksityiskohtia. Yritämme saada jotkin niistä toimimaan, aivan kuin olisin työskennellyt JEPAn parissa. Yhteinen upottaminen toimii todella hyvin kuvantunnistuksessa, mutta sen käyttäminen maailmanmallin kouluttamiseen on vaikeaa. Työskentelemme sen eteen, toivomme, että saamme sen toimimaan soon, mutta saatamme kohdata siellä joitain esteitä, joita emme ehkä voi ylittää. 

Sitten on paperissa keskeinen ajatus päättelystä, jossa jos haluamme järjestelmien pystyvän suunnittelemaan, jota voit ajatella yksinkertaisena päättelyn muotona, niillä täytyy olla piileviä muuttujia. Toisin sanoen asioita, joita mikään hermoverkko ei laske, vaan asioita, jotka ovat — joiden arvo päätellään jonkin tavoitefunktion, jonkin kustannusfunktion minimoimiseksi. Ja sitten voit käyttää tätä kustannusfunktiota ohjaamaan järjestelmän toimintaa. Eikä tämä ole ollenkaan uusi idea, eihän? Tämä on hyvin klassinen, optimaalinen ohjaus, jonka perusta juontaa juurensa 50-luvun lopulle, 60-luvun alkupuolelle. Joten en väitä tässä mitään uutuutta. Mutta sanon, että tämän tyyppisten päätelmien on oltava osa älykästä järjestelmää, joka pystyy suunnittelemaan ja jonka käyttäytymistä ei voida määritellä tai ohjata kiinteällä käytöksellä, ei jäljittelemällä, vaan objektiivisella funktiolla, joka ohjaa käyttäytymistä - ei välttämättä ohjaa oppimista, mutta se ohjaa käyttäytymistä. Tiedätkö, meillä on se aivoissamme, ja jokaisella eläimellä on sisäinen hinta tai sisäinen motivaatio asioille. Se saa yhdeksän kuukauden ikäiset vauvat haluamaan nousta ylös. Kustannukset siitä, että olet onnellinen, kun nouset seisomaan, tämä kustannusfunktion termi on kiinteä. Mutta se, miten seisot, ei ole, se on oppimista.

yann-lecun-sept-2022-4

"Skaalaus on hyvä asia, se on välttämätöntä, mutta ei riittävää", LeCun sanoo jättimäisistä kielimalleista, kuten GPT-3-lajin Transformer-pohjaisista ohjelmista. Transformer-harrastajat uskovat: "Me tokenisoimme kaiken ja harjoittelemme jättimäisiämalleja tehdä diskreettejä ennusteita, ja jotenkin tekoäly syntyy tästä… mutta mielestäni siitä puuttuu olennaisia ​​osia."

ZDNet: Täydentääkseni totean, että suuri osa syvän oppimisyhteisöstä näyttää hyvältä jatkaa jotain, jolla ei ole maalaisjärkeä. Vaikuttaa siltä, ​​että esität täällä melko selkeän argumentin, että jossain vaiheessa siitä tulee umpikuja. Jotkut ihmiset sanovat, että emme tarvitse autonomista autoa terveellä järjellä, koska skaalaus tekee sen. Kuulostaa siltä, ​​että sanot, ettei ole okei vain jatkaa tällä tiellä?

YL: Tiedätkö, mielestäni on täysin mahdollista, että meillä on viidennen tason autonomisia autoja ilman maalaisjärkeä. Mutta tämän lähestymistavan ongelmana on, että tämä tulee olemaan väliaikaista, koska sinun on suunniteltava siitä helvetti. Joten, tiedäthän, kartoita koko maailma, kiinnitä kaikenlaista erityistä kulmatapauskäyttäytymistä, kerää tarpeeksi dataa, jotta sinulla on kaikki ne omituiset tilanteet, joita voit kohdata teillä, blaa, bla, bla. Ja arvaukseni on, että riittävällä investoinnilla ja ajalla voit vain suunnitella siitä helvetin. Mutta viime kädessä tulee olemaan tyydyttävämpi ja mahdollisesti parempi ratkaisu, joka sisältää järjestelmät, jotka ymmärtävät paremmin, miten maailma toimii, ja joilla on, tiedätkö, jollain tasolla sitä, mitä kutsuisimme terveeksi järjeksi. Sen ei tarvitse olla ihmistason maalaisjärkeä, vaan jonkinlaista tietoa, jonka järjestelmä voi hankkia katsomalla, mutta ei katsomalla jonkun ajamista, vain katsomalla liikkuvaa tavaraa ja ymmärtämällä paljon maailmasta, rakentamalla perustan taustalle. tietoa maailman toiminnasta, jonka lisäksi voit oppia ajamaan. 

Otan tästä historiallisen esimerkin. Klassinen tietokonenäkö perustui moniin langallisiin, suunniteltuihin moduuleihin, joiden päälle sinulla olisi tavallaan ohut kerros oppimista. AlexNet päihitti vuonna 2012, ja siinä oli pohjimmiltaan ensimmäinen vaihe, tavallaan käsintehtyjä ominaisuuspoimintoja, kuten SIFT:t [Scale-Invariant Feature Transform (SIFT), klassinen visiotekniikka, jolla voidaan tunnistaa kuvassa näkyvät kohteet] ja HOG [Histogram of Oriented Gradients, toinen klassinen tekniikka] ja monia muita asioita. Ja sitten toinen kerros, tavallaan keskitason ominaisuuksia, jotka perustuvat ominaisuusytimiin ja mihin tahansa, ja jonkinlainen valvomaton menetelmä. Ja sitten tämän päälle laitat tukivektorikoneen tai muuten suhteellisen yksinkertaisen luokittelijan. Ja se oli tavallaan tavallinen putkisto 2000-luvun puolivälistä 2012. Ja se korvattiin päästä-päähän konvoluutioverkoilla, joissa et sido mitään, sinulla on vain paljon dataa, ja harjoittelet asiaa alusta loppuun, jota olin kannattanut jo pitkään, mutta tiedäthän, siihen asti se ei ollut käytännöllinen suurissa ongelmissa. 

Puheentunnistuksessa on ollut samanlainen tarina, jossa taas oli valtava määrä yksityiskohtaista suunnittelua tietojen esikäsittelyssä, massamittakaavaisen cepstrumin erottamisessa [signaalinkäsittelyn nopean Fourier-muunnoksen käänteiskappale] ja sitten sinulla on piilotettuja Markov-malleja, joissa on jonkinlainen, ennalta asetettu arkkitehtuuri, blaa, blaa, blaa, ja Gaussians-sekoitus. Ja niin, se on vähän samaa arkkitehtuuria kuin vision, jossa sinulla on käsintehty etuosa ja sitten hieman valvomaton, koulutettu keskikerros ja sitten valvottu kerros päälle. Ja nyt se on periaatteessa pyyhitty pois päästä-päähän neuroverkkojen toimesta. Joten näen siellä jotain samanlaista, kun yrität oppia kaiken, mutta sinulla on oltava oikea ennakko, oikea arkkitehtuuri, oikea rakenne.

yann-lecun-sept-2022-5

Itseajavien autojen joukko, startupit, kuten Waymo ja Wayve, ovat olleet "hieman liian optimistisia", hän sanoo, koska he ajattelivat, että he voisivat "heittää dataa, ja voit oppia melkein mitä tahansa". Itseajavat autot ADAS:n tasolla 5 ovat mahdollisia, "mutta sinun on suunniteltava siitä helvetti" ja ne ovat "hauraita" kuten varhaiset tietokonenäkömallit.

ZDNet: Sanot, että jotkut ihmiset yrittävät suunnitella sen, mikä ei tällä hetkellä toimi syvällä oppimisella soveltuvuutta varten, esimerkiksi teollisuudessa, ja he alkavat luoda jotain, joka on vanhentunut tietokonenäössä?

YL: Oikein. Ja osittain se johtuu siitä, että autonomisen ajamisen parissa työskentelevät ihmiset ovat olleet hieman liian optimistisia viime vuosien aikana, koska tiedäthän, että sinulla on nämä, tavallaan yleiset asiat, kuten konvoluutioverkot ja muuntajat, joihin voit heittää tietoja. , ja se voi oppia melkein mitä tahansa. Joten sanot: Okei, minulla on ratkaisu tähän ongelmaan. Ensimmäinen asia, jonka teet, on rakentaa demo, jossa auto ajaa itseään muutaman minuutin vahingoittamatta ketään. Ja sitten huomaat, että kulmakoteloita on paljon, ja yrität piirtää käyrän, kuinka paljon paremmin voin, kun tuplaan harjoitussarjan, ja ymmärrät, että et koskaan pääse sinne, koska siellä on kaikenlaisia ​​​​kulmakoteloita. . Ja sinulla on oltava auto, joka aiheuttaa kuolemaan johtavan onnettomuuden harvemmin kuin 200 miljoonan kilometrin välein, eikö niin? Joten mitä sinä teet? No, kävelet kahteen suuntaan. 

Ensimmäinen suunta on, kuinka voin vähentää tiedon määrää, jota järjestelmäni tarvitsee oppimiseen? Ja tässä itseohjattu oppiminen tulee esiin. Joten monet itseohjautuvat autot ovat erittäin kiinnostuneita itseohjatusta oppimisesta, koska se on tapa käyttää edelleen jättimäisiä määriä ohjausdataa jäljitelmäoppimiseen, mutta parantaa suorituskykyä lähinnä esikoulutusta. Eikä se ole vielä aivan ohi, mutta tulee. Ja sitten on toinen vaihtoehto, jonka suurin osa tällä hetkellä edistyneemmistä yrityksistä on omaksunut, eli okei, voimme suorittaa kokonaisvaltaisen koulutuksen, mutta on monia kulmatapauksia, joissa voimme. t käsittelemään, joten aiomme vain suunnitella järjestelmiä, jotka huolehtivat noista kulmatapauksista, ja pohjimmiltaan käsittelevät niitä erikoistapauksina ja kytkevät ohjauksen ja sitten johdotamme paljon peruskäyttäytymistä erikoistilanteiden käsittelemiseksi. Ja jos sinulla on tarpeeksi suuri insinööritiimi, saatat onnistua. Mutta se kestää kauan, ja loppujen lopuksi se on silti hieman hauras, ehkä riittävän luotettava, jotta voit ottaa käyttöön, mutta jossain määrin haurautta, mikä saattaa näkyä oppimiseen perustuvalla lähestymistavalla Tulevaisuudessa autoilla ei ole, koska sillä saattaa olla jonkin verran maalaisjärkeä ja ymmärrystä siitä, miten maailma toimii. 

Lyhyellä aikavälillä tavallaan suunniteltu lähestymistapa voittaa – se voittaa jo. Se on Waymo ja Cruise of the World ja Wayveja mitä tahansa, niin he tekevät. Sitten on itseohjattu oppimisen lähestymistapa, joka todennäköisesti auttaa suunniteltua lähestymistapaa edistymään. Mutta sitten pitkällä aikavälillä, joka saattaa olla liian kauan näille yrityksille odottamaan, olisi todennäköisesti eräänlainen integroitunut autonominen älykäs ajojärjestelmä.

ZDNet: Sanomme useimpien sijoittajien sijoitushorisontin ulkopuolella.

YL: Oikein. Joten kysymys kuuluu, menettävätkö ihmiset kärsivällisyytensä vai loppuvatko rahat ennen kuin suorituskyky saavuttaa halutun tason.

ZDNet: Onko jotain mielenkiintoista sanottavaa siitä, miksi valitsit jotkin mallissa valitsemistasi elementeistä? Koska lainaat Kenneth Craikia [1943,Selityksen luonne], ja lainaat Brysonin ja Hon [1969, Sovellettu optimaalinen ohjaus], ja olen utelias, miksi aloitit näillä vaikutteilla, jos uskoit erityisesti, että näillä ihmisillä oli se nauloillaan siihen asti, mitä he olivat tehneet. Miksi aloitit siellä?

YL: No, en todellakaan usko, että heillä oli kaikki yksityiskohdat naulattuna. Joten, Bryson ja Ho, tämä on kirja, jonka luin vuonna 1987, kun olin postdoc Geoffrey Hintonin kanssa Torontossa. Mutta tiesin tästä työlinjasta etukäteen, kun kirjoitin tohtorintutkintoa, ja tein yhteyden optimaalisen ohjauksen ja takapotkun välillä. Jos todella halusit olla toinen Schmidhuber, sanoisit, että backpropin todelliset keksijät olivat itse asiassa optimaalisen ohjauksen teoreetikot Henry J. Kelley, Arthur Bryson ja ehkä jopa Lev Pontryagin, joka on venäläinen optimaalisen ohjauksen teoreetikko. 50-luvun lopulla. 

Joten he keksivät sen, ja itse asiassa voit itse asiassa nähdä tämän juuren, sen alla olevan matematiikan, on Lagrangin mekaniikka. Joten voit itse asiassa palata Euleriin ja Lagrangeen ja löytää tästä jonkinlainen tuulahdus heidän Lagrangian klassisen mekaniikan määritelmästä. Joten optimaalisen ohjauksen yhteydessä nämä kaverit olivat kiinnostuneita pohjimmiltaan rakettien lentoratojen laskemisesta. Tiedätkö, tämä oli varhainen avaruusaika. Ja jos sinulla on raketin malli, se kertoo, että raketin tila on sillä hetkellä t, ja tässä on toimet, joihin aion ryhtyä, joten, työntövoima ja erityyppiset toimilaitteet, tässä on raketin tila kulloinkin t + 1.

ZDNet: Tila-toimintamalli, arvomalli.

YL: Se on oikein, valvonnan perusta. Joten nyt voit simuloida rakettisi ampumista kuvittelemalla komentosarjan, ja sitten sinulla on jokin kustannusfunktio, joka on raketin etäisyys kohteeseensa, avaruusasemasta tai mistä tahansa. Ja sitten jonkinlaisella kaltevuuslaskulla voit selvittää, kuinka voin päivittää toimintajaksoni niin, että rakettini todella pääsee mahdollisimman lähelle kohdetta. Ja sen on tultava eteenpäin etenemällä signaaleja ajassa taaksepäin. Ja se on takaisin-eteneminen, gradientti takaisin-eteneminen. Näitä signaaleja, niitä kutsutaan konjugaattimuuttujiksi Lagrangian mekaniikassa, mutta itse asiassa ne ovat gradientteja. Joten he keksivät backpropin, mutta he eivät ymmärtäneet, että tällä periaatteella voitaisiin kouluttaa monivaiheinen järjestelmä, joka voi tehdä hahmontunnistuksen tai jotain vastaavaa. Tämä toteutui vasta ehkä 70-luvun lopulla, 80-luvun alussa, ja sitten se toteutettiin ja saatiin toimimaan vasta 80-luvun puolivälissä. Okei, tässä backprop todella, tavallaan, lähti nousuun, koska ihmiset näyttivät tässä muutaman koodirivin, joilla voit kouluttaa hermoverkkoa päästä päähän, monikerroksisena. Ja se nostaa Perceptronin rajoituksia. Ja kyllä, siellä on yhteyksiä optimaaliseen ohjaukseen, mutta se on okei.

ZDNet: Joten, se on pitkä tapa sanoa, että nämä vaikutteet, joilla aloitit, palasivat backpropiin, ja se oli tärkeä lähtökohta sinulle?

YL: Joo, mutta luulen, että se, minkä ihmiset vähän unohtivat, sen parissa tehtiin melko paljon työtä 90- tai jopa 80-luvulla, mukaan lukien Michael Jordanin kaltaiset ihmiset [MIT Dept. of Brain ja kognitiiviset tieteet] ja sen kaltaiset ihmiset, jotka eivät enää tee hermoverkkoja, vaan ajatusta, että voit käyttää hermoverkkoja ohjaukseen ja voit käyttää klassisia ideoita optimaalisesta ohjauksesta. Joten asiat, kuten niin sanottu mallien ennustava ohjaus, mitä nyt kutsutaan mallin ennustavaksi ohjaukseksi, tämä ajatus, että voit simuloida tai kuvitella toimintosarjan lopputuloksen, jos sinulla on hyvä malli järjestelmästä, jota yrität hallita. ja ympäristö, jossa se on. Ja sitten kaltevuuslaskulla, pohjimmiltaan – tämä ei ole oppimista, tämä on päättelyä – voit selvittää, mikä on paras toimintosarja, joka minimoi tavoitteeni. Joten uskon, että kustannusfunktion käyttö piilevän muuttujan kanssa päättelemiseen on jotain, jonka nykyiset laajamittaiset hermoverkot ovat unohtaneet. Mutta se oli hyvin klassinen koneoppimisen komponentti pitkään. Joten jokainen Bayesin verkko tai graafinen malli tai todennäköisyyspohjainen graafinen malli käytti tämän tyyppistä päättelyä. Sinulla on malli, joka kaappaa muuttujien väliset riippuvuudet, sinulle kerrotaan joidenkin muuttujien arvo, ja sitten sinun on pääteltävä muiden muuttujien todennäköisin arvo. Se on päättelyn perusperiaate graafisissa malleissa ja Bayesian Netsissä ja sellaisissa asioissa. Ja mielestäni siitä päättelyn pitäisi pohjimmiltaan olla kyse, pohdintaa ja suunnittelua.

ZDNet: Olet bayesilainen.

YL: Olen ei-todennäköisyyspohjainen bayesilainen. Tein tuon vitsin ennenkin. Olin itse asiassa NeurIPS:ssä muutama vuosi sitten, taisin olla vuonna 2018 tai 2019, ja sain videolle bayesilaiselta, joka kysyi minulta, olenko bayesialainen, ja sanoin: Joo, olen bayesialainen, mutta minä Olen ei-todennäköisyyspohjainen bayesilainen, tavallaan energiapohjainen bayesilainen, jos haluat. 

ZDNet: Mikä varmasti kuulostaa joltain Star Trek. Mainitsit tämän paperin lopussa, että kestää vuosia todella kovaa työtä toteuttaaksesi mitä kuvittelet. Kerro minulle, mistä osa tämän hetken työstä koostuu.

YL: Joten selitän lehdessä kuinka koulutat ja rakennat JEPAa. Ja kriteeri, jota kannatan, on jollakin tavalla maksimoida tietosisältö, joka poimituilla esityksillä on syötteestä. Ja sitten toinen on ennustevirheen minimoiminen. Ja jos sinulla on ennustajassa piilevä muuttuja, joka sallii ennustajan olevan epädeterministinen, sinun on myös tämä piilevä muuttuja säädettävä minimoimalla sen informaatiosisältö. Joten, sinulla on nyt kaksi ongelmaa, eli kuinka maksimoit jonkin hermoverkon lähdön tietosisällön, ja toinen on, kuinka pienennät jonkin piilevän muuttujan tietosisältöä? Ja jos et tee näitä kahta asiaa, järjestelmä romahtaa. Se ei opi mitään mielenkiintoista. Se antaa nollaenergiaa kaikkeen, jotain sellaista, mikä ei ole hyvä malli riippuvuudesta. Se on romahduksen ehkäisyongelma, jonka mainitsen. 

Ja sanon kaikista asioista, joita ihmiset ovat koskaan tehneet, että on vain kaksi luokkaa menetelmiä romahduksen estämiseksi. Toinen on kontrastiiviset menetelmät, ja toinen on ne regularisoidut menetelmät. Tämä ajatus kahden syötteen esitysten informaatiosisällön maksimoimisesta ja piilevän muuttujan informaatiosisällön minimoimisesta kuuluu siis regularisoituihin menetelmiin. Mutta suuri osa työstä näissä yhteisissä upotusarkkitehtuureissa käyttää kontrastiivisia menetelmiä. Itse asiassa ne ovat luultavasti suosituimpia tällä hetkellä. Kysymys on siis siitä, kuinka mittaat tietosisältöä tavalla, jonka voit optimoida tai minimoida? Ja siellä asiat muuttuvat monimutkaisiksi, koska emme todellakaan tiedä, miten tietosisältöä mitataan. Voimme arvioida sen, voimme ylittää sen, voimme tehdä sellaisia ​​asioita. Mutta ne eivät itse asiassa mittaa tietosisältöä, joka itse asiassa ei ole jossain määrin edes tarkasti määritelty.

ZDNet: Eikö se ole Shannonin laki? Eikö se ole informaatioteoriaa? Sinulla on tietty määrä entropiaa, hyvää entropiaa ja huonoa entropiaa, ja hyvä entropia on symbolijärjestelmä, joka toimii, huono entropia on kohinaa. Eikö Shannon ole ratkaissut kaiken?

YL: Olet oikeassa, mutta taustalla on suuri virhe. Olet oikeassa siinä mielessä, että jos sinulla on dataa tulossa ja voit jollakin tavalla kvantisoida tiedot erillisiksi symboleiksi ja sitten mitata kunkin symbolin todennäköisyyden, niin näiden symbolien kuljettaman tiedon enimmäismäärä on summa mahdollisten symbolien päälle Pi log Pi, eikö? Missä Pi on symbolin todennäköisyys minä — se on Shannonin entropia. [Shannonin laki muotoillaan yleisesti muodossa H = – ∑ pi log pi.]

Tässä on kuitenkin ongelma: Mikä on Pi? Se on helppoa, kun symbolien määrä on pieni ja symbolit piirretään itsenäisesti. Kun on monia symboleja ja riippuvuuksia, se on erittäin vaikeaa. Joten jos sinulla on bittisarja ja oletat, että bitit ovat toisistaan ​​riippumattomia ja todennäköisyys on yhtä suuri välillä yksi ja nolla tai mitä tahansa, voit helposti mitata entropian, ei ongelmaa. Mutta jos sinulle tulevat asiat ovat korkeadimensionaalisia vektoreita, kuten tietokehyksiä tai jotain tämän kaltaista, mikä on Pi? Mikä on jakelu? Ensin sinun täytyy kvantisoida tuo tila, joka on korkeaulotteinen, jatkuva avaruus. Sinulla ei ole aavistustakaan kuinka kvantisoida tämä oikein. Voit käyttää k-keinoja jne. Näin ihmiset tekevät, kun he pakkaavat videoita ja kuvia. Mutta se on vain likimääräinen. Ja sitten sinun on tehtävä oletuksia itsenäisyydestä. Joten on selvää, että videossa peräkkäiset kehykset eivät ole riippumattomia. On riippuvuuksia, ja tuo kehys saattaa riippua toisesta kehyksestä, jonka näit tunti sitten, joka oli kuva samasta asiasta. Joten tiedätkö, et voi mitata Pi. Mitata Pi, sinulla on oltava koneoppimisjärjestelmä, joka oppii ennustamaan. Ja niin olet palannut edelliseen ongelmaan. Joten voit vain arvioida tiedon mittaa olennaisesti. 

yann-lecun-sept-2022-6

"Kysymys kuuluu, kuinka mittaat tietosisältöä siten, että voit optimoida tai minimoida sen?" sanoo LeCun. "Ja siellä asiat muuttuvat monimutkaisiksi, koska emme todellakaan tiedä, miten tietosisältöä mitataan." Parasta, mitä tähän mennessä voidaan tehdä, on löytää välityspalvelin, joka on "riittävän hyvä haluamaamme tehtävään".

Otan konkreettisemman esimerkin. Yksi algoritmeista, jolla olemme leikkineet, ja josta olen puhunut kappaleessa, on tämä asia nimeltä VICReg, varianssi-invarianssi-kovarianssiregulaatio. Se on erillisessä paperissa, joka julkaistiin ICLR:ssä ja se laitettiin arXiviin noin vuosi ennen vuotta 2021. Ja ideana on tiedon maksimointi. Ja idea tuli itse asiassa ryhmäni aikaisemmasta paperista Barlowin kaksoset. Voit maksimoida hermoverkosta tulevan vektorin informaatiosisällön periaatteessa olettaen, että ainoa riippuvuus muuttujien välillä on korrelaatio, lineaarinen riippuvuus. Joten jos oletetaan, että ainoa riippuvuus, joka on mahdollista muuttujaparien välillä tai järjestelmän muuttujien välillä, on arvoparien väliset korrelaatiot, mikä on erittäin karkea likiarvo, voit maksimoida järjestelmästäsi tulevan tietosisällön. varmistamalla, että kaikilla muuttujilla on nollasta poikkeava varianssi – oletetaan, että varianssi yksi, sillä ei ole väliä mitä se on – ja sitten korreloimalla ne takaisin, sama prosessi, jota kutsutaan valkaisuksi, se ei ole myöskään uusi. Ongelma tässä on, että sinulla voi hyvinkin olla erittäin monimutkaisia ​​riippuvuuksia joko muuttujaryhmien tai jopa vain muuttujaparien välillä, jotka eivät ole lineaarisia riippuvuuksia, eivätkä ne näy korrelaatioissa. Joten esimerkiksi, jos sinulla on kaksi muuttujaa ja kaikki näiden kahden muuttujan pisteet ovat jonossa jonkinlaisessa spiraalissa, näiden kahden muuttujan välillä on erittäin vahva riippuvuus, eikö? Mutta itse asiassa, jos lasket näiden kahden muuttujan välisen korrelaation, ne eivät korreloi. Joten tässä on esimerkki, jossa näiden kahden muuttujan tietosisältö on itse asiassa hyvin pieni, se on vain yksi määrä, koska se on sinun asemasi spiraalissa. Ne ovat dekorreloituneita, joten luulet saavasi paljon tietoa noista kahdesta muuttujasta, vaikka itse asiassa sinulla ei ole, voit vain ennustaa toisen muuttujan toisesta, olennaisesti. Tämä osoittaa, että meillä on vain hyvin likimääräisiä tapoja mitata tietosisältöä.

ZDNet: Ja tämä on siis yksi niistä asioista, joita sinun on nyt työstettävä tämän kanssa? Tämä on suurempi kysymys siitä, kuinka tiedämme, milloin maksimoimme ja minimoimme tietosisältöä?

YL:  Tai onko tähän käyttämämme välityspalvelin tarpeeksi hyvä haluamaamme tehtävään. Itse asiassa teemme tämän koko ajan koneoppimisessa. Minimoimamme kustannusfunktiot eivät koskaan ole niitä, joita haluamme minimoida. Joten esimerkiksi haluat tehdä luokittelun, okei? Kustannusfunktio, jonka haluat minimoida luokittelijaa koulutettaessa, on luokittelijan tekemien virheiden määrä. Mutta se on erottumaton, kauhea kustannusfunktio, jota et voi minimoida, koska tiedät, että aiot muuttaa hermoverkkosi painoja, mikään ei muutu ennen kuin jokin näistä näytteistä kääntää päätöksensä, ja sitten hyppää. virheessä, positiivinen tai negatiivinen.

ZDNet: Joten sinulla on välityspalvelin, joka on objektiivinen funktio, jonka voit varmasti sanoa, että voimme varmasti virrata tämän asian gradientteja.

YL: Oikein. Joten ihmiset käyttävät tätä cross-entropy loss tai SOFTMAX, sinulla on useita nimiä sille, mutta se on sama asia. Ja pohjimmiltaan se on tasainen likimäärä järjestelmän tekemien virheiden lukumäärästä, jossa tasoitus tehdään periaatteessa ottamalla huomioon pisteet, jotka järjestelmä antaa kullekin kategorialle.

ZDNet: Onko jotain, jota emme ole käsitelleet ja jonka haluaisit kattaa?

YL: Se varmaan korostaa pääkohtia. Uskon, että tekoälyjärjestelmien on kyettävä järkeilemään, ja prosessi, jota kannatan, on minimoida jonkin tavoitteen suhteessa johonkin piilevään muuttujaan. Näin järjestelmät voivat suunnitella ja järkeillä. Mielestäni meidän pitäisi luopua todennäköisyyspohjaisesta viitekehyksestä, koska se on vaikeasti ratkaistavissa, kun haluamme tehdä asioita, kuten siepata riippuvuuksia korkeadimensionaalisten, jatkuvien muuttujien välillä. Ja kannatan luopumista generatiivisista malleista, koska järjestelmän on käytettävä liikaa resursseja sellaisten asioiden ennustamiseen, joita on liian vaikea ennustaa ja jotka saattavat kuluttaa liikaa resursseja. Ja siinä se on pitkälti. Siinä tärkeimmät viestit, jos haluat. Ja sitten yleinen arkkitehtuuri. Sitten on niitä spekulaatioita tietoisuuden luonteesta ja konfiguraattorin roolista, mutta tämä on todella spekulaatiota.

ZDNet: Palataan asiaan ensi kerralla. Aioin kysyä sinulta, miten vertailet tätä asiaa? Mutta taidat olla hieman kauempana benchmarkingista juuri nyt?

YL: Ei välttämättä niin pitkälle, tavallaan yksinkertaistetuissa versioissa. Voit tehdä sen, mitä kaikki tekevät ohjaus- tai vahvistusoppimisessa, eli koulutat asian pelaamaan Atari-pelejä tai jotain vastaavaa tai jotain muuta peliä, jossa on epävarmuutta.

ZDNet: Kiitos ajastasi, Yann.

lähde