Експертите од OpenAI обучија невронска мрежа за играње Minecraft на подеднакво висок стандард како и човечките играчи.
Невронската мрежа беше обучена на 70,000 часа различни снимки во играта, дополнети со мала база на податоци на видеа во кои изведувачите извршуваа специфични задачи во играта, со тастатура глувчето снимени и влезови.
По дотерувањето, OpenAI откри дека моделот може да ги изведува сите сложени вештини, од пливање до лов на животни и конзумирање на нивното месо. Тој, исто така, го сфати „скокот на столбот“, потег со кој играчот става блок од материјал под себе во средината на скокот за да се издигне.
Можеби најимпресивно, вештачката интелигенција можеше да создаде дијамантски алатки (која бара долга низа дејства да се извршуваат во низа), што OpenAI го опиша како „невидено“ достигнување за компјутерски агент.
Пробив на вештачката интелигенција?
Значењето на проектот Minecraft е што ја демонстрира ефикасноста на новата техника употребена од OpenAI за обука на модели со вештачка интелигенција - наречена Video PreTraining (VPT) - за која компанијата вели дека може да го забрза развојот на „општи агенти кои користат компјутери“.
Историски гледано, тешкотијата со користењето необработено видео како извор за обука на модели со вештачка интелигенција е тоа што што се случи е доволно едноставно да се разбере, но не мора како . Всушност, моделот на вештачка интелигенција би ги апсорбирал посакуваните резултати, но нема разбирање за влезните комбинации потребни за да ги достигне.
Меѓутоа, со VPT, OpenAI спојува голема видео сет на податоци извлечена од јавни веб-извори со внимателно организиран базен на снимки означени со соодветните движења на тастатурата и глувчето за да го воспостави основниот модел.
За прецизно прилагодување на основниот модел, тимот потоа приклучува помали збирки на податоци дизајнирани да подучуваат специфични задачи. Во овој контекст, OpenAI користеше снимки од играчи кои изведуваат акции во почетокот на играта, како што се сечење дрвја и градење маси за изработка, што се вели дека донело „огромно подобрување“ во доверливоста со која моделот можел да ги извршува овие задачи.
Друга техника вклучува „наградување“ на моделот на вештачка интелигенција за постигнување на секој чекор во низа задачи, практика позната како учење за зајакнување. Овој процес е она што и овозможи на невронската мрежа да ги собере сите состојки за дијамантска пика со стапка на успех на ниво на човек.
„VPT го отвора патот кон дозволување на агентите да научат да дејствуваат гледајќи огромен број видеа на интернет. Во споредба со генеративно видео моделирање или контрастни методи кои би дале само репрезентативни приоритети, VPT нуди возбудлива можност за директно учење на големи бихејвиорални приоритети во повеќе домени отколку само јазик“, објасни OpenAI во блог пост (се отвора во нов таб) .
„Иако експериментираме само во Minecraft, играта е многу отворена и мајчиниот човечки интерфејс (глувче и тастатура) е многу генерички, така што веруваме дека нашите резултати се добри за други слични домени, на пр. употреба на компјутер.
За да поттикне понатамошно експериментирање во просторот, OpenAI соработува со MineRL NeurIPS натпревар , донирајќи ги своите податоци за изведувачот и кодот на моделот на натпреварувачите кои се обидуваат да користат вештачка интелигенција за да решат сложени задачи на Minecraft. Главната награда: 100,000 долари.