ઓપનએઆઈના નિષ્ણાતોએ રમવા માટે ન્યુરલ નેટવર્કને તાલીમ આપી છે Minecraft માનવ ખેલાડીઓ તરીકે સમાન ઉચ્ચ ધોરણ માટે.
ન્યુરલ નેટવર્કને 70,000 કલાકના પરચુરણ ઇન-ગેમ ફૂટેજ પર તાલીમ આપવામાં આવી હતી, જે નાના સાથે પૂરક છે ડેટાબેઝ વિડિઓઝ કે જેમાં કોન્ટ્રાક્ટરોએ ચોક્કસ ઇન-ગેમ કાર્યો કર્યા હતા કીબોર્ડ અને માઉસ ઇનપુટ્સ પણ રેકોર્ડ કર્યા.
ફાઈન-ટ્યુનિંગ પછી, ઓપનએઆઈએ શોધી કાઢ્યું કે મોડેલ સ્વિમિંગથી લઈને પ્રાણીઓનો શિકાર કરવા અને તેમના માંસનું સેવન કરવા સુધીની તમામ પ્રકારની જટિલ કૌશલ્યો કરવા સક્ષમ છે. તે "પિલર જમ્પ" ને પણ પકડે છે, એક ચાલ જેમાં ખેલાડી ઊંચાઈ મેળવવા માટે મધ્ય-જમ્પની નીચે સામગ્રીનો એક બ્લોક મૂકે છે.
કદાચ સૌથી પ્રભાવશાળી, AI ડાયમંડ ટૂલ્સ બનાવવામાં સક્ષમ હતું (ક્રમમાં એક્ઝિક્યુટ કરવા માટે લાંબી ક્રિયાઓની જરૂર છે), જેને OpenAI એ કમ્પ્યુટર એજન્ટ માટે "અભૂતપૂર્વ" સિદ્ધિ તરીકે વર્ણવ્યું હતું.
AI સફળતા?
Minecraft પ્રોજેક્ટનું મહત્વ એ છે કે તે OpenAI દ્વારા AI મોડલ્સની તાલીમમાં જમાવવામાં આવેલી નવી ટેકનિકની અસરકારકતા દર્શાવે છે - જેને વિડિયો પ્રીટ્રેનિંગ (VPT) કહેવાય છે - જે કંપની કહે છે કે "સામાન્ય કમ્પ્યુટર-ઉપયોગકર્તા એજન્ટો"ના વિકાસને વેગ આપી શકે છે.
ઐતિહાસિક રીતે, AI મોડલ્સને તાલીમ આપવા માટેના સ્ત્રોત તરીકે કાચા વિડિયોનો ઉપયોગ કરવામાં મુશ્કેલી એ રહી છે શું થયું છે તે સમજવા માટે પૂરતું સરળ છે, પરંતુ જરૂરી નથી કેવી રીતે . અસરમાં, AI મોડલ ઇચ્છિત પરિણામોને શોષી લેશે, પરંતુ તેના સુધી પહોંચવા માટે જરૂરી ઇનપુટ સંયોજનો તેની પાસે નથી.
VPT સાથે, તેમ છતાં, OpenAI પાયાના મોડલને સ્થાપિત કરવા માટે સંબંધિત કીબોર્ડ અને માઉસની હિલચાલ સાથે લેબલવાળા ફૂટેજના કાળજીપૂર્વક ક્યુરેટેડ પૂલ સાથે જાહેર વેબ સ્રોતોમાંથી દોરેલા મોટા વિડિયો ડેટાસેટને જોડે છે.
બેઝ મોડેલને ફાઇન ટ્યુન કરવા માટે, ટીમ પછી ચોક્કસ કાર્યો શીખવવા માટે રચાયેલ નાના ડેટાસેટ્સમાં પ્લગ કરે છે. આ સંદર્ભમાં, ઓપનએઆઈએ શરૂઆતની રમતની ક્રિયાઓ કરી રહેલા ખેલાડીઓના ફૂટેજનો ઉપયોગ કર્યો હતો, જેમ કે વૃક્ષો કાપવા અને ક્રાફ્ટિંગ ટેબલ બનાવવા, જેનાથી મોડેલ આ કાર્યો કરવા સક્ષમ હતું તે વિશ્વસનીયતામાં "મોટો સુધારો" થયો હોવાનું કહેવાય છે.
અન્ય તકનીકમાં કાર્યોના ક્રમમાં દરેક પગલાને હાંસલ કરવા માટે AI મોડેલને "પુરસ્કાર" આપવાનો સમાવેશ થાય છે, જે પ્રેક્ટિસ રિઇન્ફોર્સમેન્ટ લર્નિંગ તરીકે ઓળખાય છે. આ પ્રક્રિયાએ જ ન્યુરલ નેટવર્કને માનવ-સ્તરના સફળતા દર સાથે હીરાના પીકેક્સ માટે તમામ ઘટકો એકત્રિત કરવાની મંજૂરી આપી.
“VPT એ એજન્ટોને ઇન્ટરનેટ પર મોટી સંખ્યામાં વિડિયોઝ જોઈને કાર્ય કરવાનું શીખવાની મંજૂરી આપવાનો માર્ગ મોકળો કરે છે. જનરેટિવ વિડિયો મૉડલિંગ અથવા વિરોધાભાસી પદ્ધતિઓની સરખામણીમાં જે માત્ર પ્રતિનિધિત્વલક્ષી પૂર્વોત્તર પેદા કરે છે, VPT માત્ર ભાષા કરતાં વધુ ડોમેન્સમાં મોટા પાયે વર્તણૂકલક્ષી પ્રાથમિકતાઓને સીધી રીતે શીખવાની આકર્ષક શક્યતા પ્રદાન કરે છે,” OpenAI એ સમજાવ્યું. બ્લોગ પોસ્ટ (નવી ટેબમાં ખુલે છે) .
"જ્યારે અમે માત્ર Minecraft માં પ્રયોગ કરીએ છીએ, ત્યારે આ રમત ખૂબ જ ખુલ્લી છે અને મૂળ માનવીય ઈન્ટરફેસ (માઉસ અને કીબોર્ડ) ખૂબ જ સામાન્ય છે, તેથી અમે માનીએ છીએ કે અમારા પરિણામો અન્ય સમાન ડોમેન્સ માટે સારા છે, ઉદાહરણ તરીકે, કમ્પ્યુટર વપરાશ."
અવકાશમાં વધુ પ્રયોગોને પ્રોત્સાહિત કરવા માટે, OpenAI એ સાથે ભાગીદારી કરી છે MineRL NeurIPS સ્પર્ધા , જટિલ Minecraft કાર્યોને ઉકેલવા માટે AI નો ઉપયોગ કરવાનો પ્રયાસ કરતા સ્પર્ધકોને તેના કોન્ટ્રાક્ટર ડેટા અને મોડલ કોડનું દાન કરે છે. ભવ્ય ઇનામ: $100,000.