ডিপমাইন্ডের 'গাটো' মাঝারি, তাহলে তারা কেন এটি তৈরি করেছে?

deepmind-gato-slash-image-closer-in.png

ডিপমাইন্ডের "গ্যাটো" নিউরাল নেটওয়ার্ক রোবটিক অস্ত্র নিয়ন্ত্রণ করা, যা আটকে রাখে ব্লক করা, Atari 2600 গেম খেলা এবং ছবি ক্যাপশন করা সহ অসংখ্য কাজে পারদর্শী।


DeepMind

কৃত্রিম বুদ্ধিমত্তার গভীর শিক্ষার মাধ্যমে সাম্প্রতিক অগ্রগতি সম্পর্কে শিরোনাম দেখতে বিশ্ব অভ্যস্ত। গুগলের ডিপমাইন্ড বিভাগের সর্বশেষ কৃতিত্বের সংক্ষিপ্তসারে বলা যেতে পারে, "একটি এআই প্রোগ্রাম যা অনেক কিছুতে খুব ভালো কাজ করে।" 

গাটো, ডিপমাইন্ডের প্রোগ্রামকে বলা হয়, এই সপ্তাহে উন্মোচন করা হয়েছিল একটি তথাকথিত মাল্টিমোডাল প্রোগ্রাম হিসাবে, যা ভিডিও গেম খেলতে, চ্যাট করতে, রচনা লিখতে, ছবি ক্যাপশন করতে এবং রোবোটিক আর্ম স্ট্যাকিং ব্লকগুলি নিয়ন্ত্রণ করতে পারে। এটি একটি নিউরাল নেটওয়ার্ক যা একাধিক ধরণের কাজ সম্পাদন করতে একাধিক ধরণের ডেটার সাথে কাজ করতে পারে। 

"একক ওজনের সেটের সাথে, গ্যাটো কথোপকথনে নিযুক্ত হতে পারে, ক্যাপশন ইমেজ, একটি বাস্তব রোবট বাহু দিয়ে ব্লকগুলি স্ট্যাক করতে পারে, আটারি গেম খেলতে মানুষকে ছাড়িয়ে যেতে পারে, সিমুলেটেড 3D পরিবেশে নেভিগেট করতে পারে, নির্দেশাবলী অনুসরণ করতে পারে এবং আরও অনেক কিছু করতে পারে," লেখেন প্রধান লেখক স্কট রিড এবং সহকর্মীরা তাদের কাগজে, "একজন সাধারণ এজেন্ট," Arxiv প্রিপ্রিন্ট সার্ভারে পোস্ট করা হয়েছে

ডিপমাইন্ডের সহ-প্রতিষ্ঠাতা ডেমিস হাসাবিস দলকে উল্লাস করেছেন, একটি টুইটে চিৎকার করে, “এখনও আমাদের সবচেয়ে সাধারণ এজেন্ট!! দলের কাছ থেকে দুর্দান্ত কাজ!" 

এছাড়াও: একটি নতুন পরীক্ষা: এআই কি সত্যিই বিড়াল বা কুকুর - বা অন্য কিছু জানে?

একমাত্র ধরা হল যে গ্যাটো আসলে বেশ কয়েকটি কাজে এত দুর্দান্ত নয়। 

একদিকে, প্রোগ্রামটি একটি ডেডিকেটেড মেশিন লার্নিং প্রোগ্রামের চেয়ে ভাল কাজ করতে সক্ষম একটি রোবোটিক সায়ার আর্ম যা ব্লকগুলিকে স্তুপ করে রাখে। অন্যদিকে, এটি এমন চিত্রগুলির জন্য ক্যাপশন তৈরি করে যা অনেক ক্ষেত্রে বেশ খারাপ। মানব কথোপকথনের সাথে স্ট্যান্ডার্ড চ্যাট কথোপকথনে এর ক্ষমতা একইভাবে মাঝারি, কখনও কখনও পরস্পরবিরোধী এবং অর্থহীন উচ্চারণ প্রকাশ করে। 

এবং এর Atari 2600 ভিডিও গেম খেলা বেঞ্চমার্কে প্রতিদ্বন্দ্বিতা করার জন্য ডিজাইন করা বেশিরভাগ ডেডিকেটেড ML প্রোগ্রামের চেয়ে নিচে পড়ে আর্কেড লার্নিং এনভায়রনমেন্ট

কেন আপনি এমন একটি প্রোগ্রাম তৈরি করবেন যা কিছু জিনিস বেশ ভাল করে এবং অন্যান্য জিনিসগুলির একটি গুচ্ছ এত ভাল নয়? নজির, এবং প্রত্যাশা, লেখক অনুযায়ী. 

AI-তে আরও সাধারণ ধরণের প্রোগ্রামগুলি শিল্পের রাষ্ট্র হয়ে ওঠার নজির রয়েছে এবং একটি প্রত্যাশা রয়েছে যে ক্রমবর্ধমান কম্পিউটিং শক্তি ভবিষ্যতে ত্রুটিগুলি পূরণ করবে। 

সাধারণতা AI-তে বিজয়ী হতে পারে। এআই পণ্ডিত রিচার্ড সাটনের উদ্ধৃতি দিয়ে লেখকরা যেমন নোট করেছেন, "ঐতিহাসিকভাবে, জেনেরিক মডেলগুলি যেগুলি কম্পিউটেশনের সুবিধা নেওয়ার ক্ষেত্রে ভাল তারাও শেষ পর্যন্ত আরও বিশেষায়িত ডোমেন-নির্দিষ্ট পদ্ধতিকে ছাড়িয়ে যাওয়ার প্রবণতা দেখায়।"

সাটন যেমন লিখেছেন তার নিজের ব্লগ পোস্টে, "70 বছরের AI গবেষণা থেকে সবচেয়ে বড় পাঠ যা পড়া যায় তা হল যে সাধারণ পদ্ধতিগুলি যা গণনাকে লিভারেজ করে শেষ পর্যন্ত সবচেয়ে কার্যকর এবং একটি বড় ব্যবধানে।"

একটি আনুষ্ঠানিক থিসিসের মধ্যে রাখুন, রিড এবং দল লিখেছেন যে “আমরা এখানে অনুমান পরীক্ষা করি যে একটি এজেন্টকে প্রশিক্ষণ দেওয়া সম্ভব যা সাধারণত একটি বড় সংখ্যক কাজ করতে সক্ষম হয়; এবং এই সাধারণ এজেন্টকে আরও বড় সংখ্যক কাজে সফল হওয়ার জন্য সামান্য অতিরিক্ত ডেটা দিয়ে অভিযোজিত করা যেতে পারে।"

এছাড়াও: Meta-এর AI লুমিনারি LeCun গভীর শিক্ষার শক্তির সীমান্ত অন্বেষণ করে

মডেল, এই ক্ষেত্রে, প্রকৃতপক্ষে, খুব সাধারণ. এটি ট্রান্সফরমারের একটি সংস্করণ, প্রভাবশালী ধরনের মনোযোগ-ভিত্তিক মডেল যা GPT-3 সহ অসংখ্য প্রোগ্রামের ভিত্তি হয়ে উঠেছে। একটি ট্রান্সফরমার একটি বাক্যে শব্দের মতো এটিকে ঘিরে থাকা উপাদানগুলি দিয়ে কিছু উপাদানের সম্ভাবনার মডেল করে। 

গ্যাটোর ক্ষেত্রে, ডিপমাইন্ড বিজ্ঞানীরা একই শর্তসাপেক্ষ সম্ভাব্যতা অনুসন্ধান ব্যবহার করতে সক্ষম হন অসংখ্য ডেটা টাইপের উপর। 

যেমন রিড এবং সহকর্মীরা গ্যাটোকে প্রশিক্ষণ দেওয়ার কাজটি বর্ণনা করেছেন, 

গ্যাটোর প্রশিক্ষণ পর্বের সময়, বিভিন্ন কাজ এবং পদ্ধতির ডেটা টোকেনের সমতল ক্রমানুসারে ক্রমিক করা হয়, ব্যাচ করা হয় এবং একটি বৃহৎ ভাষার মডেলের মতো একটি ট্রান্সফরমার নিউরাল নেটওয়ার্ক দ্বারা প্রক্রিয়া করা হয়। ক্ষতিটি মুখোশযুক্ত যাতে গ্যাটো শুধুমাত্র কর্ম এবং পাঠ্য লক্ষ্যমাত্রার পূর্বাভাস দেয়।

গ্যাটো, অন্য কথায়, টোকেনগুলিকে আলাদাভাবে ব্যবহার করে না যে সেগুলি চ্যাটের শব্দ হোক বা ব্লক-স্ট্যাকিং অনুশীলনে আন্দোলন ভেক্টর। ইহা সব একই রকম. 

deepmind-how-gato-is-trained.png

গ্যাটো প্রশিক্ষণের দৃশ্যকল্প।


রিড এট আল। 2022

রিড এবং দলের হাইপোথিসিসের মধ্যে সমাহিত হওয়া একটি ফলস্বরূপ, অর্থাৎ আরও বেশি কম্পিউটিং শক্তি শেষ পর্যন্ত জয়ী হবে। এই মুহূর্তে, গ্যাটো একটি Sawyer রোবট হাতের প্রতিক্রিয়া সময় দ্বারা সীমাবদ্ধ যা ব্লক স্ট্যাকিং করে। 1.18 বিলিয়ন নেটওয়ার্ক প্যারামিটারে, গ্যাটো খুব বড় AI মডেল যেমন GPT-3 থেকে অনেক ছোট। গভীর শিক্ষার মডেলগুলি বড় হওয়ার সাথে সাথে অনুমান সম্পাদনের ফলে বিলম্বিত হয় যা বাস্তব-বিশ্বের রোবটের অ-নিয়ন্ত্রক জগতে ব্যর্থ হতে পারে। 

কিন্তু, রিড এবং সহকর্মীরা আশা করছেন যে AI হার্ডওয়্যার প্রক্রিয়াকরণে দ্রুততর হওয়ার কারণে সেই সীমাটি অতিক্রম করা হবে।

"আমরা আমাদের প্রশিক্ষণকে মডেল স্কেলের অপারেটিং পয়েন্টে ফোকাস করি যা রিয়েল-ওয়ার্ল্ড রোবটগুলির রিয়েল-টাইম নিয়ন্ত্রণের অনুমতি দেয়, বর্তমানে গ্যাটোর ক্ষেত্রে প্রায় 1.2B প্যারামিটার," তারা লিখেছেন। "হার্ডওয়্যার এবং মডেল আর্কিটেকচারের উন্নতির সাথে সাথে, এই অপারেটিং পয়েন্টটি স্বাভাবিকভাবেই সম্ভাব্য মডেলের আকার বৃদ্ধি করবে, সাধারণবাদী মডেলগুলিকে স্কেলিং আইন বক্ররেখার উপরে ঠেলে দেবে।"

তাই, গ্যাটো আসলেই একটি মডেল যার স্কেল গণনা কিভাবে মেশিন লার্নিং ডেভেলপমেন্টের প্রধান ভেক্টর হতে থাকবে, সাধারণ মডেলগুলিকে আরও বড় করে বড় করে। বড়ই ভালো, অন্য কথায়। 

deepmind-gets-better-with-scale.png

প্যারামিটারে নিউরাল নেটওয়ার্কের আকার বাড়ার সাথে সাথে গ্যাটো আরও ভাল হয়।


রিড এট আল। 2022

এবং এর জন্য লেখকদের কিছু প্রমাণ আছে। গ্যাটো বড় হওয়ার সাথে সাথে আরও ভাল হয়ে উঠছে বলে মনে হচ্ছে। তারা প্যারামিটার অনুসারে মডেলের তিনটি মাপের জন্য সমস্ত বেঞ্চমার্ক টাস্ক জুড়ে গড় স্কোর তুলনা করে, 79 মিলিয়ন, 364 মিলিয়ন এবং প্রধান মডেল, 1.18 বিলিয়ন। "আমরা দেখতে পাচ্ছি যে সমতুল্য টোকেন গণনার জন্য, বর্ধিত স্কেল সহ একটি উল্লেখযোগ্য কর্মক্ষমতা উন্নতি হয়েছে," লেখক লিখেছেন। 

একটি আকর্ষণীয় ভবিষ্যত প্রশ্ন হল যে একটি সাধারণ প্রোগ্রাম যা অন্যান্য ধরণের AI প্রোগ্রামগুলির চেয়ে বেশি বিপজ্জনক কিনা। লেখকরা কাগজে একগুচ্ছ সময় ব্যয় করেন এই বিষয়টি নিয়ে আলোচনা করে যে সম্ভাব্য বিপদগুলি এখনও ভালভাবে বোঝা যায়নি।  

একাধিক কাজ পরিচালনা করে এমন একটি প্রোগ্রামের ধারণাটি সাধারণ ব্যক্তির কাছে এক ধরণের মানবিক অভিযোজনযোগ্যতার পরামর্শ দেয়, তবে এটি একটি বিপজ্জনক ভুল ধারণা হতে পারে। "উদাহরণস্বরূপ, শারীরিক মূর্ততা ব্যবহারকারীদের এজেন্টকে নৃতাত্ত্বিক রূপদানের দিকে নিয়ে যেতে পারে, যা একটি ত্রুটিপূর্ণ সিস্টেমের ক্ষেত্রে ভুল বিশ্বাসের দিকে পরিচালিত করতে পারে, বা খারাপ অভিনেতাদের দ্বারা শোষিত হতে পারে," রিড এবং দল লিখেছেন৷ 

"অতিরিক্ত, যদিও ক্রস-ডোমেন জ্ঞান স্থানান্তর প্রায়শই এমএল গবেষণায় একটি লক্ষ্য, এটি অপ্রত্যাশিত এবং অনাকাঙ্ক্ষিত ফলাফল তৈরি করতে পারে যদি কিছু আচরণ (যেমন আর্কেড গেম ফাইটিং) ভুল প্রসঙ্গে স্থানান্তরিত হয়।"

তাই, তারা লেখেন, "জ্ঞান স্থানান্তরের নীতিশাস্ত্র এবং নিরাপত্তার বিবেচনায় সাধারণবাদী সিস্টেমের অগ্রগতির সাথে সাথে উল্লেখযোগ্য নতুন গবেষণার প্রয়োজন হতে পারে।"

(একটি আকর্ষণীয় সাইড নোট হিসাবে, গ্যাটো কাগজটি প্রাক্তন Google AI গবেষক মার্গারেট মিশেল এবং সহকর্মীদের দ্বারা তৈরি করা ঝুঁকি বর্ণনা করার জন্য একটি স্কিম নিয়োগ করে, যাকে বলা হয় মডেল কার্ড৷ মডেল কার্ডগুলি একটি AI প্রোগ্রাম কী, এটি কী করে এবং কী করে তার একটি সংক্ষিপ্ত সারাংশ দেয়৷ কারণগুলি এটি কীভাবে কাজ করে তা প্রভাবিত করে৷ মিশেল গত বছর লিখেছিলেন যে তাকে তার প্রাক্তন সহকর্মী, টিমনিট গেব্রুকে সমর্থন করার জন্য Google থেকে বাধ্য করা হয়েছিল, যার AI নিয়ে নৈতিক উদ্বেগ Google-এর AI নেতৃত্বের বিরুদ্ধে ছিল৷)

গ্যাটো তার সাধারণীকরণের প্রবণতায় কোনভাবেই অনন্য নয়। এটি সাধারণীকরণের বিস্তৃত প্রবণতার অংশ, এবং বৃহত্তর মডেল যা অশ্বশক্তির বালতি ব্যবহার করে। গত গ্রীষ্মে বিশ্ব এই দিকে গুগলের কাত হওয়ার প্রথম স্বাদ পেয়েছিল, গুগলের "পার্সিভার" নিউরাল নেটওয়ার্ক যা চিত্র, শব্দ এবং LiDAR স্থানিক স্থানাঙ্কের সাথে পাঠ্য ট্রান্সফরমার কাজগুলিকে একত্রিত করেছে।

এছাড়াও: গুগলের সুপারমডেল: ডিপমাইন্ড পারসিভার একটি এআই মেশিনের পথে একটি ধাপ যা যেকোনো কিছু এবং সবকিছু প্রক্রিয়া করতে পারে

এর সমকক্ষদের মধ্যে PaLM, পাথওয়েস ল্যাঙ্গুয়েজ মডেল, গুগলের বিজ্ঞানীরা এই বছর চালু করেছেন, একটি 540-বিলিয়ন প্যারামিটার মডেল যা হাজার হাজার চিপ সমন্বয়ের জন্য একটি নতুন প্রযুক্তি ব্যবহার করে, পাথওয়ে হিসাবে পরিচিত, Google এও উদ্ভাবিত। মেটা দ্বারা জানুয়ারিতে প্রকাশিত একটি নিউরাল নেটওয়ার্ক, "data2vec" নামে পরিচিত, ইমেজ ডেটা, স্পিচ অডিও ওয়েভফর্ম এবং টেক্সট ল্যাঙ্গুয়েজ এককভাবে উপস্থাপনের জন্য ট্রান্সফরমার ব্যবহার করে। 

গ্যাটো সম্পর্কে নতুন কি, মনে হবে, নন-রোবোটিক্স কাজের জন্য ব্যবহৃত AI গ্রহণ করা এবং এটিকে রোবোটিক্স রাজ্যে ঠেলে দেওয়া।

গ্যাটোর স্রষ্টারা, পাথওয়েজ এবং অন্যান্য সাধারণবাদী পদ্ধতির কৃতিত্বগুলি লক্ষ্য করে, AI-তে চূড়ান্ত কৃতিত্ব দেখেন যা বাস্তব জগতে কাজ করতে পারে, যে কোনও ধরণের কাজ সহ। 

"ভবিষ্যত কাজের বিবেচনা করা উচিত যে কীভাবে এই পাঠ্য ক্ষমতাগুলিকে একটি সম্পূর্ণ সাধারণ এজেন্টে একত্রিত করা যায় যা বাস্তব জগতে, বিভিন্ন পরিবেশে এবং মূর্ত রূপগুলিতে বাস্তব সময়েও কাজ করতে পারে।" 

তারপরে, আপনি Gato কে AI এর সবচেয়ে কঠিন সমস্যা, রোবোটিক্স সমাধানের পথে একটি গুরুত্বপূর্ণ পদক্ষেপ হিসাবে বিবেচনা করতে পারেন। 



উৎস