DeepMind'ın 'Gato'su vasat, peki onu neden yaptılar?

deepmind-gato-slash-image-closer-in.png

DeepMind'ın "Gato" sinir ağı, blokları istifleyen robotik kolların kontrol edilmesi, Atari 2600 oyunlarının oynanması ve resimlere altyazı eklenmesi dahil olmak üzere çok sayıda görevde mükemmeldir.


DeepMind

Dünya, yapay zekanın derin öğrenme biçimleriyle ilgili en son buluşlarla ilgili manşetleri görmeye alışkın. Ancak Google'ın DeepMind bölümünün en son başarısı şu şekilde özetlenebilir: "Birçok şeyde şöyle bir iş yapan tek bir yapay zeka programı." 

Gato, DeepMind'ın programının adıdır, bu hafta açıklandı video oyunları oynayabilen, sohbet edebilen, kompozisyonlar yazabilen, resimlere altyazı koyabilen ve blokları istifleyen robot kolunu kontrol edebilen multimodal bir program olarak adlandırılıyor. Birden fazla türde görevi gerçekleştirmek için birden fazla veri türüyle çalışabilen bir sinir ağıdır. 

Baş yazar Scott Reed şöyle yazıyor: "Tek bir ağırlık seti ile Gato diyalog kurabilir, resimlere altyazı koyabilir, gerçek bir robot koluyla blokları istifleyebilir, Atari oyunları oynarken insanlardan daha iyi performans gösterebilir, simüle edilmiş 3D ortamlarda gezinebilir, talimatları takip edebilir ve daha fazlasını yapabilir." ve meslektaşları “A Generalist Agent” başlıklı makalelerinde Arxiv ön baskı sunucusunda yayınlandı

DeepMind kurucu ortağı Demis Hassabis takıma tezahürat yaptı: bir tweette haykırmak, “Şimdiye kadarki en genel temsilcimiz!! Ekipten harika bir iş çıkardınız!” 

Ayrıca: Yeni bir deney: Yapay zeka gerçekten kedileri, köpekleri veya herhangi bir şeyi biliyor mu?

Tek sorun, Gato'nun aslında bazı görevlerde o kadar da iyi olmamasıdır. 

Bir yandan program, blokları istifleyen robotik Sawyer kolunu kontrol etme konusunda özel bir makine öğrenimi programından daha iyisini yapabiliyor. Öte yandan, çoğu durumda oldukça zayıf olan görüntüler için altyazılar üretir. Bir insan muhatapla standart sohbet diyaloğundaki yeteneği de benzer şekilde vasattır ve bazen çelişkili ve anlamsız ifadelere neden olur. 

Atari 2600 video oyunlarının oynatılması, kıyaslamada rekabet etmek üzere tasarlanmış çoğu özel makine öğrenimi programının gerisinde kalıyor Arcade Öğrenme Ortamı

Neden bazı şeyleri oldukça iyi yapan, bazı şeyleri ise pek iyi yapmayan bir program yapasınız ki? Yazarlara göre emsal ve beklenti. 

Daha genel program türlerinin yapay zekada en son teknoloji haline geldiğine dair emsaller mevcut ve artan miktardaki bilgi işlem gücünün gelecekte eksiklikleri telafi edeceğine dair bir beklenti var. 

Yapay zekada genellik zafer kazanma eğiliminde olabilir. Yazarların belirttiği gibi, yapay zeka uzmanı Richard Sutton'a atıfta bulunarak, "Tarihsel olarak, hesaplamadan yararlanma konusunda daha iyi olan genel modeller, aynı zamanda daha özel, alana özgü yaklaşımların önüne geçme eğiliminde olmuştur."

Sutton'ın yazdığı gibi kendi blog yazısında, "70 yıllık yapay zeka araştırmasından okunabilecek en büyük ders, hesaplamayı kullanan genel yöntemlerin sonuçta en etkili yöntemler olduğu ve büyük bir farkla olduğudur."

Resmî bir tez ortaya koyan Reed ve ekibi şöyle yazıyor: "Burada, genellikle çok sayıda görevi yerine getirebilen bir aracı yetiştirmenin mümkün olduğu hipotezini test ediyoruz; ve bu genel aracının çok az ekstra veriyle daha da fazla sayıda görevde başarılı olacak şekilde uyarlanabileceğine inanıyorum."

Ayrıca: Meta'nın AI armatürü LeCun, derin öğrenmenin enerji sınırını araştırıyor

Bu durumda model aslında çok geneldir. GPT-3 de dahil olmak üzere çok sayıda programın temeli haline gelen, dikkat temelli modelin baskın türü olan Transformer'ın bir versiyonudur. Bir transformatör, bir cümledeki kelimeler gibi kendisini çevreleyen öğeler göz önüne alındığında, bazı öğelerin olasılığını modeller. 

Gato örneğinde, DeepMind bilim insanları aynı koşullu olasılık aramasını çok sayıda veri türü üzerinde kullanabiliyor. 

Reed ve meslektaşları Gato'yu eğitme görevini anlatırken, 

Gato'nun eğitim aşaması sırasında, farklı görevlerden ve yöntemlerden gelen veriler düz bir jeton dizisi halinde serileştirilir, gruplandırılır ve büyük bir dil modeline benzer bir transformatör sinir ağı tarafından işlenir. Kayıp, Gato'nun yalnızca eylemi ve metin hedeflerini tahmin edebilmesi için maskelenir.

Başka bir deyişle Gato, ister sohbetteki kelimeler olsun, ister blok istifleme egzersizindeki hareket vektörleri olsun, jetonlara farklı davranmıyor. Hepsi aynı. 

deepmind-gato-nasıl-eğitimlidir.png

Gato eğitim senaryosu.


Reed ve diğerleri. 2022

Reed ve ekibinin hipotezi, sonuçta giderek daha fazla bilgi işlem gücünün kazanacağı yönünde bir sonuç içeriyor. Şu anda Gato, blok istiflemeyi yapan Sawyer robot kolunun tepki süresiyle sınırlı. 1.18 milyar ağ parametresiyle Gato, GPT-3 gibi çok büyük yapay zeka modellerinden çok daha küçüktür. Derin öğrenme modelleri büyüdükçe çıkarım yapmak, gerçek dünyadaki bir robotun deterministik olmayan dünyasında başarısız olabilecek gecikmeye yol açar. 

Ancak Reed ve meslektaşları, yapay zeka donanımının işleme hızı arttıkça bu sınırın aşılmasını bekliyor.

"Eğitimimizi, gerçek dünyadaki robotların gerçek zamanlı kontrolüne olanak tanıyan model ölçeğinin çalışma noktasına odaklıyoruz; Gato durumunda şu anda yaklaşık 1.2 milyar parametre var" diye yazdılar. "Donanım ve model mimarileri geliştikçe, bu çalışma noktası doğal olarak uygulanabilir model boyutunu artıracak ve genel modelleri ölçeklendirme yasası eğrisinde daha yukarılara itecektir."

Dolayısıyla Gato, genel modelleri giderek daha büyük hale getirerek, hesaplama ölçeğinin makine öğrenimi gelişiminin ana vektörü olmaya nasıl devam edeceğine dair gerçekten bir modeldir. Başka bir deyişle, daha büyük olan daha iyidir. 

derin-zihin-ölçekle-daha-iyileşir.png

Gato, sinir ağının parametrelerdeki boyutu arttıkça daha iyi hale gelir.


Reed ve diğerleri. 2022

Ve yazarların buna dair bazı kanıtları var. Gato büyüdükçe daha da iyileşiyor gibi görünüyor. 79 milyon, 364 milyon ve ana model 1.18 milyar olmak üzere parametrelere göre üç boyutlu model için tüm kıyaslama görevlerindeki ortalama puanları karşılaştırırlar. Yazarlar, "Eşdeğer bir token sayısı için artan ölçekle birlikte önemli bir performans artışı olduğunu görebiliriz" diye yazıyor. 

Gelecekteki ilginç bir soru, genel bir programın diğer türdeki yapay zeka programlarından daha tehlikeli olup olmadığıdır. Yazarlar makalede henüz tam olarak anlaşılmayan potansiyel tehlikelerin olduğu gerçeğini tartışarak çok zaman harcıyorlar.  

Birden fazla görevi yerine getiren bir program fikri, sıradan kişilere bir tür insanın uyum sağlama yeteneği olduğunu düşündürür, ancak bu tehlikeli bir yanlış algılama olabilir. Reed ve ekibi şöyle yazıyor: "Örneğin, fiziksel düzenleme, kullanıcıların aracıyı insana benzetmesine yol açabilir, bu da hatalı çalışan bir sistem durumunda yanlış güvene yol açabilir veya kötü aktörler tarafından istismar edilebilir." 

"Ayrıca, alanlar arası bilgi aktarımı makine öğrenimi araştırmalarında genellikle bir hedef olsa da, belirli davranışların (örneğin atari oyunu dövüşü) yanlış bağlama aktarılması durumunda beklenmedik ve istenmeyen sonuçlar doğurabilir."

Bu nedenle şöyle yazıyorlar: "Bilgi aktarımının etik ve güvenlik hususları, genel sistemler ilerledikçe önemli yeni araştırmalar gerektirebilir."

(İlginç bir yan not olarak, Gato makalesi, riski tanımlamak için eski Google AI araştırmacısı Margaret Michell ve meslektaşları tarafından geliştirilen Model Kartlar adı verilen bir şemayı kullanıyor. Model Kartlar, bir AI programının ne olduğu, ne yaptığı ve ne yaptığı hakkında kısa bir özet verir. Michell geçen yıl, yapay zeka konusundaki etik kaygıları Google'ın yapay zeka liderliğiyle ters düşen eski meslektaşı Timnit Gebru'yu desteklediği için Google'dan ayrılmak zorunda kaldığını yazmıştı.)

Gato, genelleme eğilimi bakımından hiçbir şekilde benzersiz değildir. Bu, genelleme yönündeki geniş eğilimin ve kovalar dolusu beygir gücü kullanan daha büyük modellerin bir parçasıdır. Google'ın metin Transformer görevlerini görüntüler, ses ve LiDAR uzamsal koordinatlarıyla birleştiren "Perceiver" sinir ağıyla, dünya Google'ın bu yöndeki eğiliminin ilk kez geçtiğimiz yaz tadına vardı.

Ayrıca: Google'ın Süper Modeli: DeepMind Perceiver, her şeyi ve her şeyi işleyebilecek bir AI makinesine giden yolda bir adımdır.

Benzerleri arasında Pathways Dil Modeli olan PaLM yer almaktadır. bu yıl Google bilim adamları tarafından tanıtıldıBinlerce çipi koordine etmek için yeni bir teknolojiden yararlanan 540 milyar parametreli bir model, Yollar olarak bilinir, ayrıca Google'da icat edildi. Ocak ayında Meta tarafından piyasaya sürülen ve "data2vec" adı verilen bir sinir ağı, görüntü verileri, konuşma sesi dalga formları ve metin dili temsillerinin hepsi bir arada için Transformers'ı kullanıyor. 

Görünüşe göre Gato'daki yenilik, robotik olmayan görevlerde kullanılan yapay zekayı alıp robotik alanına itme niyeti.

Gato'nun yaratıcıları, Pathways'in ve diğer genelci yaklaşımların başarılarına dikkat çekerek, gerçek dünyada her türlü görevle çalışabilen yapay zekadaki nihai başarıyı görüyorlar. 

"Gelecekteki çalışmalar, bu metin yeteneklerinin, gerçek dünyada, çeşitli ortamlarda ve düzenlemelerde gerçek zamanlı olarak da hareket edebilen, tamamen genelci tek bir aracıda nasıl birleştirileceğini düşünmelidir." 

O halde Gato'yu yapay zekanın en zor sorunu olan robot bilimini çözme yolunda önemli bir adım olarak düşünebilirsiniz. 



Kaynak