Binubuksan ng AI pioneer na Cerebras ang generative AI kung saan nagdidilim ang OpenAI

cerebras-andromeda-doors-closed-2022

Ang Andromeda supercomputer ng Cerebras ay ginamit upang sanayin ang pitong mga programa sa wika na katulad ng ChatGPT ng OpenAI. 

Mga Sistema ng Cerebras

Ang mundo ng artificial intelligence, lalo na ang sulok nito na sikat na sikat na kilala bilang "generative AI" — awtomatikong lumilikha ng pagsusulat at mga imahe — ay nanganganib na isara ang mga abot-tanaw nito dahil sa nakakapanghinayang epekto ng mga kumpanyang nagpasya na huwag i-publish ang mga detalye ng kanilang pananaliksik. 

Ngunit ang pagliko sa pagiging lihim ay maaaring nag-udyok sa ilang kalahok sa mundo ng AI na pumasok at punan ang walang bisa ng pagsisiwalat.

Noong Martes, ang AI pioneer ng Cerebras Systems, ang mga gumagawa ng dedikadong AI computer, at ang pinakamalaking computer chip sa mundo, na-publish bilang open-source ilang bersyon ng mga generative AI program na magagamit nang walang paghihigpit. 

Ang mga programa ay "sinanay" ng Cerebras, ibig sabihin, dinala sa pinakamainam na pagganap gamit ang makapangyarihang supercomputer ng kumpanya, sa gayon ay binabawasan ang ilan sa mga gawaing kailangang gawin ng mga mananaliksik sa labas. 

"Ang mga kumpanya ay gumagawa ng iba't ibang desisyon kaysa sa ginawa nila isang taon o dalawa na ang nakalipas, at hindi kami sumasang-ayon sa mga desisyong iyon," sabi ni Cerebras co-founder at CEO na si Andrew Feldman sa isang pakikipanayam sa ZDNET, na tumutukoy sa desisyon ng OpenAI, ang lumikha ng ChatGPT, na hindi mag-publish ng mga teknikal na detalye noong isiniwalat nito ang pinakabagong generative AI program nitong buwan, ang GPT-4, isang hakbang na malawakang pinuna sa mundo ng pananaliksik ng AI. 

Ito: Sa GPT-4, pinipili ng OpenAI ang pagiging lihim kumpara sa pagbubunyag

cerebras-announcement-march-2023-distribution-version-slide-2

Mga Sistema ng Cerebras
cerebras-announcement-march-2023-distribution-version-slide-3

Mga Sistema ng Cerebras

“Naniniwala kami na isang bukas, masiglang komunidad — hindi lamang ng mga mananaliksik, at hindi lamang ng tatlo o apat o lima o walong LLM guys, ngunit isang masiglang komunidad kung saan ang mga startup, mid-size na kumpanya, at negosyo ay nagsasanay ng malalaking modelo ng wika — ay mabuti para sa amin, at ito ay mabuti para sa iba,” sabi ni Feldman.

Ang terminong modelo ng malaking wika ay tumutukoy sa mga programa ng AI batay sa mga punong-guro ng machine learning kung saan kinukuha ng neural network ang istatistikal na pamamahagi ng mga salita sa sample na data. Ang prosesong iyon ay nagbibigay-daan sa isang malaking modelo ng wika na mahulaan ang susunod na salita sa pagkakasunud-sunod. Ang kakayahang iyon ay sumasailalim sa mga sikat na generative AI program tulad ng ChatGPT. 

Ang parehong uri ng diskarte sa pag-aaral ng makina ay tumutukoy sa generative AI sa iba pang mga larangan, tulad ng OpenAI's Dall*E, na bumubuo ng mga larawan batay sa isang iminungkahing parirala. 

Ito: Ang pinakamahusay na AI art generators: DALL-E2 at iba pang nakakatuwang alternatibong susubukan

Nag-post si Cerebras ng pitong malalaking modelo ng wika na kapareho ng istilo ng OpenAI's GPT program, na nagsimula ng generative AI craze noong 2018. Ang code ay magagamit sa Web site ng AI startup Hugging Face at higit pa GitHub.

Ang mga programa ay nag-iiba-iba sa laki, mula 111 milyong mga parameter, o neural weights, hanggang labintatlong bilyon. Ang higit pang mga parameter ay gumagawa ng isang AI program na mas malakas, sa pangkalahatan, upang ang Cerebras code ay nagbibigay ng isang hanay ng pagganap. 

Ang kumpanya ay nag-post hindi lamang ng pinagmulan ng mga programa, sa Python at TensorFlow na format, sa ilalim ng open-source na Apache 2.0 na lisensya, kundi pati na rin ang mga detalye ng regimen ng pagsasanay kung saan ang mga programa ay dinala sa isang binuo na estado ng pag-andar. 

Ang pagsisiwalat na iyon ay nagpapahintulot sa mga mananaliksik na suriin at kopyahin ang gawa ng Cerebras. 

Ang paglabas ng Cerebras, sabi ni Feldman, ay ang unang pagkakataon na ang isang GPT-style na programa ay ginawang pampubliko "gamit ang makabagong mga diskarte sa kahusayan sa pagsasanay."

Ang iba pang nai-publish na gawain sa pagsasanay sa AI ay may alinman sa nakatago ng teknikal na data, tulad ng OpenAI's GPT-4, o, ang mga programa ay hindi pa na-optimize sa kanilang pag-unlad, ibig sabihin, ang data na ipinadala sa programa ay hindi na-adjust sa laki ng programa, gaya ng ipinaliwanag sa isang teknikal na post sa blog ng Cerebras. 

cerebras-announcement-march-2023-distribution-version-slide-11

Mga Sistema ng Cerebras

Ang ganitong malalaking modelo ng wika ay kilalang-kilala na compute-intensive. Ang gawaing Cerebras na inilabas noong Martes ay binuo sa isang kumpol ng labing-anim na CS-2 na mga computer nito, mga computer na kasing laki ng mga dormitoryong refrigerator na espesyal na nakatutok para sa mga AI-style na programa. Ang cluster, na dati nang ibinunyag ng kumpanya, ay kilala bilang Andromeda supercomputer nito, na maaaring makabuluhang bawasan ang trabaho upang sanayin ang mga LLM sa libu-libong GPU chips ng Nvidia.

Ito: Ang tagumpay ng ChatGPT ay maaaring mag-udyok ng isang nakakapinsalang pagbabago sa pagiging lihim sa AI, sabi ng AI pioneer na si Bengio

Bilang bahagi ng paglabas noong Martes, inaalok ng Cerebras ang sinabi nitong unang open-source scaling law, isang benchmark na panuntunan kung paano tumataas ang katumpakan ng mga naturang programa sa laki ng mga programa batay sa open-source na data. Ang data set na ginamit ay ang open-source Ang Pile, isang 825-gigabyte na koleksyon ng mga teksto, karamihan sa mga propesyonal at akademikong teksto, na ipinakilala noong 2020 ng non-profit na lab Eleuther.   

cerebras-announcement-march-2023-distribution-version-slide-12

Mga Sistema ng Cerebras

Ang mga naunang batas sa pag-scale mula sa OpenAI at DeepMind ng Google ay gumamit ng data ng pagsasanay na hindi open-source. 

Ginawa ng Cerebras ang kaso para sa mga bentahe ng kahusayan ng mga system nito. Ang kakayahang mahusay na sanayin ang hinihinging natural na mga programa sa wika ay napupunta sa puso ng mga isyu ng bukas na paglalathala, sabi ni Feldman.

"Kung makakamit mo ang mga kahusayan, maaari mong kayang ilagay ang mga bagay sa open source na komunidad," sabi ni Feldman. "Ang kahusayan ay nagbibigay-daan sa amin na gawin ito nang mabilis at madali at gawin ang aming bahagi para sa komunidad."

Ang pangunahing dahilan kung bakit ang OpenAI, at ang iba pa, ay nagsisimulang isara ang kanilang trabaho sa ibang bahagi ng mundo ay dahil dapat nilang bantayan ang pinagmumulan ng kita sa harap ng pagtaas ng gastos ng AI sa pagsasanay, aniya. 

Ito: GPT-4: Isang bagong kapasidad para sa pagbibigay ng bawal na payo at pagpapakita ng 'mapanganib na mga umuusbong na pag-uugali'

"Napakamahal, napagpasyahan nila na ito ay isang madiskarteng asset, at nagpasya silang itago ito sa komunidad dahil ito ay madiskarte sa kanila," sabi niya. “At sa tingin ko iyon ay isang napaka-makatwirang diskarte. 

"Ito ay isang makatwirang diskarte kung ang isang kumpanya ay nagnanais na mamuhunan ng maraming oras at pagsisikap at pera at hindi ibahagi ang mga resulta sa iba pang bahagi ng mundo," idinagdag ni Feldman. 

Gayunpaman, "Sa tingin namin na gumagawa para sa isang hindi gaanong kawili-wiling ecosystem, at, sa katagalan, nililimitahan nito ang pagtaas ng tubig" ng pananaliksik, sinabi niya.

Ang mga kumpanya ay maaaring "mag-imbak" ng mga mapagkukunan, tulad ng mga set ng data, o kadalubhasaan sa modelo, sa pamamagitan ng pag-iimbak ng mga ito, ayon kay Feldman.

Ito: Ang AI challenger na si Cerebras ay nag-assemble ng modular supercomputer na 'Andromeda' upang pabilisin ang malalaking modelo ng wika

"Ang tanong ay, paano ginagamit ang mga mapagkukunang ito sa madiskarteng paraan sa landscape," sabi niya. "Paniniwala namin na makakatulong kami sa pamamagitan ng paglalagay ng mga modelong bukas, gamit ang data na makikita ng lahat." 

Nang tanungin kung ano ang maaaring produkto ng open-source na release, sinabi ni Feldman, "Daan-daang natatanging institusyon ang maaaring gumana sa mga modelong GPT na ito na maaaring hindi magawa, at lutasin ang mga problema na maaaring itabi."

pinagmulan