Пионерът в ИИ Cerebras отваря генеративен ИИ, където OpenAI потъмнява

cerebras-andromeda-врати-затворени-2022

Суперкомпютърът Andromeda на Cerebras беше използван за обучение на седем езикови програми, подобни на ChatGPT на OpenAI. 

Системи Cerebras

Светът на изкуствения интелект, особено ъгълът му, който е изключително популярен, известен като „генеративен AI“ – автоматично създаване на текст и изображения – е изложен на риск да затвори своите хоризонти поради смразяващия ефект на компаниите, които решават да не публикуват подробностите за своите изследвания. 

Но обръщането към секретността може да е подтикнало някои участници в света на ИИ да се намесят и да запълнят празнотата на разкриването.

Във вторник пионерът в изкуствения интелект Cerebras Systems, производителите на специален компютър с изкуствен интелект и най-големия компютърен чип в света, публикуван като отворен код няколко версии на генериращи AI програми за използване без ограничения. 

Програмите са „обучени“ от Cerebras, което означава, че са доведени до оптимална производителност с помощта на мощния суперкомпютър на компанията, като по този начин се намалява част от работата, която външните изследователи трябва да вършат. 

„Компаниите вземат различни решения от тези, които са взели преди година или две, и ние не сме съгласни с тези решения“, каза съоснователят и главен изпълнителен директор на Cerebras Андрю Фелдман в интервю за ZDNET, намеквайки за решението на OpenAI, създателят на ChatGPT, да не публикува технически подробности, когато разкри най-новата си генеративна AI програма този месец, GPT-4, ход, който беше широко критикуван в света на изследванията на AI. 

Също така: С GPT-4 OpenAI избира поверителността срещу разкриването

cerebras-anouncement-march-2023-разпространение-версия-слайд-2

Системи Cerebras
cerebras-anouncement-march-2023-разпространение-версия-слайд-3

Системи Cerebras

„Ние вярваме, че една отворена, жизнена общност – не само от изследователи и не само от трима или четирима или пет или осем момчета от LLM, а жизнена общност, в която стартиращи компании, средни компании и предприятия обучават големи езикови модели – е добре за нас и е добре за другите“, каза Фелдман.

Терминът голям езиков модел се отнася до AI програми, базирани на принципи на машинно обучение, в които невронна мрежа улавя статистическото разпределение на думите в примерни данни. Този процес позволява на голям езиков модел да предвиди следващата дума в последователност. Тази способност е в основата на популярни генеративни AI програми като ChatGPT. 

Същият вид подход на машинно обучение се отнася до генеративния AI в други области, като Dall*E на OpenAI, който генерира изображения въз основа на предложена фраза. 

Също така: Най-добрите AI арт генератори: DALL-E2 и други забавни алтернативи, които да опитате

Cerebras публикува седем големи езикови модела, които са в същия стил като GPT програмата на OpenAI, която започна генеративната лудост на AI през 2018 г. Кодът е на разположение на уеб сайта на AI стартиране Hugging Face и на GitHub.

Програмите варират по размер от 111 милиона параметъра или невронни тегла до тринадесет милиарда. Повече параметри правят една програма за изкуствен интелект по-мощна, най-общо казано, така че кодът на Cerebras предоставя диапазон на производителност. 

Компанията публикува не само изходния код на програмите във формат Python и TensorFlow, под лиценза Apache 2.0 с отворен код, но също така и подробности за режима на обучение, чрез който програмите са доведени до развито състояние на функционалност. 

Това разкриване позволява на изследователите да изследват и възпроизведат работата на Cerebras. 

Версията на Cerebras, каза Фелдман, е първият път, когато програма в стил GPT е публикувана „с използване на най-съвременни техники за ефективност на обучението“.

Друга публикувана работа за обучение на AI или е скрила технически данни, като GPT-4 на OpenAI, или програмите не са били оптимизирани в своето развитие, което означава, че данните, подавани към програмата, не са били коригирани спрямо размера на програмата, както е обяснено в техническа публикация в блога на Cerebras. 

cerebras-anouncement-march-2023-разпространение-версия-слайд-11

Системи Cerebras

Такива големи езикови модели са известни с интензивни изчисления. Работата на Cerebras, публикувана във вторник, е разработена върху клъстер от шестнадесет от нейните CS-2 компютри, компютри с размерите на хладилници в спални, които са настроени специално за програми в стил AI. Клъстерът, разкрит по-рано от компанията, е известен като нейния суперкомпютър Andromeda, който може драстично да намали работата за обучение на LLM на хиляди GPU чипове на Nvidia.

Също така: Успехът на ChatGPT може да предизвика вреден завой към секретността в AI, казва пионерът на AI Bengio

Като част от изданието във вторник Cerebras предложи това, което каза, че е първият закон за мащабиране с отворен код, правило за сравнение за това как точността на такива програми се увеличава с размера на програмите, базирани на данни с отворен код. Използваният набор от данни е с отворен код Купчината, 825-гигабайтова колекция от текстове, предимно професионални и академични текстове, представена през 2020 г. от лаборатория с нестопанска цел Елетер.   

cerebras-anouncement-march-2023-разпространение-версия-слайд-12

Системи Cerebras

Предишните закони за мащабиране от OpenAI и DeepMind на Google използваха данни за обучение, които не бяха с отворен код. 

В миналото Cerebras доказваше ефективността на своите системи. Способността за ефективно обучение на взискателните програми на естествен език е в основата на проблемите на отвореното публикуване, каза Фелдман.

„Ако можете да постигнете ефективност, можете да си позволите да поставите нещата в общността с отворен код“, каза Фелдман. „Ефективността ни позволява да правим това бързо и лесно и да направим нашия дял за общността.“

Основната причина, поради която OpenAI и други започват да затварят работата си за останалия свят, е, че трябва да пазят източника на печалба в лицето на нарастващите разходи за обучение на AI, каза той. 

Също така: GPT-4: Нов капацитет за предлагане на незаконни съвети и показване на „рисково възникващо поведение“

„Толкова е скъпо, че са решили, че е стратегически актив, и са решили да го задържат от общността, защото е стратегически за тях“, каза той. „И мисля, че това е много разумна стратегия. 

„Това е разумна стратегия, ако една компания желае да инвестира много време, усилия и пари и да не споделя резултатите с останалия свят“, добави Фелдман. 

„Смятаме обаче, че това създава по-малко интересна екосистема и в дългосрочен план ограничава нарастващата вълна“ на изследванията, каза той.

Компаниите могат да „натрупват“ ресурси, като набори от данни или опит в моделите, като ги трупат, отбеляза Фелдман.

Също така: AI претендентът Cerebras сглобява модулен суперкомпютър „Andromeda“, за да ускори големите езикови модели

„Въпросът е как тези ресурси се използват стратегически в пейзажа“, каза той. „Наше убеждение е, че можем да помогнем, като представим модели, които са отворени, използвайки данни, които всеки може да види.“ 

Запитан какъв може да е продуктът на изданието с отворен код, Фелдман отбеляза: „Стотици отделни институции може да работят с тези GPT модели, които иначе не биха могли, и да решават проблеми, които иначе биха могли да бъдат оставени настрана.“

източник