Pionier sztucznej inteligencji Cerebras otwiera generatywną sztuczną inteligencję tam, gdzie OpenAI idzie w ciemno

cerebras-andromeda-drzwi-zamknięte-2022

Superkomputer Andromeda firmy Cerebras był używany do trenowania siedmiu programów językowych podobnych do ChatGPT firmy OpenAI. 

Systemy Cerebras

Świat sztucznej inteligencji, a zwłaszcza jego część, która jest niezwykle popularna, znana jako „generatywna sztuczna inteligencja” — automatyczne tworzenie pisma i obrazów — jest zagrożona zamknięciem swoich horyzontów z powodu efektu mrożącego, który firmy decydują się nie publikować szczegółów swoich badania. 

Ale zwrot ku tajemnicy mógł skłonić niektórych uczestników świata sztucznej inteligencji do wkroczenia i wypełnienia luki w ujawnieniu.

We wtorek pionier sztucznej inteligencji Cerebras Systems, twórcy dedykowanego komputera AI i największego na świecie chipa komputerowego, opublikowane jako open source kilka wersji generatywnych programów AI do używania bez ograniczeń. 

Programy są „uczone” przez firmę Cerebras, co oznacza, że ​​są optymalnie dopracowane przy użyciu potężnego superkomputera firmy, zmniejszając w ten sposób część pracy, którą muszą wykonać zewnętrzni badacze. 

„Firmy podejmują inne decyzje niż rok lub dwa lata temu i nie zgadzamy się z tymi decyzjami” – powiedział współzałożyciel i dyrektor generalny Cerebras, Andrew Feldman w wywiadzie dla ZDNET, nawiązując do decyzji OpenAI, twórcy ChatGPT, nie publikować szczegółów technicznych, gdy w tym miesiącu ujawnił swój najnowszy program generatywnej sztucznej inteligencji, GPT-4, ruch, który był szeroko krytykowany w świecie badań nad sztuczną inteligencją. 

Również: W przypadku GPT-4 OpenAI wybiera zachowanie tajemnicy zamiast ujawnienia

ogłoszenie-cerebras-marzec-2023-dystrybucja-wersja-slajd-2

Systemy Cerebras
ogłoszenie-cerebras-marzec-2023-dystrybucja-wersja-slajd-3

Systemy Cerebras

„Wierzymy, że otwarta, tętniąca życiem społeczność – nie tylko badaczy i nie tylko trzech, czterech, pięciu czy ośmiu pracowników LLM, ale tętniąca życiem społeczność, w której start-upy, średnie firmy i przedsiębiorstwa szkolą duże modele językowe – jest dobre dla nas i dla innych” – powiedział Feldman.

Termin duży model językowy odnosi się do programów AI opartych na zasadach uczenia maszynowego, w których sieć neuronowa przechwytuje statystyczny rozkład słów w przykładowych danych. Ten proces pozwala dużemu modelowi językowemu przewidzieć następne słowo w sekwencji. Ta umiejętność leży u podstaw popularnych programów do generatywnej sztucznej inteligencji, takich jak ChatGPT. 

Ten sam rodzaj uczenia maszynowego dotyczy generatywnej sztucznej inteligencji w innych dziedzinach, takich jak Dall*E firmy OpenAI, która generuje obrazy na podstawie sugerowanej frazy. 

Również: Najlepsze generatory grafiki AI: DALL-E2 i inne ciekawe alternatywy do wypróbowania

Cerebras opublikował siedem dużych modeli językowych, które są w tym samym stylu, co program GPT OpenAI, który zapoczątkował szaleństwo generatywnej sztucznej inteligencji w 2018 roku. Kod to dostępne na stronie internetowej startupu AI Hugging Face i nie tylko GitHub.

Programy różnią się wielkością, od 111 milionów parametrów lub wag neuronowych do trzynastu miliardów. Więcej parametrów czyni program AI bardziej wydajnym, ogólnie rzecz biorąc, tak więc kod Cerebras zapewnia zakres wydajności. 

Firma opublikowała nie tylko źródła programów, w formacie Python i TensorFlow, na licencji open-source Apache 2.0, ale także szczegóły schematu szkoleniowego, dzięki któremu programy zostały doprowadzone do rozwiniętego stanu funkcjonalności. 

To ujawnienie pozwala naukowcom zbadać i odtworzyć pracę Cerebras. 

Wydanie Cerebras, powiedział Feldman, to pierwszy raz, kiedy program w stylu GPT został upubliczniony „przy użyciu najnowocześniejszych technik efektywności treningu”.

Inne opublikowane prace szkoleniowe AI albo ukrywały dane techniczne, takie jak GPT-4 OpenAI, albo programy nie zostały zoptymalizowane w ich rozwoju, co oznacza, że ​​dane wprowadzane do programu nie zostały dostosowane do rozmiaru programu, jak wyjaśniono w technicznym poście na blogu Cerebras. 

ogłoszenie-cerebras-marzec-2023-dystrybucja-wersja-slajd-11

Systemy Cerebras

Takie duże modele językowe są notorycznie intensywne obliczeniowo. Opublikowana we wtorek praca Cerebras została opracowana na klastrze szesnastu komputerów CS-2, komputerów wielkości lodówek w akademiku, które są specjalnie dostrojone do programów w stylu AI. Klaster, wcześniej ujawniony przez firmę, jest znany jako superkomputer Andromeda, który może radykalnie skrócić pracę nad szkoleniem LLM na tysiącach układów GPU Nvidii.

Również: Sukces ChatGPT może spowodować niszczący zwrot w kierunku zachowania tajemnicy w sztucznej inteligencji, mówi Bengio, pionier sztucznej inteligencji

W ramach wtorkowego wydania Cerebras zaoferował to, co było pierwszym prawem skalowania open source, regułą wzorcową dla tego, jak dokładność takich programów wzrasta wraz z rozmiarem programów opartych na danych open source. Użyty zestaw danych to open-source Słup, 825-gigabajtowy zbiór tekstów, głównie tekstów zawodowych i akademickich, wprowadzony w 2020 roku przez laboratorium non-profit Eleuther.   

ogłoszenie-cerebras-marzec-2023-dystrybucja-wersja-slajd-12

Systemy Cerebras

Wcześniejsze przepisy dotyczące skalowania z OpenAI i Google DeepMind wykorzystywały dane szkoleniowe, które nie były open-source. 

Firma Cerebras w przeszłości uzasadniała zalety wydajności swoich systemów. Zdolność do efektywnego uczenia wymagających programów języka naturalnego leży u podstaw zagadnień otwartego publikowania, powiedział Feldman.

„Jeśli możesz osiągnąć wydajność, możesz sobie pozwolić na umieszczanie rzeczy w społeczności open source” — powiedział Feldman. „Wydajność pozwala nam robić to szybko i łatwo oraz wnosić swój wkład w społeczność”.

Powiedział, że głównym powodem, dla którego OpenAI i inni zaczynają zamykać swoją pracę dla reszty świata, jest to, że muszą strzec źródła zysków w obliczu rosnących kosztów szkolenia AI. 

Również: GPT-4: Nowa zdolność do oferowania nielegalnych porad i wyświetlania „ryzykownych, pojawiających się zachowań”

„To jest tak drogie, że zdecydowali, że to strategiczny zasób i postanowili ukryć go przed społecznością, ponieważ jest dla nich strategiczny” – powiedział. „I myślę, że to bardzo rozsądna strategia. 

„To rozsądna strategia, jeśli firma chce zainwestować dużo czasu, wysiłku i pieniędzy, a nie dzielić się wynikami z resztą świata” — dodał Feldman. 

Jednak „Uważamy, że to sprawia, że ​​ekosystem jest mniej interesujący, a na dłuższą metę ogranicza rosnącą falę badań” – powiedział.

Firmy mogą „gromadzić” zasoby, takie jak zestawy danych lub ekspertyzy modelowe, gromadząc je, zauważył Feldman.

Również: Konkurencja AI Cerebras montuje modułowy superkomputer „Andromeda”, aby przyspieszyć duże modele językowe

„Pytanie brzmi, w jaki sposób te zasoby są wykorzystywane strategicznie w krajobrazie” – powiedział. „Jesteśmy przekonani, że możemy pomóc, przedstawiając otwarte modele, korzystając z danych, które każdy może zobaczyć”. 

Zapytany, jaki może być produkt wydania open source, Feldman zauważył: „Setki różnych instytucji może pracować z tymi modelami GPT, które w przeciwnym razie nie byłyby w stanie, i rozwiązywać problemy, które w przeciwnym razie mogłyby zostać odłożone na bok”.

Źródło