AI-pioneren Cerebras åbner op for generativ AI, hvor OpenAI bliver mørk

cerebras-andromeda-døre-lukket-2022

Cerebras' Andromeda-supercomputer blev brugt til at træne syv sprogprogrammer, der ligner OpenAI's ChatGPT. 

Cerebras-systemer

Verden af ​​kunstig intelligens, især hjørnet af den, der er vildt populær kendt som "generativ AI" - at skabe skrift og billeder automatisk - risikerer at lukke sin horisont på grund af den afkølende effekt af virksomheder, der beslutter sig for ikke at offentliggøre detaljerne om deres forskning. 

Men vendingen til hemmeligholdelse kan have fået nogle deltagere i AI-verdenen til at træde ind og udfylde tomrummet af afsløring.

Tirsdag, AI-pioneren Cerebras Systems, skabere af en dedikeret AI-computer og verdens største computerchip, udgivet som open source flere versioner af generative AI-programmer til brug uden begrænsninger. 

Programmerne "trænes" af Cerebras, hvilket betyder, at de bringes til optimal ydeevne ved hjælp af virksomhedens kraftfulde supercomputer, og derved reducerer noget af det arbejde, som eksterne forskere skal udføre. 

"Virksomheder træffer en anden beslutning, end de traf for et år eller to siden, og vi er uenige i disse beslutninger," sagde Cerebras medstifter og administrerende direktør Andrew Feldman i et interview med ZDNET, der hentyder til beslutningen fra OpenAI, skaberen af ​​ChatGPT, ikke at offentliggøre tekniske detaljer, da det afslørede sit seneste generative AI-program i denne måned, GPT-4, et træk, der blev meget kritiseret i AI-forskningsverdenen. 

Også: Med GPT-4 vælger OpenAI hemmeligholdelse versus afsløring

cerebras-announcement-march-2023-distribution-version-slide-2

Cerebras-systemer
cerebras-announcement-march-2023-distribution-version-slide-3

Cerebras-systemer

"Vi mener, at et åbent, levende samfund - ikke kun af forskere og ikke kun af tre eller fire eller fem eller otte LLM-fyre, men et levende samfund, hvor startups, mellemstore virksomheder og virksomheder træner store sprogmodeller - er godt for os, og det er godt for andre,” sagde Feldman.

Udtrykket stor sprogmodel refererer til AI-programmer baseret på maskinlæringsprincipper, hvor et neuralt netværk fanger den statistiske fordeling af ord i prøvedata. Den proces gør det muligt for en stor sprogmodel at forudsige det næste ord i rækkefølge. Den evne ligger til grund for populære generative AI-programmer såsom ChatGPT. 

Den samme slags maskinlæringstilgang vedrører generativ AI på andre områder, såsom OpenAI's Dall*E, som genererer billeder baseret på en foreslået sætning. 

Også: De bedste AI-kunstgeneratorer: DALL-E2 og andre sjove alternativer at prøve

Cerebras postede syv store sprogmodeller, der er i samme stil som OpenAIs GPT-program, som startede den generative AI-dille tilbage i 2018. Koden er tilgængelig på webstedet af AI-startup Hugging Face og videre GitHub.

Programmerne varierer i størrelse, fra 111 millioner parametre eller neurale vægte til tretten milliarder. Flere parametre gør et AI-program mere kraftfuldt, generelt set, så Cerebras-koden giver en række ydeevne. 

Virksomheden postede ikke kun programmernes kilde, i Python- og TensorFlow-format, under open source Apache 2.0-licensen, men også detaljerne om træningsregimet, hvorved programmerne blev bragt til en udviklet funktionalitet. 

Denne afsløring giver forskere mulighed for at undersøge og reproducere Cerebras arbejde. 

Cerebras-udgivelsen, sagde Feldman, er første gang et program i GPT-stil er blevet offentliggjort "ved hjælp af avancerede træningseffektivitetsteknikker."

Andet offentliggjort AI-træningsarbejde har enten skjult tekniske data, såsom OpenAI's GPT-4, eller programmerne er ikke blevet optimeret i deres udvikling, hvilket betyder, at de data, der er tilført programmet, ikke er blevet tilpasset til programmets størrelse, som forklaret i et Cerebras teknisk blogindlæg. 

cerebras-announcement-march-2023-distribution-version-slide-11

Cerebras-systemer

Sådanne store sprogmodeller er notorisk computerintensive. Cerebras-værket, der blev udgivet tirsdag, blev udviklet på en klynge af seksten af ​​dets CS-2-computere, computere på størrelse med sovesale køleskabe, der er indstillet specielt til programmer i AI-stil. Klyngen, som virksomheden tidligere har afsløret, er kendt som dens Andromeda-supercomputer, som dramatisk kan skære ned på arbejdet med at træne LLM'er på tusindvis af Nvidias GPU-chips.

Også: ChatGPT's succes kan få et skadeligt sving til hemmeligholdelse i AI, siger AI-pioner Bengio

Som en del af tirsdagens udgivelse tilbød Cerebras, hvad det sagde var den første open source-skaleringslov, en benchmark-regel for, hvordan nøjagtigheden af ​​sådanne programmer øges med størrelsen af ​​programmerne baseret på open source-data. Det anvendte datasæt er open source Bunken, en 825-gigabyte samling af tekster, hovedsagelig professionelle og akademiske tekster, introduceret i 2020 af non-profit laboratorium Eleuther.   

cerebras-announcement-march-2023-distribution-version-slide-12

Cerebras-systemer

Tidligere skaleringslove fra OpenAI og Googles DeepMind brugte træningsdata, der ikke var open source. 

Cerebras har tidligere argumenteret for effektivitetsfordelene ved sine systemer. Evnen til effektivt at træne de krævende naturlige sprogprogrammer går til kernen i spørgsmålene om åben udgivelse, sagde Feldman.

"Hvis du kan opnå effektivitetsgevinster, har du råd til at sætte ting i open source-fællesskabet," sagde Feldman. "Effektiviteten gør det muligt for os at gøre dette hurtigt og nemt og gøre vores del for samfundet."

En primær grund til, at OpenAI og andre begynder at lukke deres arbejde for resten af ​​verden, er, fordi de skal beskytte profitkilden i lyset af AI's stigende omkostninger til at træne, sagde han. 

Også: GPT-4: En ny kapacitet til at tilbyde ulovlig rådgivning og vise "risikabel emergent adfærd"

"Det er så dyrt, at de har besluttet, at det er et strategisk aktiv, og de har besluttet at tilbageholde det fra samfundet, fordi det er strategisk for dem," sagde han. "Og jeg synes, det er en meget fornuftig strategi. 

"Det er en rimelig strategi, hvis en virksomhed ønsker at investere en masse tid og kræfter og penge og ikke dele resultaterne med resten af ​​verden," tilføjede Feldman. 

Men "Vi mener, at det giver et mindre interessant økosystem, og i det lange løb begrænser det den stigende tidevand" af forskning, sagde han.

Virksomheder kan "lagre" ressourcer, såsom datasæt eller modelekspertise, ved at hamstre dem, observerede Feldman.

Også: AI-udfordrer Cerebras samler modulopbygget supercomputer 'Andromeda' for at fremskynde store sprogmodeller

"Spørgsmålet er, hvordan disse ressourcer bliver brugt strategisk i landskabet," sagde han. "Det er vores overbevisning, at vi kan hjælpe ved at fremlægge modeller, der er åbne ved at bruge data, som alle kan se." 

På spørgsmålet om, hvad produktet kan være af open source-udgivelsen, bemærkede Feldman: "Hundredevis af forskellige institutioner kan arbejde med disse GPT-modeller, som ellers ikke ville have været i stand til, og løse problemer, som ellers kunne være blevet sat til side."

Kilde