AI-pionjären Cerebras öppnar upp generativ AI där OpenAI blir mörkt

cerebras-andromeda-dörrar-stängda-2022 — Cerebras Andromeda superdator användes för att träna sju språkprogram som liknar OpenAI:s ChatGPT.

Cerebras-system

Världen av artificiell intelligens, särskilt hörnet av det som är mycket populärt känt som "generativ AI" - att skapa skrifter och bilder automatiskt - riskerar att stänga sina horisonter på grund av den kylande effekten av företag som beslutar att inte publicera detaljerna om sina forskning.

Men övergången till sekretess kan ha fått vissa deltagare i AI-världen att gå in och fylla tomrummet av avslöjande.

På tisdagen, AI-pionjären Cerebras Systems, tillverkare av en dedikerad AI-dator och världens största datorchip, publiceras som öppen källkod flera versioner generativa AI-program att använda utan begränsningar.

Programmen "tränas" av Cerebras, vilket innebär att de får optimal prestanda med hjälp av företagets kraftfulla superdator, vilket minskar en del av det arbete som externa forskare måste göra.

"Företag fattar ett annat beslut än de tog för ett eller två år sedan, och vi håller inte med om de besluten," sa Cerebras medgrundare och VD Andrew Feldman i en intervju med ZDNET, och anspelade på beslutet av OpenAI, skaparen av ChatGPT, att inte publicera tekniska detaljer när det avslöjade sitt senaste generativa AI-program denna månad, GPT-4, ett drag som kritiserades mycket inom AI-forskningsvärlden.

Dessutom: Med GPT-4 väljer OpenAI sekretess kontra avslöjande

cerebras-announcement-march-2023-distribution-version-slide-2 — Cerebras-system

cerebras-announcement-march-2023-distribution-version-slide-3 — Cerebras-system

"Vi tror att en öppen, levande gemenskap - inte bara av forskare, och inte bara av tre eller fyra eller fem eller åtta LLM-killar, utan en levande gemenskap där startups, medelstora företag och företag utbildar stora språkmodeller - är bra för oss, och det är bra för andra, säger Feldman.

Termen stor språkmodell hänvisar till AI-program baserade på maskininlärningsprinciper där ett neuralt nätverk fångar den statistiska fördelningen av ord i exempeldata. Den processen tillåter en stor språkmodell att förutsäga nästa ord i följd. Den förmågan ligger bakom populära generativa AI-program som ChatGPT.

Samma typ av maskininlärningsmetod gäller för generativ AI inom andra områden, som OpenAI:s Dall*E, som genererar bilder baserat på en föreslagen fras.

Dessutom: De bästa AI-konstgeneratorerna: DALL-E2 och andra roliga alternativ att prova

Cerebras publicerade sju stora språkmodeller som är i samma stil som OpenAI:s GPT-program, som började den generativa AI-ville redan 2018. Koden är tillgänglig på webbplatsen av AI-startup Hugging Face och vidare GitHub.

Programmen varierar i storlek, från 111 miljoner parametrar, eller neurala vikter, till tretton miljarder. Fler parametrar gör ett AI-program mer kraftfullt, generellt sett, så att Cerebras-koden ger en rad prestanda.

Företaget publicerade inte bara programmens källa, i Python- och TensorFlow-format, under Apache 2.0-licensen med öppen källkod, utan också detaljerna om träningsschemat genom vilket programmen fördes till ett utvecklat tillstånd av funktionalitet.

Det avslöjandet gör det möjligt för forskare att undersöka och reproducera Cerebras arbete.

Cerebras-utgåvan, sa Feldman, är första gången ett GPT-program har gjorts offentligt "med hjälp av toppmoderna träningseffektivitetstekniker."

Annat publicerat AI-träningsarbete har antingen dolt tekniska data, såsom OpenAI:s GPT-4, eller så har programmen inte optimerats i sin utveckling, vilket innebär att data som matas till programmet inte har anpassats till programmets storlek, som förklaras i ett tekniskt blogginlägg från Cerebras.

cerebras-announcement-march-2023-distribution-version-slide-11 — Cerebras-system

Sådana stora språkmodeller är notoriskt beräkningskrävande. Cerebras arbete som släpptes i tisdags utvecklades på ett kluster av sexton av dess CS-2-datorer, datorer storleken på sovsalskylskåp som är speciellt inställda för AI-program. Klustret, som tidigare avslöjats av företaget, är känt som dess Andromeda-superdator, som dramatiskt kan minska arbetet med att träna LLM:er på tusentals Nvidias GPU-chips.

Dessutom: ChatGPT:s framgång kan leda till en skadlig svängning till sekretess inom AI, säger AI-pionjären Bengio

Som en del av tisdagens release erbjöd Cerebras vad den sa var den första skalningslagen med öppen källkod, en riktmärke för hur noggrannheten hos sådana program ökar med storleken på programmen baserat på öppen källkodsdata. Datauppsättningen som används är öppen källkod Högen, en 825-gigabyte samling av texter, mestadels professionella och akademiska texter, introducerad 2020 av ideellt labb Eleuther.

cerebras-announcement-march-2023-distribution-version-slide-12 — Cerebras-system

Tidigare skalningslagar från OpenAI och Googles DeepMind använde träningsdata som inte var öppen källkod.

Cerebras har tidigare hävdat effektivitetsfördelarna med sina system. Förmågan att effektivt träna de krävande naturliga språkprogrammen går till kärnan i frågorna om öppen publicering, sa Feldman.

"Om du kan uppnå effektivitetsvinster har du råd att lägga saker i öppen källkod", sa Feldman. "Effektiviteten gör det möjligt för oss att göra detta snabbt och enkelt och att göra vår del för samhället."

En primär anledning till att OpenAI, och andra, börjar stänga av sitt arbete för resten av världen är för att de måste skydda vinstkällan inför AI:s stigande kostnader för att träna, sa han.

Dessutom: GPT-4: En ny förmåga att erbjuda olagliga råd och visa "riskfyllda uppkomstbeteenden"

"Det är så dyrt, de har bestämt att det är en strategisk tillgång, och de har beslutat att undanhålla det från samhället eftersom det är strategiskt för dem", sa han. "Och jag tycker att det är en mycket rimlig strategi.

"Det är en rimlig strategi om ett företag vill investera mycket tid och ansträngning och pengar och inte dela resultaten med resten av världen", tillade Feldman.

Men "Vi tror att det skapar ett mindre intressant ekosystem, och i det långa loppet begränsar det den stigande strömmen" av forskning, sa han.

Företag kan "lagra" resurser, såsom datamängder eller modellexpertis, genom att hamstra dem, observerade Feldman.

Dessutom: AI-utmanaren Cerebras sätter ihop modulär superdator "Andromeda" för att snabba upp stora språkmodeller

"Frågan är hur dessa resurser används strategiskt i landskapet", sa han. "Det är vår övertygelse att vi kan hjälpa genom att lägga fram modeller som är öppna och använda data som alla kan se."

På frågan om vad produkten kan vara av öppen källkod, kommenterade Feldman: "Hundratals olika institutioner kan arbeta med dessa GPT-modeller som annars kanske inte hade kunnat göra det och lösa problem som annars skulle ha lagts åt sidan."

Källa