AI-pionier Cerebras opent generatieve AI waar OpenAI donker wordt

cerebras-andromeda-doors-closed-2022

De Andromeda-supercomputer van Cerebras werd gebruikt om zeven taalprogramma's te trainen, vergelijkbaar met OpenAI's ChatGPT. 

Cerebras-systemen

De wereld van kunstmatige intelligentie, vooral de hoek ervan die enorm populair is en bekend staat als "generatieve AI" - automatisch schrijven en afbeeldingen creëren - dreigt zijn horizon te sluiten vanwege het huiveringwekkende effect van bedrijven die besluiten de details van hun onderzoek. 

Maar de wending naar geheimhouding kan sommige deelnemers in de AI-wereld ertoe hebben aangezet om in te stappen en de leegte van openbaarmaking te vullen.

Dinsdag heeft AI-pionier Cerebras Systems, makers van een speciale AI-computer en 's werelds grootste computerchip, gepubliceerd als open source verschillende versies van generatieve AI-programma's om onbeperkt te gebruiken. 

De programma's worden "getraind" door Cerebras, wat betekent dat ze optimaal presteren met behulp van de krachtige supercomputer van het bedrijf, waardoor een deel van het werk dat externe onderzoekers moeten doen wordt verminderd. 

"Bedrijven nemen andere beslissingen dan een jaar of twee geleden, en we zijn het niet eens met die beslissingen", zei Cerebras mede-oprichter en CEO Andrew Feldman in een interview met ZDNET, verwijzend naar de beslissing van OpenAI, de maker van ChatGPT, om geen technische details te publiceren toen het deze maand zijn nieuwste generatieve AI-programma, GPT-4, bekendmaakte, een zet die veel kritiek kreeg in de AI-onderzoekswereld. 

Ook: Met GPT-4 kiest OpenAI voor geheimhouding versus openbaarmaking

cerebras-aankondiging-maart-2023-distributie-versie-slide-2

Cerebras-systemen
cerebras-aankondiging-maart-2023-distributie-versie-slide-3

Cerebras-systemen

"Wij geloven dat een open, levendige gemeenschap - niet alleen van onderzoekers, en niet alleen van drie of vier of vijf of acht LLM-jongens, maar een levendige gemeenschap waarin startups, middelgrote bedrijven en ondernemingen grote taalmodellen trainen - is goed voor ons, en het is goed voor anderen,' zei Feldman.

De term groot taalmodel verwijst naar AI-programma's op basis van machine learning-principes waarin een neuraal netwerk de statistische verdeling van woorden in voorbeeldgegevens vastlegt. Door dat proces kan een groot taalmodel het volgende woord in de reeks voorspellen. Dat vermogen ligt ten grondslag aan populaire generatieve AI-programma's zoals ChatGPT. 

Dezelfde soort machine learning-benadering heeft betrekking op generatieve AI op andere gebieden, zoals OpenAI's Dall*E, die afbeeldingen genereert op basis van een voorgestelde zin. 

Ook: De beste AI-kunstgeneratoren: DALL-E2 en andere leuke alternatieven om te proberen

Cerebras plaatste zeven grote taalmodellen die in dezelfde stijl zijn als het GPT-programma van OpenAI, waarmee de generatieve AI-rage in 2018 begon. De code is beschikbaar op de website van AI-startup Hugging Face en verder GitHub.

De programma's variëren in grootte, van 111 miljoen parameters, of neurale gewichten, tot dertien miljard. Meer parameters maken een AI-programma over het algemeen krachtiger, zodat de Cerebras-code een scala aan prestaties biedt. 

Het bedrijf plaatste niet alleen de broncode van de programma's, in Python- en TensorFlow-indeling, onder de open-source Apache 2.0-licentie, maar ook de details van het trainingsregime waarmee de programma's tot een ontwikkelde staat van functionaliteit werden gebracht. 

Die onthulling stelt onderzoekers in staat om het Cerebras-werk te onderzoeken en te reproduceren. 

De release van Cerebras, zei Feldman, is de eerste keer dat een programma in GPT-stijl openbaar wordt gemaakt "met behulp van de modernste technieken voor trainingsefficiëntie".

Ander gepubliceerd AI-trainingswerk heeft ofwel technische gegevens verborgen, zoals OpenAI's GPT-4, of de programma's zijn niet geoptimaliseerd in hun ontwikkeling, wat betekent dat de gegevens die aan het programma worden ingevoerd niet zijn aangepast aan de grootte van het programma, zoals uitgelegd in een technische blogpost van Cerebras. 

cerebras-aankondiging-maart-2023-distributie-versie-slide-11

Cerebras-systemen

Dergelijke grote taalmodellen zijn notoir rekenintensief. Het Cerebras-werk dat dinsdag is vrijgegeven, is ontwikkeld op een cluster van zestien van zijn CS-2-computers, computers ter grootte van koelkasten in slaapzalen die speciaal zijn afgestemd op programma's in AI-stijl. Het eerder door het bedrijf onthulde cluster staat bekend als zijn Andromeda-supercomputer, die het werk om LLM's op duizenden Nvidia's GPU-chips te trainen drastisch kan verminderen.

Ook: Het succes van ChatGPT zou een schadelijke omslag naar geheimhouding in AI kunnen veroorzaken, zegt AI-pionier Bengio

Als onderdeel van de release van dinsdag bood Cerebras aan wat volgens hem de eerste open-source schaalwet was, een maatstafregel voor hoe de nauwkeurigheid van dergelijke programma's toeneemt met de grootte van de programma's op basis van open-sourcegegevens. De gebruikte dataset is de open-source De stapel, een verzameling teksten van 825 gigabyte, voornamelijk professionele en academische teksten, in 2020 geïntroduceerd door non-profit lab Eleuther.   

cerebras-aankondiging-maart-2023-distributie-versie-slide-12

Cerebras-systemen

Eerdere schaalwetten van OpenAI en Google's DeepMind gebruikten trainingsgegevens die niet open-source waren. 

Cerebras heeft zich in het verleden sterk gemaakt voor de efficiëntievoordelen van haar systemen. Het vermogen om de veeleisende natuurlijke taalprogramma's efficiënt te trainen, vormt de kern van de problemen van open publiceren, zei Feldman.

"Als je efficiëntie kunt bereiken, kun je het je veroorloven om dingen in de open source-gemeenschap te plaatsen", zegt Feldman. “De efficiëntie stelt ons in staat om dit snel en gemakkelijk te doen en ons steentje bij te dragen aan de gemeenschap.”

Een belangrijke reden waarom OpenAI en anderen hun werk beginnen af ​​te sluiten voor de rest van de wereld, is omdat ze de bron van winst moeten bewaken in het licht van de stijgende kosten van AI om te trainen, zei hij. 

Ook: GPT-4: een nieuw vermogen om ongeoorloofd advies te geven en 'risicovol opkomend gedrag' te vertonen

"Het is zo duur, ze hebben besloten dat het een strategisch bezit is, en ze hebben besloten het voor de gemeenschap achter te houden omdat het strategisch voor hen is," zei hij. “En ik denk dat dat een heel redelijke strategie is. 

"Het is een redelijke strategie als een bedrijf veel tijd, moeite en geld wil investeren en de resultaten niet wil delen met de rest van de wereld", voegde Feldman eraan toe. 

"We denken echter dat dit zorgt voor een minder interessant ecosysteem, en op de lange termijn beperkt het de opkomende golf", zei hij.

Bedrijven kunnen middelen, zoals datasets, of modelexpertise 'opslaan' door ze te hamsteren, merkte Feldman op.

Ook: AI-uitdager Cerebras zet modulaire supercomputer 'Andromeda' in elkaar om grote taalmodellen te versnellen

"De vraag is hoe deze bronnen strategisch in het landschap worden gebruikt", zei hij. "Wij geloven dat we kunnen helpen door modellen naar voren te brengen die open zijn en gegevens gebruiken die iedereen kan zien." 

Op de vraag wat het product zou kunnen zijn van de open-source release, merkte Feldman op: "Honderden verschillende instellingen kunnen met deze GPT-modellen werken die anders misschien niet hadden kunnen werken, en problemen oplossen die anders misschien terzijde waren geschoven."

bron