Мир искусственного интеллекта, особенно та его часть, которая пользуется бешеной популярностью под названием «генеративный ИИ» — автоматическое создание текстов и изображений, — рискует закрыть свои горизонты из-за сдерживающего эффекта компаний, решивших не публиковать подробности своей деятельности. исследовать.
Но поворот к секретности, возможно, побудил некоторых участников мира ИИ вмешаться и заполнить пустоту раскрытия информации.
Во вторник пионер искусственного интеллекта Cerebras Systems, производитель специального компьютера с искусственным интеллектом и самого большого в мире компьютерного чипа, опубликовано в открытом доступе несколько версий программ генеративного ИИ для использования без ограничений.
Программы «обучаются» компанией Cerebras, то есть доводятся до оптимальной производительности с помощью мощного суперкомпьютера компании, что сокращает часть работы, которую должны выполнять сторонние исследователи.
«Компании принимают другие решения, чем год или два назад, и мы не согласны с этими решениями», — сказал соучредитель и генеральный директор Cerebras Эндрю Фельдман в интервью ZDNET, намекая на решение OpenAI, создателя ChatGPT. не публиковать технические детали, когда в этом месяце он раскрыл свою последнюю программу генеративного ИИ, GPT-4, шаг, который подвергся широкой критике в мире исследований ИИ.
А также: С GPT-4 OpenAI выбирает секретность, а не раскрытие
«Мы считаем, что открытое, активное сообщество — не только исследователей, не только трех, четырех, пяти или восьми парней из LLM, но активное сообщество, в котором стартапы, компании среднего размера и предприятия обучают большие языковые модели — это хорошо для нас, и это хорошо для других», — сказал Фельдман.
Термин «большая языковая модель» относится к программам искусственного интеллекта, основанным на принципах машинного обучения, в которых нейронная сеть фиксирует статистическое распределение слов в выборочных данных. Этот процесс позволяет большой языковой модели предсказывать следующее слово в последовательности. Эта способность лежит в основе популярных программ генеративного ИИ, таких как ChatGPT.
Такой же подход к машинному обучению относится к генеративному ИИ в других областях, таких как Dall*E от OpenAI, который генерирует изображения на основе предложенной фразы.
А также: Лучшие генераторы изображений с искусственным интеллектом: DALL-E2 и другие забавные альтернативы, которые стоит попробовать
Компания Cerebras опубликовала семь больших языковых моделей, выполненных в том же стиле, что и программа OpenAI GPT, которая начала повальное увлечение генеративным ИИ еще в 2018 году. доступно на веб-сайте ИИ-стартапа Hugging Face и далее GitHub.
Программы различаются по размеру: от 111 миллионов параметров, или нейронных весов, до тринадцати миллиардов. В целом, большее количество параметров делает программу ИИ более мощной, поэтому код Cerebras обеспечивает более широкий диапазон производительности.
Компания выложила не только исходники программ в формате Python и TensorFlow под открытой лицензией Apache 2.0, но и детали режима обучения, по которому программы были доведены до развитого функционального состояния.
Это раскрытие позволяет исследователям изучить и воспроизвести работу Cerebras.
Релиз Cerebras, по словам Фельдмана, — это первый случай, когда программа в стиле GPT была обнародована, «с использованием самых современных методов повышения эффективности обучения».
Другие опубликованные работы по обучению ИИ либо скрыли технические данные, такие как OpenAI GPT-4, либо программы не были оптимизированы при их разработке, то есть данные, переданные в программу, не были адаптированы к размеру программы. как объясняется в сообщении технического блога Cerebras.
Такие большие языковые модели, как известно, требуют больших вычислительных ресурсов. Работа Cerebras, выпущенная во вторник, была разработана на кластере из шестнадцати компьютеров CS-2, компьютеров размером с холодильник в общежитии, которые были специально настроены для программ в стиле ИИ. Кластер, ранее раскрытый компанией, известен как ее суперкомпьютер Andromeda, который может значительно сократить работу по обучению LLM на тысячах чипов GPU Nvidia.
А также: Успех ChatGPT может спровоцировать разрушительный поворот к секретности в ИИ, говорит пионер ИИ Бенжио
В рамках выпуска во вторник Cerebras предложила то, что, по ее словам, было первым законом масштабирования с открытым исходным кодом, эталонным правилом того, как точность таких программ увеличивается с размером программ, основанных на данных с открытым исходным кодом. Используемый набор данных является открытым Куча, коллекция текстов объемом 825 гигабайт, в основном профессиональные и академические тексты, представленная в 2020 году некоммерческой лабораторией. Элеутер.
Предыдущие законы масштабирования от OpenAI и DeepMind от Google использовали обучающие данные, которые не были открытыми.
Компания Cerebras в прошлом доказывала эффективность своих систем. По словам Фельдмана, способность эффективно обучать требовательные программы естественного языка лежит в основе проблем открытой публикации.
«Если вы можете добиться эффективности, вы можете позволить себе размещать вещи в сообществе с открытым исходным кодом», — сказал Фельдман. «Эффективность позволяет нам делать это быстро и легко и вносить свой вклад в пользу сообщества».
По его словам, основная причина, по которой OpenAI и другие компании начинают закрывать свою работу от остального мира, заключается в том, что они должны охранять источник прибыли в условиях роста стоимости обучения ИИ.
А также: GPT-4: новая способность давать незаконные советы и демонстрировать «рискованное эмерджентное поведение».
«Это так дорого, что они решили, что это стратегический актив, и решили скрыть его от сообщества, потому что он имеет для них стратегическое значение», — сказал он. «И я думаю, что это очень разумная стратегия.
«Это разумная стратегия, если компания хочет вложить много времени, усилий и денег и не делиться результатами с остальным миром», — добавил Фельдман.
Однако «мы считаем, что это делает экосистему менее интересной и, в конечном счете, ограничивает прилив» исследований, сказал он.
По наблюдениям Фельдмана, компании могут накапливать ресурсы, такие как наборы данных или экспертные знания о моделировании, накапливая их.
А также: Претендент на ИИ Cerebras собирает модульный суперкомпьютер Andromeda для ускорения больших языковых моделей
«Вопрос в том, как эти ресурсы стратегически используются в ландшафте», — сказал он. «Мы верим, что можем помочь, выдвигая открытые модели, используя данные, которые могут видеть все».
На вопрос, каким может быть продукт версии с открытым исходным кодом, Фельдман заметил: «Сотни различных учреждений могут работать с этими моделями GPT, которые иначе были бы не в состоянии, и решать проблемы, которые в противном случае могли бы быть отложены».