Сбер научил модель глубочайшего обучения GPT-3 писать по-русски и выложил её в открытый доступ

В августе мы ведали для вас, как студент из Беркли две недельки дурачил подписчиков блога, публикуя статьи, написанные языковой моделью глубочайшего обучения GPT-3. Месяцем позднее вы могли прочитать у нас перевод, размещенного в «Гардиан» эссе о том, почему искусственный ум не грозит человеку. Эссе тоже было написано нейросетью GPT-3. Эта модель способна генерировать тексты в самых различных жанрах, причём нередко они настолько неплохи, что их тяжело отличить от написанных людьми. До недавнешнего времени, правда, GPT-3 работала лишь с английским языком. Создатели Сбера решили поправить эту ситуацию и научили такую же модель писать по-русски.

За короткой формулировкой — «научили писать по-русски» — скрываются серьёзный труд и серьезные задействованные ресурсы. Это ведь и с людьми тяжело: у ребёнка на то, чтоб научиться приемлимо писать по-русски, могут уйти годы. А если посчитать всё, что растрачивают на это обучение (педагогический процесс, в результате которого учащиеся под руководством учителя овладевают знаниями, умениями и навыками) школа, семья и остальные институции, выйдет ещё и большая сумма в рублях. Плюс играет роль начитанность: чем с огромным корпусом текстов знакомится ребёнок во время обучения, тем он в итоге и сам, обычно, лучше пишет. Нейросеть тоже обучается не одномоментно, ей тоже нужен корпус текстов, и на её обучение (педагогический процесс, в результате которого учащиеся под руководством учителя овладевают знаниями, умениями и навыками) необходимо растрачивать силы и средства.

Пример текста, сгенерированного ruGPT-3.

В выложенной на arxiv.org публикации команды OpenAI, создателей CPT-3, описано несколько вариантов данной для нас модели. И если самую небольшую из их, GPT-3 Small, попробовать научить с помощью проф видеоплаты NVidia V100, на это уйдёт около полугода. На обучение (педагогический процесс, в результате которого учащиеся под руководством учителя овладевают знаниями, умениями и навыками) же самой большенный на том же железе — около пятисот лет. А если арендовать вычислительные ресурсы у какого-либо пасмурного сервиса-гиганта, вроде AWS, обучение (педагогический процесс, в результате которого учащиеся под руководством учителя овладевают знаниями, умениями и навыками) самой большенный версии GPT-3 изольется, мягко говоря, в копеечку — больше млрд рублей. По данной для нас причине подобные задачки по силам лишь компаниям, у которых есть в распоряжении или собственные значимые вычислительные ресурсы, или средства для получения доступа к ним. У Сбера разумеется есть средства, но есть и свой мощнейший суперкомпьютер «Кристофари» — 75 вычислительных узлов DGX-2, в любом по 16 карт NVidia V100. Вот на этом монстре создатели нескольких подразделений Сбера — Управления экспериментальных систем машинного обучения SberDevices, команда AGI NLP из Sberbank.AI, сотрудники SberCloud, специализирующиеся сопровождением «Кристофари», а также специалисты из остальных установок — и научили «русскую GPT-3» (ruGPT-3).

Для обучения применили внушительнейший корпус текстов на российском языке общим объёмом больше 600 Гб. В него вошли большущая коллекция российской литературы, снапшоты российской и британской Википедии, корпус Omnia Russica, коллекция снапшотов новостных и вопрос-ответных веб-сайтов, общественные разделы Pikabu, а также полные коллекции материалов денежного портала banki.ru и нашего веб-сайта («XX2 век», если вы вдруг не понимаете, где находитесь). Не считая того, так как создатели желали обучить модель работать не лишь с «человечьими» текстами, да и с программным кодом, они включили в обучающий корпус снапшоты github и StackOverflow.

Обученная модель осознает запросы («затравки») на российском языке, умеет генерировать осмысленные тексты и писать код на различных языках программирования. Она может придумывать сказки, писать научные анонсы о измышленных открытиях и исследовательских работах, отвечать на вопросцы ЕГЭ, может написать эссе по литературе, истории либо обществознанию либо код для интернет-магазина. И вся эта краса выложена в открытый доступ.

Пример текста, сгенерированного ruGPT-3.

И, в конце концов, самая приятная часть анонсы: в течение ближайших сорока дней в рамках AI Journey команда Sberbank.AI проводит конкурс «AI 4 Humanities: ruGPT-3». Его участникам предлагается представить макеты решений для хоть какой бизнес- либо социальной задачки, сделанных с помощью предобученной модели ruGPT-3. Участникам специальной номинации «AIJ Junior» предлагается на базе ruGPT-3 сделать решение по генерации осмысленного эссе по гуманитарным дисциплинам (российский язык, история, литература, обществознание) уровня 11 класса по данной теме. Предобученные модели ruGPT-3 доступны для скачки в репозитории конкурса. За 1-ое пространство в общем конкурсном зачёте учреждён приз — 1 миллион рублей. В номинации «AIJ Junior» тоже будут огромные валютные призы.

Подробнее о ruGPT-3 можно почитать на «Хабре», в статье конкретного участника её разработки и основоположника нашего веб-сайта Сергея Маркова: https://habr.com/ru/company/sberdevices/blog/524522/.

Для вас быть может любопытно:

Как датасаентисты Сбербанка строили коронавирусную эпидмодель для Рф

Источник: 22century.ru

Добавить комментарий