Читать первым в Telegram-канале «Код Дурова»
Сбер намерен расширить возможности GigaChat, интегрировав туда нейросети CLaMP и SymFormer, рассказал в рамках международной конференции по искусственному интеллекту AI Journey 2023 вице-президент по цифровым поверхностям «Салют» Сбербанка Денис Филиппов.
Это позволит GigaChat генерировать музыкальные треки по произвольным текстовым запросам пользователей. Последнему будет достаточно сформулировать задачу, например, «сочини весёлую музыку в стиле кантри» или «напиши трек для лаундж-зоны бизнес-центра».
В ответ GigaChat пришлёт аудиофайл с уникальной музыкальной композицией и нотную партитуру в формате MIDI, которую можно будет использовать в собственных творческих проектах или в музыкальном продакшене.
Новые возможности GigaChat будут полезны не только музыкальным энтузиастам и представителям творческих профессий. Одним из сегментов целевой аудитории сервиса мы видим представителей среднего и малого предпринимательства. Благодаря GigaChat они смогут быстро, качественно и, что важно, абсолютно легально решать задачи бизнеса: создавать фоновое музыкальное сопровождение для кафе, салонов красоты и залов ожидания, генерировать треки для рекламных видеороликов и соцсетей, — отметил Филиппов.
В Сбере сообщили, что для обучения SymFormer использовались платформа ML Space на базе суперкомпьютера Christofari и датасет из более 200 тысяч композиций разных стилей: от классики до современной электронной музыки и рока.
При этом создание музыки таким образом происходит в несколько этапов. Сначала модель CLaMP обрабатывает запрос пользователя и конвертирует его в понятный для генератора мелодий язык. Затем в SymFormer генерируется несколько вариантов мультидорожечного трека, из которых нейросеть выбирает наиболее удачные варианты по стилю и композиции. На последнем этапе формируется аудиофайл и передаётся пользователю.
Заглавное изображение сгенерировано нейросетью Kandinsky 3.0 по запросу «музыка, созданная нейросетью».