Российские разработчики больше не зависят от зарубежных платформ, когда нужно сгенерировать музыку, песню или звуковой эффект по текстовому описанию. Своё ПО для этих задач создали специалисты Новосибирского государственного технического университета. Об этом ТАСС рассказал руководитель проекта Егор Антонянц.
Главная особенность разработки — полная автономия. Система работает без подключения к облачным сервисам, её можно использовать даже в закрытом контуре. При этом нейросеть справляется на обычном потребительском оборудовании с видеопамятью меньше 6 ГБ.
Программа умеет создавать инструментальную музыку, песни с вокалом и звуковые эффекты. Всё — от текстового запроса до готового трека в формате WAV, MP3 или FLAC.
«Мы обучили базовую модель специализированными адаптерами под три типа контента, — пояснил Антонянц. — Это позволяет избежать смешения характеристик и точнее соответствовать запросу».
В отличие от зарубежных аналогов, которые заточены под английский язык, новосибирская разработка понимает русскоязычные запросы и выдаёт конкурентоспособный результат. Средняя оценка качества (MOS) — 4,1 из 5 баллов, что сопоставимо с лидерами рынка.
Как устроен процесс: языковая модель сначала формирует смысловой «каркас» композиции, затем диффузионный трансформер синтезирует звук, а встроенный модуль конвертирует его в нужный формат. Управлять проектами, сохранять настройки и экспортировать треки можно прямо в интерфейсе — без сторонних редакторов.
В планах разработчиков — добавить поддержку пространственного аудио для виртуальной реальности, интеграцию с MIDI-контроллерами и адаптировать ПО для игр, кино, подкастов и рекламы.
Ранее мы писали о том, что новосибирские учёные создали вирус, который убивает опухоли и щадит здоровые клетки
Вера Ветрова




