Яндекс Алиса научилась генерировать музыку по голосовой команде

Российский разработчик создал навык для Яндекс Алисы, позволяющий генерировать музыку по голосовому запросу. Система создаёт русскоязычные песни за минуту на основе заданной темы и стиля. Проект реализован за два вечера с использованием облачных технологий и AI-моделей.

Разработчик из Мельбурна создал уникальный навык для голосового помощника Яндекс Алиса, позволяющий генерировать музыкальные композиции по запросу пользователя. Проект был задуман как способ поддержания интереса русскоязычной дочери разработчика к родному языку через интерактивные технологии. Система принимает голосовые команды типа 'создай песню про море', обрабатывает запрос в течение минуты и воспроизводит готовую композицию прямо на устройстве. Это решение выделяется на фоне стандартных навыков Яндекс Алисы, которые преимущественно ограничиваются математическими задачками и простыми играми.

Техническая реализация навыка потребовала решения нескольких сложных задач. Основной вызов заключался в обходе 4.5-секундного тайм-аута Яндекс Диалогов при том, что генерация музыки занимает от 30 секунд до 2 минут. Разработчик использовал инновационный асинхронный подход: навык сразу подтверждает принятие запроса, запускает фоновый процесс генерации через комбинацию AWS Lambda и webhook-уведомлений от платформы Replicate, что позволяет оптимизировать затраты. Для сравнения, международные аналоги вроде Amazon Alexa или Google Assistant не предоставляют такой глубокой интеграции с русскоязычным контентом.

Особое внимание было уделено пользовательскому опыту. Разработчик реализовал систему динамических ответов, учитывающих время ожидания, и добавил естественные паузы в речи Алисы с помощью тега sil в TTS. Для воспроизведения музыки потребовалось сложное интегрирование со Sound Storage Яндекс Диалогов, так как стандартный audio_player не поддерживает произвольные URL-адреса. Процесс включает загрузку MP3 через API Яндекс с последующей конвертацией в формат OPUS, что делает решение уникальным для российского рынка голосовых технологий.

После тестирования различных AI-моделей разработчик остановился на Google Lyria 3 Pro через Replicate как на оптимальном решении для генерации русскоязычного вокала. Эта модель показала лучшие результаты по сравнению с Minimax Music 2.5 в качестве произношения и интонирования. Интересно, что хотя Suno предлагает более качественные результаты для русского языка, отсутствие публичного API делает эту платформу недоступной для интеграции, что подчёркивает технологические ограничения текущего рынка AI-генерации музыки.

Проект демонстрирует значительный потенциал отечественных голосовых технологий в создании уникальных пользовательских впечатлений. В отличие от международных аналогов, Яндекс Алиса предоставляет более глубокую интеграцию с русскоязычным контентом и сервисами. Разработка открывает новые возможности для создания интерактивных развлекательных навыков, выходящих за рамки стандартных функций голосовых помощников, что особенно актуально для российского рынка, испытывающего дефицит качественного русскоязычного контента для умных колонок.

Перспективы технологии включают возможность подключения других AI-моделей по мере их появления на рынке. Однако остаются открытыми вопросы масштабирования решения при росте пользовательской базы и потенциальные ограничения со стороны правообладателей на использование сгенерированного музыкального контента. Разработчик отмечает, что текущая реализация служит proof-of-concept и может быть расширена при появлении более совершенных инструментов генерации музыки с поддержкой русского языка. Этот проект также поднимает важный вопрос о необходимости развития открытых API для музыкальных AI-моделей на российском рынке.

ИИ Вестник

Разработчик научил Яндекс Алису генерировать музыку по голосовой команде

Читайте также

Технология Advanced Shader Delivery ускоряет загрузку игр на Radeon RX 9070 XT на 95% и повышает минимальный FPS

Кооперативный космический боевик Starseeker: Astroneer Expeditions выйдет в раннем доступе Steam

Методы полного устранения спама в почтовых сервисах: технические решения и их ограничения

Глава DeepMind прогнозирует появление сильного ИИ к 2030 году: перспективы и вызовы