Оптимизация диффузионного декодера в TTS Яндекса

Команда TTS Яндекса представила результаты оптимизации диффузионного декодера в системе синтеза речи. Решение позволило значительно ускорить обработку аудио в сервисе перевода видео, где каждая миллисекунда имеет значение из-за масштабов обработки.

Команда TTS Яндекса завершила масштабный проект по оптимизации диффузионного декодера — ключевого компонента системы синтеза речи, который стал узким местом после предыдущих улучшений языковой модели. Работа проводилась в рамках проектного курса студента МФТИ под руководством ML-инженера Яндекса Цырен-Доржо Цыбикова и была сосредоточена на сервисе перевода видео в Яндекс Браузере, где синтез сотен фраз для одного ролика требовал значительных вычислительных ресурсов. Изначально система работала на базе модифицированной архитектуры Tortoise, где декодер латентов стал основным потребителем времени из-за необходимости выполнения десятков forward pass на каждом шаге семплинга.

Технический анализ выявил две ключевые проблемы производительности: неоптимальную реализацию механизма внимания (QKVAttentionLegacy) с полной материализацией матрицы внимания и постоянный пересчёт RelativePositionBias. Профилирование показало, что до 80% времени обработки уходило именно на эти операции. Для сравнения, в современных реализациях трансформеров, таких как FlashAttention, используются более эффективные подходы к вычислению внимания без материализации промежуточных матриц, что значительно снижает нагрузку на память и ускоряет вычисления.

Решение команды включало четырёхэтапный план оптимизации. Первым и наиболее важным шагом стала замена рукописной реализации attention на torch.nn.functional.scaled_dot_product_attention (SDPA), что позволило задействовать высокооптимизированные backend-решения PyTorch. Дополнительно был реализован кэш для позиционного bias, который оставался неизменным на всех шагах обработки. Эти изменения потребовали минимальных доработок кода и не нуждались в переобучении модели, что значительно упростило их внедрение в продакшн.

Контекст проекта связан с эволюцией TTS-систем Яндекса — годом ранее команда уже модернизировала синтез речи, перейдя на zero-shot подход на базе Tortoise. Текущая работа представляет следующий логический шаг — углублённую оптимизацию отдельных компонентов системы. В отличие от предыдущих изменений, которые требовали полного переобучения модели, текущие оптимизации сосредоточены на инженерных улучшениях существующего кода, что делает их более безопасными для развёртывания.

Для российского рынка технологий синтеза речи эта работа имеет особое значение, демонстрируя возможность значительного ускорения существующих решений без кардинальной смены архитектуры. Полученные результаты открывают путь для дальнейших улучшений, включая переход на FlashAttention и исследование альтернативных архитектур декодера. Команда продолжает работу над ускорением TTS-пайплайна, планируя реализовать оставшиеся этапы оптимизации в ближайшие месяцы, что может привести к новому витку развития технологий синтеза речи на российском рынке.

В условиях активного развития голосовых технологий в России, где Яндекс является одним из ключевых игроков, подобные оптимизации приобретают стратегическое значение. Российский рынок цифровых ассистентов и сервисов перевода демонстрирует устойчивый рост, и повышение эффективности TTS-систем напрямую влияет на качество пользовательского опыта. Ускорение синтеза речи особенно критично для сервисов реального времени, таких как голосовые помощники и системы синхронного перевода, где задержки становятся заметными для конечного пользователя.

Сравнивая текущие результаты с международными аналогами, можно отметить, что подход Яндекса сочетает в себе как проверенные мировые практики (использование SDPA), так и уникальные решения, адаптированные под специфику русскоязычного синтеза. Это подчёркивает важность развития собственных технологий в условиях глобальной конкуренции на рынке речевых технологий, где качество и скорость синтеза становятся ключевыми факторами успеха.

ИИ Вестник

Оптимизация диффузионного декодера в TTS-пайплайне Яндекса: как ускорили синтез речи

Читайте также

LPP-Laser: как превратить любой лазерный гравер в прецизионный фотоплоттер с помощью математики

Альфа-банк тестирует графовые нейросети для прогнозирования дефолтов клиентов

Microsoft снижает цену новых Surface до $849 благодаря увеличению памяти до 8 ГБ

Автономный грузовик «Яндекса» преодолел 700 км в тестовом режиме: новый этап развития беспилотных технологий в России