Сбер представил KVAE-Audio — токенизатор для генерации звука с улучшенными характеристиками
Сбер опубликовал KVAE-Audio, новый токенизатор для обработки звуковых данных на основе вариационного автоэнкодера. Модель демонстрирует лучшее качество генерации звука по текстовому описанию в сравнении с аналогами при меньшем количестве параметров. Код и веса модели доступны под открытой лицензией MIT.
Сбер продолжает активно развивать линейку токенизаторов для различных модальностей, представив KVAE-Audio — инновационное решение для работы со звуком. Эта модель знаменует важный шаг в эволюции генеративных технологий, особенно в контексте российского рынка искусственного интеллекта. KVAE-Audio основан на архитектуре вариационного автоэнкодера (VAE) и поддерживает обработку полнодиапазонного аудио с частотой дискретизации 48 кГц, что обеспечивает высокое качество звучания. Разработчики утверждают, что их решение не только превосходит аналоги по качеству генерации в задачах text-to-audio, но и сохраняет конкурентоспособные показатели реконструкции звука, что делает его особенно ценным для профессионального применения.
KVAE-Audio разрабатывался с прицелом на интеграцию с диффузионными моделями для совместного генерирования видео и звука по текстовому описанию. В качестве базовых моделей для сравнения были выбраны VAE из MMAudio и автоэнкодер от Meta, используемый в MovieGen Audio. Архитектурные решения включают несколько ключевых инноваций: отказ от мель-спектрограмм в пользу прямой работы с волновой формой, что значительно улучшает восстановление фазовой информации, и применение Snake-активации для снижения тональных артефактов. Эти технические решения позволяют модели достигать выдающихся результатов при меньшем количестве параметров по сравнению с конкурентами.
Технические особенности KVAE-Audio включают существенные изменения по сравнению с исходным DAC-кодеком. Разработчики заменили модуль остаточной векторной квантизации на VAE-боттлнек с репараметризацией, что позволило получить непрерывное латентное пространство — ключевое преимущество для последующей работы с диффузионными моделями. Другие значимые улучшения включают увеличение глубины сети, изменение временного сжатия до 960-кратного значения и уменьшение количества латентных каналов с 1024 до 64 при сохранении качества реконструкции. Эти изменения делают модель более эффективной и удобной для практического применения.
Для всесторонней оценки качества работы модели использовался комплекс различных метрик, включая спектральные расстояния, сигнальные показатели и перцептивные оценки качества речи. Тестирование проводилось на нескольких открытых датасетах, охватывающих основные сценарии использования: речь, музыку и общие звуки. В сравнении с моделями, работающими на частоте 44,1 кГц, KVAE-Audio демонстрирует сопоставимые или лучшие результаты по большинству метрик, что подтверждает его конкурентные преимущества. Особенно впечатляющими оказались результаты в задачах генерации звука по текстовому описанию, где модель показала превосходство над аналогами.
Появление KVAE-Audio имеет особое значение для российского рынка генеративного ИИ. Открытая лицензия MIT и доступность весов модели создают благоприятные условия для её быстрого внедрения в различные проекты. В перспективе разработка может быть использована для создания более совершенных систем совместной генерации аудио и видео, хотя вопросы оптимальной интеграции с существующими диффузионными моделями требуют дополнительного изучения. Успех KVAE-Audio может стимулировать дальнейшее развитие открытых решений в области генеративного ИИ в России, способствуя росту конкуренции на этом перспективном рынке.
С технической точки зрения, KVAE-Audio представляет собой значительный шаг вперед в области обработки звука. Использование Snake-активации и работа непосредственно с волновой формой вместо мель-спектрограмм позволяют достичь нового уровня качества звучания. Особого внимания заслуживает решение разработчиков увеличить глубину сети и изменить временное сжатие, что вместе с другими архитектурными изменениями привело к созданию более эффективной и производительной модели. Эти инновации могут стать ориентиром для будущих разработок в области генеративного звука.
Выход KVAE-Audio под открытой лицензией создает новые возможности для исследователей и разработчиков в области генеративного ИИ. Модель уже сейчас может быть использована в различных проектах, от создания звукового сопровождения для видео до разработки интерактивных медиаприложений. Однако остается открытым вопрос о том, как быстро сообщество сможет адаптировать эту технологию для массового использования и какие новые применения будут найдены для этого мощного инструмента. Учитывая скорость развития генеративных технологий, можно ожидать, что KVAE-Audio станет важным элементом экосистемы генеративного ИИ в ближайшие годы.