GFusion: диффузионная адаптация GigaChat для ускоренной генерации текста
Команда GigaChat Pretrain представила результаты эксперимента по адаптации авторегрессионной языковой модели в диффузионный режим. Новый подход GFusion демонстрирует ускорение генерации на 70% при минимальной потере качества. Разработчики открыли код решения и оптимизировали процесс обучения для диффузионных LLM.
В рамках исследовательского проекта команда GigaChat Pretrain адаптировала авторегрессионную модель GigaChat3-10B-A1.8B-base в диффузионный режим работы, создав экспериментальные версии GFusion-10B-A1.8B-base и GFusion-10B-A1.8B. Основной задачей было преодоление фундаментального ограничения авторегрессионных моделей — последовательной генерации по одному токену. Диффузионный подход позволяет обрабатывать блоки текста параллельно, что потенциально увеличивает скорость генерации. Этот метод особенно актуален для крупных языковых моделей, где традиционные подходы сталкиваются с проблемами масштабируемости и эффективности.
Ключевым достижением проекта стало ускорение генерации на 70% по сравнению с базовой версией GigaChat3 в режиме одного пользователя. При этом качество генерации снизилось всего на 2-4 процентных пункта, что разработчики называют контролируемым трейд-оффом. Технически это реализовано через обработку частично замаскированных блоков фиксированного размера (16-64 токена) с итеративным восстановлением текста. Модель демонстрирует показатель TPF (Tokens-Per-Forward) больше 1, что означает генерацию нескольких токенов за один проход. Для сравнения, традиционные авторегрессионные модели имеют TPF равный 1, что ограничивает их производительность.
Техническая реализация GFusion включает несколько инновационных решений. Для обучения использовалось шумовое распределение в диапазоне 0,25-0,85, что обеспечивает оптимальный баланс между сложностью задачи и обучаемостью модели. Attention-маска была специально адаптирована для работы с блоками, сохраняя авторегрессионную зависимость между ними. Разработчики также оптимизировали процесс обучения, добившись 60% увеличения скорости по сравнению с Flex-Attention, и интегрировали поддержку SGLang с новым алгоритмом семплирования. Эти улучшения делают GFusion одной из самых эффективных диффузионных моделей на рынке.
Контекст разработки GFusion отражает текущие тренды в области языковых моделей, где диффузионные подходы рассматриваются как перспективная альтернатива традиционным авторегрессионным методам. В отличие от спекулятивного декодинга, который лишь частично решает проблему последовательной генерации, диффузионные модели предлагают фундаментально иной механизм работы с текстом. При этом GigaChat остается одной из немногих российских разработок, экспериментирующих с подобными архитектурами в промышленном масштабе. Это особенно важно в условиях глобальной конкуренции, где зарубежные аналоги, такие как OpenAI и Google, также активно исследуют диффузионные подходы.
Для российского рынка ИИ появление GFusion представляет значительный интерес, особенно в контексте ограниченного доступа к зарубежным технологиям. Открытый код решения и оптимизированный процесс обучения могут ускорить развитие отечественных диффузионных моделей. Однако остается открытым вопрос масштабируемости подхода — насколько эффективно он будет работать при дальнейшем увеличении размера модели и сложности задач. Разработчикам также предстоит исследовать применимость GFusion в конкретных сценариях, таких как диалоговые системы или генерация длинных текстов. Эти вопросы будут ключевыми для дальнейшего развития проекта и его коммерческого внедрения.