Разработчики обучили языковую модель на карачаево-балкарском языке с поддержкой диалектов
Группа исследователей представила языковую модель Qwen3-4B-Instruct-2507, адаптированную для работы с карачаево-балкарским языком. Проект включает уникальные решения для обработки диалектов и расширения языкового корпуса, что особенно важно для сохранения уязвимого языка. Модель уже доступна на платформе HuggingFace и была представлена на конференции TurkLang 2026.
Карачаево-балкарский язык, на котором говорят около 300 тысяч человек в России и 450 тысяч в мире, получил собственную большую языковую модель — важный шаг в цифровом сохранении языка, который ЮНЕСКО классифицирует как уязвимый. Разработчики использовали базовую архитектуру Qwen3-4B-Instruct-2507, адаптировав её для работы с этим тюркским языком половецко-кыпчакской группы. Особенностью проекта стало создание морфологического процессора для аугментации диалектов и обучение токенизатора с нуля, что позволило сохранить баланс между пониманием инструкций и работой с сырыми данными. Этот подход принципиально отличается от поверхностной поддержки карачаево-балкарского в коммерческих моделях вроде Claude и Gemini, где язык является второстепенным.
Для обучения модели был собран монокорпус из 18 источников общим объёмом 75 733 записей (662 млн символов) — беспрецедентный объём для этого языка. Основу составили тексты из газеты «Заман» (28,2%), антологии литературы карачаево-балкарских авторов (25,8%) и сборника поэзии (10,7%). Данные прошли многоэтапную обработку, включая очистку от управляющих символов, иерархическую нарезку на фрагменты и дедупликацию. Важно отметить, что 45,4% корпуса составляют периодические издания — необычно высокий показатель для малых языков, что обеспечивает модели актуальный языковой контекст.
Одной из ключевых инноваций стала работа с пятью основными диалектами карачаево-балкарского языка, которые различаются на фонемном и лексическом уровнях. Разработчики создали rule-based морфологический процессор, работающий в три этапа: нормализация, сопоставление по словарю (10 700 записей) и морфонологическое преобразование. Процессор учитывает особенности агглютинативной морфологии, включая сингармонизм гласных и ассимиляцию согласных, что позволило аугментировать корпус на 24 997 записей с учётом разных диалектных вариантов. Это решение оказалось эффективнее нейросетевых подходов благодаря детерминированности языковых правил.
Проект развивает предыдущие работы команды, включая создание электронного параллельного корпуса карачаево-балкарского и русского языков (289 тыс. предложений) и системы нейромашинного перевода на базе NLLB-200. В отличие от существующих решений, новая модель разрабатывалась с расчётом на то, чтобы карачаево-балкарский стал для неё основным языком. Это особенно важно в условиях, когда среди молодёжи наблюдается активный переход на русский язык — по данным исследований, до 60% молодых носителей в городах предпочитают русский в повседневном общении.
Разработка имеет стратегическое значение для российского рынка ИИ, демонстрируя возможность создания качественных языковых моделей для малых языков. В условиях, когда большинство коммерческих решений ориентированы на доминирующие языки, этот проект показывает альтернативный путь — развитие технологий с фокусом на языковое разнообразие. Для России, где насчитывается более 150 языков, такой подход может стать основой для цифрового сохранения культурного наследия. Модель TSjB/QM-4B, доступная на HuggingFace, уже используется в экспериментальных чат-ботах и может стать основой для образовательных платформ.
В перспективе команда планирует интеграцию с голосовыми интерфейсами и дальнейшее расширение корпуса, включая современные медиатексты. Успех проекта открывает путь для аналогичных инициатив по другим языкам Северного Кавказа, где цифровые технологии могут стать инструментом языкового сохранения. Особую актуальность это приобретает в свете государственной программы поддержки языкового разнообразия, где технологии ИИ рассматриваются как один из ключевых инструментов. Разработанные методики обработки диалектов и создания специализированных корпусов могут быть применены к другим малым языкам России, создавая основу для цифрового возрождения языкового наследия страны.