Разработчик представил русскоязычный RAG-сплиттер с уникальным подходом к нарезке документов
Российский разработчик создал специализированный инструмент для нарезки документов под задачи RAG-систем, предлагающий принципиально новый подход к обработке русскоязычного контента с сохранением байтовой целостности исходных данных.
Российский разработчик представил инновационный инструмент для обработки русскоязычных документов в RAG-системах, который решает ключевые проблемы существующих решений. Проект основан на адаптации датского context-aware-splitter с существенными модификациями: переработкой под русский язык на базе модели T-lite-it-2.1 и принципиально новым подходом к возврату данных. В отличие от западных аналогов, которые преимущественно ориентированы на английский язык, это решение специально оптимизировано под особенности кириллического текста и специфику русской морфологии. Вместо перезаписи текста, как это делают большинство аналогов, модель возвращает индексы границ фрагментов, что обеспечивает точное сохранение оригинального содержимого документов и решает проблему байтового рассинхрона при цитировании в RAG-приложениях.
Техническая реализация проекта потребовала значительных вычислительных ресурсов и глубокой адаптации под русскоязычный контент. Обучение модели проводилось с использованием bf16-LoRA через фреймворк Unsloth на оборудовании RTX 5090 Blackwell и заняло около 3.5 часов при пиковом потреблении 25.4 ГБ видеопамяти. Для разметки данных применялся self-hosted DeepSeek-V4-Flash, что обеспечило высокое качество подготовки обучающей выборки. В рабочем режиме модель использует оптимизированный формат GGUF Q5_K_M размером 5.9 ГБ и демонстрирует впечатляющую скорость обработки — около 1.2 секунды на документ из 9 юнитов при генерации 40 токенов в секунду. Эти параметры делают решение практичным для промышленного использования в российских компаниях, работающих с большими объемами текстовых данных.
Проблема обработки русскоязычных документов в RAG-системах имеет несколько критических аспектов, которые новое решение успешно преодолевает. Токенизация русского текста в большинстве моделей значительно менее эффективна, чем английского — тесты показывают, что один абзац из 42 слов в Llama-2 занимает в 3.17 раза больше токенов, чем в T-lite. Кроме того, традиционные семантические сплиттеры демонстрируют плохую работу с таблицами, неспособные корректно определить границы между строками. Разработанное решение решает обе проблемы благодаря атомарной обработке таблиц как единых блоков и использованию оптимизированного токенайзера, специально адаптированного под особенности русского языка. Это особенно важно для российского рынка, где техническая документация часто содержит сложные табличные структуры.
Сравнение с существующими аналогами, такими как датский context-aware-splitter-1b, показывает существенные преимущества нового подхода. Готовые решения часто используют неоптимальные для русского языка токенайзеры и практикуют перезапись текста, что нарушает байтовую целостность документа и создаёт проблемы для цитирования в RAG-системах. Разработанный сплиттер избегает этих проблем благодаря возвращению только индексов границ фрагментов в формате JSON, что делает обработку в 10 раз экономичнее по вычислительным ресурсам и сохраняет точное соответствие исходному документу. Такой подход особенно важен для юридических и финансовых документов, где точность цитирования критически важна.
Для российского рынка ИИ-разработки это решение представляет особую ценность, так как предлагает первый оптимизированный инструмент для работы с русскоязычным контентом в RAG-системах. Проблема эффективной обработки технической документации, прайсов и таблиц на русском языке долгое время оставалась нерешённой, что ограничивало возможности локальных разработчиков. Новый сплиттер может быть легко интегрирован в существующие self-hosted стеки, включая популярные решения типа Dify, milvus/qdrant и локальные LLM, что делает его практичным выбором для российских компаний, работающих с текстовыми данными. В условиях санкционных ограничений и необходимости импортозамещения подобные разработки приобретают стратегическое значение для цифровой экономики России.
Перспективы развития проекта включают дальнейшую оптимизацию модели и расширение её возможностей по обработке различных типов документов. Ключевые вопросы, требующие дополнительного исследования, касаются эффективности сплиттера в downstream-задачах RAG, таких как hit-rate и faithfulness. Разработчик отмечает, что текущие метрики (boundary-F1 @±1 = 0.821) отражают только согласие с разметкой учителя, но не конечное качество работы RAG-системы. Эти аспекты станут предметом будущих исследований и доработок проекта. Особый интерес представляет адаптация решения для обработки специфических российских документов — нормативных актов, бухгалтерской отчетности и технических спецификаций.
Разработанный инструмент открывает новые возможности для работы с русскоязычными документами в RAG-системах, предлагая более точный и эффективный подход к их обработке. Его дальнейшее развитие может существенно повысить качество русскоязычных ИИ-решений, работающих с большими объёмами текстовой информации, и укрепить позиции российских разработчиков на рынке AI-решений для обработки естественного языка. В условиях глобальной конкуренции в области искусственного интеллекта такие специализированные решения для русского языка помогают сократить технологическое отставание и создать конкурентные преимущества для отечественных компаний.