Sber AI Lab разработала метод преобразования транзакций в базу знаний для языковых моделей
Команда Sber AI Lab предложила инновационный метод FinTRACE, который преодолевает ключевые ограничения больших языковых моделей при анализе банковских транзакций, преобразуя их в структурированную базу знаний. Разработка принята на престижной конференции SIGIR 2026 и может изменить подход к обработке финансовых данных.
Исследователи Sber AI Lab под руководством Дмитрия Валова создали метод FinTRACE, который решает фундаментальную проблему применения больших языковых моделей (LLM) для анализа банковских транзакций. Традиционные LLM демонстрируют низкую эффективность при работе с сырыми транзакционными данными, уступая специализированным моделям почти в два раза по ключевой метрике MCC (коэффициент корреляции Мэтьюса). Это связано с неспособностью языковых моделей выявлять скрытые закономерности в числовых последовательностях платежей, что ограничивает их применение в финансовой аналитике. Проблема усугубляется тем, что банковские транзакции содержат коды категорий и идентификаторы мерчантов, которые уникальны для каждого банка и не несут универсального смысла, что делает прямое применение LLM особенно сложным.
FinTRACE предлагает принципиально новый подход, основанный на трёхуровневой структуре базы знаний. Первый уровень содержит числовые характеристики транзакций, такие как средний интервал между операциями или дисперсия сумм трат. Второй уровень преобразует эти показатели в интерпретируемые поведенческие паттерны, например финансовую стабильность или лояльность клиента. Третий уровень формируется только при наличии размеченных данных и отвечает за конкретные прикладные задачи, такие как прогнозирование оттока клиентов или оценка кредитного риска. Такой подход позволяет преодолеть ключевое ограничение LLM — неспособность работать с числовыми закономерностями в сырых данных, предоставляя модели уже структурированную и интерпретируемую информацию.
Ключевое отличие FinTRACE от традиционных методов prompt-инжиниринга — использование white-box правил для связывания уровней базы знаний. Авторы применяют интерпретируемую модель AutoWoE из фреймворка LightAutoML, которая строит явные зависимости между показателями и целевыми переменными. Это позволяет языковой модели работать не с сырыми данными, а с уже структурированными поведенческими паттернами, что значительно повышает качество анализа. В экспериментах метод показал возможность преодоления разрыва между специализированными моделями (0.48 MCC) и LLM (0.30 MCC), не требуя при этом масштабной разметки данных. Важно отметить, что FinTRACE не заменяет полностью специализированные модели, а создаёт мост между их точностью и гибкостью языковых моделей.
Разработка появилась в ответ на растущую потребность банков в универсальных инструментах анализа клиентских данных. В настоящее время для каждой задачи (отток, кредитный риск, кросс-продажи) создаются отдельные модели с собственными пайплайнами фичей, что приводит к фрагментации данных и высоким затратам на поддержку. FinTRACE предлагает альтернативу — единый интерфейс к данным, не требующий переобучения при изменении входных параметров. Это особенно актуально для российского рынка, где проблема фрагментации клиентских данных в банковских системах стоит особенно остро из-за исторически сложившейся архитектуры IT-систем и регуляторных требований.
Для российского банковского сектора разработка Sber AI Lab представляет особую ценность, так как позволяет консолидировать разрозненную информацию о клиентах без перестройки существующих аналитических систем. В условиях санкционного давления и необходимости импортозамещения, технология FinTRACE может стать ключевым элементом цифровой трансформации российских банков. Технология уже демонстрирует стабильные результаты на данных Сбера, а в перспективе может быть расширена на другие области, требующие анализа временных рядов пользовательского поведения, такие как телекоммуникации или ритейл. Это открывает новые возможности для создания универсальных аналитических платформ на основе языковых моделей, что особенно важно в условиях ограниченного доступа к зарубежным ИИ-решениям.
Однако остаётся открытым вопрос масштабируемости решения для работы с транзакционными данными разных банков, где коды категорий и идентификаторы мерчантов существенно различаются. Авторы отмечают, что текущая версия FinTRACE требует дополнительных исследований для универсального применения. Дальнейшая работа будет сосредоточена на автоматизации процесса формирования поведенческих паттернов и интеграции метода в промышленные системы. Успешное решение этих задач может привести к созданию нового стандарта в анализе финансовых данных с помощью ИИ, что будет особенно значимо для российского рынка, где потребность в локальных инновационных решениях продолжает расти.