Автоматизация оценки RAG-систем с Claude Code: вызовы и решения

Разработчик провёл комплексный эксперимент по автоматизации оценки RAG-систем с использованием Claude Code, выявив как технические сложности интеграции, так и перспективные направления для российского рынка ИИ-решений.

Автор статьи предпринял масштабную попытку автоматизировать оценку качества RAG-систем (Retrieval-Augmented Generation) с помощью AI-ассистента Claude Code в рамках образовательного курса на Stepik. Этот эксперимент особенно актуален для российского ИИ-рынка, где доступ к полноценным API западных моделей ограничен, а потребность в качественных инструментах оценки растёт. Основной задачей было создание универсального инструмента для оценки без глубоких навыков программирования, однако полностью избежать кодирования не удалось из-за специфики работы с векторными базами данных и необходимостью интеграции внешних сервисов. Проект начался с анализа готового бенчмарка, содержащего кейсы вопросов, ответов и контекстов, но сразу же столкнулся с фундаментальными проблемами распознавания формата данных и высокой стоимости токенов при обработке русскоязычного контента.

Для российского ИТ-сообщества этот эксперимент имеет особое значение, так как демонстрирует возможность создания работоспособных решений в условиях санкционных ограничений. В отличие от западных коллег, имеющих доступ к полному спектру API (Anthropic, OpenAI), российские разработчики вынуждены искать обходные пути через прокси-сервисы и локальные адаптации. При этом русскоязычный контент создаёт дополнительные сложности — меньшая информационная плотность по сравнению с английским языком ведёт к перерасходу токенов, а отсутствие качественных предобученных моделей для обработки кириллицы требует дополнительных усилий по тонкой настройке систем.

Первоначальный подход с использованием регулярных выражений показал неудовлетворительные результаты — 100% качество, что явно не соответствовало действительности и свидетельствовало о необходимости более сложных методов оценки. Это привело к стратегическому решению задействовать внешнюю LLM-модель в качестве судьи, а именно gpt-4o-mini от прокси-провайдера, что стало компромиссным решением в условиях отсутствия доступа к официальному API Anthropic. Были выбраны три ключевые метрики из библиотеки RAGAS: точность контекста (Context Precision), релевантность контекста (Context Relevance) и полнота контекста (Context Recall), причём последняя не является стандартной метрикой RAGAS, что потребовало дополнительной адаптации методики оценки под конкретные задачи проекта.

Техническая реализация потребовала создания полноценной RAG-системы на стеке FastAPI, LangChain и ChromaDB с добавлением Model Context Protocol (MCP) для взаимодействия с Claude. Этот этап выявил серьёзные проблемы совместимости: система упорно не обнаруживала MCP-сервер, несмотря на корректную конфигурацию. Проблема была решена только после нескольких итераций и использования специализированного MCP inspector, который помог выявить необходимость настройки CORSMiddleware и замены устаревших методов подключения. Этот опыт особенно важен для российских разработчиков, так как демонстрирует необходимость глубокой адаптации западных решений под локальные условия и ограничения.

На этапе работы с субагентами для оценки метрик проявилась критическая проблема с перерасходом токенов из-за избыточной вербализации процессов. Хотя Claude успешно справлялся с обработкой кейсов, объём контекстного окна быстро заполнялся (1-2k токенов на кейс при 48 тестовых случаях), что делало подход экономически невыгодным для промышленного применения. Попытка ограничить нарратив субагентов специальной инструкцией не дала значительного эффекта, что указывает на необходимость разработки принципиально новых методов оптимизации для русскоязычных контекстов, где информационная плотность часто ниже, чем в английских аналогах.

Несмотря на все трудности, проект позволил выработать стандартизированный формат отчёта по каждому кейсу и продемонстрировал принципиальную возможность автоматизации оценки RAG-систем в условиях ограниченных ресурсов. Опыт особенно ценен для российских команд, так как показал работоспособность обходных решений при отсутствии доступа к официальным API. Эксперимент оставил открытыми ключевые вопросы об оптимальных способах сокращения расхода токенов и повышения точности оценок, ответы на которые могут стать основой для новых локальных разработок в области оценки качества ИИ-систем.

Полученные результаты имеют стратегическое значение для российского рынка ИИ-решений, где наблюдается острая нехватка инструментов объективной оценки качества систем генерации текста. В условиях импортозамещения и ограниченного доступа к зарубежным технологиям, подобные эксперименты позволяют наметить пути развития отечественных аналогов. Особенно перспективным направлением выглядит разработка специализированных метрик для русского языка и оптимизация процессов обработки кириллического контента, что может дать российским разработчикам конкурентное преимущество на внутреннем рынке.

ИИ Вестник

Эксперимент по автоматизации оценки качества RAG-систем с помощью Claude Code: вызовы и перспективы

Читайте также

Epic Games анонсировала интеграцию ИИ в Unreal Engine 6 для автоматизации рутинных задач разработчиков

Механика цитирования в ChatGPT: как попасть в ответы ИИ-ассистента

Проблемы адаптации опытных разработчиков в новых командах: почему знания не всегда переносимы

Моддер представил бесшовный кооператив для Dark Souls 2 — сообщество в восторге