Языковые модели в ШАД 2026: сравнение результатов и анализ ошибок

Крупные языковые модели прошли тестирование на задачах письменного экзамена Школы анализа данных 2026 года. Исследование показало, что ведущие ИИ-решения уже способны конкурировать с абитуриентами, хотя российские разработки пока отстают от зарубежных аналогов.

Экзаменационные задачи ШАД 2026 года стали тестовым полигоном для восьми языковых моделей, включая ChatGPT, Gemini, Claude и российские YandexGPT с GigaChat. Исследователи оценивали способность ИИ решать математические и алгоритмические задачи в условиях, приближенных к реальному экзамену. По мягкой шкале оценки лучший результат показали Qwen3.7-Max и DeepSeek-V4-Pro, набравшие по 58 из 60 возможных баллов, тогда как по строгим правилам ШАД лидером стал только Qwen с теми же 58 баллами.

Тестирование выявило характерные слабые места разных моделей. Например, DeepSeek демонстрировал проблемы с арифметическими вычислениями на завершающих этапах решения, что при строгой оценке снизило его результат с 58 до 39 баллов. Российские модели YandexGPT и GigaChat показали прогресс по сравнению с 2025 годом, когда они не набрали ни одного балла, но всё ещё значительно отстают от международных конкурентов с результатами 28 и 13 баллов соответственно.

Самой сложной оказалась комбинаторная задача F, которую безупречно решил только DeepSeek. ChatGPT, Gemini и Qwen дали верный ответ, но не предоставили полного обоснования. Claude Opus 4.8 полностью провалил это задание, что указывает на трудности с комбинаторными задачами, требующими точного перебора. Интересно, что российская модель YandexGPT в этой задаче получила ноль баллов из-за неверной интерпретации условий.

Для российского технологического сектора эти результаты имеют стратегическое значение. Они демонстрируют, что отечественные разработки в области ИИ постепенно сокращают разрыв с мировыми лидерами, но требуют дополнительных инвестиций в фундаментальные исследования. Особенно важны успехи YandexGPT, который за год улучшил результат с нуля до 28 баллов — это показывает потенциал российских команд при должной поддержке. Однако текущий разрыв в 30+ баллов между российскими и зарубежными моделями указывает на необходимость ускоренного развития этого направления.

Контекстуальный анализ показывает, что за год произошли значительные изменения в рейтинге моделей. DeepSeek, который в 2025 году отставал от ChatGPT и Gemini, теперь сравнялся с ними по качеству решений. Российские разработки демонстрируют прогресс, но разрыв с международными лидерами остаётся существенным. При этом все иностранные модели по результатам теста могли бы пройти онлайн-отбор в ШАД, тогда как российские пока не дотягивают до проходного балла.

Перспективы развития языковых моделей в свете этих тестов выглядят неоднозначно. С одной стороны, лидеры уже достигли уровня, достаточного для прохождения вступительных испытаний в престижную ШАД. С другой — сохраняются проблемы с арифметической точностью и строгостью математических обоснований. Российским разработчикам предстоит серьёзная работа по сокращению отставания, особенно в свете возможного использования таких моделей в образовательном процессе. Результаты также ставят вопросы о будущем экзаменационных систем в эпоху ИИ и необходимости адаптации образовательных стандартов.

ИИ Вестник

Языковые модели сдали экзамен в ШАД 2026: сравнение результатов и анализ ошибок

Читайте также

Команда AIRI победила в хакатоне по созданию ИИ-ассистента для химиков: как мультиагентные системы меняют научные исследования

Автоматизация анализа поведения лабораторных мышей с помощью компьютерного зрения: прорыв в биомедицинских исследованиях

Эксперимент показал, что языковые модели мыслят абстрактными концептами до перехода к словам

Исследование Сбера: объясняющий ИИ меняет моральные решения людей эффективнее группового давления