Российская модель OVSegDT для навигации роботов по текстовым запросам

Команда исследователей из AIRI и МФТИ представила OVSegDT — трансформерную модель для навигации роботов к объектам, заданным текстовым описанием. Решение работает без использования данных о глубине и одометрии, демонстрируя state-of-the-art результаты на бенчмарке HM3D-OVON. Модель с открытым исходным кодом доступна для тестирования в симуляторах и на реальных роботах.

Группа российских исследователей из лаборатории Cognitive AI Systems AIRI и МФТИ разработала инновационный метод навигации роботов к объектам, заданным произвольными текстовыми описаниями. Модель OVSegDT, описанная в свежей научной работе, представляет собой лёгкую трансформерную архитектуру всего на 130 миллионов параметров, способную интерпретировать текстовые запросы и находить соответствующие объекты в незнакомой среде. Особенностью решения является отказ от традиционных для робототехники сенсоров глубины и одометрии при сохранении высокой точности навигации. Это достижение особенно важно для российского рынка, где импортозамещение критических технологий становится приоритетом.

Ключевым достижением работы стали показатели эффективности на бенчмарке HM3D-OVON, где модель продемонстрировала 44.7% успешных завершений маршрута (Success Rate) и 20.6% по метрике SPL (учитывающей оптимальность пути) для ранее не встречавшихся категорий объектов. Технически OVSegDT интегрирует семантический энкодер бинарных масок объектов прямо в пространство наблюдений, что позволяет роботу коррелировать визуальную информацию с текстовыми описаниями. Архитектура устойчива к шумам в данных сегментации и включает механизм семантического вознаграждения за приближение к цели. Эти характеристики делают модель конкурентоспособной по сравнению с зарубежными аналогами, такими как CLIP-Fields или OVRL-V2, при значительно меньших вычислительных требованиях.

Метод основан на двух взаимодополняющих механизмах: архитектурном решении, кодирующем маску целевого объекта как часть входных данных, и обучающем сигнале, включающем задачу сегментации. Для эффективного обучения в реальном времени используется лёгкий декодер масок на основе DCGAN. Важной особенностью является способность модели работать с синонимичными описаниями объектов и переносить навыки на новые категории, что критически важно для практического применения в бытовой робототехнике, где набор возможных запросов практически неограничен. Российская разработка предлагает более элегантное и ресурсоэффективное решение по сравнению с западными аналогами, что особенно важно для развёртывания на автономных мобильных платформах с ограниченными вычислительными возможностями.

Разработка появилась на фоне активного развития направления open-vocabulary navigation, где традиционные методы ObjectNav с фиксированным набором целей уступают место более гибким решениям. Ранее аналогичные задачи решались с привлечением тяжёлых языковых моделей и сложных сенсорных систем. Российская разработка предлагает принципиально новый подход, который может стать стандартом для следующего поколения сервисных роботов. Особенно перспективным выглядит применение OVSegDT в логистике и складских системах, где важна гибкость в обработке запросов и адаптация к изменяющейся обстановке.

Для российского рынка робототехники эта разработка представляет значительный интерес, так как открывает возможности для создания более доступных и универсальных сервисных роботов. Открытая лицензия и опубликованные веса модели позволяют российским разработчикам интегрировать решение в свои продукты без необходимости лицензирования зарубежных технологий. Это особенно важно в условиях санкционного давления и необходимости развития собственных технологических решений в области искусственного интеллекта и робототехники.

Перспективы развития технологии связаны с адаптацией модели для работы в более сложных условиях и интеграцией с системами манипуляции объектами. Открытым остаётся вопрос масштабирования решения для работы с динамически изменяющимися сценами и движущимися целями. Дальнейшие исследования команды планируется направить на улучшение точности сегментации и расширение словарного запаса модели для поддержки более сложных запросов. Успех OVSegDT может стимулировать развитие целого направления исследований в области open-vocabulary навигации в России.

ИИ Вестник

Российские учёные разработали лёгкую трансформерную модель для навигации роботов по текстовым запросам

Читайте также

Языковые модели сдали экзамен в ШАД 2026: сравнение результатов и анализ ошибок

Команда AIRI победила в хакатоне по созданию ИИ-ассистента для химиков: как мультиагентные системы меняют научные исследования

Автоматизация анализа поведения лабораторных мышей с помощью компьютерного зрения: прорыв в биомедицинских исследованиях

Эксперимент показал, что языковые модели мыслят абстрактными концептами до перехода к словам