Эволюция ML-платформ в крупных компаниях: от DevBox до централизованных решений на примере Авито
Авито поделился опытом построения ML-платформы на базе Kubeflow, пройдя путь от изолированных DevBox-решений через юнит-платформы к централизованной системе. Этот кейс отражает ключевые тренды в индустрии машинного обучения и представляет особый интерес для российского рынка.
Развитие ML-инфраструктуры в крупных компаниях следует предсказуемой траектории — от разрозненных решений к унифицированным платформам. В Авито этот процесс начался с DevBox-подхода, когда каждый дата-сайентист получал персональный сервер с GPU. Хотя такой метод обеспечивал максимальную гибкость для исследователей, он быстро показал свои ограничения: низкую утилизацию ресурсов (GPU могли простаивать до 80% времени), отсутствие стандартизации и сложности управления инфраструктурой при масштабировании команды. Это типичная проблема для компаний на ранних стадиях внедрения ML, когда приоритет отдаётся скорости экспериментов, а не эффективности инфраструктуры.
Следующей фазой стало создание юнит-платформ на базе open-source решений. Команда Авито выбрала Kubeflow из-за его модульной архитектуры и активного сообщества CNCF, что гарантировало долгосрочную поддержку. Параллельно другие подразделения использовали Airflow для ETL-задач, что привело к фрагментации экосистемы. По словам Антона Алексеева, MLOps-инженера Авито, разнородность решений создала новые проблемы: дублирование функционала, высокие затраты на поддержку и сложности онбординга новых сотрудников. Этот этап длился около двух лет, пока не стало очевидно, что дальнейший рост требует консолидации.
Технические особенности Kubeflow сделали его оптимальным выбором для централизованной платформы. Микросервисная архитектура (включающая компоненты для эксперимент-трекинга, хранения моделей и inference) позволяла гибко адаптировать систему под разные бизнес-задачи — от рекомендательных систем до компьютерного зрения. Ключевыми преимуществами стали интеграция с Kubernetes (уже используемым в Авито) и поддержка полного цикла ML-разработки — в отличие от Airflow, который лучше подходит для ETL и batch-обработки. По данным команды, переход на Kubeflow сократил time-to-market новых моделей на 30% за счёт стандартизации процессов.
Опыт Авито перекликается с глобальными трендами. Такие компании как Netflix (Metaflow), Uber (Michelangelo) и Google (Vertex AI) прошли аналогичный путь, но с разными архитектурными подходами. Если Uber делал ставку на on-premise решение, а Google — на SaaS, то Авито выбрало промежуточный вариант, адаптируя open-source инструменты под свои нужды. Это особенно актуально для российского рынка, где зависимость от западных облачных решений стала риском после 2022 года. Кейс Авито демонстрирует, как можно строить конкурентоспособную ML-инфраструктуру на базе open-source, не уступающую коммерческим аналогам.
Перспективы развития ML-платформ в Авито включают дальнейшую автоматизацию управления ресурсами и упрощение интерфейсов для data-сайентистов. Открытым остаётся вопрос баланса между стандартизацией (критичной для бизнеса) и гибкостью (необходимой для исследований). Как отмечает Антон Алексеев, следующий шаг — внедрение ИИ-агентов для управления инфраструктурой, что может стать новым витком эволюции ML-платформ. Этот опыт будет полезен не только крупным компаниям, но и стартапам, которые только начинают масштабировать свои ML-процессы.