Machine Learning Operations

MLOps,
그림으로
이해하기

MLOps는 한 줄로 말하면 — "머신러닝 모델을 만들고, 쓰고, 관리하는 모든 작업을 자동화·체계화하는 기술"입니다. DevOps가 소프트웨어 개발에서 했던 일을, 머신러닝 세계에서 하는 것이라 생각하면 됩니다.

§ 01

왜 필요할까?

일반 소프트웨어와 머신러닝은 근본적으로 다릅니다. 일반 프로그램은 "코드"로 동작하지만, ML은 "코드 + 데이터 + 모델" 세 가지가 함께 움직입니다.

Traditional Software

일반 소프트웨어

코드만 관리하면 됩니다. 버전 관리(Git), 테스트, CI/CD가 확립되어 있죠.

Machine Learning

머신러닝 시스템

세 가지 모두 관리해야 하고, 데이터가 바뀌면 모델이 달라지는 살아 있는 시스템입니다.

Pain Points

ML 프로젝트가 어려운 3가지 이유

이 세 가지를 해결하기 위해 등장한 방법론이 바로 MLOps입니다.

§ 02

MLOps의 생애주기

ML 모델은 한 번 만들고 끝이 아닙니다. 데이터 수집부터 운영·재학습까지 계속 돌아가는 순환입니다. 한 바퀴가 아니라 무한히 반복되는 사이클이에요.

Lifecycle

모니터링에서 문제가 발견되면 → 새 데이터로 다시 학습하고 → 다시 배포합니다. 끝없이.

§ 03

세 개의 파이프라인

MLOps 시스템은 크게 세 갈래의 자동화된 흐름(파이프라인)으로 나뉩니다. 각 파이프라인은 입력을 받아서 가공해서 다음 단계로 넘기는 컨베이어 벨트라고 생각하면 됩니다.

Three Pipelines

① 데이터를 준비하고 → ② 그 데이터로 모델을 학습하고 → ③ 학습된 모델을 서비스로 제공하고 → 다시 ①로

데이터 파이프라인

DATA PIPELINE

여기저기 흩어진 원본 데이터를 수집하고, 깨끗하게 정제하고, 모델이 이해할 수 있는 피처(feature)로 변환해 저장합니다.

학습 파이프라인

TRAINING PIPELINE

준비된 피처로 모델을 학습시키고, 성능을 평가하고, 통과한 모델을 레지스트리에 버전과 함께 등록합니다.

서빙 파이프라인

SERVING PIPELINE

레지스트리에서 모델을 꺼내 API 서버·스트림·배치 작업 형태로 실제 서비스에 연결합니다. 사용자는 이 지점을 만납니다.

§ 04

모델은 늙어간다

MLOps에서 가장 특이한 개념입니다. 모델은 배포되는 순간부터 서서히 쓸모없어지기 시작합니다. 왜냐면 세상이 계속 변하거든요.

Model Drift

✓ 출발은 잘했는데, 시간이 지나며 예측이 빗나가기 시작합니다 → 기준선 이하로 떨어지면 재학습을 트리거합니다.

이걸 데이터 드리프트 / 컨셉 드리프트라고 부릅니다. 예를 들어 COVID-19 전에 학습한 수요 예측 모델은 팬데믹 이후 완전히 엉뚱한 예측을 내놓기 시작했죠. MLOps의 모니터링 시스템은 바로 이 "늙어감"을 감지해서 재학습을 자동으로 트리거합니다.

§ 05

성숙도 3단계

모든 조직이 처음부터 완벽한 MLOps를 하진 않습니다. Google이 정리한 MLOps 성숙도 3단계는 자기 팀이 어디쯤에 있는지 가늠하는 좋은 지표입니다.

Maturity Levels

수동 프로세스

manual · experimental

데이터 과학자가 Jupyter 노트북에서 실험하고, 모델을 손으로 저장하고, 엔지니어에게 전달해 수동으로 배포합니다. 대부분의 스타트업·학술 프로젝트가 여기서 시작합니다. 재현성·추적 없음.

ML 파이프라인 자동화

automated retraining · monitoring

데이터가 들어오면 자동으로 모델이 재학습되고, 성능이 기준선 이하로 떨어지면 자동으로 트리거됩니다. 모델은 레지스트리에 버전과 함께 저장됩니다. 다만 파이프라인 자체의 변경은 아직 수동.

CI/CD 완전 자동화

full CI/CD · production grade

코드를 Git에 푸시하면 파이프라인이 알아서 테스트·학습·검증·배포까지 진행합니다. DevOps 수준의 자동화가 ML에도 적용된 단계. Netflix·Uber 같은 회사들이 이 레벨.

§ 06

대표적인 도구들

MLOps 생태계는 넓습니다. 각 단계마다 대표 도구들이 존재합니다. 모든 걸 한 번에 배울 필요는 없고, 파이프라인의 어느 단계에서 어떤 역할을 하는지 분류해서 이해하세요.

Data

데이터 · 피처

DVC
Delta Lake
Feast
Great Expectations

Experiment

실험 추적

MLflow
Weights & Biases
Neptune
Comet

Orchestration

파이프라인 · 오케스트레이션

Kubeflow
Airflow
Prefect
Metaflow

Serving

모델 서빙

KServe
Seldon Core
BentoML
TorchServe

Monitoring

모니터링

Evidently
Arize
WhyLabs
Prometheus + Grafana

All-in-one

통합 플랫폼

AWS SageMaker
Vertex AI (GCP)
Azure ML
Databricks

한 줄 요약

MLOps는 "머신러닝 모델을 실험실 밖으로 꺼내서, 실제로 동작하게 만들고, 계속 살아있게 유지하는 기술"입니다.

DevOps가 "코드를 안정적으로 운영"하는 거라면, MLOps는 여기에 "데이터와 모델을 안정적으로 운영"하는 복잡성이 더해진 것입니다. 핵심은 자동화 · 재현성 · 모니터링 세 가지. 이 세 단어만 기억해도 MLOps의 절반은 이해한 셈입니다.

MLOps, 그림으로 이해하기