MLOps는 한 줄로 말하면 — "머신러닝 모델을 만들고, 쓰고, 관리하는 모든 작업을 자동화·체계화하는 기술"입니다. DevOps가 소프트웨어 개발에서 했던 일을, 머신러닝 세계에서 하는 것이라 생각하면 됩니다.
일반 소프트웨어와 머신러닝은 근본적으로 다릅니다. 일반 프로그램은 "코드"로 동작하지만, ML은 "코드 + 데이터 + 모델" 세 가지가 함께 움직입니다.
코드만 관리하면 됩니다. 버전 관리(Git), 테스트, CI/CD가 확립되어 있죠.
세 가지 모두 관리해야 하고, 데이터가 바뀌면 모델이 달라지는 살아 있는 시스템입니다.
ML 모델은 한 번 만들고 끝이 아닙니다. 데이터 수집부터 운영·재학습까지 계속 돌아가는 순환입니다. 한 바퀴가 아니라 무한히 반복되는 사이클이에요.
MLOps 시스템은 크게 세 갈래의 자동화된 흐름(파이프라인)으로 나뉩니다. 각 파이프라인은 입력을 받아서 가공해서 다음 단계로 넘기는 컨베이어 벨트라고 생각하면 됩니다.
여기저기 흩어진 원본 데이터를 수집하고, 깨끗하게 정제하고, 모델이 이해할 수 있는 피처(feature)로 변환해 저장합니다.
준비된 피처로 모델을 학습시키고, 성능을 평가하고, 통과한 모델을 레지스트리에 버전과 함께 등록합니다.
레지스트리에서 모델을 꺼내 API 서버·스트림·배치 작업 형태로 실제 서비스에 연결합니다. 사용자는 이 지점을 만납니다.
MLOps에서 가장 특이한 개념입니다. 모델은 배포되는 순간부터 서서히 쓸모없어지기 시작합니다. 왜냐면 세상이 계속 변하거든요.
이걸 데이터 드리프트 / 컨셉 드리프트라고 부릅니다. 예를 들어 COVID-19 전에 학습한 수요 예측 모델은 팬데믹 이후 완전히 엉뚱한 예측을 내놓기 시작했죠. MLOps의 모니터링 시스템은 바로 이 "늙어감"을 감지해서 재학습을 자동으로 트리거합니다.
모든 조직이 처음부터 완벽한 MLOps를 하진 않습니다. Google이 정리한 MLOps 성숙도 3단계는 자기 팀이 어디쯤에 있는지 가늠하는 좋은 지표입니다.
데이터 과학자가 Jupyter 노트북에서 실험하고, 모델을 손으로 저장하고, 엔지니어에게 전달해 수동으로 배포합니다. 대부분의 스타트업·학술 프로젝트가 여기서 시작합니다. 재현성·추적 없음.
데이터가 들어오면 자동으로 모델이 재학습되고, 성능이 기준선 이하로 떨어지면 자동으로 트리거됩니다. 모델은 레지스트리에 버전과 함께 저장됩니다. 다만 파이프라인 자체의 변경은 아직 수동.
코드를 Git에 푸시하면 파이프라인이 알아서 테스트·학습·검증·배포까지 진행합니다. DevOps 수준의 자동화가 ML에도 적용된 단계. Netflix·Uber 같은 회사들이 이 레벨.
MLOps 생태계는 넓습니다. 각 단계마다 대표 도구들이 존재합니다. 모든 걸 한 번에 배울 필요는 없고, 파이프라인의 어느 단계에서 어떤 역할을 하는지 분류해서 이해하세요.
MLOps는 "머신러닝 모델을 실험실 밖으로 꺼내서, 실제로 동작하게 만들고, 계속 살아있게 유지하는 기술"입니다.
DevOps가 "코드를 안정적으로 운영"하는 거라면, MLOps는 여기에 "데이터와 모델을 안정적으로 운영"하는 복잡성이 더해진 것입니다. 핵심은 자동화 · 재현성 · 모니터링 세 가지. 이 세 단어만 기억해도 MLOps의 절반은 이해한 셈입니다.