KIA AI 자율제조 통합 플랫폼 1단계 2차년도 2026.05 — 09 지오소프트 (MLOps)

2차년도 통합 계획서
5월~9월, 4명이 함께 5개월

1차년도 PoC를 운영 가능한 MLOps 플랫폼으로 끌어올린다. 수석 1명 · 사원 3명 4인 체제로, IF-04~13을 5개월 안에 마무리하고 P95 250ms · 가용성 99.5% 정량 목표를 달성한다.

한눈에

5개월간의 약속

1차년도 산출물을 운영 안정화하면서, 2차년도 핵심 IF 10종을 4명이 분담하여 9월 말까지 마무리한다.

22
개발 기간

2026-05-01 ~ 2026-09-30

4
투입 인력

수석 1 + 사원 3 (Backend·Frontend 분담)

10
구현 인터페이스

IF-04 ~ IF-13 (P0~P2 우선순위)

99.5 %
가용성 목표

API P95 ≤ 250ms 동시 달성

목표

정량 + 정성 목표

📊 정량 목표 (1단계 2차)

지표목표비고
모델 개발-배포 리드타임80h반자동화 기준
재학습-배포 자동화율0%H2M 승인 기반 (CT는 2단계)
API 응답시간 P95250msk6 부하 테스트 검증
API 가용성99.5%월간 평균 (Prometheus)

🎯 정성 목표

  • MLOps 파이프라인 반자동화 (Human-in-the-loop)
  • 모델 서빙 Docker 컨테이너 기반 추론 API
  • Prometheus 메트릭 + GT 매칭 기반 모니터링 가시화
  • 알림/승인/롤백 전 흐름 통합
  • React 통합 대시보드 실 API 연동 (mock 제거)
  • 외부 협력사 (임픽스/아이티엘) 인터페이스 정합성 확보
일정

5개월 마스터 스케줄

각 사원의 책임 영역을 시각화. 수석은 모든 모듈에 걸쳐 리뷰/통합 부담을 진다.

월별 마일스톤

M1 · 5월
1차년도 마무리 + 2차년도 사전 준비
1차년도 성과보고서 제출, 인터페이스 정의서 v1.0 동결, 모듈/책임 분배 합의, 로컬 통합 환경 구동.
M2 · 6월
핵심 모듈 골격 작성
deployments / serving / monitoring 모듈 라우터·모델·서비스 골격 완성. 단일 모델 등록→배포→추론 골든 패스 1회 통과.
M3 · 7월
배포·서빙·로그·GT 완성
IF-04 / 05 / 07 / 08 / 13 구현 완료. 추론→로그→GT 매칭→정확도 일/주 단위 집계 동작. Prometheus /metrics 노출 시작.
M4 · 8월
알림·승인·메트릭·대시보드 통합
IF-10 / 11 / 12 / 06 구현. Frontend 전 페이지 실 API 연동 (mock 제거). E2E 골든 패스 1차 통과.
M5 · 9월
통합 테스트·성능 튜닝·산출물 정리
P95 ≤ 250ms / 가용성 ≥ 99.5% 검증. 결함 0건 (CRITICAL/HIGH). 5~9월 진척 보고서 + 데모 시연.
인력 배치

4명, 명확한 R&R

사원이 막히지 않는 환경 + 수석이 병목이 되지 않는 흐름. 각자 18~22주 분량의 자기 모듈을 책임진다.

S
수석 (Tech Lead)
고급 · 아키텍트 · 외부 협업 게이트웨이
아키텍처 결정, 모든 PR 1차 리뷰, 임픽스/아이티엘 협업, 통합·부하·보안 테스트, IF-09 드리프트 설계초안.
아키텍처 코드 리뷰 외부 협업 인프라 통합 테스트
A
사원 A · J1
Backend MLOps Core
IF-04 배포 파이프라인 (Rolling), IF-13 롤백 (60초 SLA), IF-11 알림/경보, IF-12 승인 Backend.
deployments approvals alerts Docker SDK
B
사원 B · J2
Backend Serving / Monitoring
IF-05 추론 (Rate Limit/멱등), IF-07 로그 (마스킹), IF-08 GT 매칭, IF-10 Prometheus, IF-06 교차 이벤트.
serving monitoring events Prometheus
C
사원 C · J3
Frontend & UX
Datasets 페이지, Monitoring 고도화, Alerts/Approvals UI, Deployments UI, 반응형 + a11y 마감.
React 19 TanStack Query Recharts shadcn/ui

RACI 매트릭스 (요약)

인터페이스 수석 사원 A 사원 B 사원 C 비고
IF-04 모델 배포ARCIDocker SDK + Rolling
IF-05 추론 서빙ACRCRate Limit, 멱등성
IF-06 교차 이벤트R(설계)IR(구현)IWebhook + DLQ
IF-07 추론 로그ACRI마스킹, 90일
IF-08 Ground TruthAIRIrequest_id 매칭
IF-10 모니터링 메트릭AIR(BE)R(FE)Prometheus + UI
IF-11 알림/경보ARCC(UI)그룹화 5분
IF-12 승인/반려 (H2M)AR(BE)IR(UI)RBAC 게이트
IF-13 모델 롤백ARIC(UI)자동/수동, 60초
IF-09 드리프트 (설계)RICI2단계 1차 본격

R=Responsible · A=Accountable · C=Consulted · I=Informed

인터페이스

10개 IF · 책임자 명시

5~9월 구현 대상. 화살표는 호출 방향이 아닌 데이터 흐름.

IF-04
모델 배포
사원 A
IF-05
추론 서빙
사원 B
IF-06
교차 이벤트
수석+B
IF-07
추론 로그
사원 B
IF-08
Ground Truth
사원 B
IF-10
메트릭
사원 B+C
IF-11
알림/경보
사원 A
IF-12
승인/반려
사원 C+A
IF-13
모델 롤백
사원 A
IF-09
드리프트 (설계만)
수석

프로토콜 요약

유형대상 IF형식특이사항
REST/JSONIF-05·08·12HTTP/1.1 + JSONJWT, X-Request-ID, 표준 에러 코드 10종
WebhookIF-06·09·11HTTP POST + JSON재시도 3회 (1s/2s/4s) → DLQ 적재
Internal APIIF-04·13FastAPI 내부DB 트랜잭션 + 감사 로그
Prometheus ExpositionIF-10text/plain운영 6종 + 모델 성능 6종
Log StreamIF-07구조화 JSONVIN/IP/part_sn 마스킹, 90일
MLflow RESTIF-03 운영MLflow API v3외부 서버 (자체 호스팅 X)
화면

화면 정의 + 사용자 흐름

2차년도 신규/고도화 화면 5종. 권한별 동작과 반응형/접근성 가이드는 상세 문서 참조.

NEW

/datasets

DataOps 수신 데이터셋 목록·상세, 검증 결과, 매니페스트, 검증 이력.

고도화

/monitoring

KPI · 모델 성능 · PSI · 추론량 · 리소스. 30초 폴링 + 모델/기간 필터.

고도화

/alerts

필터 · ack · resolve · Toast. CRITICAL은 사이드바 배지 + 강조.

고도화

/model-registry/compare

Staging vs Production 비교. 코멘트 (H2H) + 승인 다이얼로그 (H2M).

NEW

/deployments

배포 목록 · Steps timeline · 헬스 · 수동 롤백 (60초 SLA).

유지

기존 페이지 7종

Dashboard · Experiments · Model Registry · Pipelines · API Services · Settings · Login.

대표 사용자 흐름 — Journey-A: 모델 승격

  1. 알림 수신 ("v1.3.0 Staging 등록") → /alerts 또는 직접 비교 페이지로
  2. /model-registry/compare 진입 → Staging vs Production 차트·변경 요약
  3. 리뷰 코멘트 작성 (H2H), 외부 의견 수렴
  4. [승격 승인] 클릭 → 평가 + Evidence 입력 → POST /transition (IF-12)
  5. 승인 시 IF-04 자동 트리거 → /deployments 이동 → Steps timeline
  6. 헬스체크 통과 → status=ACTIVE → Toast "배포 완료" ✅
통합

모듈 간 + 외부 시스템 통합

9월 말까지 골든 패스 E2E 1회 통과 (데이터 → 학습 → 등록 → 승인 → 배포 → 추론 → 로그 → GT → 모니터링 → 알림 → 롤백).

🏢 외부 시스템

임픽스 (DataOps)
IF-01 학습 데이터 — 5월 Mock → 6월 1차 연동 → 9월 운영 안정화
아이티엘 (모델)
IF-03 모델 등록 (MLflow SDK) + IF-08 GT 배치 업로드
MLflow 외부 서버
Client API로만 연동, 자체 DB가 master
모델 컨테이너
health/ready endpoint 표준 + 입력/출력 스키마 (MLflow Signature)

🔗 모듈 통합 시나리오

  • datasets ↔ alerts: 검증 실패 → severity별 자동 알림
  • approvals ↔ deployments: APPROVED → 자동 배포 트리거
  • monitoring ↔ deployments: 에러율 10%/liveness 3회 실패 → 자동 롤백
  • serving ↔ monitoring: 미들웨어 추론 로그 + Prometheus 메트릭
  • events: 품질 이상 ↔ 공급 지연 양방향 Webhook (DLQ + 재시도)

통합 환경

local

개발자 PC · docker compose · 단위 테스트

dev

사내 공용 · 통합 테스트 · FE↔BE 연동

staging

외부 협력사와 IF 정합성 검증

prod (테스트베드)

현장 환경 · 1단계 후반

테스트

피라미드 70 / 20 / 7 / 3

단위 70%, 통합 20%, E2E 7%, 성능/보안 3%. 신규 코드 라인 커버 ≥ 85%.

85%+
신규 코드 커버

pytest --cov, 분기 ≥ 75%

8개
통합 시나리오

IT-01 ~ IT-08 자동화

6개
Frontend E2E

Playwright Journey-A~F

4개
부하 시나리오

k6 SCN-01~04 (P95/가용성/롤백)

핵심 게이트

단계검증차단 조건
Pre-PRruff · pytest · vitest실패 시 머지 차단
PR+ 통합 테스트 + 마이그레이션 dry-run실패 시 머지 차단
Pre-prodk6 SCN-01~04P95 / 가용성 미달 시 차단
보안 (M2/M4/M5)bandit · semgrep · OWASP ZAPCRITICAL/HIGH 결함 차단
기술 스택

운영 검증된 스택, 신규 도입 최소

1차년도에 확정한 스택을 운영/고도화. 2단계를 위한 K8s/AutoML은 학습/PoC 단계.

Backend

  • Python 3.11+ / FastAPI 0.115+
  • SQLAlchemy 2.0 async + Alembic
  • PostgreSQL 16 / Redis 7 / rustfs (S3)
  • MLflow Client / boto3 / httpx
  • Prometheus client / Docker SDK
  • 패키지: uv (CLAUDE.md 규약)

Frontend

  • Vite 8 + React 19 + TS 6
  • TanStack Query 5 / React Router 7
  • Tailwind CSS 4 + shadcn/ui
  • Recharts 3 / Lucide React
  • Vitest + Playwright

인프라

  • Docker Compose (1단계)
  • Kubernetes 학습/PoC (2단계 준비)
  • Prometheus + Grafana (5종 대시보드)
  • VPN (IPSec) + TLS 1.2+
  • GitHub Actions CI/CD
리스크

Top 리스크 — 매주 점수 재평가

가능성 × 영향 점수. 25=CRITICAL, 12~19=HIGH, 6~11=MEDIUM. 매주 월요일 Weekly Sync에서 점검.

25
R-001 1차년도 잔여 기능 5월 미완
5/15까지 IF-01/02/03 + Datasets 페이지 마감 절대 준수. 일일 진척 추적.
수석
20
R-002 보안 결함 (인증/마스킹/권한)
인증/권한 코드는 모두 수석 직접 리뷰. PR마다 bandit/semgrep 자동 실행.
수석
16
R-003 외부 모델 컨테이너 표준 미준수
5월 W4 표준 가이드 동결, 6월 합동 빌드 검증, 위반 컨테이너 거부 게이트.
수석 + 사원 A
12
R-004 임픽스 DataOps API 스펙 지연
Mock 모드 우선 개발, 어댑터 패턴으로 실제 인터페이스와 격리.
수석
12
R-008 E2E 통합 일정 지연
7월부터 부분 E2E 시작, 8월 첫 주 시나리오 작성, 우선순위 P0만 9월 1주차 통과 의무.
수석
10
R-005 MLflow 외부 서버 장애
재시도 + 타임아웃, 자체 DB 우선 + 비동기 동기화. 자체 DB가 single source of truth.
수석
9
R-006 Backend 성능 목표 미달
7월부터 매주 부하 테스트, DB N+1 PR 차단, Redis 캐시 적극 활용.
수석 + 사원 B
9
R-007 사원 1주 이상 부재
백업 매핑, 인수인계 노트 표준화, Bus factor ≥ 2 유지.
수석
산출물

9월 30일까지 ✅

CODE

Backend 6모듈

deployments · serving · monitoring · alerts · approvals · events

CODE

Frontend 5페이지

datasets(NEW) · monitoring · alerts · compare · deployments(NEW)

TEST

테스트 7종

단위·통합·E2E + 부하 + 보안 리포트

DOC

문서 14종

본 plans/2nd 디렉토리 + 인터페이스 정의서 v1.0 + Runbook 10종

REPORT

월간 보고 5건

5월 종료 + 6/7/8/9월 진척 + 5~9월 통합

DEMO

시연 5종

단일 모듈 + 통합 + E2E 녹화 + 인수 리허설 + 최종 데모

INFRA

CI/CD + 모니터링

Docker Compose · GitHub Actions · Prometheus · Grafana 5종

정량

성능 검증

P95 ≤ 250ms · 가용성 ≥ 99.5% 검증 리포트

협업 / 공보

비동기 우선, 동기는 최소화

결정은 텍스트로, 약속은 캘린더로. 사원이 막히지 않는 안전망.

📣 정기 회의

Daily Standup매일 09:30 (15분, Slack 스레드)
Weekly Sync월 14:00 (60분, 화상 + 회의록)
Code Review Hour금 16:00 (60분, 누적 PR + 학습 발표)
Bi-weekly 외부협력격주 화 14:00 (120분, 임픽스/아이티엘)
Monthly 진척 보고월말 금 (60분, 외부 PM)

💬 채널

일상 개발
Slack #kia-mlops-dev (1 영업시간 응답)
운영 알림
Slack #kia-mlops-alerts (CRITICAL 즉시)
외부 협업
Slack #kia-mlops-external + Email
코드 리뷰
GitHub PR (1 영업일 SLA)
의사결정
GitHub Discussion + Notion ADR
위키 / 회의록
Notion (ADR · Runbook · Postmortem)

코드 리뷰 / PR

PR 크기

200~400 lines 권장 · 800 lines 초과 시 분할

리뷰 SLA

일반 1 영업일 · Hotfix ≤ 1h · Draft 4 영업시간

커밋 컨벤션

Conventional Commits (feat/fix/docs/refactor/...)

문서 인덱스

상세 문서 (docs/plans/2nd/)

본 페이지는 통합 요약입니다. 상세 가이드는 각 마크다운을 참고하세요.

#문서내용
00overview.md전체 개요 · 기간 · 목표 · 산출물
01schedule.md주차별 상세 일정 · 마일스톤 · 작업량
02team_allocation.md인력 배치 · R&R · RACI · 백업
03screen_definition.md화면 정의서 · 권한별 가시성 · 반응형
04screen_flow.md사용자 흐름 6종 (Journey-A~F)
05protocol.md프로토콜 (REST/Webhook/Internal/Prometheus)
06collaboration.mdGit · PR · 코드 리뷰 · 회의 운영
07integration.md모듈 · 외부 시스템 통합 · E2E
08testing.md테스트 전략 · 부하 · 보안
09tech_stack.md전체 기술 스택 · 환경 변수
10risk_management.mdTop 10 리스크 · Postmortem · Runbook
11deliverables.md산출물 정의 · DoD · Sign-off
12communication.md채널 · 회의 · 의사결정 · 안전망