모델 모니터링 (Model Monitoring)

별칭: Model Monitoring · 모델 모니터링 · ML Monitoring · AI Monitoring · Model Observability · 모델 관찰 · 모델 옵저버빌리티 · data drift · concept drift · 드리프트

운영 중인 ML 모델의 입출력·성능·드리프트를 지속 관찰해 이상을 조기에 발견하는 활동.

모델 모니터링은 배포된 모델을 “살아 있는 시스템”으로 보고, 입력 데이터 분포, 예측 분포, 정확도, 지연시간, 비용 등을 시간축으로 추적한다. 시간이 지나면 데이터 분포가 변해(데이터 드리프트) 정확도가 떨어지는 일이 흔하므로, 모니터링은 재학습 시점과 사고 대응의 기준이 된다. Google MLOps 문서와 EvidentlyAI 등이 이 실천을 표준화해 왔다.

정의

모델 모니터링(Model Monitoring)은 운영 환경에 배포된 머신러닝 모델의 동작을 지속적으로 관찰·기록·평가하는 활동이다. 일반 애플리케이션 모니터링이 CPU·메모리·응답시간을 본다면, 모델 모니터링은 추가로 입력 데이터의 분포(data drift), 모델 예측 분포(prediction drift), 정답/피드백 기반 정확도, 그리고 비용·지연 같은 운영 지표를 함께 본다.

왜 중요한가

모델은 학습 시점의 데이터 분포를 가정한다. 운영 환경에서 사용자 행동, 시즌성, 외부 이벤트로 데이터 분포가 바뀌면 정확도는 점진적으로(또는 갑자기) 떨어진다. 이를 데이터 드리프트(data drift) 또는 컨셉 드리프트(concept drift) 라고 부른다. 모델 모니터링은 (1) 분포 변화 감지, (2) 성능 저하 알림, (3) 이상 입력·이상 응답 탐지, (4) 재학습 시점 결정을 위해 필수다. Google Cloud 의 ML 모니터링 가이드와 EvidentlyAI 의 ML monitoring 문서가 업계에서 자주 참조된다. LLM 서비스에서는 응답 품질·환각률·toxic 출력 비율 같은 지표를 추가로 본다(LLMOps).

Semicolon에서의 의미

SemicolonAI 서비스는 사용자 입력이 시간에 따라 빠르게 변한다. 처음 학습할 때 본 적 없는 표현, 새로운 도메인 질문이 들어오면 모델은 조용히 틀린 답을 내놓을 수 있다. 모델 모니터링은 “겉으로는 응답이 잘 나오는데 실제로는 품질이 떨어지는” 무성 장애를 빨리 잡기 위한 기본 장치다.

예시

  • 데이터 드리프트: 추천 모델 입력 피처의 평균/분포가 학습 시점과 통계적으로 달라지는 경우
  • 컨셉 드리프트: 동일 입력에 대한 “정답” 자체가 시간에 따라 변하는 경우(트렌드 변화)
  • LLM 품질 모니터링: 응답 길이, 환각 비율, 사용자 부정 피드백 비율, toxic 분류기 출력 비율 추적

주의할 점

드리프트가 감지되었다고 곧바로 성능 저하가 발생한 것은 아니다. 분포 변화와 실제 정확도 저하는 별개 신호이므로 둘을 함께 본다. 또한 운영 환경에서는 정답 라벨이 늦게 들어오는 경우가 많아, 정확도 기반 지표 외에 “라벨 없이 측정 가능한” 지표(분포 거리, 예측 신뢰도 분포)도 함께 설계한다.

출처