모델 모니터링 (Model Monitoring)

정의

모델 모니터링(Model Monitoring)은 운영 환경에 배포된 머신러닝 모델의 동작을 지속적으로 관찰·기록·평가하는 활동이다. 일반 애플리케이션 모니터링이 CPU·메모리·응답시간을 본다면, 모델 모니터링은 추가로 입력 데이터의 분포(data drift), 모델 예측 분포(prediction drift), 정답/피드백 기반 정확도, 그리고 비용·지연 같은 운영 지표를 함께 본다.

왜 중요한가

모델은 학습 시점의 데이터 분포를 가정한다. 운영 환경에서 사용자 행동, 시즌성, 외부 이벤트로 데이터 분포가 바뀌면 정확도는 점진적으로(또는 갑자기) 떨어진다. 이를 데이터 드리프트(data drift) 또는 컨셉 드리프트(concept drift) 라고 부른다. 모델 모니터링은 (1) 분포 변화 감지, (2) 성능 저하 알림, (3) 이상 입력·이상 응답 탐지, (4) 재학습 시점 결정을 위해 필수다. Google Cloud 의 ML 모니터링 가이드와 EvidentlyAI 의 ML monitoring 문서가 업계에서 자주 참조된다. LLM 서비스에서는 응답 품질·환각률·toxic 출력 비율 같은 지표를 추가로 본다(LLMOps).

Semicolon에서의 의미

Semicolon 의 AI 서비스는 사용자 입력이 시간에 따라 빠르게 변한다. 처음 학습할 때 본 적 없는 표현, 새로운 도메인 질문이 들어오면 모델은 조용히 틀린 답을 내놓을 수 있다. 모델 모니터링은 “겉으로는 응답이 잘 나오는데 실제로는 품질이 떨어지는” 무성 장애를 빨리 잡기 위한 기본 장치다.

예시

데이터 드리프트: 추천 모델 입력 피처의 평균/분포가 학습 시점과 통계적으로 달라지는 경우
컨셉 드리프트: 동일 입력에 대한 “정답” 자체가 시간에 따라 변하는 경우(트렌드 변화)
LLM 품질 모니터링: 응답 길이, 환각 비율, 사용자 부정 피드백 비율, toxic 분류기 출력 비율 추적

주의할 점

드리프트가 감지되었다고 곧바로 성능 저하가 발생한 것은 아니다. 분포 변화와 실제 정확도 저하는 별개 신호이므로 둘을 함께 본다. 또한 운영 환경에서는 정답 라벨이 늦게 들어오는 경우가 많아, 정확도 기반 지표 외에 “라벨 없이 측정 가능한” 지표(분포 거리, 예측 신뢰도 분포)도 함께 설계한다.

정의

왜 중요한가

Semicolon에서의 의미

예시

주의할 점

출처