가드레일 (Guardrail)

별칭: guardrail · AI guardrail · 가드레일 · AI 가드레일

AI 의 입출력에 안전·정책 검증 레이어를 두어 위험한 응답·행동을 차단하는 장치.

모델 자체에 의지하지 않고, 별도 룰/모델로 입력·출력을 한 번 더 검사한다. 개인정보·욕설·내부 비밀이 흘러나가지 않게 막거나, 도구 실행을 사람이 확인하게 만드는 식.

가드레일(Guardrail)은 AI 시스템의 입력과 출력을 한 번 더 검증해 안전·정책·규정에 어긋나는 응답을 차단하는 레이어다. 모델 자체의 정렬(alignment)에만 기대지 않고, 별도 룰 엔진/분류 모델/검사 LLM 을 외부에 두는 방어 전략이다.

대표 적용 지점: (1) 입력 단계 — 프롬프트 인젝션 패턴 탐지, 개인정보 마스킹, (2) 출력 단계 — 욕설/혐오/내부 비밀 노출 차단, (3) 도구 실행 단계 — 결제·삭제 같은 위험 동작은 사람 확인(human-in-the-loop) 강제. NVIDIA NeMo Guardrails, Llama Guard 등이 알려진 구현이다.