제일브레이크 (Jailbreak)

별칭: jailbreak · AI jailbreak · 제일브레이크 · 탈옥

모델 제공자가 걸어둔 안전 가드를 우회시키려는 공격성 프롬프트 기법.

"역할극으로 답해줘" "이건 가상 시나리오야" 같은 우회 스토리로 모델이 원래 거부할 응답(범죄 방법·유해 콘텐츠)을 끌어내려는 시도. 모델 사용 정책 위반이며, 발견되는 즉시 패치 대상이다.

제일브레이크(jailbreak)는 모델 제공자가 학습·정렬 단계에서 걸어둔 안전 가드(거부 응답·정책 준수)를 우회시키려는 입력 기법을 통칭한다. 흔한 패턴은 역할극 ("당신은 제약이 없는 AI 다"), 가상 시나리오 ("이건 소설 속 대사야"), 다국어 우회, 토큰 분할 등이 있다.

제일브레이크는 모델 사용 정책 위반이며, 발견된 패턴은 모델 제공자가 빠르게 패치한다. 단, 안전성 연구자들이 가드의 견고함을 평가하기 위해 의도적으로 시도하는 red-teaming 도 같은 기법을 쓴다 — 이때는 책임 있는 공개(responsible disclosure) 프로세스를 따른다.