토크나이저 (Tokenizer)

별칭: tokenizer · 토크나이저

텍스트를 모델이 다루는 단위인 "토큰" 으로 쪼개는 컴포넌트.

한국어/영어/이모지/공백을 같은 규칙으로 다루기 위해 단어보다 작은 조각(서브워드) 단위로 자른다. BPE, WordPiece, SentencePiece 가 대표 방식. 같은 모델이라도 토크나이저가 다르면 토큰 수와 비용이 달라진다.

토크나이저는 사람이 입력한 텍스트를 모델이 다룰 수 있는 기본 단위인 토큰 으로 쪼개는 컴포넌트다. 단어 단위로만 자르면 처음 보는 단어를 처리할 수 없으므로, 거의 모든 현대 LLM 은 단어보다 작은 서브워드 단위로 자른다.

대표 방식은 BPE(Byte Pair Encoding), WordPiece, SentencePiece 다. 모델별로 토크나이저가 다르므로 같은 한국어 문장이라도 GPTClaude토큰 수는 다를 수 있고, 이는 곧 API 비용 차이로 이어진다.