토크나이저 (Tokenizer)
별칭: tokenizer · 토크나이저
텍스트를 모델이 다루는 단위인 "토큰" 으로 쪼개는 컴포넌트.
한국어/영어/이모지/공백을 같은 규칙으로 다루기 위해 단어보다 작은 조각(서브워드) 단위로 자른다. BPE, WordPiece, SentencePiece 가 대표 방식. 같은 모델이라도 토크나이저가 다르면 토큰 수와 비용이 달라진다.
별칭: tokenizer · 토크나이저
텍스트를 모델이 다루는 단위인 "토큰" 으로 쪼개는 컴포넌트.
한국어/영어/이모지/공백을 같은 규칙으로 다루기 위해 단어보다 작은 조각(서브워드) 단위로 자른다. BPE, WordPiece, SentencePiece 가 대표 방식. 같은 모델이라도 토크나이저가 다르면 토큰 수와 비용이 달라진다.