토큰 (Token)

별칭: token · 토큰

LLM 이 글을 쪼개서 다루는 최소 단위. 단어보다 작거나 같음.

한국어 기준 한 글자 ≈ 1~2토큰. API 비용과 컨텍스트 한도가 모두 토큰 기준이라 운영 비용에 직결.

토큰은 LLM이 텍스트를 처리하는 최소 단위다. 영어는 보통 단어 1개 = 1~2토큰, 한국어는 글자 1개 = 1~2토큰 정도다.

API 호출 비용과 컨텍스트 윈도우 한도가 모두 토큰 단위로 정의되므로, "이 작업이 몇 토큰이냐"가 곧 "얼마짜리 작업이냐"가 된다.

더 자세히 (Wikipedia 보충)

NLP/LLM 맥락에서 토큰은 텍스트를 모델이 처리할 수 있는 단위로 쪼갠 결과물이다. 단어·부분단어·문자 등이 될 수 있으며, 토크나이저가 텍스트를 토큰열로 바꾸고 다시 정수 ID로 매핑한다.

현대 LLM은 주로 BPE(Byte Pair Encoding)·WordPiece 같은 서브워드 토크나이즈 방식을 쓴다. 이는 어휘 수를 작게 유지하면서도 미등록 단어를 처리할 수 있다는 장점이 있다. 또한 토큰은 LLM API 비용·요금의 기본 단위이기도 해서, 입력·출력 토큰 수를 줄이는 것이 곧 비용 절감으로 이어진다.