단어분리 (Tokenizing)

별칭: Tokenizing · tokenization · 토큰화 · 단어분리 · 단어 분리 · 토크나이징

긴 텍스트를 단어, 부분 단어, 문장 부호 같은 작은 처리 단위로 나누는 과정.

단어분리, 또는 토큰화는 텍스트를 AI나 검색 시스템이 다루기 쉬운 작은 단위로 쪼개는 과정이다. 세미클래스 OT에서는 STT로 얻은 발화 텍스트를 씬 배치와 키워드 추출에 쓰기 위해 먼저 작은 단위로 나누는 단계로 설명한다.

정의

단어분리(Tokenizing), 또는 토큰화(Tokenization)는 긴 문자열을 단어, 부분 단어, 숫자, 문장 부호 같은 작은 처리 단위인 토큰으로 나누는 과정이다. 자연어 처리와 검색 시스템에서는 원문을 바로 처리하기보다 이런 단위로 나누어 분석한다.

왜 중요한가

컴퓨터는 사람이 읽듯이 문장을 자연스럽게 이해하지 않는다. 텍스트를 토큰으로 나누면 어떤 단어가 자주 나오는지, 어느 문장이 어떤 주제인지, 자막이나 장면 전환을 어디서 끊으면 좋은지 계산하기 쉬워진다. LLM도 내부적으로 텍스트를 토큰 단위로 다룬다.

Semiclass에서의 의미

세미클래스 OT의 영상·콘텐츠 자동화 예시에서는 STT 결과를 바로 화면에 붙이지 않는다. 먼저 발화 텍스트를 단어분리하고, 중요한 키워드와 문장 경계를 찾은 뒤, 씬마다 어떤 문구와 이미지를 배치할지 정리한다. 그래서 단어분리는 원본과 UI 편집 화면 사이의 중간 처리 단계다.

예시

  • "AI로 내 서비스를 만든다"를 "AI", "내", "서비스", "만든다" 같은 단위로 나눈다.
  • 자막에서 긴 발화를 짧은 문장 단위로 끊는다.
  • 반복 키워드를 찾아 씬 제목 후보로 만든다.

주의할 점

한국어는 조사와 어미가 붙기 때문에 단순히 공백만 기준으로 나누면 품질이 낮을 수 있다. 영상 자막이나 강의 회고처럼 사람이 읽는 결과물에는 토큰화 결과를 그대로 노출하기보다, 후처리와 검수를 거쳐 자연스러운 문장으로 다듬어야 한다.

출처