[LLM] 텍스트 토큰화
Tech/LLM2025. 12. 27. 17:21[LLM] 텍스트 토큰화

토큰화란?자연어 처리(NLP)에서 문장이나 문서와 같은 긴 텍스트를 분석하기 위해 토큰(Token)이라는 더 작은 단위로 나누는 과정(텍스트를 한번에 이해하기 어렵기 때문에, 의미 있는 최소 단위로 쪼개어 수치화하는 단계)토큰화 과정1단계: 텍스트 토큰화(Tokenization)문장을 모델이 처리하기 쉬운 작은 단위인 토큰(Token)으로 쪼갠다.'는', '를' 같은 조사나 마침표(.)와 같은 문장 부호까지 별개의 토큰으로 분리한다. - 이 단계에서 결과물은 여전히 사람이 읽을 수 있는 텍스트 형태이다.2단계: 토큰 ID 변환(Token ID Conversion)토큰을 토큰ID로 매핑하기 위해서는 어휘사전을 먼저 구축해야 한다.(어휘사전은 개별 단어와 특수 문자를 고유한 정수로 매핑하는 방법을 정의)* ..

image