[LLM] 바이트 페어 인코딩(BPE)Tech/LLM2025. 12. 27. 19:22
Table of Contents
바이트 페어 인코딩(BPE)란?
GPT계열 모델이 사용하는 정교한 토큰화 알고리즘
(단순히 단어 단위가 아닌, 의미 있는 부분 단어 단위로 텍스트를 분해하여 어휘 사전을 구축)
BPE의 핵심
훈련 데이터에 있는 모든 개별 문자에서 시작하여, 가장 자주 함께 등장하는 문자 쌍을 점진적으로 병합하며 더 크고 의미 있는 토큰을 만드는 것이다.
어휘 사전 구축 과정
1단계: 개별 문자 등록
훈련 데이터셋에 있는 모든 고유한 문자를초기 어휘 사전에 등록하는 것으로 시작한다.
2단계: 빈도 기반 병합
텍스트 전체를 스캔하여 가장 자주 연속으로 나타나는 문자 쌍을 찾는다.
여기서 찾은 문자 쌍은 새로운 하나의 토큰(부분 단어)으로 병합되어 어휘 사전에 추가된다.
(예: 'D' 다음 'E'가 자주 등장하면 'DE'를 토큰으로 등록)
3단계: 확장

등록된 부분 단어와 다른 문자(혹은 부분 단어)의 조합이 또 빈도 기준을 넘으면, 이를 새로운 토큰으로 등록하여 크기를 키운다.
BPE의 장점: Unknown 토큰이 없다
BPE는 모르는 단어가 나오면, 이미 알고 있는 부분 단어나 개별 문자 단위까지 쪼개서 처리한다.
결국 모든 문자가 사전에 등록되어 있으므로, <unk> 토큰이 존재하지 않는다.
* 본 게시글은 밑바닥부터 만들면서 배우는 LLM 강의를 참고하여 작성되었습니다.
'Tech > LLM' 카테고리의 다른 글
| [LLM] Transformer는 단어의 순서를 어떻게 알까? (위치 인코딩) (0) | 2025.12.28 |
|---|---|
| [LLM] 슬라이딩 윈도우로 데이터 샘플링 (0) | 2025.12.27 |
| [LLM] 특수 문맥 토큰 (0) | 2025.12.27 |
| [LLM] 텍스트 토큰화 (0) | 2025.12.27 |
| [LLM] 단어 임베딩의 이해 (1) | 2025.12.26 |
@ONE_ :: 정호원
잘못된 정보가 있다면 말씀해주세요!