[LLM] 단어 임베딩의 이해

[LLM] 단어 임베딩의 이해Tech/LLM2025. 12. 26. 22:37@ONE_

Table of Contents

임베딩(Embedding)이란?
어떤 데이터를 벡터로 표현한 것은 임베딩(Embedding)이라고 부름
- 단어(토큰)의 벡터는 단어 임베딩이라고 함 (오디오는 오디오 임베딩)
- 대표적인 단어 임베딩 모델은 Word2Vec이다.

그럼 임베딩의 주요 목적은 뭘까?
임베딩의 주요 목적은 비수치 데이터를 신경망이 처리할 수 있는 포맷(벡터)로 변환하는 것이다.

단어 임베딩은 텍스트 임베딩의 가장 일반적인 형태이다.
(문장, 단락 또는 문서 전체를 위한 임베딩도 존재)

문장이나 단락 임베딩은 RAG에서 널리 사용된다.
(RAG는 생성과 검색을 결합하여, 관련 정보를 추출하는 것으로 텍스트를 생성하는 방법)

초기에 등장한 단어 임베딩을 생성하기 위한 프레임워크이다.

비슷한 맥락에 등장하는 단어를 벡터 공간에서 가까운 곳에 위치시켜, 벡터간의 거리로 단어의 유사도를 알 수 있다.

학습 방식
1. 신경망을 훈련시켜 특정 단어가 주어지면, 그 주변에 나타날 단어(문맥)를 예측한다.
2. 반대로, 문맥이 주어지면 중심 단어를 예측한다.
3. 위 과정을 거쳐 신경망 내부의 가중치가 해당 단어의 임베딩 벡터가 된다.

즉, 학습된 LLM은 벡터들 간의 상대적인 위치와 거리를 통해 언어의 의미 구조를 형성하고, 이 관계를 통해 언어를 이해한다.

일반적으로 LLM에서는 고차원 임베딩을 이용한다.
임베딩의 차원이 높아질 수록 복잡한 언어를 구사하고 학습할 수 있게 된다.

하지만, 여기에는 아래와 같은 Trade-Off가 존재한다.

1. 임베딩의 차원이 커질수록 모델의 파라미터 수가 기하급수적으로 증가해서 막대한 연산량을 요구하게 된다.
2. 고차원 임베딩은 훈련에 더 많은 시간과 컴퓨팅 자원을 필요로 한다.

* 본 게시글은 밑바닥부터 만들면서 배우는 LLM 강의를 참고하여 작성되었습니다.

@ONE_ :: 정호원

잘못된 정보가 있다면 말씀해주세요!

티스토리툴바