[LLM] 코절 어텐션과 멀티헤드 어텐션Tech/LLM2026. 1. 2. 19:19
Table of Contents
어텐션 메커니즘의 기본 원리
모든 토큰은 Query, Key, Value 3가지 벡터를 생성하여 자신을 표현한다. 쿼리 벡터는 다른 모든 토큰의 키 벡터와 비교되어 어텐션 점수를 계산하고, 이 점수는 각 토큰의 값 벡터에 얼마나 주목할지를 결정하는 가중치가 된다.
문장 내 모든 토큰은 각자 다른 모든 토큰과의 관계를 계산한다. 입력 토큰이 N개이면, 각 토큰이 어텐션 점수를 게산하므로, N x N 크기의 어텐션 점수 행렬이 만들어진다.
언어 모델의 목표는 주어진 단어들을 바탕으로 다음 단어를 예측하는데 있다.
(모델이 예측해야 할 단어를 미리 볼 수 있다면, 학습이 제대로 이루어지지 않음)
때문에, 이 문제를 해결하기 위해 마스크를 적용하여, 현재 토큰 위치 이후에 오는 모든 토큰들의 어텐션 점수를 강제로 0으로 만든다.
(덕분에, 모델은 과거와 현재의 정보에만 의존하게 됨)
코절 어텐션(Causal Attention)

위와 같이 미래 정보를 차단하는 어텐션 메커니즘을 코절 어텐션(Causal Attention) 또는 마스크드 셀프 어텐션(Masked Self-Attention) 이라고 부른다.
멀티헤드 어텐션(Multi-head Attention)

멀티헤드 어텐션은 여러 개의 어텐션 헤드를 병렬적으로 운영한다. 각 헤드는 서로 다른 가중치 세트를 가지며, 각각 독립적으로 텍스트의 다른 측면을 학습한다.
(토큰 임베딩, 위치 임베딩 등)
* 본 게시글은 밑바닥부터 만들면서 배우는 LLM 강의를 참고하여 작성되었습니다.
'Tech > LLM' 카테고리의 다른 글
| [LLM] 어텐션 메커니즘의 탄생 (0) | 2026.01.02 |
|---|---|
| [LLM] Transformer는 단어의 순서를 어떻게 알까? (위치 인코딩) (0) | 2025.12.28 |
| [LLM] 슬라이딩 윈도우로 데이터 샘플링 (0) | 2025.12.27 |
| [LLM] 바이트 페어 인코딩(BPE) (0) | 2025.12.27 |
| [LLM] 특수 문맥 토큰 (0) | 2025.12.27 |
@ONE_ :: 정호원
잘못된 정보가 있다면 말씀해주세요!