[LLM] Transformer의 구조

[LLM] Transformer의 구조Tech/LLM2025. 12. 20. 19:33@ONE_

Table of Contents

ChatGPT와 같은 LLM의 기반이 되는 트랜스포머(Transformer) 구조에 대해 알아보자.

트랜스포머 탄생: Attention Is All You Need

트랜스포머는 원래 한 언어의 텍스트 시퀀스를 다른 언어로 변환하기 위해 설계되었다.

기존에는 RNN(순환 신경망)과 어텐션의 조합으로 사용했으나, 트랜스포머는 RNN을 제거하고 오직 어텐션 메커니즘만 사용하여 긴 문맥의 흐름을 파악할 수 있도록 설계되었다.

핵심 구조: 인코더와 디코더

트랜스포머는 크게 인코더와 디코더로 두 가지 블록으로 나뉜다.

1. 인코더(Encoder)

입력 텍스트를 받아 문맥 정보를 담은 텍스트 임베딩(벡터의 집합)로 변환한다.
(텍스트 임베딩은 문장 전체의 문맥을 파악하여 각 단어의 의미를 조정한 결과물)

이 과정은 여러 동일한 인코더 블록을 겹겹이 통과하여 정교화되고 최종 임베딩이 디코더로 전달된다.

2. 디코더(Decoder)

인코더가 전달한 벡터와 이전에 생성된 텍스트를 합쳐 다음 단어를 예측하고 출력하는 작업을 반복적으로 수행한다.

모든 것은 어텐션이 핵심!
트랜스포머와 어텐션은 단어를 고정된 크기 숫자 벡터로 표현할 수 있다는 아이디어 위에서 구축되었다. (Word2Vec)

트랜스포머의 차별점은 Self-Attention으로 같은 단어 '사과'라도 주변에 '먹다'가 있으면 음식으로, '아이폰'이 있으면 기업으로 단어의 의미(벡터 값)를 실시간으로 변화시킨다는 점이 있다.

트랜스포머의 변화: Encoder Only와 Decoder Only 모델

Encoder Only Model은 텍스트를 깊이 이해하고 분류하는 작업에 특화되었고,
Decoder Only Model은 텍스트를 생성하고 대화를 이어가는 작업에 특화되었다.

Encoder Only Model: BERT

인코더 구조만 사용하는 대표적인 모델은 BERT이다.

BERT는 문장의 빈칸(Mask)을 채우는 방식으로 훈련되고, 이를 통해 양방향 문맥을 깊이 있게 학습하여 문장의 의미를 파악한다.

Decoder Only Model

우리가 주로 사용하는 LLM(ChatGPT, Gemini)이 디코더 구조만 사용하는 대표적인 모델이다.

이 모델들은 인코더의 입력없이, 사용자가 제공한 프롬프트(초기 텍스트)를 기반으로 다음 단어를 계속해서 예측한다.

디코더 기반 모델의 모든 능력은 기본적으로 텍스트 완성 작업에서 비롯된다.

주어진 프롬프트에 이어질 가장 높은 확률의 단어(토큰)를 하나씩 예측하고, 이 과정을 반복하여 문단 전체를 완성한다.

Zero-shot과 Few-shot Learning

제로-샷은 구체적인 예시없이 지시만으로 새로운 작업을 수행하는 능력을 지녔고,

퓨-샷은 프롬프트에 몇 개의 예시만 제공하면 이를 보고 작업을 수행하는 능력을 지녔다.

* 본 게시글은 밑바닥부터 만들면서 배우는 LLM 강의를 참고하여 작성되었습니다.

'Tech > LLM' 카테고리의 다른 글

[LLM] 특수 문맥 토큰 (0)	2025.12.27
[LLM] 텍스트 토큰화 (0)	2025.12.27
[LLM] 단어 임베딩의 이해 (1)	2025.12.26
[LLM] LLM의 구축 단계 (0)	2025.12.20
[LLM] LLM이란? (0)	2025.12.20

@ONE_ :: 정호원

잘못된 정보가 있다면 말씀해주세요!