Tech/LLM2025. 12. 27. 19:42[LLM] 슬라이딩 윈도우로 데이터 샘플링
LLM을 훈련할 때 가장 중요한 것은 모델이 긴 텍스트에서 다음에 올 단어를 예측하도록 만드는 것이다.이를 위해 슬라이딩 윈도우(Sliding Window) 기법을 사용하여 훈련 데이터를 효율적으로 구성하는 방법을 알아보자.모델 훈련의 기본 원리모델 훈련의 기본은 입력된 토큰을 보고 그 다음 토큰을 맞추는 것이다.따라서, 모델은 타킷(정답) 토큰 이후의 단어를 미리 봐서는 안 된다.(정답을 미리 알면 예측하는 훈련이 되지 않기 때문)이를 위해 입력 토큰 이후의 미래 토큰은 모델이 참조하지 못하도록 가려주는 작업인 마스킹이 필요하다.슬라이딩 윈도우 작동 방식긴 텍스트 데이터를 훈련에 사용할 때는 고정된 길이(윈도우 크기)만큼 잘라서 사용한다.예를 들어 윈도우 크기가 4라면, 텍스트 위를 한 칸(또는 여러 ..