이번 포스팅에서는 대규모 언어 모델(Large Language Models, LLMs)의 바탕이 되는 트랜스포머 모델의 등장 배경과 LLM이 나올 수 있었던 이유에 대해서 알아보도록 하겠습니다.
1. 기존 순환신경망 (Recurrent Neural Network)의 한계와 트랜스포머의 등장
LLM은 텍스트를 인식하고 생성하는 등의 작업을 수행할 수 있는 일종의 생성형 인공지능(Generative AI) 입니다. 기존의 AI 모델들과 달리 LLM은 방대한 양의 텍스트 데이터를 학습하여 뛰어난 언어 이해 및 생성 능력을 갖추게 되었습니다. 이러한 발전이 가능했던 핵심 요인은 바로 '트랜스포머(Transformer)' 아키텍처의 등장입니다.
트랜스포머 모델은 2017년 구글 연구팀이 발표한 "Attention is All You Need" 논문을 통해 소개되었으며, 기존 자연어 처리에 사용되던 RNN 기반 모델들의 한계를 획기적으로 극복했습니다. 기존 RNN 모델들은 두 가지 주요 문제점을 가지고 있었습니다. 첫째, 긴 문장을 순차적으로 처리하는 과정에서 문장의 앞부분에 있는 단어들의 정보가 뒷부분으로 갈수록 희석되는 장기 의존성(long-term dependency)문제가 있었습니다. 이 문제의 경우 LSTM, Bidirectional LSTM 등 다양한 발전된 모델들로 어느 정도 해결이 가능했지만 여전히 매우 긴 문장(시퀸스)에서는 한계가 있었습니다. 또한, RNN기반 모델의 경우 단어를 하나씩 순차적으로 처리해야 하는 구조로 인해 병렬 처리가 어려워 컴퓨팅 자원을 비효율적으로 사용한다는 문제도 모델을 학습시키는데에 한계로 존재했습니다.
트랜스포머는 이러한 문제들을 해결하기 위해 self-attention메커니즘을 도입하여 문장 내 모든 단어 간의 관계를 직접적으로 한 번에 학습할 수 있게 하였습니다. 이 방식은 병렬 처리가 가능해 계산 효율성을 크게 높였을 뿐만 아니라, 문장 내 어떤 위치에 있는 단어 간의 관계도 동일한 가중치로 고려할 수 있어 모델의 언어 이해 능력을 획기적으로 향상시켰습니다.
2. Bigger is better
한편 2020년 1월, 현재 ChatGPT로 우리에게 잘 알려진 OpenAI는 "Scaling Laws for Neural Language Models"라는 논문을 발표했습니다. 이 연구에서 OpenAI 연구팀은 트랜스포머 아키텍처를 기반으로 한 언어 모델에서 세 가지 핵심 요소가 모델 성능(측정된 테스트 손실)과 어떤 관계를 갖는지 체계적으로 분석했습니다
- 모델의 파라미터 수
- 학습 데이터의 양(토큰 수)
- 학습에 사용된 계산 비용(연산량)
그들의 실험 결과, 이 세 가지 요소와 테스트 손실 간에 명확한 거듭제곱 법칙(power-law) 관계가 존재함을 발견했습니다. 간단히 말해, 모델의 크기를 키우거나, 더 많은 데이터로 학습시키거나, 더 많은 계산 자원을 투입할수록 모델의 성능이 예측 가능한 비율로 향상된다는 것입니다. 이것이 바로 "Bigger is Better"(더 크면 더 좋다)라는 원칙의 과학적 근거가 되었습니다.
이 연구 결과는 AI 개발 방향에 중대한 영향을 미쳤으며, OpenAI는 이 원칙을 바탕으로 1,750억 개 파라미터를 가진 GPT-3 (2020.05) 모델을 개발했고, 이는 후에 ChatGPT의 기반이 되었습니다
Referece
https://tech.kakaoenterprise.com/45
https://arxiv.org/abs/2001.08361
'AI > LLM' 카테고리의 다른 글
RLHF (Reinforcement Learning from Human Feedback) (1) | 2025.03.27 |
---|---|
효율적인 LLM 튜닝을 위한 Parameter Efficient Fine-Tuning (PEFT) (1) | 2025.03.18 |
LLM의 학습 과정 (1) | 2025.03.18 |
LangChain의 핵심 아키텍처와 기능 살펴보기 (1) | 2025.03.12 |
LLM 서빙을 위한 오픈소스 서비스 비교하기 (3) | 2025.02.25 |