본문 바로가기
AI/LLM

RLHF (Reinforcement Learning from Human Feedback)

by dhkim327 2025. 3. 27.

  이전 포스팅(03.18, by lt.mj)에서는 '효율적인 LLM 튜닝을 위한 PEFT기법'에 대해서 알아보았습니다. PEFT는 리소스와 시간의 제약으로 인해 AI 모델 개발자가 LLM을 직접 파인튜닝하기 어려울 때, 효율적으로 성능을 개선하는 방법으로 활용되었는데요 이번 포스팅에서는 우리에게 친숙한 OpenAI의 ChatGPT가 어떻게 '사용자 친화적인 대화형 AI'로 자리 잡을 수 있었는지, 그 비결인 RLHF(Reinforcement Learning from Human Feedback) 기법을 중심으로 살펴보겠습니다


1. RLHF란?

  RLHF는 사람의 피드백(Human Feedback)을 사용하여 강화 학습(Reinforcement Learning)을 개선하는 방법입니다. 간단히 말해, '사람이 더 선호할 만한 답변을 생성하도록 LLM을 학습시키는 방법' 이라 할 수 있습니. 이 개념은 OpenAI가 2022 NeurIPS 학회에서 발표한 'InstructGPT' 논문을 통해 처음으로 소개되었습니다.

  기존의 강화 학습 알고리즘은 특정 환경에서 얻은 보상 신호를 기반으로 모델이 보상을 최대화 할 수 있도록 학습합니다. 하지만 RLHF는 사람이 제공하는 평가(선호도 피드백)를 보상 신호로 사용한다는 차이가 있습니다. 즉, LLM이 생성한 응답을 사람이 평가하고, 이 평가 결과를 기반으로 LLM의 학습을 돕는 방식이라는 점에서 기존의 강화 학습과 차이가 있습니다.

 

주요 개념

  • Reinforcement Learning (강화학습): 특정 상황에서 수행한 행동이 보상을 극대화하도록 LLM이 학습하는 방법
  • Human Feedback: LLM이 생성한 응답을 사람이 평가하고 선호도를 점수로 제공하는 방식
  • Reward Model (보상 모델): 사람이 평가한 응답의 선호 점수를 학습하여, 모델의 응답을 입력받아 그 품질을 평가하는 모델

2. RLHF의 학습 과정

RLHF process ("Training language models to follow instructions with human feedback", neurips, 2022)

(1) Supervised Fine-Tuning (SFT)

  • 기본적인 LLM 모델(GPT-3)을 '미리 정의된 프롬프트에 적절하게 응답'하도록 미세 조정하는 단계입니다
  • 사전 학습된 LLM 모델은 대규모 텍스트 데이터로 학습을 완료한 상태이지만, 사람이 선호하는 방식으로 응답하는 방법은 학습하지 않은 상태입니다.
  • 따라서, 사람이 선호하는 응답 스타일을 학습시키기 위해 미리 준비된 다양한 질문과 그에 대한 이상적인 응답 예시를 사용하여 모델을 미세 조정합니다.

(2) Reward Model Traninig

  • 선호도 데이터 수집: 사람 평가자가 모델의 출력들을 비교하고 랭킹을 매깁니다.
    • 예를들면, 같은 질문에 대해 두 가지 답변을 생성하면 평가자는 더 나은 답변에 높은 점수를 부여합니다.
  • 사람이 매긴 응답-점수 쌍을 활용하여 보상 모델을 학습합니다.
  • 보상 모델은 일반적으로 사전 학습된 LLM의 출력 위에 선형 레이어를 추가하여 보상 점수를 예측하도록 설계됩니다.

OpenAI에서 제공하는 평가자를 위한 선호도 점수 인터페이스

(3) Reinforcement Learning 

  이 단계에서는 PPO(Proximal Policy Optimization) 같은 강화 학습 알고리즘을 사용하여 모델(LLM)이 보상 모델의 점수를 최대화하도록 학습합니다. 즉, 모델은 사람이 선호할 만한 답변을 더 잘 생성하도록 학습됩니다.

  • Policy Model (정책 모델)
    • 일반적인 강화 학습에서 정책 모델(Policy Model) 또는 AI 에이전트(Agent)라고 불리는 것이 RLHF에서는 LLM(Large Language Model)을 의미합니다.
    • 예를 들어, GPT-3 또는 GPT-4 모델 자체가 정책 모델 역할을 합니다.
    • 이 모델은 사용자 입력(프롬프트)에 대해 최적의 응답을 생성하는 역할을 담당합니다.
  • PPO 알고리즘
    • PPO는 정책 기반 강화 학습 알고리즘 중 하나로, 학습의 안정성과 성능을 개선하기 위해 개발된 방법입니다.
    • LLM의 응답에 대한 보상 점수를 기반으로 학습하며, 보상 모델로부터 높은 점수를 받는 응답을 생성하도록 LLM의 파라미터를 업데이트합니다.

3. RLHF의 장점과 한계

  RLHF는 기존의 LLM을 특정 서비스나 목적에 맞게 더욱 효율적으로 미세 조정하는 방법으로, “어떻게 학습해야 사람의 만족도를 더 높일 수 있을까?”라는 질문에서 출발했습니다. OpenAI는 이 방법을 활용하여 ChatGPT라는 LLM 챗봇 시스템을 성공적으로 개발할 수 있었습니다.

  RLHF로 재학습된 LLM은 단순히 모델의 성능을 향상시키는 것을 넘어서, 사람처럼 소통하는 자연스러운 대화 능력을 구현할 수 있었습니다. 이로 인해 사용자 만족도가 크게 향상되었고, 현재와 같은 챗봇 서비스가 가능해진 것입니다.

 

하지만 RLHF로 학습된 LLM도 한계점이 존재하는데

  • 비용 및 리소스 문제: 인간의 선호도 데이터는 사람이 직접 라벨링해야 하므로, 많은 비용과 시간, 인력 자원이 필요합니다.
  • 주관성 문제
    • 개발자가 라벨링 규칙과 설명서를 제공해도, 인간의 피드백은 주관적일 수 있습니다.
    • 동일한 질문과 응답에 대해 평가자마다 다르게 판단할 가능성이 있습니다.
  • 평가 오류 및 악의적 피드백
    • 평가자가 실수로 잘못된 피드백을 제공할 수 있으며, 의도적으로 적대적이거나 악의적인 평가를 남길 가능성도 존재합니다.

따라서 RLHF의 효과를 극대화하려면, 피드백-응답 쌍의 신뢰성을 검증하고 품질을 개선하는 방법이 필요합니다.


Reference