Reinforcement Learning1 RLHF (Reinforcement Learning from Human Feedback) 이전 포스팅(03.18, by lt.mj)에서는 '효율적인 LLM 튜닝을 위한 PEFT기법'에 대해서 알아보았습니다. PEFT는 리소스와 시간의 제약으로 인해 AI 모델 개발자가 LLM을 직접 파인튜닝하기 어려울 때, 효율적으로 성능을 개선하는 방법으로 활용되었는데요 이번 포스팅에서는 우리에게 친숙한 OpenAI의 ChatGPT가 어떻게 '사용자 친화적인 대화형 AI'로 자리 잡을 수 있었는지, 그 비결인 RLHF(Reinforcement Learning from Human Feedback) 기법을 중심으로 살펴보겠습니다 1. RLHF란? RLHF는 사람의 피드백(Human Feedback)을 사용하여 강화 학습(Reinforcement Learning)을 개선하는 방법입니다. 간단히 말해, '사람이 .. 2025. 3. 27. 이전 1 다음