강화학습 심화 완벽 가이드: RLHF부터 DPO, GRPO까지! ChatGPT가 말 잘 듣게 된 비밀
핵심 요약
ChatGPT가 왜 그렇게 “말을 잘 듣는” 걸까요? 비밀은 RLHF(Reinforcement Learning from Human Feedback)에 있습니다. 인간의 피드백으로 AI를 훈련시키는 이 기술이 LLM의 혁명을 이끌었죠. 하지만 RLHF는 복잡하고 불안정합니다. 그래서 등장한 것이 DPO(Direct Preference Optimization) – 보상 모델 없이도 동일한 효과를 내는 혁신적 기법입니다. 그리고 2025년 초, DeepSeek-R1은 GRPO(Group Relative Policy Optimization)로 세상을 놀라게 했습니다. 이 포스팅에서는 PPO의 클리핑 메커니즘, DPO가 RLHF를 대체하는 원리, GRPO의 효율성 비밀, 그리고 어떤 상황에서 무엇을 선택해야 하는지까지 완벽하게 분석합니다.
1. 강화학습 기초: 왜 LLM에 필요한가?
1-1. 강화학습이란?

강화학습(Reinforcement Learning)은 시행착오를 통해 학습하는 머신러닝 방법입니다.
핵심 구성요소:
| 구성요소 | 설명 | LLM에서의 역할 |
|---|---|---|
| Agent | 학습하는 주체 | 언어 모델 (GPT, Llama 등) |
| Environment | Agent가 상호작용하는 세계 | 사용자 프롬프트 + 대화 맥락 |
| Action | Agent가 취하는 행동 | 토큰(단어) 생성 |
| Reward | 행동의 결과로 받는 보상 | 인간 선호도 점수 |
| Policy | 행동 결정 규칙 | 모델의 가중치 |
비유로 이해하기:
강화학습은 강아지 훈련과 비슷합니다. “앉아”라고 했을 때 앉으면 간식(보상)을 주고, 엉뚱한 행동을 하면 무시합니다. 강아지는 점점 간식을 많이 받는 행동을 학습하죠. LLM도 마찬가지입니다 – 좋은 답변에 높은 보상, 나쁜 답변에 낮은 보상을 주면서 “좋은 답변”이 무엇인지 학습합니다.
1-2. LLM에 강화학습이 필요한 이유
기존 LLM 학습의 한계:
- Pretraining: 인터넷 텍스트로 “다음 단어 예측” 학습 → 지식은 있지만 방향성 없음
- SFT (Supervised Fine-Tuning): 좋은 예시로 미세조정 → 일부 개선되지만 한계
문제:
- 유해한 내용 생성 가능
- 사용자 의도와 다른 답변
- 거짓 정보를 자신 있게 말함 (AI 환각 완벽 분석 참조)
강화학습이 해결하는 것:
- “좋은 답변”의 기준을 인간의 선호도로 정의
- 보상 신호를 통해 모델을 인간의 가치에 정렬
- SFT만으로는 불가능한 세밀한 행동 조정
2. RLHF: ChatGPT를 “착하게” 만든 기술
2-1. RLHF의 3단계 프로세스
RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 보상으로 사용하는 강화학습입니다.

AWS RLHF 가이드에 따르면:
1단계: Supervised Fine-Tuning (SFT)
- 고품질 프롬프트-응답 쌍으로 기본 모델 미세조정
- “모범 답안”으로 기초 역량 향상
2단계: 보상 모델(Reward Model) 학습
- 동일 프롬프트에 여러 응답 생성
- 인간 평가자가 선호도 순위 매김
- 이 데이터로 보상 모델 학습 → 인간 선호도를 점수화
3단계: PPO를 통한 정책 최적화
- 보상 모델의 점수를 보상으로 사용
- PPO 알고리즘으로 정책(모델) 업데이트
- 더 높은 보상을 받는 방향으로 학습
2-2. 보상 모델: 인간의 가치를 수치화
보상 모델의 역할:
- 인간 평가자의 선호도를 학습
- 임의의 텍스트에 대해 “얼마나 좋은지” 점수 예측
- 이후 PPO 학습 시 “인간 역할” 대신 수행
Bradley-Terry 모델:
선호도 데이터를 모델링하는 대표적인 방법입니다.
- (): 응답 ()이 ()보다 선호됨
- (): 시그모이드 함수
- (): 보상 함수
2-3. RLHF의 한계
RLHF는 강력하지만 문제점도 있습니다:
| 문제 | 설명 |
|---|---|
| 복잡성 | 4개 모델 필요 (정책, 참조, 보상, 가치 함수) |
| 불안정성 | PPO의 하이퍼파라미터 민감성 |
| 비용 | 인간 평가자 고용 비용 + 계산 비용 |
| 보상 해킹 | 모델이 보상 높이는 “꼼수”를 학습 |
3. PPO: RLHF의 심장, 안정적 정책 최적화
3-1. PPO란?
PPO(Proximal Policy Optimization)는 2017년 OpenAI가 발표한 강화학습 알고리즘으로, RLHF에서 가장 널리 사용됩니다.
핵심 아이디어:
“정책을 업데이트할 때 너무 급격한 변화를 막아 안정적으로 학습한다.”
비유:
PPO는 자동차 속도 제한과 같습니다. 아무리 좋은 방향을 찾았더라도, 한 번에 너무 급격하게 방향을 틀면 차가 전복될 수 있죠. PPO는 “한 번에 이 정도까지만 바꿔!”라는 제한을 둡니다.
3-2. PPO의 클리핑 메커니즘
PPO의 핵심은 클리핑된 목적 함수입니다.

클리핑 목적 함수:
구성요소 설명:
| 기호 | 의미 | 설명 |
|---|---|---|
| 확률 비율 | 새 정책 / 이전 정책의 행동 확률 비율 | |
| 어드밴티지 | 실제 보상 – 예상 보상 (얼마나 좋았는지) | |
| 클리핑 범위 | 보통 0.1~0.2 | |
| 클리핑 함수 | 비율을 [1-ε, 1+ε] 범위로 제한 |
작동 원리:
- Advantage > 0 (좋은 행동): 확률 높이고 싶지만, 최대 (1+ε)까지만
- Advantage : 확률 낮추고 싶지만, 최소 (1-ε)까지만
3-3. PPO가 RLHF에서 사용되는 이유
PPO 논문에 따르면:
PPO의 장점:
- 안정성: 급격한 정책 변화 방지
- 단순성: TRPO보다 구현이 훨씬 간단
- 효율성: 한 번 수집한 데이터로 여러 번 업데이트 가능
- 일반성: 다양한 환경에서 잘 작동
RLHF에서의 적용:
- 언어 모델의 정책(확률 분포)을 업데이트
- KL 발산 제약을 추가하여 원본 모델에서 너무 벗어나지 않도록
3-4. PPO의 실제 학습 과정
RLHF PPO 학습 루프:
- 샘플링: 현재 정책으로 프롬프트에 응답 생성
- 보상 계산: 보상 모델로 응답의 점수 매김
- 어드밴티지 계산: 예상 대비 얼마나 좋았는지 계산
- 정책 업데이트: 클리핑된 목적 함수로 모델 업데이트
- 반복: 1~4단계 반복
4. DPO: 보상 모델 없이 RLHF와 동등한 효과
4-1. DPO의 혁신
DPO(Direct Preference Optimization)는 2023년 Stanford에서 발표한 혁신적인 방법입니다.
핵심 아이디어:
“보상 모델을 명시적으로 학습하지 않고, 선호도 데이터로 정책을 직접 최적화한다.”
“RLHF의 목적 함수를 수학적으로 변환하면, 보상 모델 없이도 동일한 최적해에 도달할 수 있다.”
4-2. DPO vs RLHF 비교

| 항목 | RLHF (PPO) | DPO |
|---|---|---|
| 필요 모델 수 | 4개 (정책, 참조, 보상, 가치) | 2개 (정책, 참조) |
| 학습 단계 | 3단계 | 2단계 |
| 보상 모델 | 필요 | 불필요 |
| 학습 방식 | 강화학습 | 지도학습 스타일 |
| 안정성 | 하이퍼파라미터 민감 | 안정적 |
| 메모리 사용 | 높음 | 50% 절감 |
| 구현 복잡도 | 높음 | 낮음 |
4-3. DPO의 수학적 원리
RLHF 목적 함수:
DPO의 핵심 변환:
보상 함수를 정책의 함수로 표현할 수 있다는 발견:
DPO 손실 함수:
- (): 선호되는 응답 (winner)
- (): 선호되지 않는 응답 (loser)
- (): 학습 중인 정책
- (): 참조 정책 (SFT 모델)
직관적 이해:
- 선호되는 응답 ()의 확률은 높이고
- 선호되지 않는 응답 ()의 확률은 낮춘다
- 참조 모델 대비 상대적인 확률 변화로 계산
4-4. DPO의 장단점
장점:
- 메모리 50% 절감: 보상 모델, 가치 함수 불필요
- 구현 단순화: 표준 분류 손실 함수로 학습
- 안정적 학습: 강화학습 특유의 불안정성 제거
- 이론적 동등성: RLHF와 수학적으로 동일한 해
단점:
- 길이 편향: 긴 응답을 선호하는 경향
- 오프라인 학습: 실시간 탐색 불가
- 선호 데이터 의존: 대량의 고품질 선호 데이터 필요
4-5. DPO의 변형들
| 변형 | 핵심 개선 |
|---|---|
| IPO | DPO의 과적합 문제 해결 |
| KTO | 선호 쌍 대신 개별 평가 사용 |
| ORPO | SFT와 DPO를 한 단계로 통합 |
| SimPO | 참조 모델 없이도 작동 |
| LMPO | 길이 편향 문제 해결 |
5. GRPO: DeepSeek-R1의 비밀 무기
5-1. GRPO란?
GRPO(Group Relative Policy Optimization)는 DeepSeek이 개발한 강화학습 기법으로, DeepSeek-R1의 핵심 기술입니다.

DeepSeek-R1 분석에 따르면:
핵심 아이디어:
“Critic 모델(가치 함수) 없이, 그룹 내 상대적 점수로 보상을 계산한다.”
5-2. GRPO vs PPO 비교
| 항목 | PPO | GRPO |
|---|---|---|
| Critic 모델 | 필요 (가치 함수 학습) | 불필요 |
| 어드밴티지 계산 | Critic 모델 예측 기반 | 그룹 내 상대 점수 |
| 메모리 사용 | 높음 | 낮음 |
| 학습 복잡도 | 복잡 | 단순 |
| 적용 대상 | 범용 RL | LLM 최적화 특화 |
5-3. GRPO의 작동 원리
1단계: 그룹 샘플링
- 하나의 질문 (q)에 대해 G개의 응답 샘플링
- 예: G=16이면 같은 질문에 16개 답변 생성
2단계: 보상 계산
- 각 응답에 대해 보상 () 계산
- 정확도 보상, 형식 보상 등 규칙 기반으로도 가능
3단계: 그룹 상대 점수
- 그룹 평균과 표준편차로 정규화
- 각 응답이 그룹 내에서 얼마나 좋은지 상대 평가
4단계: 정책 업데이트
- 상대적으로 좋은 응답의 확률 높임
- 상대적으로 나쁜 응답의 확률 낮춤
5-4. DeepSeek-R1의 학습 파이프라인
DeepSeek-R1 논문의 4단계 학습:
1단계: 콜드스타트 SFT
- 고품질 Chain-of-Thought 예제로 초기화
- 기본 추론 능력 확보
2단계: 추론 중심 GRPO
- 수학, 코딩 등 추론 태스크에 집중
- 정확도 보상 + 언어 일관성 보상
3단계: Rejection Sampling SFT
- GRPO로 학습된 모델로 고품질 데이터 생성
- 다양한 도메인 데이터 포함하여 SFT
4단계: 최종 GRPO
- 추론 + 일반 능력 모두 최적화
- 최종 정렬 수행
5-5. GRPO의 놀라운 발견
DeepSeek 연구팀은 GRPO 학습 중 놀라운 현상을 관찰했습니다:
“모델이 스스로 사고 시간을 늘리고, 문제 해결 전략을 개선하면서 추론 능력이 성장했습니다.”
Aha Moment:
- 학습 중간 단계에서 갑자기 성능 도약
- 모델이 자기 검증, 재고(rethinking) 능력 획득
- 명시적으로 가르치지 않았는데 스스로 발현
6. 실전 가이드: 언제 무엇을 선택할까?
6-1. 알고리즘 선택 가이드

| 상황 | 추천 알고리즘 | 이유 |
|---|---|---|
| 복잡한 보상 함수 필요 | PPO | 유연한 보상 설계 가능 |
| 선호 쌍 데이터 보유 | DPO | 간단하고 안정적 |
| 계산 자원 제한 | DPO / GRPO | 메모리 효율적 |
| 추론 능력 강화 | GRPO | DeepSeek-R1 검증 |
| 빠른 실험/프로토타입 | DPO | 구현 간단 |
| 최고 성능 필요 | PPO + 충분한 자원 | 가장 검증된 방법 |
6-2. 선호 데이터 구축 팁
좋은 선호 데이터의 특징:
- 다양한 프롬프트: 다양한 주제와 난이도
- 명확한 선호 차이: 애매한 쌍 제외
- 일관된 평가 기준: 평가자 간 기준 통일
- 충분한 양: DPO는 최소 수천 쌍 권장
6-3. 하이퍼파라미터 가이드
DPO:
- (): 0.1~0.5 (KL 제약 강도)
- 학습률: ~ 5e-6
- 배치 크기: 32~128
PPO:
- 클리핑 (): 0.1~0.2
- KL 계수: 0.01~0.1
- 학습률: 1e-6 ~ 1e-5
GRPO:
- 그룹 크기 G: 8~16
- 온도: 1.0 근처
- 클리핑: PPO와 유사
6-4. 주의사항
보상 해킹(Reward Hacking) 방지:
- 모델이 보상을 높이는 의도치 않은 패턴 학습
- 예: 무조건 긴 답변, 특정 문구 반복
- 해결책: 다양한 보상 신호, 정기적 품질 검증
분포 드리프트(Distribution Drift) 방지:
- 학습이 진행되면서 원본 모델에서 너무 멀어짐
- 해결책: KL 제약 적절히 설정, 참조 모델 유지
정리: 핵심 포인트

✅ RLHF는 SFT → 보상 모델 → PPO의 3단계로 인간 선호에 정렬
✅ PPO는 클리핑 메커니즘으로 급격한 정책 변화를 방지
✅ DPO는 보상 모델 없이 RLHF와 수학적으로 동등한 결과
✅ DPO는 메모리 50% 절감, 구현 단순화, 안정적 학습
✅ GRPO는 Critic 모델 없이 그룹 상대 점수로 효율적 학습
✅ DeepSeek-R1은 GRPO로 스스로 추론 능력을 발현
FAQ: 자주 묻는 질문
Q1. DPO가 항상 RLHF보다 좋은가요?
A. 상황에 따라 다릅니다:
- DPO 유리: 제한된 자원, 빠른 실험, 안정적 학습 필요
- RLHF 유리: 복잡한 보상 설계, 최고 성능 추구, 온라인 학습 필요
- 최근 연구에서는 대부분의 경우 DPO가 충분하다고 평가
Q2. GRPO와 DPO 중 어떤 것을 선택해야 하나요?
A. 목적에 따라 다릅니다:
- GRPO: 추론 능력 강화, 규칙 기반 보상 사용 가능
- DPO: 선호 쌍 데이터 활용, 일반적인 정렬
- DeepSeek-R1처럼 추론 특화라면 GRPO 추천
Q3. 선호 데이터가 없으면 어떻게 하나요?
A. 여러 방법이 있습니다:
- RLAIF: 더 강한 AI 모델이 평가 (GPT-4 등)
- Self-Play: 모델이 스스로 응답 비교
- 규칙 기반 보상: 정확도, 형식 등 자동 평가 → GRPO 적용 가능
Q4. PPO의 클리핑 범위 ε은 어떻게 설정하나요?
A. 일반적인 가이드라인:
- 기본값: 0.2
- 안정성 중시: 0.1 (더 보수적)
- 빠른 학습: 0.3 (더 공격적, 불안정 위험)
- LLM RLHF: 0.1~0.2 권장
Q5. 강화학습 없이 LLM을 정렬할 수 있나요?
A. 네, DPO가 바로 그 방법입니다:
- DPO는 지도학습 스타일로 정렬
- 기술적으로는 강화학습이 아님
- 그래서 “RL-free alignment”라고도 불림
외부 참고 자료
강화학습과 LLM 정렬을 더 깊게 배우고 싶다면:
- AWS RLHF 가이드 – 공식 설명
- Hugging Face TRL 라이브러리 – RLHF/DPO 실습 도구
- DPO 논문 원문 – Stanford 원 논문
- DeepSeek-R1 기술 보고서 – GRPO 상세 설명
- OpenAI Spinning Up RL – 강화학습 기초 학습
정리: 이 글에서 배운 것
✅ RLHF는 인간 피드백으로 LLM을 정렬하는 핵심 기술, 3단계 프로세스
✅ PPO는 클리핑으로 안정적 정책 업데이트, RLHF의 표준 알고리즘
✅ DPO는 보상 모델 없이 선호 데이터로 직접 최적화, 메모리 50% 절감
✅ GRPO는 Critic 없이 그룹 상대 점수 사용, DeepSeek-R1의 핵심
✅ DeepSeek-R1은 GRPO로 추론 능력을 스스로 발현한 혁신적 사례
다음 포스팅에서는 “Fine-tuning 완벽 가이드: LoRA, QLoRA부터 실제 비용까지”에 대해 자세히 알아봅니다. 파라미터 효율적 학습의 세계를 파헤쳐 볼게요!
관련 포스팅:
