강화학습 심화 완벽 가이드: RLHF부터 DPO, GRPO까지! ChatGPT가 말 잘 듣게 된 비밀

핵심 요약

ChatGPT가 왜 그렇게 “말을 잘 듣는” 걸까요? 비밀은 RLHF(Reinforcement Learning from Human Feedback)에 있습니다. 인간의 피드백으로 AI를 훈련시키는 이 기술이 LLM의 혁명을 이끌었죠. 하지만 RLHF는 복잡하고 불안정합니다. 그래서 등장한 것이 DPO(Direct Preference Optimization) – 보상 모델 없이도 동일한 효과를 내는 혁신적 기법입니다. 그리고 2025년 초, DeepSeek-R1은 GRPO(Group Relative Policy Optimization)로 세상을 놀라게 했습니다. 이 포스팅에서는 PPO의 클리핑 메커니즘, DPO가 RLHF를 대체하는 원리, GRPO의 효율성 비밀, 그리고 어떤 상황에서 무엇을 선택해야 하는지까지 완벽하게 분석합니다.

Table of Contents

1. 강화학습 기초: 왜 LLM에 필요한가?

1-1. 강화학습이란?

강화학습(Reinforcement Learning)은 시행착오를 통해 학습하는 머신러닝 방법입니다.

핵심 구성요소:

구성요소	설명	LLM에서의 역할
Agent	학습하는 주체	언어 모델 (GPT, Llama 등)
Environment	Agent가 상호작용하는 세계	사용자 프롬프트 + 대화 맥락
Action	Agent가 취하는 행동	토큰(단어) 생성
Reward	행동의 결과로 받는 보상	인간 선호도 점수
Policy	행동 결정 규칙	모델의 가중치

비유로 이해하기:
강화학습은 강아지 훈련과 비슷합니다. “앉아”라고 했을 때 앉으면 간식(보상)을 주고, 엉뚱한 행동을 하면 무시합니다. 강아지는 점점 간식을 많이 받는 행동을 학습하죠. LLM도 마찬가지입니다 – 좋은 답변에 높은 보상, 나쁜 답변에 낮은 보상을 주면서 “좋은 답변”이 무엇인지 학습합니다.

1-2. LLM에 강화학습이 필요한 이유

기존 LLM 학습의 한계:

Pretraining: 인터넷 텍스트로 “다음 단어 예측” 학습 → 지식은 있지만 방향성 없음
SFT (Supervised Fine-Tuning): 좋은 예시로 미세조정 → 일부 개선되지만 한계

문제:

유해한 내용 생성 가능
사용자 의도와 다른 답변
거짓 정보를 자신 있게 말함 (AI 환각 완벽 분석 참조)

강화학습이 해결하는 것:

“좋은 답변”의 기준을 인간의 선호도로 정의
보상 신호를 통해 모델을 인간의 가치에 정렬
SFT만으로는 불가능한 세밀한 행동 조정

2. RLHF: ChatGPT를 “착하게” 만든 기술

2-1. RLHF의 3단계 프로세스

RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 보상으로 사용하는 강화학습입니다.

AWS RLHF 가이드에 따르면:

1단계: Supervised Fine-Tuning (SFT)

고품질 프롬프트-응답 쌍으로 기본 모델 미세조정
“모범 답안”으로 기초 역량 향상

2단계: 보상 모델(Reward Model) 학습

동일 프롬프트에 여러 응답 생성
인간 평가자가 선호도 순위 매김
이 데이터로 보상 모델 학습 → 인간 선호도를 점수화

3단계: PPO를 통한 정책 최적화

보상 모델의 점수를 보상으로 사용
PPO 알고리즘으로 정책(모델) 업데이트
더 높은 보상을 받는 방향으로 학습

2-2. 보상 모델: 인간의 가치를 수치화

보상 모델의 역할:

인간 평가자의 선호도를 학습
임의의 텍스트에 대해 “얼마나 좋은지” 점수 예측
이후 PPO 학습 시 “인간 역할” 대신 수행

Bradley-Terry 모델:
선호도 데이터를 모델링하는 대표적인 방법입니다.

P(y_1 \succ y_2 | x) = \sigma(r(x, y_1) – r(x, y_2))

( $y_1\succ y_2$ ): 응답 ( $y_1$ )이 ( $y_2$ )보다 선호됨
( $\sigma$ ): 시그모이드 함수
( $r(x, y)$ ): 보상 함수

2-3. RLHF의 한계

RLHF는 강력하지만 문제점도 있습니다:

문제	설명
복잡성	4개 모델 필요 (정책, 참조, 보상, 가치 함수)
불안정성	PPO의 하이퍼파라미터 민감성
비용	인간 평가자 고용 비용 + 계산 비용
보상 해킹	모델이 보상 높이는 “꼼수”를 학습

3. PPO: RLHF의 심장, 안정적 정책 최적화

3-1. PPO란?

PPO(Proximal Policy Optimization)는 2017년 OpenAI가 발표한 강화학습 알고리즘으로, RLHF에서 가장 널리 사용됩니다.

핵심 아이디어:

“정책을 업데이트할 때 너무 급격한 변화를 막아 안정적으로 학습한다.”

비유:
PPO는 자동차 속도 제한과 같습니다. 아무리 좋은 방향을 찾았더라도, 한 번에 너무 급격하게 방향을 틀면 차가 전복될 수 있죠. PPO는 “한 번에 이 정도까지만 바꿔!”라는 제한을 둡니다.

3-2. PPO의 클리핑 메커니즘

PPO의 핵심은 클리핑된 목적 함수입니다.

클리핑 목적 함수:

L^{CLIP}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) \cdot A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot A_t\right)\right]

구성요소 설명:

기호	의미	설명
$(r_t(\theta))$	확률 비율	새 정책 / 이전 정책의 행동 확률 비율
$(A_t)$	어드밴티지	실제 보상 – 예상 보상 (얼마나 좋았는지)
$(\epsilon)$	클리핑 범위	보통 0.1~0.2
$(\text{clip})$	클리핑 함수	비율을 [1-ε, 1+ε] 범위로 제한

작동 원리:

Advantage > 0 (좋은 행동): 확률 높이고 싶지만, 최대 (1+ε)까지만
Advantage : 확률 낮추고 싶지만, 최소 (1-ε)까지만

3-3. PPO가 RLHF에서 사용되는 이유

PPO 논문에 따르면:

PPO의 장점:

안정성: 급격한 정책 변화 방지
단순성: TRPO보다 구현이 훨씬 간단
효율성: 한 번 수집한 데이터로 여러 번 업데이트 가능
일반성: 다양한 환경에서 잘 작동

RLHF에서의 적용:

언어 모델의 정책(확률 분포)을 업데이트
KL 발산 제약을 추가하여 원본 모델에서 너무 벗어나지 않도록

3-4. PPO의 실제 학습 과정

RLHF PPO 학습 루프:

샘플링: 현재 정책으로 프롬프트에 응답 생성
보상 계산: 보상 모델로 응답의 점수 매김
어드밴티지 계산: 예상 대비 얼마나 좋았는지 계산
정책 업데이트: 클리핑된 목적 함수로 모델 업데이트
반복: 1~4단계 반복

4. DPO: 보상 모델 없이 RLHF와 동등한 효과

4-1. DPO의 혁신

DPO(Direct Preference Optimization)는 2023년 Stanford에서 발표한 혁신적인 방법입니다.

핵심 아이디어:

“보상 모델을 명시적으로 학습하지 않고, 선호도 데이터로 정책을 직접 최적화한다.”

DP O 논문의 핵심 발견:

“RLHF의 목적 함수를 수학적으로 변환하면, 보상 모델 없이도 동일한 최적해에 도달할 수 있다.”

4-2. DPO vs RLHF 비교

항목	RLHF (PPO)	DPO
필요 모델 수	4개 (정책, 참조, 보상, 가치)	2개 (정책, 참조)
학습 단계	3단계	2단계
보상 모델	필요	불필요
학습 방식	강화학습	지도학습 스타일
안정성	하이퍼파라미터 민감	안정적
메모리 사용	높음	50% 절감
구현 복잡도	높음	낮음

4-3. DPO의 수학적 원리

RLHF 목적 함수:

\max_\pi \mathbb{E}{x, y \sim \pi}[r(x, y)] – \beta \cdot D{KL}(\pi || \pi_{ref})

DPO의 핵심 변환:

보상 함수를 정책의 함수로 표현할 수 있다는 발견:

r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} + \beta \log Z(x)

DPO 손실 함수:

L_{DPO}(\theta) = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} – \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right]

( $y_w$ ): 선호되는 응답 (winner)
( $y_l$ ): 선호되지 않는 응답 (loser)
( $\pi_\theta$ ): 학습 중인 정책
( $\pi_{ref}$ ): 참조 정책 (SFT 모델)

직관적 이해:

선호되는 응답 ( $y_w$ )의 확률은 높이고
선호되지 않는 응답 ( $y_l$ )의 확률은 낮춘다
참조 모델 대비 상대적인 확률 변화로 계산

4-4. DPO의 장단점

장점:

메모리 50% 절감: 보상 모델, 가치 함수 불필요
구현 단순화: 표준 분류 손실 함수로 학습
안정적 학습: 강화학습 특유의 불안정성 제거
이론적 동등성: RLHF와 수학적으로 동일한 해

단점:

길이 편향: 긴 응답을 선호하는 경향
오프라인 학습: 실시간 탐색 불가
선호 데이터 의존: 대량의 고품질 선호 데이터 필요

4-5. DPO의 변형들

변형	핵심 개선
IPO	DPO의 과적합 문제 해결
KTO	선호 쌍 대신 개별 평가 사용
ORPO	SFT와 DPO를 한 단계로 통합
SimPO	참조 모델 없이도 작동
LMPO	길이 편향 문제 해결

5. GRPO: DeepSeek-R1의 비밀 무기

5-1. GRPO란?

GRPO(Group Relative Policy Optimization)는 DeepSeek이 개발한 강화학습 기법으로, DeepSeek-R1의 핵심 기술입니다.

DeepSeek-R1 분석에 따르면:

핵심 아이디어:

“Critic 모델(가치 함수) 없이, 그룹 내 상대적 점수로 보상을 계산한다.”

5-2. GRPO vs PPO 비교

항목	PPO	GRPO
Critic 모델	필요 (가치 함수 학습)	불필요
어드밴티지 계산	Critic 모델 예측 기반	그룹 내 상대 점수
메모리 사용	높음	낮음
학습 복잡도	복잡	단순
적용 대상	범용 RL	LLM 최적화 특화

5-3. GRPO의 작동 원리

1단계: 그룹 샘플링

하나의 질문 (q)에 대해 G개의 응답 샘플링
예: G=16이면 같은 질문에 16개 답변 생성

2단계: 보상 계산

각 응답에 대해 보상 ( $r_i$ ) 계산
정확도 보상, 형식 보상 등 규칙 기반으로도 가능

3단계: 그룹 상대 점수

그룹 평균과 표준편차로 정규화
각 응답이 그룹 내에서 얼마나 좋은지 상대 평가

\hat{A}_i = \frac{r_i – \text{mean}(r_1, …, r_G)}{\text{std}(r_1, …, r_G)}

4단계: 정책 업데이트

상대적으로 좋은 응답의 확률 높임
상대적으로 나쁜 응답의 확률 낮춤

5-4. DeepSeek-R1의 학습 파이프라인

DeepSeek-R1 논문의 4단계 학습:

1단계: 콜드스타트 SFT

고품질 Chain-of-Thought 예제로 초기화
기본 추론 능력 확보

2단계: 추론 중심 GRPO

수학, 코딩 등 추론 태스크에 집중
정확도 보상 + 언어 일관성 보상

3단계: Rejection Sampling SFT

GRPO로 학습된 모델로 고품질 데이터 생성
다양한 도메인 데이터 포함하여 SFT

4단계: 최종 GRPO

추론 + 일반 능력 모두 최적화
최종 정렬 수행

5-5. GRPO의 놀라운 발견

DeepSeek 연구팀은 GRPO 학습 중 놀라운 현상을 관찰했습니다:

“모델이 스스로 사고 시간을 늘리고, 문제 해결 전략을 개선하면서 추론 능력이 성장했습니다.”

Aha Moment:

학습 중간 단계에서 갑자기 성능 도약
모델이 자기 검증, 재고(rethinking) 능력 획득
명시적으로 가르치지 않았는데 스스로 발현

6. 실전 가이드: 언제 무엇을 선택할까?

6-1. 알고리즘 선택 가이드

상황	추천 알고리즘	이유
복잡한 보상 함수 필요	PPO	유연한 보상 설계 가능
선호 쌍 데이터 보유	DPO	간단하고 안정적
계산 자원 제한	DPO / GRPO	메모리 효율적
추론 능력 강화	GRPO	DeepSeek-R1 검증
빠른 실험/프로토타입	DPO	구현 간단
최고 성능 필요	PPO + 충분한 자원	가장 검증된 방법

6-2. 선호 데이터 구축 팁

좋은 선호 데이터의 특징:

다양한 프롬프트: 다양한 주제와 난이도
명확한 선호 차이: 애매한 쌍 제외
일관된 평가 기준: 평가자 간 기준 통일
충분한 양: DPO는 최소 수천 쌍 권장

6-3. 하이퍼파라미터 가이드

DPO:

( $\beta$ ): 0.1~0.5 (KL 제약 강도)
학습률: $1e-6$ ~ 5e-6
배치 크기: 32~128

PPO:

클리핑 ( $\epsilon$ ): 0.1~0.2
KL 계수: 0.01~0.1
학습률: 1e-6 ~ 1e-5

GRPO:

그룹 크기 G: 8~16
온도: 1.0 근처
클리핑: PPO와 유사

6-4. 주의사항

보상 해킹(Reward Hacking) 방지:

모델이 보상을 높이는 의도치 않은 패턴 학습
예: 무조건 긴 답변, 특정 문구 반복
해결책: 다양한 보상 신호, 정기적 품질 검증

분포 드리프트(Distribution Drift) 방지:

학습이 진행되면서 원본 모델에서 너무 멀어짐
해결책: KL 제약 적절히 설정, 참조 모델 유지

정리: 핵심 포인트

✅ RLHF는 SFT → 보상 모델 → PPO의 3단계로 인간 선호에 정렬

✅ PPO는 클리핑 메커니즘으로 급격한 정책 변화를 방지

✅ DPO는 보상 모델 없이 RLHF와 수학적으로 동등한 결과

✅ DPO는 메모리 50% 절감, 구현 단순화, 안정적 학습

✅ GRPO는 Critic 모델 없이 그룹 상대 점수로 효율적 학습

✅ DeepSeek-R1은 GRPO로 스스로 추론 능력을 발현

FAQ: 자주 묻는 질문

Q1. DPO가 항상 RLHF보다 좋은가요?

A. 상황에 따라 다릅니다:

DPO 유리: 제한된 자원, 빠른 실험, 안정적 학습 필요
RLHF 유리: 복잡한 보상 설계, 최고 성능 추구, 온라인 학습 필요
최근 연구에서는 대부분의 경우 DPO가 충분하다고 평가

Q2. GRPO와 DPO 중 어떤 것을 선택해야 하나요?

A. 목적에 따라 다릅니다:

GRPO: 추론 능력 강화, 규칙 기반 보상 사용 가능
DPO: 선호 쌍 데이터 활용, 일반적인 정렬
DeepSeek-R1처럼 추론 특화라면 GRPO 추천

Q3. 선호 데이터가 없으면 어떻게 하나요?

A. 여러 방법이 있습니다:

RLAIF: 더 강한 AI 모델이 평가 (GPT-4 등)
Self-Play: 모델이 스스로 응답 비교
규칙 기반 보상: 정확도, 형식 등 자동 평가 → GRPO 적용 가능

Q4. PPO의 클리핑 범위 ε은 어떻게 설정하나요?

A. 일반적인 가이드라인:

기본값: 0.2
안정성 중시: 0.1 (더 보수적)
빠른 학습: 0.3 (더 공격적, 불안정 위험)
LLM RLHF: 0.1~0.2 권장

Q5. 강화학습 없이 LLM을 정렬할 수 있나요?

A. 네, DPO가 바로 그 방법입니다:

DPO는 지도학습 스타일로 정렬
기술적으로는 강화학습이 아님
그래서 “RL-free alignment”라고도 불림

외부 참고 자료

강화학습과 LLM 정렬을 더 깊게 배우고 싶다면:

AWS RLHF 가이드 – 공식 설명
Hugging Face TRL 라이브러리 – RLHF/DPO 실습 도구
DPO 논문 원문 – Stanford 원 논문
DeepSeek-R1 기술 보고서 – GRPO 상세 설명
OpenAI Spinning Up RL – 강화학습 기초 학습

정리: 이 글에서 배운 것

✅ RLHF는 인간 피드백으로 LLM을 정렬하는 핵심 기술, 3단계 프로세스

✅ PPO는 클리핑으로 안정적 정책 업데이트, RLHF의 표준 알고리즘

✅ DPO는 보상 모델 없이 선호 데이터로 직접 최적화, 메모리 50% 절감

✅ GRPO는 Critic 없이 그룹 상대 점수 사용, DeepSeek-R1의 핵심

✅ DeepSeek-R1은 GRPO로 추론 능력을 스스로 발현한 혁신적 사례

다음 포스팅에서는 “Fine-tuning 완벽 가이드: LoRA, QLoRA부터 실제 비용까지”에 대해 자세히 알아봅니다. 파라미터 효율적 학습의 세계를 파헤쳐 볼게요!

관련 포스팅:

핵심 요약

1. 강화학습 기초: 왜 LLM에 필요한가?

1-1. 강화학습이란?

1-2. LLM에 강화학습이 필요한 이유

2. RLHF: ChatGPT를 “착하게” 만든 기술

2-1. RLHF의 3단계 프로세스

2-2. 보상 모델: 인간의 가치를 수치화

2-3. RLHF의 한계

3. PPO: RLHF의 심장, 안정적 정책 최적화

3-1. PPO란?

3-2. PPO의 클리핑 메커니즘

3-3. PPO가 RLHF에서 사용되는 이유

3-4. PPO의 실제 학습 과정

4. DPO: 보상 모델 없이 RLHF와 동등한 효과

4-1. DPO의 혁신

4-2. DPO vs RLHF 비교

4-3. DPO의 수학적 원리

4-4. DPO의 장단점

4-5. DPO의 변형들

5. GRPO: DeepSeek-R1의 비밀 무기

5-1. GRPO란?

5-2. GRPO vs PPO 비교

5-3. GRPO의 작동 원리

5-4. DeepSeek-R1의 학습 파이프라인

5-5. GRPO의 놀라운 발견

6. 실전 가이드: 언제 무엇을 선택할까?

6-1. 알고리즘 선택 가이드

6-2. 선호 데이터 구축 팁

6-3. 하이퍼파라미터 가이드

6-4. 주의사항

정리: 핵심 포인트

FAQ: 자주 묻는 질문

Q1. DPO가 항상 RLHF보다 좋은가요?

Q2. GRPO와 DPO 중 어떤 것을 선택해야 하나요?

Q3. 선호 데이터가 없으면 어떻게 하나요?

Q4. PPO의 클리핑 범위 ε은 어떻게 설정하나요?

Q5. 강화학습 없이 LLM을 정렬할 수 있나요?

외부 참고 자료

정리: 이 글에서 배운 것

이 글 공유하기:

이것이 좋아요:

관련

관련된 글:

답글 남기기 응답 취소