강화학습 심화 완벽 가이드: RLHF부터 DPO, GRPO까지! ChatGPT가 말 잘 듣게 된 비밀


핵심 요약

ChatGPT가 왜 그렇게 “말을 잘 듣는” 걸까요? 비밀은 RLHF(Reinforcement Learning from Human Feedback)에 있습니다. 인간의 피드백으로 AI를 훈련시키는 이 기술이 LLM의 혁명을 이끌었죠. 하지만 RLHF는 복잡하고 불안정합니다. 그래서 등장한 것이 DPO(Direct Preference Optimization) – 보상 모델 없이도 동일한 효과를 내는 혁신적 기법입니다. 그리고 2025년 초, DeepSeek-R1은 GRPO(Group Relative Policy Optimization)로 세상을 놀라게 했습니다. 이 포스팅에서는 PPO의 클리핑 메커니즘, DPO가 RLHF를 대체하는 원리, GRPO의 효율성 비밀, 그리고 어떤 상황에서 무엇을 선택해야 하는지까지 완벽하게 분석합니다.



1. 강화학습 기초: 왜 LLM에 필요한가?

1-1. 강화학습이란?

강화학습(Reinforcement Learning)시행착오를 통해 학습하는 머신러닝 방법입니다.

핵심 구성요소:

구성요소설명LLM에서의 역할
Agent학습하는 주체언어 모델 (GPT, Llama 등)
EnvironmentAgent가 상호작용하는 세계사용자 프롬프트 + 대화 맥락
ActionAgent가 취하는 행동토큰(단어) 생성
Reward행동의 결과로 받는 보상인간 선호도 점수
Policy행동 결정 규칙모델의 가중치

비유로 이해하기:
강화학습은 강아지 훈련과 비슷합니다. “앉아”라고 했을 때 앉으면 간식(보상)을 주고, 엉뚱한 행동을 하면 무시합니다. 강아지는 점점 간식을 많이 받는 행동을 학습하죠. LLM도 마찬가지입니다 – 좋은 답변에 높은 보상, 나쁜 답변에 낮은 보상을 주면서 “좋은 답변”이 무엇인지 학습합니다.

1-2. LLM에 강화학습이 필요한 이유

기존 LLM 학습의 한계:

  1. Pretraining: 인터넷 텍스트로 “다음 단어 예측” 학습 → 지식은 있지만 방향성 없음
  2. SFT (Supervised Fine-Tuning): 좋은 예시로 미세조정 → 일부 개선되지만 한계

문제:

  • 유해한 내용 생성 가능
  • 사용자 의도와 다른 답변
  • 거짓 정보를 자신 있게 말함 (AI 환각 완벽 분석 참조)

강화학습이 해결하는 것:

  • “좋은 답변”의 기준을 인간의 선호도로 정의
  • 보상 신호를 통해 모델을 인간의 가치에 정렬
  • SFT만으로는 불가능한 세밀한 행동 조정

2. RLHF: ChatGPT를 “착하게” 만든 기술

2-1. RLHF의 3단계 프로세스

RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 보상으로 사용하는 강화학습입니다.

AWS RLHF 가이드에 따르면:

1단계: Supervised Fine-Tuning (SFT)

  • 고품질 프롬프트-응답 쌍으로 기본 모델 미세조정
  • “모범 답안”으로 기초 역량 향상

2단계: 보상 모델(Reward Model) 학습

  • 동일 프롬프트에 여러 응답 생성
  • 인간 평가자가 선호도 순위 매김
  • 이 데이터로 보상 모델 학습 → 인간 선호도를 점수화

3단계: PPO를 통한 정책 최적화

  • 보상 모델의 점수를 보상으로 사용
  • PPO 알고리즘으로 정책(모델) 업데이트
  • 더 높은 보상을 받는 방향으로 학습

2-2. 보상 모델: 인간의 가치를 수치화

보상 모델의 역할:

  • 인간 평가자의 선호도를 학습
  • 임의의 텍스트에 대해 “얼마나 좋은지” 점수 예측
  • 이후 PPO 학습 시 “인간 역할” 대신 수행

Bradley-Terry 모델:
선호도 데이터를 모델링하는 대표적인 방법입니다.

P(y1y2|x)=σ(r(x,y1)r(x,y2))P(y_1 \succ y_2 | x) = \sigma(r(x, y_1) – r(x, y_2))
  • (y1y2y_1\succ y_2): 응답 (y1y_1)이 (y2y_2)보다 선호됨
  • (σ\sigma): 시그모이드 함수
  • (r(x,y)r(x, y)): 보상 함수

2-3. RLHF의 한계

RLHF는 강력하지만 문제점도 있습니다:

문제설명
복잡성4개 모델 필요 (정책, 참조, 보상, 가치 함수)
불안정성PPO의 하이퍼파라미터 민감성
비용인간 평가자 고용 비용 + 계산 비용
보상 해킹모델이 보상 높이는 “꼼수”를 학습

3. PPO: RLHF의 심장, 안정적 정책 최적화

3-1. PPO란?

PPO(Proximal Policy Optimization)는 2017년 OpenAI가 발표한 강화학습 알고리즘으로, RLHF에서 가장 널리 사용됩니다.

핵심 아이디어:

“정책을 업데이트할 때 너무 급격한 변화를 막아 안정적으로 학습한다.”

비유:
PPO는 자동차 속도 제한과 같습니다. 아무리 좋은 방향을 찾았더라도, 한 번에 너무 급격하게 방향을 틀면 차가 전복될 수 있죠. PPO는 “한 번에 이 정도까지만 바꿔!”라는 제한을 둡니다.

3-2. PPO의 클리핑 메커니즘

PPO의 핵심은 클리핑된 목적 함수입니다.

클리핑 목적 함수:

LCLIP(θ)=𝔼[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)]L^{CLIP}(\theta) = \mathbb{E}\left[\min\left(r_t(\theta) \cdot A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot A_t\right)\right]

구성요소 설명:

기호의미설명
(rt(θ))(r_t(\theta))확률 비율새 정책 / 이전 정책의 행동 확률 비율
(At)(A_t)어드밴티지실제 보상 – 예상 보상 (얼마나 좋았는지)
(ϵ)(\epsilon)클리핑 범위보통 0.1~0.2
(clip)(\text{clip})클리핑 함수비율을 [1-ε, 1+ε] 범위로 제한

작동 원리:

  1. Advantage > 0 (좋은 행동): 확률 높이고 싶지만, 최대 (1+ε)까지만
  2. Advantage : 확률 낮추고 싶지만, 최소 (1-ε)까지만

3-3. PPO가 RLHF에서 사용되는 이유

PPO 논문에 따르면:

PPO의 장점:

  • 안정성: 급격한 정책 변화 방지
  • 단순성: TRPO보다 구현이 훨씬 간단
  • 효율성: 한 번 수집한 데이터로 여러 번 업데이트 가능
  • 일반성: 다양한 환경에서 잘 작동

RLHF에서의 적용:

  • 언어 모델의 정책(확률 분포)을 업데이트
  • KL 발산 제약을 추가하여 원본 모델에서 너무 벗어나지 않도록

3-4. PPO의 실제 학습 과정

RLHF PPO 학습 루프:

  1. 샘플링: 현재 정책으로 프롬프트에 응답 생성
  2. 보상 계산: 보상 모델로 응답의 점수 매김
  3. 어드밴티지 계산: 예상 대비 얼마나 좋았는지 계산
  4. 정책 업데이트: 클리핑된 목적 함수로 모델 업데이트
  5. 반복: 1~4단계 반복

4. DPO: 보상 모델 없이 RLHF와 동등한 효과

4-1. DPO의 혁신

DPO(Direct Preference Optimization)는 2023년 Stanford에서 발표한 혁신적인 방법입니다.

핵심 아이디어:

“보상 모델을 명시적으로 학습하지 않고, 선호도 데이터로 정책을 직접 최적화한다.”

DPO 논문의 핵심 발견:

“RLHF의 목적 함수를 수학적으로 변환하면, 보상 모델 없이도 동일한 최적해에 도달할 수 있다.”

4-2. DPO vs RLHF 비교

항목RLHF (PPO)DPO
필요 모델 수4개 (정책, 참조, 보상, 가치)2개 (정책, 참조)
학습 단계3단계2단계
보상 모델필요불필요
학습 방식강화학습지도학습 스타일
안정성하이퍼파라미터 민감안정적
메모리 사용높음50% 절감
구현 복잡도높음낮음

4-3. DPO의 수학적 원리

RLHF 목적 함수:

maxπ𝔼x,yπ[r(x,y)]βDKL(π||πref)\max_\pi \mathbb{E}{x, y \sim \pi}[r(x, y)] – \beta \cdot D{KL}(\pi || \pi_{ref})

DPO의 핵심 변환:

보상 함수를 정책의 함수로 표현할 수 있다는 발견:

r(x,y)=βlogπθ(y|x)πref(y|x)+βlogZ(x)r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} + \beta \log Z(x)

DPO 손실 함수:

LDPO(θ)=𝔼[logσ(βlogπθ(yw|x)πref(yw|x)βlogπθ(yl|x)πref(yl|x))]L_{DPO}(\theta) = -\mathbb{E}\left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} – \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right]
  • (ywy_w): 선호되는 응답 (winner)
  • (yly_l): 선호되지 않는 응답 (loser)
  • (πθ\pi_\theta): 학습 중인 정책
  • (πref\pi_{ref}): 참조 정책 (SFT 모델)

직관적 이해:

  • 선호되는 응답 (ywy_w)의 확률은 높이고
  • 선호되지 않는 응답 (yly_l)의 확률은 낮춘다
  • 참조 모델 대비 상대적인 확률 변화로 계산

4-4. DPO의 장단점

장점:

  • 메모리 50% 절감: 보상 모델, 가치 함수 불필요
  • 구현 단순화: 표준 분류 손실 함수로 학습
  • 안정적 학습: 강화학습 특유의 불안정성 제거
  • 이론적 동등성: RLHF와 수학적으로 동일한 해

단점:

  • 길이 편향: 긴 응답을 선호하는 경향
  • 오프라인 학습: 실시간 탐색 불가
  • 선호 데이터 의존: 대량의 고품질 선호 데이터 필요

4-5. DPO의 변형들

변형핵심 개선
IPODPO의 과적합 문제 해결
KTO선호 쌍 대신 개별 평가 사용
ORPOSFT와 DPO를 한 단계로 통합
SimPO참조 모델 없이도 작동
LMPO길이 편향 문제 해결

5. GRPO: DeepSeek-R1의 비밀 무기

5-1. GRPO란?

GRPO(Group Relative Policy Optimization)는 DeepSeek이 개발한 강화학습 기법으로, DeepSeek-R1의 핵심 기술입니다.

DeepSeek-R1 분석에 따르면:

핵심 아이디어:

“Critic 모델(가치 함수) 없이, 그룹 내 상대적 점수로 보상을 계산한다.”

5-2. GRPO vs PPO 비교

항목PPOGRPO
Critic 모델필요 (가치 함수 학습)불필요
어드밴티지 계산Critic 모델 예측 기반그룹 내 상대 점수
메모리 사용높음낮음
학습 복잡도복잡단순
적용 대상범용 RLLLM 최적화 특화

5-3. GRPO의 작동 원리

1단계: 그룹 샘플링

  • 하나의 질문 (q)에 대해 G개의 응답 샘플링
  • 예: G=16이면 같은 질문에 16개 답변 생성

2단계: 보상 계산

  • 각 응답에 대해 보상 (rir_i) 계산
  • 정확도 보상, 형식 보상 등 규칙 기반으로도 가능

3단계: 그룹 상대 점수

  • 그룹 평균과 표준편차로 정규화
  • 각 응답이 그룹 내에서 얼마나 좋은지 상대 평가
A^i=rimean(r1,,rG)std(r1,,rG)\hat{A}_i = \frac{r_i – \text{mean}(r_1, …, r_G)}{\text{std}(r_1, …, r_G)}

4단계: 정책 업데이트

  • 상대적으로 좋은 응답의 확률 높임
  • 상대적으로 나쁜 응답의 확률 낮춤

5-4. DeepSeek-R1의 학습 파이프라인

DeepSeek-R1 논문의 4단계 학습:

1단계: 콜드스타트 SFT

  • 고품질 Chain-of-Thought 예제로 초기화
  • 기본 추론 능력 확보

2단계: 추론 중심 GRPO

  • 수학, 코딩 등 추론 태스크에 집중
  • 정확도 보상 + 언어 일관성 보상

3단계: Rejection Sampling SFT

  • GRPO로 학습된 모델로 고품질 데이터 생성
  • 다양한 도메인 데이터 포함하여 SFT

4단계: 최종 GRPO

  • 추론 + 일반 능력 모두 최적화
  • 최종 정렬 수행

5-5. GRPO의 놀라운 발견

DeepSeek 연구팀은 GRPO 학습 중 놀라운 현상을 관찰했습니다:

“모델이 스스로 사고 시간을 늘리고, 문제 해결 전략을 개선하면서 추론 능력이 성장했습니다.”

Aha Moment:

  • 학습 중간 단계에서 갑자기 성능 도약
  • 모델이 자기 검증, 재고(rethinking) 능력 획득
  • 명시적으로 가르치지 않았는데 스스로 발현

6. 실전 가이드: 언제 무엇을 선택할까?

6-1. 알고리즘 선택 가이드

상황추천 알고리즘이유
복잡한 보상 함수 필요PPO유연한 보상 설계 가능
선호 쌍 데이터 보유DPO간단하고 안정적
계산 자원 제한DPO / GRPO메모리 효율적
추론 능력 강화GRPODeepSeek-R1 검증
빠른 실험/프로토타입DPO구현 간단
최고 성능 필요PPO + 충분한 자원가장 검증된 방법

6-2. 선호 데이터 구축 팁

좋은 선호 데이터의 특징:

  • 다양한 프롬프트: 다양한 주제와 난이도
  • 명확한 선호 차이: 애매한 쌍 제외
  • 일관된 평가 기준: 평가자 간 기준 통일
  • 충분한 양: DPO는 최소 수천 쌍 권장

6-3. 하이퍼파라미터 가이드

DPO:

  • (β\beta): 0.1~0.5 (KL 제약 강도)
  • 학습률: 1e61e-6 ~ 5e-6
  • 배치 크기: 32~128

PPO:

  • 클리핑 (ϵ\epsilon): 0.1~0.2
  • KL 계수: 0.01~0.1
  • 학습률: 1e-6 ~ 1e-5

GRPO:

  • 그룹 크기 G: 8~16
  • 온도: 1.0 근처
  • 클리핑: PPO와 유사

6-4. 주의사항

보상 해킹(Reward Hacking) 방지:

  • 모델이 보상을 높이는 의도치 않은 패턴 학습
  • 예: 무조건 긴 답변, 특정 문구 반복
  • 해결책: 다양한 보상 신호, 정기적 품질 검증

분포 드리프트(Distribution Drift) 방지:

  • 학습이 진행되면서 원본 모델에서 너무 멀어짐
  • 해결책: KL 제약 적절히 설정, 참조 모델 유지

정리: 핵심 포인트

RLHF는 SFT → 보상 모델 → PPO의 3단계로 인간 선호에 정렬

PPO클리핑 메커니즘으로 급격한 정책 변화를 방지

DPO는 보상 모델 없이 RLHF와 수학적으로 동등한 결과

DPO는 메모리 50% 절감, 구현 단순화, 안정적 학습

GRPOCritic 모델 없이 그룹 상대 점수로 효율적 학습

DeepSeek-R1은 GRPO로 스스로 추론 능력을 발현


FAQ: 자주 묻는 질문

Q1. DPO가 항상 RLHF보다 좋은가요?

A. 상황에 따라 다릅니다:

  • DPO 유리: 제한된 자원, 빠른 실험, 안정적 학습 필요
  • RLHF 유리: 복잡한 보상 설계, 최고 성능 추구, 온라인 학습 필요
  • 최근 연구에서는 대부분의 경우 DPO가 충분하다고 평가

Q2. GRPO와 DPO 중 어떤 것을 선택해야 하나요?

A. 목적에 따라 다릅니다:

  • GRPO: 추론 능력 강화, 규칙 기반 보상 사용 가능
  • DPO: 선호 쌍 데이터 활용, 일반적인 정렬
  • DeepSeek-R1처럼 추론 특화라면 GRPO 추천

Q3. 선호 데이터가 없으면 어떻게 하나요?

A. 여러 방법이 있습니다:

  • RLAIF: 더 강한 AI 모델이 평가 (GPT-4 등)
  • Self-Play: 모델이 스스로 응답 비교
  • 규칙 기반 보상: 정확도, 형식 등 자동 평가 → GRPO 적용 가능

Q4. PPO의 클리핑 범위 ε은 어떻게 설정하나요?

A. 일반적인 가이드라인:

  • 기본값: 0.2
  • 안정성 중시: 0.1 (더 보수적)
  • 빠른 학습: 0.3 (더 공격적, 불안정 위험)
  • LLM RLHF: 0.1~0.2 권장

Q5. 강화학습 없이 LLM을 정렬할 수 있나요?

A. 네, DPO가 바로 그 방법입니다:

  • DPO는 지도학습 스타일로 정렬
  • 기술적으로는 강화학습이 아님
  • 그래서 “RL-free alignment”라고도 불림

외부 참고 자료

강화학습과 LLM 정렬을 더 깊게 배우고 싶다면:


정리: 이 글에서 배운 것

RLHF는 인간 피드백으로 LLM을 정렬하는 핵심 기술, 3단계 프로세스

PPO는 클리핑으로 안정적 정책 업데이트, RLHF의 표준 알고리즘

DPO는 보상 모델 없이 선호 데이터로 직접 최적화, 메모리 50% 절감

GRPO는 Critic 없이 그룹 상대 점수 사용, DeepSeek-R1의 핵심

DeepSeek-R1은 GRPO로 추론 능력을 스스로 발현한 혁신적 사례

다음 포스팅에서는 “Fine-tuning 완벽 가이드: LoRA, QLoRA부터 실제 비용까지”에 대해 자세히 알아봅니다. 파라미터 효율적 학습의 세계를 파헤쳐 볼게요!


관련 포스팅:

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다