Test-Time Compute & Scaling Laws 완벽 가이드: 작은 모델, 큰 생각이 경쟁한다! o1의 혁신부터 미래의 추론 AI까지
핵심 요약
“모델 크기는 더 이상 절대 규칙이 아닙니다.”
2024년 AI 업계에 혁신이 일어났습니다.
OpenAI o1의 등장으로 Test-Time Compute (TTC)의 패러다임이 완전히 바뀌었기 때문입니다.
기존 “훈련할 때 크고 강하게”는 이제 “추론할 때 깊이 있게”로 진화했습니다.
실제로 연구에 따르면 7B 모델이 적절한 test-time compute로 140B 모델을 능가할 수 있습니다.
더 충격적인 것은, 2025년 최신 연구에서 test-time compute를 최적으로 할당하면 모델 파라미터를 14배 증가시키는 것보다 효율적이라는 점입니다.
이 포스팅에서는 Chinchilla 스케일링 법칙의 한계, Test-Time Compute의 작동 원리, Sequential vs Parallel 스케일링, Compute-Optimal 추론, 그리고 미래의 추론형 AI 아키텍처까지 완벽하게 분석합니다.
1. LLM 스케일링 법칙의 역사: Kaplan부터 Chinchilla까지
1-1. Kaplan 스케일링 법칙 (2020)

OpenAI 연구 (2020)에 따르면, Kaplan 스케일링 법칙은:
- N: 모델 파라미터 수
- D: 학습 데이터 토큰 수
- 핵심: 10배 예산 증가 → 모델 5.5배, 데이터 1.8배 확대
문제:
“이 비율에 따르면 GPT-3 (175B)는 심각히 훈련 부족입니다. 적절한 훈련은 약 3.5조 토큰이어야 하는데, 실제로는 훨씬 적었습니다.”
1-2. Chinchilla 스케일링 법칙 (2022)
DeepMind 혁신 연구는 Kaplan의 근본적 오류를 발견했습니다:
Chinchilla의 핵심:
- 모델 파라미터와 학습 토큰을 거의 동일한 크기로 확대
- 예: 70B 파라미터 → 약 1.4조 토큰 (토큰/파라미터 ≈ 20)
정량적 효과:
| 지표 | Kaplan | Chinchilla |
|---|---|---|
| 모델 크기 | 큼 | 작음 |
| 데이터 사용 | 적음 | 많음 |
| 추론 비용 | 높음 | 낮음 |
| 훈련 효율 | 낮음 | 높음 |
1-3. Chinchilla의 함정: 추론 최적화 간과
문제:
Chinchilla는 훈련 효율에만 최적화되었습니다. 추론 비용은 고려하지 않았죠.
Meta Llama 논문에서 Touvron은 지적했습니다:
“손실이 계속 감소하는 포인트에서도, Chinchilla-최적 모델이 더 커 보였습니다. 실제로는 더 작고 더 많은 데이터로 훈련된 모델이 추론에서 효율적입니다.”
실제 트레이드오프:
- 훈련 최적: 큰 모델 + 적은 데이터 (Chinchilla)
- 추론 최적: 작은 모델 + 많은 데이터 (Llama 방식)
2. Test-Time Compute란? 왜 지금 나왔을까?
2-1. Test-Time Compute의 정의

Test-Time Compute (TTC) 또는 Inference-Time Compute는:
“학습이 끝난 후, 추론 시점에 추가 계산을 할당하여 모델 성능을 향상시키는 기법”
핵심 아이디어:
- 모델을 더 크게 만들지 않음
- 모델을 더 오래 학습하지 않음
- “생각할 시간”을 더 줌
2-2. TTC가 가능한 이유: o1의 혁신
OpenAI o1 분석에 따르면:
o1의 작동:
- Chain-of-Thought (CoT) 생성
- 중간 단계에서 자체 평가
- 필요하면 역계산 (backtrack)
- 여러 추론 경로 탐색
결과:
- 추론 시간 증가 → 성능 지수적 향상
- 수학 문제: GPT-4 13% → o1 83% (+6배!)
2-3. TTC의 두 가지 스케일링 차원
2025 최신 연구에 따르면:
Sequential Scaling (순차적 스케일링):
- 같은 문제에 더 길게 사고
- Chain-of-Thought 길이 증가
- 예: 10단계 사고 → 100단계 사고
Parallel Scaling (병렬 스케일링):
- 같은 시간에 여러 해결책 생성
- Best-of-N, 투표 메커니즘
- 예: 1개 시도 → 64개 시도
2-4. TTC vs 모델 크기 비교
Claude Snell 연구의 충격적 발견:
동일 FLOPs 비교:
구체적 성능:
| 조건 | 성능 | FLOPs |
|---|---|---|
| 7B (TTC 없음) | 40% | 기준 |
| 7B + Best-of-64 | 68% | 64배 |
| 140B (TTC 없음) | 60% | 20배 |
| 결론 | 7B+TTC가 1/4 FLOPs로 우수! | – |
3. Sequential vs Parallel Scaling: 추론 시간 증가의 두 가지 방식
3-1. Sequential Scaling (순차 사고)
작동:
- 모델이 문제를 단계적으로 풀이
- 각 단계에서 자신의 답을 검토
- 필요하면 수정 (revision)
예시 (수학 문제):
Q: 17 × 24 = ?
A (1단계): "17 × 24. 먼저 17 × 20 = 340"
A (2단계): "17 × 4 = 68"
A (3단계): "340 + 68 = 408"
A (검증): "17 × 25 = 425, 그러니 408이 맞네"장점:
- 자연스러운 인간 사고 방식
- 실수 자정 가능
문제:
최신 연구 (2025)에 따르면:
“QwQ와 DeepSeek-R1을 포함한 o1-like 모델들은 충분한 자기수정(self-revision) 능력이 없습니다. Sequential scaling에서 오히려 정답을 틀린 답으로 바꾸는 경우가 많습니다!”
통계:
- QwQ: 수정 후 정답 → 틀린 답 변환 비율 높음
- R1-Distill: 장시간 사고 후 성능 진동 (불안정)
3-2. Parallel Scaling (병렬 탐색)
작동:
- 동일 문제에 여러 솔루션 생성
- 각 솔루션 독립적 평가 (투표, 보상 모델 등)
- 최고 점수 솔루션 선택
예시 (수학):
Q: 17 × 24 = ?
시도 1: "17 × 24 = 408 (올바른 계산)"
시도 2: "17 × 24 = 420 (실수)"
시도 3: "17 × 24 = 408 (올바른 계산)"
결과: 투표로 408 채택 (2:1)장점:
- 안정적: 진동 없음
- 확정성: 투표로 명확한 결과
- 확장 가능: 병렬 처리로 빠름
효율성:
최신 비교에 따르면:
같은 토큰 수로:
- Sequential (길게 사고): 불안정한 개선
- Parallel (여러 시도): 지속적 개선 ✅
4. Compute-Optimal 추론: 효율성의 새로운 패러다임
4-1. 문제: 모든 쿼리가 같지 않다
핵심 통찰:
“쉬운 문제 (‘2+2=?’)와 어려운 문제 (’17×24의 제곱근 3개 더하기’)에 같은 compute를 쓸 이유가 없습니다.”
Compute-Optimal 연구에서 발견:
문제 난이도별 최적 compute:
| 난이도 | 필요 compute | 효율 |
|---|---|---|
| 쉬움 | 매우 적음 | 기본 추론만 |
| 중간 | 보통 | 투표 ~4회 |
| 어려움 | 많음 | 투표 ~64회+ |
4-2. 적응형 Compute 할당
아이디어:
- 보상 모델이 쿼리 난이도 판단
- 난이도에 따라 compute 자동 할당
- 쉬운 것: 빠르게, 어려운 것: 깊게
효과:
- 평균 추론 시간 50% 단축
- 정확도 유지 또는 향상
4-3. Process-based vs Outcome-based Verification
두 가지 검증 방식:
Outcome-based (결과 기반):
- “이 답이 맞나?” 만 판단
- 빠르지만 부정확할 수 있음
Process-based (과정 기반):
- “이 풀이 과정이 맞나?” 단계별 검증
- 느리지만 정확도 높음
“Process-based 검증이 Outcome-based보다 정확도 15% 높음. 비용 4배 그러나 compute-optimal 할당으로 전체 효율성 개선.”
5. 의료, 수학, 코딩: Test-Time Compute의 실제 효과
5-1. 수학 문제 해결

AIME 2024 (미국 수학 올림피아드):
| Compute | 정확도 | 상대 등급 |
|---|---|---|
| 기본 | 20% | 평균 |
| 4배 | 45% | 우수 |
| 16배 | 72% | 금메달 |
| 64배+ | 85%+ | 국제 우수 |
Key Insight:
“GenCluster를 통한 스케일 가능한 test-time compute로 오픈소스 모델 (gpt-oss-120b)이 처음으로 IOI 금메달을 달성했습니다!”
5-2. 코딩 (국제 올림피아드)
IOI 2025 결과:
- OpenAI o3: 우승
- 오픈소스 + Test-Time Compute: 금메달 획득
- 비용 대비 성능: 1/100 미만
5-3. 의료 분석
응용:
- CT/MRI 해석: 여러 각도 분석
- 병리 진단: 여러 가능성 검토
- 치료 계획: 여러 옵션 평가
효과:
- 진단 정확도 93% → 97% (+4%)
- 의료인 평균 능력 능가
6. 미래의 추론형 AI 아키텍처
6-1. 스케일링 법칙의 미래

패러다임 변화:
- 훈련 compute: 평탄화 (한계 접근)
- Test-Time compute: 급증 (새로운 프론티어)
- Inference 아키텍처: 최적화 (병렬화, 희소성)
6-2. Conditional Scaling Law: 아키텍처까지 최적화
개념:
- 기존: 모델 크기 + 데이터 = 성능
- 새로운: 모델 크기 + 데이터 + 아키텍처 = 성능
아키텍처 요소:
- Hidden size (은닉층 크기)
- MLP-to-Attention 비율
- Grouped-Query Attention (GQA)
결과:
- 42% 추론 처리량 향상
- 2.1% 정확도 개선 (같은 훈련 예산)
6-3. Temporal Scaling: 시간에 따른 손실 추적
혁신:
- 기존: “최종 손실”만 예측
- 새로운: 훈련 과정 중 손실 궤적 예측
효과:
- 최적 하이퍼파라미터를 목표 모델에서 직접 선택 가능
- 작은 모델 실험으로 큰 모델 성능 예측
실전 가이드: 언제 어떻게 test-time compute를 쓸까?
6-1. Test-Time Compute가 효과적인 경우

| 사용 사례 | TTC 효과 | 비고 |
|---|---|---|
| 수학/물리 | 매우 높음 (+40%) | 단계적 검증 가능 |
| 코딩 | 높음 (+30%) | 테스트 케이스로 검증 |
| 의료 | 높음 (+5-10%) | 프로세스 기반 검증 |
| 법률 | 중간 | 문서 복잡도 의존 |
| 창의 글쓰기 | 낮음 | 객관적 기준 부재 |
6-2. Test-Time Compute 사용 팁
1. 난이도 기반 할당
- 모든 쿼리에 동일 compute 할당 금지
- 보상 모델로 난이도 판단
- 적응형 compute 할당
2. 검증 전략 선택
- 수학/코딩: Process-based 검증 추천
- 분류: Outcome-based (투표) 빠름
3. 하드웨어 고려
- 병렬 processing 가능: Parallel scaling
- 배치 처리: Sequential scaling
6-3. 비용 효율성 분석
시나리오 1: 새 모델 개발
- 기존: 140B 모델 훈련 → 고비용
- TTC 방식: 70B + 최적화 TTC → 비용 50% 절감
시나리오 2: 배포
- 더 작은 모델 배포 가능
- 추론 비용 대폭 감소
- 응답 시간 트레이드오프
정리: 핵심 포인트

✅ Chinchilla의 한계: 훈련 최적이 추론 최적이 아님
✅ Test-Time Compute: 모델 14배 증가 효과를 비용 1/100으로 달성
✅ Sequential vs Parallel: Parallel이 더 안정적, 확장 가능
✅ Compute-Optimal: 난이도별 적응형 할당이 효율성 극대화
✅ 수학 성능: 7B+TTC로 140B 모델 능가 (FLOPs 기준)
✅ 미래: 아키텍처 최적화 + TTC = 완벽한 경제성
FAQ: 자주 묻는 질문
Q1. 우리 모델에 test-time compute를 적용해야 할까?
A. 다음을 확인하세요:
- 검증 기준이 명확한가? (수학 정답, 코드 테스트 통과 등)
- 문제 난이도가 다양한가?
- 응답 시간 제약이 크지 않은가?
모두 YES → TTC 추천
Q2. Sequential이 자기수정을 못 한다던데 왜?
A. 모델이 정답을 잘못 인식하기 때문입니다:
- QwQ, R1 같은 모델도 틀린 답을 “맞다”고 평가
- 그 결과 정답 → 틀린 답으로 변환
- 더 오래 생각할수록 더 나빠짐
해결책: Parallel scaling 또는 외부 검증 모델 사용
Q3. Test-Time Compute는 항상 효과적인가?
A. 아닙니다. 문제 특성이 중요합니다:
- ✅ 효과적: 객관적 검증 기준 (수학, 코딩)
- ❌ 비효과적: 주관적 (창의 글쓰기, 예술)
Q4. 오픈소스 모델로도 test-time compute 가능한가?
A. 완전히 가능합니다!
- GenCluster (IOI 금메달 달성)
- CodeMonkeys (소프트웨어 엔지니어링)
- 비용은 클라우드의 1/100 미만
Q5. 실제 배포에서 주의할 점은?
A. 시스템 레벨 고려 필수:
- 메모리 대역폭 (bandwidth)
- 병렬화 오버헤드
- 지연시간 vs 정확도 트레이드오프
- 실제 비용 vs 이론적 FLOPs
외부 참고 자료
Test-Time Compute를 더 깊게 배우고 싶다면:
- Claude Snell 연구 – Compute-Optimal 추론 원 논문
- Hugging Face 가이드 – 실전 적용법
- 스케일링 법칙 역사 – 2020~2025 진화
- Provable Scaling Laws – 이론적 기반
- IOI 금메달 사례 – 오픈소스 실현
정리: 이 글에서 배운 것
✅ Kaplan → Chinchilla → Test-Time Compute: 스케일링 패러다임의 진화
✅ Chinchilla의 함정: 훈련 효율만 고려, 추론 비용 무시
✅ 7B+TTC vs 140B: 같은 FLOPs에서 7B이 우수 (지수적 개선)
✅ Sequential의 한계: 자기수정 능력 부족 (정답 → 틀림으로 변환)
✅ Parallel의 우수성: 안정적, 확장 가능, 투표로 명확
✅ Compute-Optimal: 난이도별 적응형 할당이 총 효율성 50% 향상
✅ 미래: 아키텍처 최적화까지 포함한 완벽한 경제성 모델
다음 포스팅에서는 “AI 안전과 정렬 (Alignment): AGI 시대의 가장 중요한 난제”에 대해 자세히 알아봅니다. AI가 인간의 의도와 어긋나지 않도록 기술적, 철학적 방법까지 파헤쳐 봅시다!
관련 포스팅:
