LLM 양자화 & 경량화 완벽 가이드: 70B 모델을 4GB로 압축하는 마법! GPTQ, AWQ, GGUF 총정리
핵심 요약
700억 파라미터 모델을 4GB로 압축할 수 있다면 믿으시겠습니까? 양자화(Quantization)는 LLM의 가중치를 32비트에서 4비트로 줄여 메모리를 87.5% 절감하면서도 성능은 거의 유지하는 마법 같은 기술입니다. 실제로 NVIDIA 연구에 따르면 FP8 양자화로 처리량 43% 향상, 지연 시간 34% 단축을 달성했습니다. 이 포스팅에서는 GPTQ, AWQ, GGUF 방식의 차이, INT4 vs INT8 성능 비교, Pruning과 Knowledge Distillation까지 – LLM을 작고 빠르게 만드는 모든 경량화 기술을 완벽하게 분석합니다.
1. 양자화란? 왜 LLM에 필요한가?
1-1. LLM의 메모리 문제
대규모 언어 모델(LLM)은 강력하지만, 엄청난 메모리를 요구합니다.

모델별 메모리 요구량 (FP16 기준):
| 모델 | 파라미터 | 필요 VRAM | 일반 GPU로 실행? |
|---|---|---|---|
| Llama 3 8B | 80억 | ~16GB | ✅ RTX 4090 |
| Llama 3 70B | 700억 | ~140GB | ❌ 불가능 |
| GPT-4 (추정) | 1.7조 | ~3.4TB | ❌ 불가능 |
문제:
- 일반 소비자 GPU: 8~24GB VRAM
- 고급 서버 GPU (A100): 80GB VRAM
- 70B 모델은 A100 2개 이상 필요!
1-2. 양자화의 기본 원리
양자화(Quantization)는 모델 가중치의 정밀도를 낮추는 기술입니다.
비유로 이해하기:
양자화는 고화질 사진을 압축하는 것과 비슷합니다. 원본 RAW 파일(FP32)은 완벽하지만 용량이 큽니다. JPEG(INT8)로 압축하면 약간의 화질 손실이 있지만 파일 크기가 크게 줄어들죠. 더 극단적으로 압축(INT4)하면 용량은 더 줄지만, 화질 손실이 눈에 띌 수 있습니다.
핵심 아이디어:
1-3. 숫자로 보는 양자화 효과
IBM 양자화 가이드에 따르면:
| 정밀도 | 표현 가능한 값 | 메모리 절감 | 성능 손실 |
|---|---|---|---|
| FP32 | 약 40억 개 | 기준 | 없음 |
| FP16 | 약 6.5만 개 | 50% | 거의 없음 |
| INT8 | 256개 | 75% | 1~2% |
| INT4 | 16개 | 87.5% | 3~10% |
핵심 인사이트:
- FP16: 거의 무손실 압축, 표준 추론에 충분
- INT8: 대부분의 경우 성능 유지, 실용적 선택
- INT4: 메모리 극한 절감, 품질 검증 필요
2. 양자화 방식 완벽 비교: GPTQ vs AWQ vs GGUF
2-1. PTQ vs QAT: 두 가지 접근법
양자화는 크게 두 가지 방식으로 나뉩니다:

| 방식 | 설명 | 장점 | 단점 | 대표 기법 |
|---|---|---|---|---|
| PTQ (Post-Training) | 학습 완료 후 양자화 | 빠르고 간단 | 성능 손실 가능 | GPTQ, GGUF |
| QAT (Quantization-Aware) | 학습 중 양자화 적용 | 성능 유지 우수 | 시간/비용 증가 | AWQ |
2-2. GPTQ: GPU 최적화의 왕
GPTQ (Gradient Post-Training Quantization)는 가장 널리 사용되는 사후 양자화 방식입니다.
핵심 특징:
- GPU 최적화: GPU에서 빠른 추론
- 그라디언트 보정: 양자화 손실을 보정하여 성능 유지
- 적응형 정밀도: 중요한 레이어는 높은 정밀도 유지
작동 원리:
“GPTQ는 양자화 후에도 모델의 성능을 유지하거나 최소한의 성능 저하만 발생하게 하는 것이 핵심입니다. 중요한 부분에서는 약하게 양자화하고, 덜 중요한 부분에서는 강하게 양자화합니다.”
GPTQ 사용 추천:
- GPU에서 빠른 추론이 필요할 때
- 학습된 모델을 빠르게 압축하고 싶을 때
- Hugging Face 모델 허브에서 바로 사용할 때
2-3. AWQ: 정확도의 왕
AWQ (Activation-Aware Weight Quantization)는 활성화 값을 고려한 양자화 방식입니다.
핵심 특징:
- 활성화 인식: 가중치뿐 아니라 활성화 값도 분석
- 중요도 기반: 중요한 가중치는 고정밀, 나머지는 저정밀
- 학습 통합: QAT 기법 일부 사용
GPTQ vs AWQ 비교:
| 항목 | GPTQ | AWQ |
|---|---|---|
| 양자화 시점 | 학습 후 | 학습 중 |
| 양자화 대상 | 가중치만 | 가중치 + 활성화 |
| 성능 유지 | 그라디언트 보정 | 활성화 인식 보정 |
| 메모리 절감 | 좋음 | 더 좋음 |
| 추론 속도 | 빠름 | 빠름 |
| 사용 용도 | 빠른 압축 | 최고 성능 유지 |
AWQ 사용 추천:
- 메모리 절감과 성능 유지 모두 중요할 때
- Fine-tuning 후 양자화할 때
- 프로덕션 환경에서 품질이 중요할 때
2-4. GGUF: CPU 실행의 왕
GGUF (GGML Universal Format)는 CPU에서의 효율적 실행에 최적화된 포맷입니다.
핵심 특징:
- CPU 최적화: GPU 없이도 LLM 실행 가능
- 다양한 양자화 레벨: Q2_K부터 Q8_K까지 세밀한 선택
- llama.cpp 호환: 로컬 LLM 실행의 표준
GGUF 양자화 레벨:
| 레벨 | 비트 | 파일 크기 (70B 기준) | 성능 | 추천 용도 |
|---|---|---|---|---|
| Q8_0 | 8비트 | ~70GB | 최고 | 서버, 품질 중시 |
| Q5_K_M | 5비트 | ~48GB | 우수 | 균형 잡힌 선택 |
| Q4_K_M | 4비트 | ~40GB | 양호 | 일반 사용 |
| Q3_K_M | 3비트 | ~30GB | 보통 | 메모리 제한 환경 |
| Q2_K | 2비트 | ~25GB | 저하 | 극한 압축 |
GGUF 사용 추천:
- GPU가 없거나 약할 때
- Apple Silicon Mac에서 실행할 때
- Ollama, llama.cpp 등 로컬 도구 사용 시
2-5. EXL2: 새로운 강자
EXL2는 ExLlamaV2에서 사용하는 최신 양자화 포맷입니다.
특징:
- 혼합 정밀도: 레이어별로 다른 비트 할당
- 높은 압축률: 동일 비트에서 GPTQ보다 좋은 성능
- GPU 전용: CPU 실행 불가
Reddit 벤치마크에 따르면:
“AWQ 4-bit는 EXL2 4.0bpw와 동등한 성능을 보였으며, 모든 GGUF 양자화(8-bit 포함)보다 우수했습니다.”
3. 비트 수에 따른 성능 비교: FP16 → INT8 → INT4
3-1. 벤치마크: Llama 3 양자화 성능

Llama 3 양자화 연구에 따르면:
Llama 3 70B 양자화 성능 (MMLU 기준):
| 양자화 | MMLU 정확도 | FP16 대비 손실 |
|---|---|---|
| FP16 (기준) | 79.5% | 0% |
| INT8 | 79.3% | -0.3% |
| Q5_K | 78.9% | -0.8% |
| Q4_K | 78.2% | -1.6% |
| Q3_K | 76.1% | -4.3% |
| Q2_K | 71.2% | -10.4% |
핵심 발견:
- 4비트(Q4)까지: 성능 손실 2% 미만으로 실용적
- 3비트 이하: 눈에 띄는 성능 저하 발생
- 8비트: 거의 무손실 압축
3-2. FP8 vs INT8: 새로운 표준
NVIDIA 연구에 따르면:
FP8 양자화 효과 (H200 GPU 기준):
| 지표 | BF16 | FP8 | 향상률 |
|---|---|---|---|
| 처리량 | 7.67 req/s | 10.95 req/s | +43% |
| 첫 토큰 지연(TTFT) | 8,640ms | 5,713ms | -34% |
“FP8 Tensor-wise 양자화 모델은 BF16 대비 평균 1.5점 더 높은 점수를 기록했습니다. 이는 FP8 양자화가 정확도까지 향상시킬 수 있음을 보여줍니다.”
FP8의 장점:
- INT8보다 더 넓은 동적 범위
- H100, H200 등 최신 GPU에서 하드웨어 가속
- 품질 손실 최소화하면서 메모리 절반
3-3. 한국어 성능에 미치는 영향
LLM 양자화와 한국어 연구에 따르면:
양자화가 언어별 성능에 미치는 영향은 다릅니다:
- 영어: 양자화에 상대적으로 강함
- 한국어: 양자화 시 성능 저하 더 클 수 있음
- 원인: 토큰화 방식, 학습 데이터 비율 차이
한국어 서비스 권장:
- 가능하면 INT8 이상 유지
- 4비트 사용 시 반드시 한국어 품질 테스트
- AWQ가 GPTQ보다 한국어 성능 유지에 유리할 수 있음
4. Pruning과 Knowledge Distillation: 양자화를 넘어
4-1. 경량화 3대 기법

| 기법 | 원리 | 메모리 절감 | 성능 영향 |
|---|---|---|---|
| 양자화 | 비트 정밀도 감소 | 50~87% | 낮음 |
| 프루닝 | 불필요한 가중치 제거 | 20~50% | 중간 |
| 증류 | 큰 모델 지식을 작은 모델에 전달 | 가변 | 낮음 |
4-2. Pruning (가지치기)
Pruning은 모델에서 중요하지 않은 가중치나 뉴런을 제거하는 기법입니다.
비유:
정원의 나무를 가지치기하는 것과 같습니다. 죽은 가지(불필요한 뉴런)를 잘라내면 나무(모델)가 더 건강하고 효율적으로 자랍니다.
Pruning 종류:
| 유형 | 방식 | 장점 | 단점 |
|---|---|---|---|
| 비구조적 | 개별 가중치 제거 | 높은 압축률 | 하드웨어 가속 어려움 |
| 구조적 | 전체 뉴런/레이어 제거 | 하드웨어 최적화 용이 | 압축률 제한 |
NVIDIA Minitron 연구에 따르면:
“너비 가지치기(Width Pruning)가 깊이 가지치기(Depth Pruning)보다 일반적으로 더 나은 성능을 보였습니다.”
Minitron 성과:
- Mistral NeMo 12B → 8B로 압축
- Llama 3.1 8B → 4B로 압축
- 원본 대비 40배 적은 학습 데이터로 동등 성능
4-3. Knowledge Distillation (지식 증류)
Knowledge Distillation은 큰 “교사” 모델의 지식을 작은 “학생” 모델에 전달하는 기법입니다.
IBM 지식 증류 가이드에 따르면:
“지식 증류는 교사 모델의 결과물을 복제할 뿐만 아니라 ‘사고 과정’을 모방하는 것을 목표로 합니다.”
작동 원리:
- 교사 모델: 대형 LLM (예: GPT-4, Claude)
- 학생 모델: 소형 LLM (예: Llama 8B, Mistral 7B)
- 학습: 교사의 출력 분포를 학생이 모방
DeepSeek-R1 사례:
“2025년 초 공개된 DeepSeek R1은 671B 규모의 모델을 distillation 기법을 통해 효과적으로 경량화했습니다.”
Knowledge Distillation 유형:
| 유형 | 접근 방식 | 사용 사례 |
|---|---|---|
| White-box | 교사 내부 정보 접근 | 자체 모델 압축 |
| Black-box | 교사 출력만 활용 | GPT-4 등 API 모델 활용 |
| Response KD | 최종 답변만 모방 | 가장 일반적 |
| Feature KD | 중간 표현도 모방 | 더 깊은 지식 전달 |
4-4. 조합 전략: Pruning + Distillation + Quantization
최강의 경량화는 여러 기법을 조합하는 것입니다:
- Pruning으로 모델 구조 축소
- Distillation으로 손실된 성능 복구
- Quantization으로 추가 압축
HyperCLOVA X 사례:
네이버 클로바 연구에 따르면:
“Pruning은 모델을 작고 가볍게 만들고, Distillation은 그렇게 가벼워진 모델에 다시 지능을 불어넣는 역할을 합니다.”
5. 실전 가이드: 내 환경에 맞는 경량화 전략
5-1. 하드웨어별 추천 전략

| 환경 | VRAM/RAM | 추천 방식 | 추천 모델 크기 |
|---|---|---|---|
| A100/H100 | 40~80GB | FP8, INT8 | 70B 이상 |
| RTX 4090 | 24GB | AWQ INT4, GPTQ INT4 | 8~70B (양자화) |
| RTX 3080 | 10GB | GPTQ Q4_K | 8B (양자화) |
| Apple M3 Max | 64GB RAM | GGUF Q4_K_M | 70B (CPU+Metal) |
| CPU Only | 32GB+ RAM | GGUF Q4_0 | 8~13B |
5-2. 용도별 추천 전략
| 용도 | 추천 양자화 | 이유 |
|---|---|---|
| 프로덕션 서비스 | AWQ INT8 또는 FP8 | 품질 유지, 처리량 최적화 |
| 개인 실험/개발 | GPTQ Q4 | 빠른 반복, 충분한 품질 |
| 로컬 챗봇 | GGUF Q4_K_M | CPU 실행 가능, 균형 잡힌 성능 |
| 엣지 디바이스 | GGUF Q3_K 또는 INT4 | 극한 메모리 절감 |
| Fine-tuning 후 | AWQ | 학습 통합 최적화 |
5-3. 모델 크기 선택 가이드
양자화 vs 더 작은 모델, 뭐가 나을까?
Reddit 실험에 따르면:
“Q2_K 수준에서도 70B 모델이 양자화되지 않은 8B 모델보다 더 좋은 점수를 기록했습니다.”
결론:
- 가능하면 큰 모델을 양자화하는 것이 유리
- 70B Q4 > 8B FP16 (대부분의 경우)
- 단, 극단적인 양자화(Q2 이하)는 검증 필요
5-4. 실전 도구 추천
| 도구 | 용도 | 특징 |
|---|---|---|
| llama.cpp | GGUF 변환/실행 | CPU 최적화, 다양한 양자화 |
| AutoGPTQ | GPTQ 양자화 | Hugging Face 통합 |
| AutoAWQ | AWQ 양자화 | 고품질 양자화 |
| ExLlamaV2 | EXL2 양자화/실행 | 최고 GPU 성능 |
| vLLM | 프로덕션 서빙 | 양자화 모델 서빙 최적화 |
| Ollama | 로컬 LLM 실행 | GGUF 자동 다운로드 |
6. 양자화의 한계와 주의사항
6-1. 알려진 한계
양자화가 항상 정답은 아닙니다:
- 복잡한 추론 태스크: 수학, 코딩에서 성능 저하 클 수 있음
- 한국어 등 비영어권: 상대적으로 더 큰 성능 손실
- 긴 컨텍스트: KV 캐시 양자화 시 품질 영향
- Fine-tuning 호환성: 일부 양자화 모델은 추가 학습 어려움
6-2. 주의사항 체크리스트
양자화 전 확인해야 할 것들:
- [ ] 목표 하드웨어 환경 확인 (GPU/CPU)
- [ ] 허용 가능한 성능 손실 범위 정의
- [ ] 주요 사용 언어 확인 (한국어 민감)
- [ ] 응답 속도 vs 품질 우선순위 결정
- [ ] 양자화 후 벤치마크 테스트 계획
6-3. 혼합 정밀도: 최적의 균형
모든 레이어를 동일하게 양자화할 필요는 없습니다:
“중요한 층(첫 번째/마지막 레이어)은 INT16으로, 나머지는 INT8로 설계하는 혼합 정밀도 접근법으로 정확도 손실 1% 미만, 전력 소비 65% 감소를 달성했습니다.”
실전 구성 예시:
- 가중치: INT4/INT8
- 활성화: BF16/FP16
- KV 캐시: INT8
정리: 핵심 포인트

✅ 양자화로 LLM 메모리 최대 87.5% 절감 (FP32 → INT4)
✅ GPTQ는 GPU 추론, GGUF는 CPU 실행, AWQ는 고품질 유지에 최적
✅ 4비트(Q4)까지 대부분의 경우 성능 손실 2% 미만
✅ FP8 양자화는 처리량 43% 향상, 정확도도 개선 가능
✅ Pruning + Distillation + Quantization 조합이 최강
✅ 70B 모델 양자화가 8B 원본보다 대부분 우수
FAQ: 자주 묻는 질문
Q1. GPTQ와 AWQ 중 어떤 것을 선택해야 하나요?
A. 용도에 따라 다릅니다:
- 빠른 실험/테스트: GPTQ (간편함)
- 프로덕션/품질 중시: AWQ (성능 유지)
- CPU 실행: 둘 다 아닌 GGUF
Q2. 양자화하면 Fine-tuning이 불가능한가요?
A. 방식에 따라 다릅니다:
- QLoRA: 4비트 양자화된 모델에서 LoRA Fine-tuning 가능
- 일반 GPTQ: 추가 학습 어려움
- AWQ: Fine-tuning과 호환성 좋음
Q3. 한국어 서비스에 양자화를 추천하나요?
A. 주의가 필요합니다:
- INT8: 대체로 안전
- INT4: 반드시 한국어 품질 테스트 필수
- 가능하면 AWQ가 한국어 성능 유지에 유리
Q4. 양자화 모델은 어디서 다운받나요?
A. Hugging Face에서 바로 다운로드 가능합니다:
- TheBloke: 다양한 GPTQ, GGUF, AWQ 모델 제공
- Unsloth: 최적화된 양자화 모델
- 공식 모델 페이지: 일부 모델은 공식 양자화 버전 제공
Q5. 양자화 없이 70B 모델을 실행할 방법이 있나요?
A. 매우 어렵습니다:
- 클라우드 GPU: A100 80GB x 2개 이상 필요
- 모델 병렬화: 여러 GPU에 분산 (복잡함)
- 현실적으로: 양자화가 거의 필수
외부 참고 자료
LLM 양자화를 더 깊게 배우고 싶다면:
- NVIDIA TensorRT-LLM 문서 – 서버 양자화 최적화
- llama.cpp GitHub – GGUF 변환 및 실행
- AutoGPTQ GitHub – GPTQ 양자화 도구
- AutoAWQ GitHub – AWQ 양자화 도구
- Hugging Face Quantization Guide – 공식 양자화 가이드
정리: 이 글에서 배운 것
✅ 양자화는 LLM 가중치의 비트 정밀도를 낮춰 메모리와 연산량을 절감
✅ GPTQ=GPU 최적화, AWQ=고품질, GGUF=CPU 실행에 최적
✅ INT4 양자화까지 대부분의 태스크에서 성능 손실 2% 미만
✅ FP8은 H100 시대의 새로운 표준, 처리량과 정확도 동시 향상
✅ Pruning + Distillation과 양자화를 조합하면 경량화 효과 극대화
✅ 큰 모델을 양자화하는 것이 작은 모델 원본보다 대체로 우수
다음 포스팅에서는 “Fine-tuning 완벽 가이드: LoRA, QLoRA부터 실제 비용까지”에 대해 자세히 알아봅니다. 양자화된 모델도 Fine-tuning할 수 있는 QLoRA의 마법을 파헤쳐 볼게요!
관련 포스팅:
