Table of Contents

핵심 요약

“다음 단어를 맞혀봐”라는 게임이 AI를 바꿨습니다. GPT(Generative Pre-trained Transformer)는 BERT의 인코더와 달리 디코더만 사용하여 왼쪽에서 오른쪽으로 한 단어씩 생성하는 자기회귀 모델입니다. 2018년 OpenAI의 GPT-1은 1억 1천만 파라미터로 시작해 조용히 시작했지만, 2020년 GPT-3는 1,750억 파라미터로 점프하면서 “엑스레이를 보고 병명 진단”, “법률 계약서 작성”, “시 창작” 같은 무섭도록 똑똑한 일들을 해냈습니다. GPT-3는 코드 생성(GitHub Copilot)에서 90% 정확도, 의료 보고서 작성에서 95% 정확도를 달성했고, 2023년 ChatGPT 출시 후 100일 만에 1억 명 사용자 돌파는 역사적 기록입니다. GPT-4는 1조 8천억 파라미터(Mixture of Experts 구조)로 미국 변호사 시험 상위 10%, SAT 수학 상위 89% 수준에 도달했습니다. 이제 생성형 AI의 시대이며, 모든 창작은 GPT를 거쳐갑니다.

📍 목차

GPT의 탄생: BERT와 다른 길
자기회귀 언어 모델링의 원리
GPT-1부터 GPT-4까지의 진화
ChatGPT: 생성형 AI의 대중화
GPT의 응용과 미래

1. GPT의 탄생: BERT와 다른 길

1-1. BERT vs GPT: 근본적인 차이

목표의 차이:

항목	BERT	GPT
목표	텍스트 이해	텍스트 생성
아키텍처	인코더만	디코더만
학습 방식	양방향 (MLM)	단방향 (좌-우)
방향성	앞뒤 모두 봄	과거만 봄
응용	검색, 분류	글 쓰기, 코딩

구체적 예시:

문장: "The animal didn't cross the street because it was [MASK]"

BERT:
- 앞: "The animal didn't cross the street because it was"
- 뒷: "tired"를 봄
- 결과: "tired" 정답!

GPT:
- 앞만: "The animal didn't cross the street because it was"
- 뒷: 못 봄
- 예측: "tired" 또는 "busy"
- 스스로 "was tired"라고 생성

1-2. GPT의 혁신: 자기회귀 생성

개념:

1단계: 초기 입력 "Once upon a time"

2단계: 다음 단어 예측 (확률)
     - "there" : 0.4
     - "was" : 0.3
     - "lived" : 0.2
     → "there" 선택

3단계: 입력 업데이트 "Once upon a time there"

4단계: 다시 다음 단어 예측
     - "was" : 0.5
     - "lived" : 0.3
     - "existed" : 0.1
     → "was" 선택

5단계: 입력 "Once upon a time there was"

반복...

수식:

[
P(\text{text}) = \prod_{i=1}^{n} P(w_i | w_1, w_2, …, w_{i-1})
]

직관:

"나는" 다음에 올 단어는?
- "학교" : 0.3
- "집" : 0.2
- "밥" : 0.15
...

"나는 학교" 다음에?
- "가" : 0.6
- "에" : 0.2
...

"나는 학교에" 다음에?
- "간다" : 0.7
...

결과: "나는 학교에 간다"

2. 자기회귀 언어 모델링의 원리

2-1. 마스크된 자기어텐션(Masked Self-Attention)

핵심: 미래 단어를 보지 않기

시퀀스: "I love cats"

원래 Self-Attention:
       I    love   cats
I    [1.0  0.8   0.5]
love [0.8  1.0   0.7]
cats [0.5  0.7   1.0]

각 단어가 모든 단어와 연결 (문제!)

마스크 적용:

마스킹된 Self-Attention (GPT):
       I    love   cats
I    [1.0  0.0   0.0]    ← "I"는 자신만 봄
love [0.8  1.0   0.0]    ← "love"는 I, love만 봄
cats [0.5  0.7   1.0]    ← "cats"는 모두 봄

결과: 각 단어가 오직 과거와 자신만 볼 수 있음 ✅

Python으로 보기:

import torch
import torch.nn as nn

def create_causal_mask(seq_length):
    """미래를 보지 않는 마스크 생성"""
    # 하삼각행렬 생성
    mask = torch.tril(torch.ones(seq_length, seq_length))

    # 마스킹: 1이면 보기, 0이면 안 보기
    # [1 0 0]
    # [1 1 0]
    # [1 1 1]

    return mask

# 예시: 3단어 시퀀스
mask = create_causal_mask(3)
print(mask)
# tensor([[1., 0., 0.],
#         [1., 1., 0.],
#         [1., 1., 1.]])

# 실제 Attention에 적용
attention_scores = torch.randn(3, 3)
# 마스킹되지 않은 위치를 -inf로 설정 (softmax에서 0이 됨)
attention_scores = attention_scores.masked_fill(mask == 0, float('-inf'))
# Softmax 적용
attention_weights = torch.softmax(attention_scores, dim=-1)
print(attention_weights)
# 마스킹된 위치는 확률 0이 됨

2-2. Causal Mask의 효과

학습 시:

입력: "나는 학교"
목표: "나는 학교에"

스텝별 학습:
1. "나" 다음 예측 → "는" (학교, 에를 못 봄)
2. "나는" 다음 예측 → "학교" (에를 못 봄)
3. "나는 학교" 다음 예측 → "에"

모두 자신의 과거만 봐서 학습 ✅

생성 시:

프롬프트: "나는 학교에"

1단계: 모델 입력 = "나는 학교에"
      다음 단어 예측 = "간다"

2단계: 모델 입력 = "나는 학교에 간다"
      다음 단어 예측 = "."

3단계: 모델 입력 = "나는 학교에 간다."
      모델이 [END] 반환 → 중단

결과: "나는 학교에 간다."

2-3. Sampling vs Greedy

Greedy (확정적):

다음 단어 확률:
- "아주" : 0.7
- "매우" : 0.2
- "정말" : 0.1

Greedy: 항상 "아주" 선택 (0.7이 최고)

결과: 항상 같은 글 ❌

Sampling (확률적):

다음 단어 확률:
- "아주" : 0.7 → 70% 확률 선택
- "매우" : 0.2 → 20% 확률 선택
- "정말" : 0.1 → 10% 확률 선택

결과: 매번 다른 글이 생김 ✅ (창의성!)

Top-k Sampling:

상위 k개만 고려
k=2 선택:
- "아주" : 0.7 / (0.7+0.2) = 0.78 → 78% 선택
- "매우" : 0.2 / (0.7+0.2) = 0.22 → 22% 선택
- "정말" : 제거

결과: 가능도 있는 선택, 이상한 선택 방지 ✅✅

3. GPT-1부터 GPT-4까지의 진화

3-1. GPT 시리즈의 진화

GPT-1 (2018년, OpenAI)

파라미터: 1억 1천만
데이터: BookCorpus (8억 단어)
성능: SOTA 달성, 하지만 평가 지표 개선만 (생성 품질은 아직)

특징:
- 첫 "대규모" 생성 언어 모델
- 기존 NLP 작업에서 BERT와 비슷한 성능
- 텍스트 생성은 아직 형편없음 (문법 오류, 비논리적)

GPT-2 (2019년)

파라미터: 15억 (15배 증가!)
데이터: 40GB 인터넷 텍스트
성능: 텍스트 생성 품질 대폭 향상

혁신:
- "이제 생성을 해볼 만하네"
- 장문 생성 가능 (단락 수준)
- 다양한 주제에서 일관성 유지
- "one-shot learning" 시작 (지시만 주면 함)

성능:
- Wikitext-103: 29.3 perplexity (SOTA)
- 소설 생성: "이건 진짜 사람이 쓴 건가?" 수준

GPT-3 (2020년, 게임 체인저)

파라미터: 1,750억 (100배 증가!)
데이터: 4,570억 토큰 (인터넷 전체)
학습 비용: $460만 (엄청남)
학습 시간: 34일 (심플러 슈퍼컴퓨터)

혁신:
- "few-shot learning" (1-2개 예시만으로 학습)
- 거의 모든 NLP 작업에서 SOTA
- 창작 능력: 소설, 시, 음악 (!) 작성 가능
- 코딩: Python 코드 89% 정확도

성능:
- SQuAD 2.0: F1 90.9 (거의 인간 수준)
- GLUE: 88.0 (기존 90 넘음)
- 제로샷 번역: 한국어→영어 30 BLEU

성능 하지만:
- 사실성: "1+1=3"같은 오류 (자주)
- 환각 현상: 없는 논문 인용 (심각)
- 편향성: 특정 관점만 반복

GPT-3.5 (2022년, ChatGPT)

기반: GPT-3 + RLHF (Reinforcement Learning from Human Feedback)
파라미터: 1,750억 (GPT-3와 동일하지만 정렬됨)

혁신:
- 지시 따르기: "한국어로 답해" → 한국어 답변
- 안전성: 해로운 질문 거부
- 창의성: 소설, 광고 문안 생성 우수
- 코딩: JavaScript, 셸 스크립트 등 85%+ 정확도

성능:
- Truthful QA: 기존 58% → 64%
- 사용자 만족도: 95% (엄청나게 높음)
- 한국어: 완벽한 한국어 응답

변화 (RLHF 덕분):

이전 GPT-3:
“핵폭탄 만드는 법?”
→ “1. 우라늄 농축… 2. …”

이후 GPT-3.5:
“핵폭탄 만드는 법?”
→ “죄송하지만 그런 요청은 도와드릴 수 없습니다”

**GPT-4 (2023년, 최신)**

파라미터: 1조 8천억 (MoE 구조: 8개 모델 × 2,200억)
학습 데이터: 미공개 (하지만 엄청 많을 듯)
학습 비용: 수천만 달러로 추정
학습 시간: 약 90일

혁신:

멀티모달: 텍스트 + 이미지 이해
컨텍스트 윈도우: 128K 토큰 (책 50권)
추론 능력: 복잡한 논리 문제 해결
정확도: 환각 현상 90% 감소

성능:

SAT 수학: 상위 89% (미국 기준)
SAT 독해: 상위 93%
변호사 시험: 상위 10% (GPT-3.5는 하위 10%)
생화학: 의약학 학생 시험 상위 10%

멀티모달 예시:

사용자: [밈 이미지 업로드] "이건 뭐하는 짤?"
GPT-4: "이건 '존 트래볼타 혼란' 밈입니다..."

3-2. GPT 시리즈 성능 비교

성능                GPT-1   GPT-2   GPT-3   GPT-3.5  GPT-4
─────────────────────────────────────────────────────────
파라미터(억)         1.2    15     1,750   1,750    18,000
GLUE 점수           69.0   72.4    82.0    85.2     90.1
자연어 이해          보통    좋음    우수    우수      매우 우수
코딩 능력           없음    기초    89%     95%      97%
창의성(소설)        낮음    중간    높음    높음      매우 높음
멀티모달            없음    없음    없음    없음      있음
문맥 유지(토큰)     1,024  1,024   2,048   4,096   128,000
환각 현상           심함    심함    심함    중간      경미
────────────────────────────────────────────────────────

4. ChatGPT: 생성형 AI의 대중화

4-1. ChatGPT의 탄생

2022년 11월 30일 공개:

역사적 사건:
- 처음으로 대중이 쉽게 접할 수 있는 강력한 AI
- "AI의 민주화"
- 100일 만에 1억 명 사용자 (신기록)

비교:
- Netflix: 3년 7개월
- Facebook: 10개월
- ChatGPT: 2개월 ❌ (오류, 약 2개월 인정)

4-2. ChatGPT의 기술: RLHF

기존 GPT-3의 문제:

Q: "최고의 대통령은?"
기존 답:
"1) 링컨 - 노예제 폐지
 2) 루즈벨트 - 뉴딜
 3) 트루먼 - 핵무기
 ..."
(객관적이긴 한데 너무 길고 지루함)

원하는 답:
"이건 개인적 관점에 따라 다르지만..."
(회화체, 도움이 되는 방식)

RLHF 과정:

단계 1: GPT-3 사전학습 완료
        ↓

단계 2: 감독자가 직접 고품질 응답 작성
        예: ChatGPT처럼 친근하고 도움되는 답변
        약 10,000~15,000개 예시
        ↓

단계 3: 보상 모델(Reward Model) 학습
        Q: 답변 A와 B 중 더 좋은 건?
        A > B인 경우: +1
        B > A인 경우: -1
        약 50,000개 쌍 비교
        ↓

단계 4: PPO(Proximal Policy Optimization) 학습
        GPT-3를 보상 모델로 강화학습
        좋은 답변 → 보상 증가
        나쁜 답변 → 보상 감소
        ↓

결과: ChatGPT 탄생!

수식:

[
\text{손실함수} = -\mathbb{E}_{\text{프롬프트}}[\text{보상}(응답) – \lambda KL(\text{기존 모델}, \text{새 모델})]
]

보상 최대화
KL 발산 최소화 (기존 모델과 과도하게 달라지지 않게)

4-3. ChatGPT 성능 사례

질의응답:

Q: "나 25살인데 지금 시작해도 프로그래밍 배울 수 있을까?"

기존 검색 엔진: 관련 블로그 10개 링크만
ChatGPT:
"네, 충분히 가능합니다. 이유:
1. 프로그래밍은 나이와 무관
2. 실제 사례: [성공 사례 3개]
3. 추천 로드맵: [3-6개월 계획]
4. 도구: Python 추천 이유 설명"

사용자 만족도: 95% (검색 대비 10배)

코드 생성:

Q: "Python으로 숫자 배열을 정렬하는 함수 작성해"

ChatGPT:

python
def sort_array(arr):
\”\”\”배열을 오름차순으로 정렬\”\”\”
return sorted(arr)

사용 예시

print(sort_array([3, 1, 4, 1, 5, 9]))

[1, 1, 3, 4, 5, 9]

정확도: 95%+ (기본 코드)

창작:

Q: "여름 여행 블로그 포스팅 첫 문단 작성해"

ChatGPT:
"여름 햇살이 눈부신 어느 날, 우리는 한적한 해변 마을로 향했다. 
바다내음이 가득한 공기 속에서, 파도 소리가 모든 스트레스를 
씻어내렸다. 이곳이 바로 우리가 찾던 진정한 휴식의 장소였다..."

품질: 90%+

5. GPT의 응용과 미래

5-1. 실무 활용

GitHub Copilot (코드 생성)

작성 시간:
- 기존: 1시간
- Copilot 사용: 15분 (75% 시간 단축)

정확도: 90%+
개발자 만족도: 88%

의료 분야:

의료 보고서 작성:
- 기존: 의사가 30분
- GPT: 5분 (자동 생성) + 검토 5분

시간 절감: 75%
오류: 기본 정보는 99%, 진단은 여전히 의사 검수 필수

마케팅:

광고 카피 생성:
- A/B 테스트: ChatGPT vs 인간 마케터
- CTR (Click Through Rate):
  - ChatGPT: 3.2%
  - 인간: 2.8%
- 결론: ChatGPT가 더 효과적!

고객 서비스:

자동 응답 정확도: 75~85%
해결율: 기존 60% → 85% (자동 해결 비율)
고객 만족도: 4.2/5 → 4.7/5 (향상!)
비용: 30% 절감

5-2. GPT의 한계

한계	설명	영향
환각 현상	없는 정보 생성	신뢰도 저하
지식 한계	학습 시점 이후 정보 못 봄	최신 정보 부정확
추론 약함	논리 오류 가능	복잡한 수학은 불안정
컨텍스트 한계	128K도 여전히 제한	책 전체 처리 불가
편향성	학습 데이터의 편향 반영	차별적 답변 가능
비용	매번 쿼리마다 비용	대규모 사용 시 부담

5-3. 미래의 GPT

2024-2025 예상 방향:

1️⃣ 멀티모달 강화

현재: 텍스트 + 이미지
미래: 텍스트 + 이미지 + 오디오 + 비디오 + 3D 모델

GPT-4o 이후: 실시간 처리

2️⃣ 롱 컨텍스트

현재: 128K 토큰
미래: 1M 토큰 (책 100권)

효과: 전체 문서 한 번에 처리

3️⃣ 추론 능력

현재: O1 시리즈로 개선 중
특징: "사고 시간" (답변 전에 생각)

예시:
기존 GPT: 수학 문제 → 바로 답변
O1: 수학 문제 → 1분 사고 → 우수한 답변

4️⃣ 개인화

각 사용자별 커스텀 모델
"당신의 스타일에 맞게 학습된 GPT"
개인 정보 기반 최적화

5️⃣ 에너지 효율

현재: GPT-4 한 번 쿼리 = LED 전구 1시간 전력
미래: 10배 효율화 (양자 컴퓨팅, 신경망 최적화)

6. GPT vs 인간: 경계는 어디?

6-1. 성능 비교

작업	GPT-4	인간
텍스트 생성	95%	100%
코딩	97% (기본)	100% (고급)
창작	90%	100%
논리 추론	88%	95%
상식 추론	75%	99%
감정 이해	60%	100%

6-2. 인간만이 할 수 있는 것

1. 진정한 창의성 (완전히 새로운 아이디어)
2. 도덕적 판단 (옳고 그름의 판단)
3. 감정적 공감 (실제로 느끼기)
4. 목표 설정 (왜 하는가)
5. 책임감 (결과에 대한 책임)

6-3. GPT가 이미 인간을 뛰어넘은 것

1. 정보 검색 (빠르고 정확)
2. 패턴 인식 (대규모 데이터에서)
3. 다국어 번역 (90% 이상)
4. 코드 자동 생성 (반복 작업)
5. 문서 요약 (길이 상관없이)

FAQ: GPT 입문자를 위한 최종 질문

Q1. ChatGPT는 정말 “생각”하는 건가?

A. 아니요, 통계입니다. ChatGPT는 “다음 단어 확률 계산 기계”입니다. (1) 확률 기반: 확률이 높은 단어 선택, (2) 패턴 매칭: 학습 데이터의 패턴 반복, (3) 진정한 이해 없음: 의미를 모르고 확률만 계산. 하지만 결과물은 충분히 “똑똑해 보입니다”!

Q2. GPT로 일자리를 빼앗기나?

A. 부분적으로 Yes, 전체적으로 No. (1) 직업군 변화: 단순 작업(데이터 입력, 기초 번역)은 90% 자동화, (2) 새로운 직업: GPT 운영자, 검수자, 프롬프트 엔지니어 탄생, (3) 생산성: GPT로 10배 빠른 업무 = 더 창의적 일에 집중.

Q3. GPT는 아는 모든 걸 틀리게 말할 수 있나?

A. 네, “환각 현상”입니다. (1) 원인: 학습 데이터에 없는 질문 = 무작정 그럴듯한 답 생성, (2) 예시: “1950년 한국의 우주 프로그램은?”이라 물으면 아무것도 모르는데 만들어냄, (3) 해결: “모릅니다” 학습 중 + 검색 결합 (RAG) 기술 발전.

Q4. GPT-5는 얼마나 똑똑할까?

A. 예측은 어렵지만 추세로 보면: (1) 파라미터 증가 정체: GPU 부족, 비용 폭증으로 인해 크기 증가 한계, (2) 질 개선에 집중: 더 큰 모델보다 더 나은 데이터, 학습 방식 개선, (3) 멀티모달: GPT-5는 완전 멀티모달 일 가능성, (4) 시점: 2025년 중-하반기 예상.

Q5. 한국인도 ChatGPT로 벌 수 있나?

A. 네, 이미 하고 있습니다! (1) 블로그/유튜브: ChatGPT로 초안 작성 → 편집 → 수익화, (2) 번역: GPT로 기초 번역 → 검수 → 돈벌기, (3) 코딩: GitHub Copilot로 속도 3배 증가, (4) 가장 쉬운 방법: “프롬프트 템플릿 판매” (한국 특화 프롬프트).

AI 101 시리즈 최종 정리

16편 완성: 550,000자 이상의 대서사시

여정의 복습

1편: AI 정의 (1950~현재)
↓
2편: ML 학습 방법 (지도, 비지도, 강화)
↓
3-10편: 기초 알고리즘 (선형회귀 ~ 딥러닝)
↓
11편: CNN (이미지)
↓
12편: RNN/LSTM (시계열)
↓
13편: CNN-LSTM (하이브리드)
↓
14편: Transformer (병렬 처리)
↓
15편: BERT (양방향 이해)
↓
16편: GPT (창의적 생성) ← 지금 여기!

결론

2024-2025년 AI 시대:

기술의 변화:
- 이전: AI는 "도구" (검색, 분류)
- 현재: AI는 "파트너" (협력, 창작)
- 미래: AI는 "필수" (없으면 뒤처짐)

직업의 변화:
- 사라지는 것: 단순 반복 업무
- 생기는 것: AI 활용, 검수, 창의 업무
- 가장 안전한 직업: "AI 잘 쓰는 인간"

개인의 대응:
- 1단계: ChatGPT 써보기 (이미 했나?)
- 2단계: GPT API로 개인 프로젝트
- 3단계: 업무에 적극 활용
- 4단계: GPT 기반 새로운 사업 (가장 큰 기회)

외부 참고 자료

GPT를 더 깊게 배우고 싶다면:

여러분이 배운 것

✅ AI의 모든 아키텍처 (퍼셉트론 → Transformer → GPT)
✅ 각 기술의 원리 (수식, 코드, 직관)
✅ 실전 응용 (검색, 번역, 코딩, 창작)
✅ 최신 기술 (ChatGPT, GPT-4)
✅ 미래 전망 (AGI?, AI의 한계)

“Attention is all you need” (Transformer 2017)
“Language Models are Few-Shot Learners” (GPT-3 2020)
“Generative AI is a game changer” (ChatGPT 2022)