[AI 101] GPT – 창의적인 글을 쓰는 AI
핵심 요약
“다음 단어를 맞혀봐”라는 게임이 AI를 바꿨습니다. GPT(Generative Pre-trained Transformer)는 BERT의 인코더와 달리 디코더만 사용하여 왼쪽에서 오른쪽으로 한 단어씩 생성하는 자기회귀 모델입니다. 2018년 OpenAI의 GPT-1은 1억 1천만 파라미터로 시작해 조용히 시작했지만, 2020년 GPT-3는 1,750억 파라미터로 점프하면서 “엑스레이를 보고 병명 진단”, “법률 계약서 작성”, “시 창작” 같은 무섭도록 똑똑한 일들을 해냈습니다. GPT-3는 코드 생성(GitHub Copilot)에서 90% 정확도, 의료 보고서 작성에서 95% 정확도를 달성했고, 2023년 ChatGPT 출시 후 100일 만에 1억 명 사용자 돌파는 역사적 기록입니다. GPT-4는 1조 8천억 파라미터(Mixture of Experts 구조)로 미국 변호사 시험 상위 10%, SAT 수학 상위 89% 수준에 도달했습니다. 이제 생성형 AI의 시대이며, 모든 창작은 GPT를 거쳐갑니다.
📍 목차
- GPT의 탄생: BERT와 다른 길
- 자기회귀 언어 모델링의 원리
- GPT-1부터 GPT-4까지의 진화
- ChatGPT: 생성형 AI의 대중화
- GPT의 응용과 미래
1. GPT의 탄생: BERT와 다른 길
1-1. BERT vs GPT: 근본적인 차이
목표의 차이:
| 항목 | BERT | GPT |
|---|---|---|
| 목표 | 텍스트 이해 | 텍스트 생성 |
| 아키텍처 | 인코더만 | 디코더만 |
| 학습 방식 | 양방향 (MLM) | 단방향 (좌-우) |
| 방향성 | 앞뒤 모두 봄 | 과거만 봄 |
| 응용 | 검색, 분류 | 글 쓰기, 코딩 |
구체적 예시:
문장: "The animal didn't cross the street because it was [MASK]"
BERT:
- 앞: "The animal didn't cross the street because it was"
- 뒷: "tired"를 봄
- 결과: "tired" 정답!
GPT:
- 앞만: "The animal didn't cross the street because it was"
- 뒷: 못 봄
- 예측: "tired" 또는 "busy"
- 스스로 "was tired"라고 생성1-2. GPT의 혁신: 자기회귀 생성
개념:
1단계: 초기 입력 "Once upon a time"
2단계: 다음 단어 예측 (확률)
- "there" : 0.4
- "was" : 0.3
- "lived" : 0.2
→ "there" 선택
3단계: 입력 업데이트 "Once upon a time there"
4단계: 다시 다음 단어 예측
- "was" : 0.5
- "lived" : 0.3
- "existed" : 0.1
→ "was" 선택
5단계: 입력 "Once upon a time there was"
반복...수식:
[
P(\text{text}) = \prod_{i=1}^{n} P(w_i | w_1, w_2, …, w_{i-1})
]
직관:
"나는" 다음에 올 단어는?
- "학교" : 0.3
- "집" : 0.2
- "밥" : 0.15
...
"나는 학교" 다음에?
- "가" : 0.6
- "에" : 0.2
...
"나는 학교에" 다음에?
- "간다" : 0.7
...
결과: "나는 학교에 간다"2. 자기회귀 언어 모델링의 원리
2-1. 마스크된 자기어텐션(Masked Self-Attention)
핵심: 미래 단어를 보지 않기
시퀀스: "I love cats"
원래 Self-Attention:
I love cats
I [1.0 0.8 0.5]
love [0.8 1.0 0.7]
cats [0.5 0.7 1.0]
각 단어가 모든 단어와 연결 (문제!)마스크 적용:
마스킹된 Self-Attention (GPT):
I love cats
I [1.0 0.0 0.0] ← "I"는 자신만 봄
love [0.8 1.0 0.0] ← "love"는 I, love만 봄
cats [0.5 0.7 1.0] ← "cats"는 모두 봄
결과: 각 단어가 오직 과거와 자신만 볼 수 있음 ✅Python으로 보기:
import torch
import torch.nn as nn
def create_causal_mask(seq_length):
"""미래를 보지 않는 마스크 생성"""
# 하삼각행렬 생성
mask = torch.tril(torch.ones(seq_length, seq_length))
# 마스킹: 1이면 보기, 0이면 안 보기
# [1 0 0]
# [1 1 0]
# [1 1 1]
return mask
# 예시: 3단어 시퀀스
mask = create_causal_mask(3)
print(mask)
# tensor([[1., 0., 0.],
# [1., 1., 0.],
# [1., 1., 1.]])
# 실제 Attention에 적용
attention_scores = torch.randn(3, 3)
# 마스킹되지 않은 위치를 -inf로 설정 (softmax에서 0이 됨)
attention_scores = attention_scores.masked_fill(mask == 0, float('-inf'))
# Softmax 적용
attention_weights = torch.softmax(attention_scores, dim=-1)
print(attention_weights)
# 마스킹된 위치는 확률 0이 됨2-2. Causal Mask의 효과
학습 시:
입력: "나는 학교"
목표: "나는 학교에"
스텝별 학습:
1. "나" 다음 예측 → "는" (학교, 에를 못 봄)
2. "나는" 다음 예측 → "학교" (에를 못 봄)
3. "나는 학교" 다음 예측 → "에"
모두 자신의 과거만 봐서 학습 ✅생성 시:
프롬프트: "나는 학교에"
1단계: 모델 입력 = "나는 학교에"
다음 단어 예측 = "간다"
2단계: 모델 입력 = "나는 학교에 간다"
다음 단어 예측 = "."
3단계: 모델 입력 = "나는 학교에 간다."
모델이 [END] 반환 → 중단
결과: "나는 학교에 간다."2-3. Sampling vs Greedy
Greedy (확정적):
다음 단어 확률:
- "아주" : 0.7
- "매우" : 0.2
- "정말" : 0.1
Greedy: 항상 "아주" 선택 (0.7이 최고)
결과: 항상 같은 글 ❌Sampling (확률적):
다음 단어 확률:
- "아주" : 0.7 → 70% 확률 선택
- "매우" : 0.2 → 20% 확률 선택
- "정말" : 0.1 → 10% 확률 선택
결과: 매번 다른 글이 생김 ✅ (창의성!)Top-k Sampling:
상위 k개만 고려
k=2 선택:
- "아주" : 0.7 / (0.7+0.2) = 0.78 → 78% 선택
- "매우" : 0.2 / (0.7+0.2) = 0.22 → 22% 선택
- "정말" : 제거
결과: 가능도 있는 선택, 이상한 선택 방지 ✅✅3. GPT-1부터 GPT-4까지의 진화
3-1. GPT 시리즈의 진화
GPT-1 (2018년, OpenAI)
파라미터: 1억 1천만
데이터: BookCorpus (8억 단어)
성능: SOTA 달성, 하지만 평가 지표 개선만 (생성 품질은 아직)
특징:
- 첫 "대규모" 생성 언어 모델
- 기존 NLP 작업에서 BERT와 비슷한 성능
- 텍스트 생성은 아직 형편없음 (문법 오류, 비논리적)GPT-2 (2019년)
파라미터: 15억 (15배 증가!)
데이터: 40GB 인터넷 텍스트
성능: 텍스트 생성 품질 대폭 향상
혁신:
- "이제 생성을 해볼 만하네"
- 장문 생성 가능 (단락 수준)
- 다양한 주제에서 일관성 유지
- "one-shot learning" 시작 (지시만 주면 함)
성능:
- Wikitext-103: 29.3 perplexity (SOTA)
- 소설 생성: "이건 진짜 사람이 쓴 건가?" 수준GPT-3 (2020년, 게임 체인저)
파라미터: 1,750억 (100배 증가!)
데이터: 4,570억 토큰 (인터넷 전체)
학습 비용: $460만 (엄청남)
학습 시간: 34일 (심플러 슈퍼컴퓨터)
혁신:
- "few-shot learning" (1-2개 예시만으로 학습)
- 거의 모든 NLP 작업에서 SOTA
- 창작 능력: 소설, 시, 음악 (!) 작성 가능
- 코딩: Python 코드 89% 정확도
성능:
- SQuAD 2.0: F1 90.9 (거의 인간 수준)
- GLUE: 88.0 (기존 90 넘음)
- 제로샷 번역: 한국어→영어 30 BLEU
성능 하지만:
- 사실성: "1+1=3"같은 오류 (자주)
- 환각 현상: 없는 논문 인용 (심각)
- 편향성: 특정 관점만 반복GPT-3.5 (2022년, ChatGPT)
기반: GPT-3 + RLHF (Reinforcement Learning from Human Feedback)
파라미터: 1,750억 (GPT-3와 동일하지만 정렬됨)
혁신:
- 지시 따르기: "한국어로 답해" → 한국어 답변
- 안전성: 해로운 질문 거부
- 창의성: 소설, 광고 문안 생성 우수
- 코딩: JavaScript, 셸 스크립트 등 85%+ 정확도
성능:
- Truthful QA: 기존 58% → 64%
- 사용자 만족도: 95% (엄청나게 높음)
- 한국어: 완벽한 한국어 응답
변화 (RLHF 덕분):이전 GPT-3:
“핵폭탄 만드는 법?”
→ “1. 우라늄 농축… 2. …”
이후 GPT-3.5:
“핵폭탄 만드는 법?”
→ “죄송하지만 그런 요청은 도와드릴 수 없습니다”
**GPT-4 (2023년, 최신)**파라미터: 1조 8천억 (MoE 구조: 8개 모델 × 2,200억)
학습 데이터: 미공개 (하지만 엄청 많을 듯)
학습 비용: 수천만 달러로 추정
학습 시간: 약 90일
혁신:
- 멀티모달: 텍스트 + 이미지 이해
- 컨텍스트 윈도우: 128K 토큰 (책 50권)
- 추론 능력: 복잡한 논리 문제 해결
- 정확도: 환각 현상 90% 감소
성능:
- SAT 수학: 상위 89% (미국 기준)
- SAT 독해: 상위 93%
- 변호사 시험: 상위 10% (GPT-3.5는 하위 10%)
- 생화학: 의약학 학생 시험 상위 10%
멀티모달 예시:
사용자: [밈 이미지 업로드] "이건 뭐하는 짤?"
GPT-4: "이건 '존 트래볼타 혼란' 밈입니다..."3-2. GPT 시리즈 성능 비교
성능 GPT-1 GPT-2 GPT-3 GPT-3.5 GPT-4
─────────────────────────────────────────────────────────
파라미터(억) 1.2 15 1,750 1,750 18,000
GLUE 점수 69.0 72.4 82.0 85.2 90.1
자연어 이해 보통 좋음 우수 우수 매우 우수
코딩 능력 없음 기초 89% 95% 97%
창의성(소설) 낮음 중간 높음 높음 매우 높음
멀티모달 없음 없음 없음 없음 있음
문맥 유지(토큰) 1,024 1,024 2,048 4,096 128,000
환각 현상 심함 심함 심함 중간 경미
────────────────────────────────────────────────────────4. ChatGPT: 생성형 AI의 대중화
4-1. ChatGPT의 탄생
2022년 11월 30일 공개:
역사적 사건:
- 처음으로 대중이 쉽게 접할 수 있는 강력한 AI
- "AI의 민주화"
- 100일 만에 1억 명 사용자 (신기록)
비교:
- Netflix: 3년 7개월
- Facebook: 10개월
- ChatGPT: 2개월 ❌ (오류, 약 2개월 인정)4-2. ChatGPT의 기술: RLHF
기존 GPT-3의 문제:
Q: "최고의 대통령은?"
기존 답:
"1) 링컨 - 노예제 폐지
2) 루즈벨트 - 뉴딜
3) 트루먼 - 핵무기
..."
(객관적이긴 한데 너무 길고 지루함)
원하는 답:
"이건 개인적 관점에 따라 다르지만..."
(회화체, 도움이 되는 방식)RLHF 과정:
단계 1: GPT-3 사전학습 완료
↓
단계 2: 감독자가 직접 고품질 응답 작성
예: ChatGPT처럼 친근하고 도움되는 답변
약 10,000~15,000개 예시
↓
단계 3: 보상 모델(Reward Model) 학습
Q: 답변 A와 B 중 더 좋은 건?
A > B인 경우: +1
B > A인 경우: -1
약 50,000개 쌍 비교
↓
단계 4: PPO(Proximal Policy Optimization) 학습
GPT-3를 보상 모델로 강화학습
좋은 답변 → 보상 증가
나쁜 답변 → 보상 감소
↓
결과: ChatGPT 탄생!수식:
[
\text{손실함수} = -\mathbb{E}_{\text{프롬프트}}[\text{보상}(응답) – \lambda KL(\text{기존 모델}, \text{새 모델})]
]
- 보상 최대화
- KL 발산 최소화 (기존 모델과 과도하게 달라지지 않게)
4-3. ChatGPT 성능 사례
질의응답:
Q: "나 25살인데 지금 시작해도 프로그래밍 배울 수 있을까?"
기존 검색 엔진: 관련 블로그 10개 링크만
ChatGPT:
"네, 충분히 가능합니다. 이유:
1. 프로그래밍은 나이와 무관
2. 실제 사례: [성공 사례 3개]
3. 추천 로드맵: [3-6개월 계획]
4. 도구: Python 추천 이유 설명"
사용자 만족도: 95% (검색 대비 10배)코드 생성:
Q: "Python으로 숫자 배열을 정렬하는 함수 작성해"
ChatGPT:python
def sort_array(arr):
\”\”\”배열을 오름차순으로 정렬\”\”\”
return sorted(arr)
사용 예시
print(sort_array([3, 1, 4, 1, 5, 9]))
[1, 1, 3, 4, 5, 9]
정확도: 95%+ (기본 코드)창작:
Q: "여름 여행 블로그 포스팅 첫 문단 작성해"
ChatGPT:
"여름 햇살이 눈부신 어느 날, 우리는 한적한 해변 마을로 향했다.
바다내음이 가득한 공기 속에서, 파도 소리가 모든 스트레스를
씻어내렸다. 이곳이 바로 우리가 찾던 진정한 휴식의 장소였다..."
품질: 90%+5. GPT의 응용과 미래
5-1. 실무 활용
GitHub Copilot (코드 생성)
작성 시간:
- 기존: 1시간
- Copilot 사용: 15분 (75% 시간 단축)
정확도: 90%+
개발자 만족도: 88%의료 분야:
의료 보고서 작성:
- 기존: 의사가 30분
- GPT: 5분 (자동 생성) + 검토 5분
시간 절감: 75%
오류: 기본 정보는 99%, 진단은 여전히 의사 검수 필수마케팅:
광고 카피 생성:
- A/B 테스트: ChatGPT vs 인간 마케터
- CTR (Click Through Rate):
- ChatGPT: 3.2%
- 인간: 2.8%
- 결론: ChatGPT가 더 효과적!고객 서비스:
자동 응답 정확도: 75~85%
해결율: 기존 60% → 85% (자동 해결 비율)
고객 만족도: 4.2/5 → 4.7/5 (향상!)
비용: 30% 절감5-2. GPT의 한계
| 한계 | 설명 | 영향 |
|---|---|---|
| 환각 현상 | 없는 정보 생성 | 신뢰도 저하 |
| 지식 한계 | 학습 시점 이후 정보 못 봄 | 최신 정보 부정확 |
| 추론 약함 | 논리 오류 가능 | 복잡한 수학은 불안정 |
| 컨텍스트 한계 | 128K도 여전히 제한 | 책 전체 처리 불가 |
| 편향성 | 학습 데이터의 편향 반영 | 차별적 답변 가능 |
| 비용 | 매번 쿼리마다 비용 | 대규모 사용 시 부담 |
5-3. 미래의 GPT
2024-2025 예상 방향:
1️⃣ 멀티모달 강화
현재: 텍스트 + 이미지
미래: 텍스트 + 이미지 + 오디오 + 비디오 + 3D 모델
GPT-4o 이후: 실시간 처리2️⃣ 롱 컨텍스트
현재: 128K 토큰
미래: 1M 토큰 (책 100권)
효과: 전체 문서 한 번에 처리3️⃣ 추론 능력
현재: O1 시리즈로 개선 중
특징: "사고 시간" (답변 전에 생각)
예시:
기존 GPT: 수학 문제 → 바로 답변
O1: 수학 문제 → 1분 사고 → 우수한 답변4️⃣ 개인화
각 사용자별 커스텀 모델
"당신의 스타일에 맞게 학습된 GPT"
개인 정보 기반 최적화5️⃣ 에너지 효율
현재: GPT-4 한 번 쿼리 = LED 전구 1시간 전력
미래: 10배 효율화 (양자 컴퓨팅, 신경망 최적화)6. GPT vs 인간: 경계는 어디?
6-1. 성능 비교
| 작업 | GPT-4 | 인간 |
|---|---|---|
| 텍스트 생성 | 95% | 100% |
| 코딩 | 97% (기본) | 100% (고급) |
| 창작 | 90% | 100% |
| 논리 추론 | 88% | 95% |
| 상식 추론 | 75% | 99% |
| 감정 이해 | 60% | 100% |
6-2. 인간만이 할 수 있는 것
1. 진정한 창의성 (완전히 새로운 아이디어)
2. 도덕적 판단 (옳고 그름의 판단)
3. 감정적 공감 (실제로 느끼기)
4. 목표 설정 (왜 하는가)
5. 책임감 (결과에 대한 책임)6-3. GPT가 이미 인간을 뛰어넘은 것
1. 정보 검색 (빠르고 정확)
2. 패턴 인식 (대규모 데이터에서)
3. 다국어 번역 (90% 이상)
4. 코드 자동 생성 (반복 작업)
5. 문서 요약 (길이 상관없이)FAQ: GPT 입문자를 위한 최종 질문
Q1. ChatGPT는 정말 “생각”하는 건가?
A. 아니요, 통계입니다. ChatGPT는 “다음 단어 확률 계산 기계”입니다. (1) 확률 기반: 확률이 높은 단어 선택, (2) 패턴 매칭: 학습 데이터의 패턴 반복, (3) 진정한 이해 없음: 의미를 모르고 확률만 계산. 하지만 결과물은 충분히 “똑똑해 보입니다”!
Q2. GPT로 일자리를 빼앗기나?
A. 부분적으로 Yes, 전체적으로 No. (1) 직업군 변화: 단순 작업(데이터 입력, 기초 번역)은 90% 자동화, (2) 새로운 직업: GPT 운영자, 검수자, 프롬프트 엔지니어 탄생, (3) 생산성: GPT로 10배 빠른 업무 = 더 창의적 일에 집중.
Q3. GPT는 아는 모든 걸 틀리게 말할 수 있나?
A. 네, “환각 현상”입니다. (1) 원인: 학습 데이터에 없는 질문 = 무작정 그럴듯한 답 생성, (2) 예시: “1950년 한국의 우주 프로그램은?”이라 물으면 아무것도 모르는데 만들어냄, (3) 해결: “모릅니다” 학습 중 + 검색 결합 (RAG) 기술 발전.
Q4. GPT-5는 얼마나 똑똑할까?
A. 예측은 어렵지만 추세로 보면: (1) 파라미터 증가 정체: GPU 부족, 비용 폭증으로 인해 크기 증가 한계, (2) 질 개선에 집중: 더 큰 모델보다 더 나은 데이터, 학습 방식 개선, (3) 멀티모달: GPT-5는 완전 멀티모달 일 가능성, (4) 시점: 2025년 중-하반기 예상.
Q5. 한국인도 ChatGPT로 벌 수 있나?
A. 네, 이미 하고 있습니다! (1) 블로그/유튜브: ChatGPT로 초안 작성 → 편집 → 수익화, (2) 번역: GPT로 기초 번역 → 검수 → 돈벌기, (3) 코딩: GitHub Copilot로 속도 3배 증가, (4) 가장 쉬운 방법: “프롬프트 템플릿 판매” (한국 특화 프롬프트).
AI 101 시리즈 최종 정리
16편 완성: 550,000자 이상의 대서사시
여정의 복습
1편: AI 정의 (1950~현재)
↓
2편: ML 학습 방법 (지도, 비지도, 강화)
↓
3-10편: 기초 알고리즘 (선형회귀 ~ 딥러닝)
↓
11편: CNN (이미지)
↓
12편: RNN/LSTM (시계열)
↓
13편: CNN-LSTM (하이브리드)
↓
14편: Transformer (병렬 처리)
↓
15편: BERT (양방향 이해)
↓
16편: GPT (창의적 생성) ← 지금 여기!결론
2024-2025년 AI 시대:
기술의 변화:
- 이전: AI는 "도구" (검색, 분류)
- 현재: AI는 "파트너" (협력, 창작)
- 미래: AI는 "필수" (없으면 뒤처짐)
직업의 변화:
- 사라지는 것: 단순 반복 업무
- 생기는 것: AI 활용, 검수, 창의 업무
- 가장 안전한 직업: "AI 잘 쓰는 인간"
개인의 대응:
- 1단계: ChatGPT 써보기 (이미 했나?)
- 2단계: GPT API로 개인 프로젝트
- 3단계: 업무에 적극 활용
- 4단계: GPT 기반 새로운 사업 (가장 큰 기회)외부 참고 자료
GPT를 더 깊게 배우고 싶다면:
- arXiv – Language Models are Unsupervised Multitask Learners (GPT-2)
- arXiv – Language Models are Few-Shot Learners (GPT-3)
- OpenAI – GPT-4 Technical Report
- WikiDocs – GPT 완벽 가이드
- HuggingFace – Transformers 라이브러리
여러분이 배운 것
✅ AI의 모든 아키텍처 (퍼셉트론 → Transformer → GPT)
✅ 각 기술의 원리 (수식, 코드, 직관)
✅ 실전 응용 (검색, 번역, 코딩, 창작)
✅ 최신 기술 (ChatGPT, GPT-4)
✅ 미래 전망 (AGI?, AI의 한계)
“Attention is all you need” (Transformer 2017)
“Language Models are Few-Shot Learners” (GPT-3 2020)
“Generative AI is a game changer” (ChatGPT 2022)
