GPT vs Claude vs Gemini - 생성형 AI 완전 해부: Transformer부터 멀티모달까지

Table of Contents

핵심 요약

“ChatGPT, Claude, Gemini… 다 비슷해 보이는데 뭐가 다른 거지?”

이 질문에 답하려면 생성형 AI의 근본 원리부터 이해해야 합니다.

모든 현대 LLM의 기반은 2017년 Google의 Transformer 아키텍처입니다.
“Attention is All You Need” 논문에서 제안된 Self-Attention 메커니즘은 문장 내 모든 단어 간 관계를 동시에 파악하여 RNN의 한계를 극복했습니다.

GPT 시리즈는 Transformer Decoder로 GPT-1(1.17억 파라미터, 2018) → GPT-2(15억, 2019) → GPT-3(1750억, 2020) → GPT-4(추정 1조+, 2023) → GPT-4o(멀티모달, 2024)로 진화했습니다.
RLHF(인간 피드백 강화학습)는 ChatGPT의 핵심으로, 사람이 평가한 데이터로 Reward Model을 학습해 인간 선호에 맞게 모델을 튜닝합니다.
Claude는 Anthropic의 Constitutional AI(헌법적 AI)를 적용해 윤리 원칙을 내장하고, RLAIF(AI 피드백 강화학습)로 스스로 검열합니다.
Claude 3.5 Sonnet은 코딩 64% 해결(Opus 38% 대비)로 GPT-4o를 능가합니다. Gemini 2.0은 바닥부터 멀티모달로 설계되어 텍스트/이미지/오디오/비디오를 네이티브 처리하며, 100만 토큰 컨텍스트를 지원합니다.
Diffusion Model(DDPM)은 이미지 생성의 핵심으로, 노이즈 추가(Forward) → 노이즈 제거(Reverse) 과정을 학습해 DALL-E, Stable Diffusion을 구현합니다.

본 포스팅에서는 Transformer 아키텍처 심층, GPT 1→4o 진화, RLHF/Constitutional AI, Diffusion Model, 멀티모달 AI, 3대 모델 성능 비교까지 완벽하게 해부합니다.

📍 목차

Transformer 아키텍처 심층 분석
GPT 시리즈의 진화 (1→2→3→4→4o)
RLHF – 인간 피드백 강화학습
Constitutional AI – Claude의 비밀
Diffusion Model – 이미지 생성의 원리
멀티모달 AI – 보고 듣고 말하는 AI
GPT vs Claude vs Gemini 완전 비교
OpenAI o1 – 추론 모델의 등장

1. Transformer 아키텍처 심층 분석

1-1. Transformer의 탄생

혁명의 시작:

2017년 Google이 발표한 논문 “Attention is All You Need”는 AI 역사를 바꿨습니다. 이 논문에서 제안된 Transformer 아키텍처는 기존 RNN(순환 신경망)의 한계를 완전히 극복했습니다.

RNN의 문제점:

기존 RNN/LSTM의 한계:

1. 순차 처리 (Sequential Processing)
   - 단어를 하나씩 순서대로 처리
   - 병렬화 불가능 → 학습 속도 느림

2. 장거리 의존성 문제 (Long-range Dependency)
   - 문장이 길어지면 앞부분 정보 손실
   - "기울기 소실" 문제 발생

3. 메모리 병목
   - 과거 정보를 고정 크기 벡터에 압축
   - 정보 손실 불가피

Transformer의 해결책:

Transformer의 혁신:

1. 병렬 처리 (Parallel Processing)
   - 모든 단어를 동시에 처리
   - GPU 활용 극대화 → 학습 속도 대폭 향상

2. Self-Attention 메커니즘
   - 문장 내 모든 단어 간 관계를 직접 계산
   - 거리에 상관없이 정보 전달

3. Positional Encoding
   - 순서 정보를 별도로 인코딩
   - 순차 구조 없이도 위치 파악

1-2. Self-Attention 메커니즘

핵심 원리:

Self-Attention은 “문장 내에서 각 단어가 다른 단어들과 얼마나 관련있는지”를 계산합니다.

Query, Key, Value:

Self-Attention의 3가지 구성요소:

Query (Q): "내가 찾고 싶은 정보"
Key (K):   "정보를 찾기 위한 인덱스/키"
Value (V): "실제 정보 값"

비유:
도서관에서 책을 찾을 때
- Query: "AI에 관한 책이 어디 있지?" (질문)
- Key: 각 책의 제목/분류 (인덱스)
- Value: 책의 실제 내용 (정보)

Query와 Key가 잘 매칭되면 해당 Value에 높은 가중치 부여

수학적 표현:

[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
]

수식 해석:

1. Q × K^T: Query와 Key의 유사도 계산
2. ÷ √d_k: 스케일링 (값이 너무 커지는 것 방지)
3. softmax: 확률 분포로 변환 (합이 1)
4. × V: 가중치를 Value에 적용

실제 예시:

문장: "The cat sat on the mat because it was tired"

"it"이 무엇을 가리키는가?

Self-Attention 계산:
- "it" → "cat" 유사도: 0.7 (높음)
- "it" → "mat" 유사도: 0.2 (낮음)
- "it" → "sat" 유사도: 0.1 (낮음)

→ "it"은 "cat"을 가리킨다고 학습
→ 문장의 긴 거리에도 관계 파악 가능

1-3. Multi-Head Attention

왜 여러 개의 Head가 필요한가:

Multi-Head Attention:
하나의 Attention 대신 여러 개의 Attention을 병렬로 수행

이유:
- 단일 Attention은 하나의 관점만 학습
- 여러 Head는 다양한 관점 포착

예시 (8 Head):
- Head 1: 문법적 관계 (주어-동사)
- Head 2: 의미적 관계 (동의어)
- Head 3: 위치적 관계 (인접 단어)
- Head 4: 대명사 참조
- ...

각 Head의 결과를 합쳐서 풍부한 표현 생성

수학적 표현:

[
\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, …, \text{head}_h)W^O
]

[
\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)
]

1-4. Encoder-Decoder 구조

Transformer 전체 구조:

┌─────────────────────────────────────────────────────────┐
│                    TRANSFORMER                          │
├─────────────────────┬───────────────────────────────────┤
│      ENCODER        │           DECODER                 │
│  (입력 처리)        │        (출력 생성)                │
├─────────────────────┼───────────────────────────────────┤
│                     │                                   │
│  ┌───────────────┐  │  ┌───────────────────────────┐   │
│  │ Multi-Head    │  │  │ Masked Multi-Head         │   │
│  │ Self-Attention│  │  │ Self-Attention            │   │
│  └───────┬───────┘  │  └─────────────┬─────────────┘   │
│          │          │                │                  │
│  ┌───────▼───────┐  │  ┌─────────────▼─────────────┐   │
│  │ Feed Forward  │  │  │ Encoder-Decoder           │   │
│  │ Network       │  │  │ Attention                 │   │
│  └───────┬───────┘  │  └─────────────┬─────────────┘   │
│          │          │                │                  │
│     (N층 반복)      │  ┌─────────────▼─────────────┐   │
│                     │  │ Feed Forward Network      │   │
│                     │  └─────────────┬─────────────┘   │
│                     │           (N층 반복)             │
│                     │                                   │
│  입력: "I love AI"  │  출력: "나는 AI를 사랑해"        │
└─────────────────────┴───────────────────────────────────┘

GPT vs BERT:

┌────────────────────┬─────────────────┬─────────────────┐
│      구분          │     BERT        │     GPT         │
├────────────────────┼─────────────────┼─────────────────┤
│ 사용 구조          │ Encoder Only    │ Decoder Only    │
│ Attention 방향     │ 양방향          │ 단방향 (왼→오)  │
│ 학습 방식          │ MLM (빈칸 채우기)│ CLM (다음 예측) │
│ 주요 용도          │ 이해 (분류, NER)│ 생성 (텍스트)   │
│ 대표 모델          │ BERT, RoBERTa   │ GPT, LLaMA      │
└────────────────────┴─────────────────┴─────────────────┘

MLM: Masked Language Model
CLM: Causal Language Model

2. GPT 시리즈의 진화 (1→2→3→4→4o)

2-1. GPT-1 (2018)

첫 번째 GPT:

GPT-1 (Generative Pre-trained Transformer):
OpenAI가 2018년 발표한 최초의 GPT 모델

핵심 특징:
├── 파라미터: 1.17억 개 (117M)
├── 아키텍처: Transformer Decoder 12층
├── 학습 데이터: BookCorpus (7,000권 도서)
├── 토큰 길이: 512 토큰
└── 혁신: 사전학습 + 미세조정 패러다임

핵심 아이디어:
"대량의 텍스트로 사전학습 후, 
 특정 작업에 미세조정하면 성능 향상"

2-2. GPT-2 (2019)

너무 위험해서 공개를 미룬 모델:

GPT-2:
GPT-1 대비 약 13배 크기 증가

핵심 특징:
├── 파라미터: 15억 개 (1.5B)
├── 아키텍처: Transformer Decoder 48층
├── 학습 데이터: WebText (800만 웹페이지)
├── 토큰 길이: 1,024 토큰
└── 혁신: Zero-shot Learning 능력 발견

역사적 사건:
- 처음에는 "너무 잘 써서 가짜뉴스 우려"로 공개 제한
- 단계적으로 공개 (124M → 355M → 774M → 1.5B)

주요 개선:
- Layer Normalization 위치 변경
- 더 큰 토큰 길이 (512 → 1024)
- 더 다양한 학습 데이터

2-3. GPT-3 (2020)

규모의 힘을 증명한 모델:

GPT-3:
GPT-2 대비 약 117배 크기 증가

핵심 특징:
├── 파라미터: 1,750억 개 (175B)
├── 아키텍처: Transformer Decoder 96층
├── 학습 데이터: 약 45TB 텍스트
├── 토큰 길이: 2,048 토큰
└── 혁신: Few-shot, In-context Learning

놀라운 능력:
- 예시 몇 개만 보여주면 새로운 작업 수행
- 번역, 코딩, 질문 응답 등 다양한 작업
- 별도 학습 없이 프롬프트만으로 작동

한계:
- 환각 (Hallucination)
- 윤리적 문제 (편향, 유해 콘텐츠)
- 실시간 정보 접근 불가

2-4. GPT-3.5 & ChatGPT (2022)

대중화의 시작:

GPT-3.5 / ChatGPT:
RLHF를 적용한 대화형 AI

핵심 특징:
├── 기반: GPT-3.5 (GPT-3 개선 버전)
├── 핵심 기술: RLHF (인간 피드백 강화학습)
├── 학습 데이터: 2021년 9월까지
└── 혁신: 대화형 인터페이스, 지시 따르기

RLHF의 효과:
- 더 안전하고 유용한 응답
- 지시사항 준수 능력 향상
- 환각 감소 (완전히 해결은 아님)

역사적 의의:
- 2022년 11월 30일 출시
- 5일 만에 100만 사용자
- 2개월 만에 1억 사용자 돌파
- AI 대중화의 기폭제

2-5. GPT-4 (2023)

멀티모달의 시작:

GPT-4:
OpenAI의 가장 강력한 모델

핵심 특징:
├── 파라미터: 비공개 (추정 1조+ 또는 MoE 구조)
├── 아키텍처: 비공개
├── 토큰 길이: 8K → 32K → 128K (Turbo)
├── 멀티모달: 이미지 입력 지원 (GPT-4V)
└── 혁신: 추론 능력 대폭 향상

성능 비교:
┌──────────────────┬─────────┬─────────┐
│ 벤치마크         │ GPT-3.5 │ GPT-4   │
├──────────────────┼─────────┼─────────┤
│ MMLU (지식)      │ 70%     │ 86.4%   │
│ Bar Exam (법학)  │ 하위10% │ 상위10% │
│ 의사 면허 시험   │ 불합격  │ 합격    │
│ 코딩 (HumanEval) │ 48%     │ 67%     │
└──────────────────┴─────────┴─────────┘

2-6. GPT-4o (2024)

옴니(Omni) 모델:

GPT-4o (o = omni):
텍스트, 이미지, 오디오를 통합 처리

핵심 특징:
├── 입력: 텍스트 + 이미지 + 오디오
├── 출력: 텍스트 + 이미지 + 오디오
├── 응답 속도: 평균 320ms (인간 대화 수준)
├── 토큰 길이: 128K
└── 비용: GPT-4 Turbo 대비 50% 저렴

혁신:
- End-to-End 멀티모달 학습
- 별도 모델 조합 아닌 단일 신경망
- 실시간 음성 대화 가능
- 감정 표현이 풍부한 음성

API 가격:
- 입력: $5/1M 토큰 (GPT-4 Turbo의 50%)
- 출력: $15/1M 토큰 (GPT-4 Turbo의 50%)

2-7. GPT 진화 요약

┌─────────┬───────────┬───────────┬──────────────────────┐
│  모델   │ 파라미터  │   연도    │     주요 혁신        │
├─────────┼───────────┼───────────┼──────────────────────┤
│ GPT-1   │ 117M      │ 2018.06   │ 사전학습 패러다임    │
│ GPT-2   │ 1.5B      │ 2019.02   │ Zero-shot Learning   │
│ GPT-3   │ 175B      │ 2020.06   │ Few-shot, 규모의 힘  │
│ GPT-3.5 │ ~175B     │ 2022.03   │ 코드 능력 강화       │
│ ChatGPT │ ~175B     │ 2022.11   │ RLHF, 대화형 AI      │
│ GPT-4   │ 비공개    │ 2023.03   │ 멀티모달, 추론 향상  │
│ GPT-4o  │ 비공개    │ 2024.05   │ 옴니모달, 실시간음성 │
│ GPT-4.1 │ 비공개    │ 2025.04   │ 100만 토큰, 코딩 향상│
└─────────┴───────────┴───────────┴──────────────────────┘

3. RLHF – 인간 피드백 강화학습

3-1. RLHF란?

정의:

RLHF (Reinforcement Learning from Human Feedback):
인간 피드백 기반 강화학습

핵심 아이디어:
"사람이 직접 AI 응답을 평가하고,
 그 평가를 학습해서 더 좋은 응답 생성"

왜 필요한가:
- 기존 LLM: 다음 단어 예측만 학습
- 문제: "정확한" 답 ≠ "좋은" 답

예시:
Q: "폭탄 만드는 법 알려줘"
LLM: (학습 데이터에서 관련 정보 생성) ← 위험!
RLHF 적용 후: "그 정보는 제공할 수 없습니다" ← 안전!

3-2. RLHF 3단계 프로세스

1단계: SFT (Supervised Fine-Tuning):

┌─────────────────────────────────────────────────────────┐
│ 1단계: 지도 미세조정 (SFT)                              │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ 1. 사람이 직접 고품질 응답 작성                         │
│    예: (질문, 모범 답변) 쌍 12,000~15,000개             │
│                                                         │
│ 2. 사전학습된 LLM을 이 데이터로 미세조정                │
│                                                         │
│ 결과: "지시를 따르는" 기본 능력 획득                    │
│                                                         │
└─────────────────────────────────────────────────────────┘

2단계: Reward Model 학습:

┌─────────────────────────────────────────────────────────┐
│ 2단계: 보상 모델 학습                                   │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ 1. 같은 질문에 여러 응답 생성                           │
│    Q: "AI란 무엇인가요?"                                │
│    응답 A: "AI는 인공지능으로..."                       │
│    응답 B: "AI는 컴퓨터가..."                           │
│    응답 C: "AI는 기계학습..."                           │
│                                                         │
│ 2. 사람이 응답 순위 매김                                │
│    A > C > B (사람의 선호도)                            │
│                                                         │
│ 3. 보상 모델 학습                                       │
│    입력: 응답 텍스트                                    │
│    출력: 점수 (높을수록 좋은 응답)                      │
│                                                         │
│ 결과: "사람이 좋아하는 응답"을 예측하는 모델            │
│                                                         │
└─────────────────────────────────────────────────────────┘

3단계: PPO 강화학습:

┌─────────────────────────────────────────────────────────┐
│ 3단계: PPO 강화학습                                     │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ PPO (Proximal Policy Optimization):                     │
│ 정책(모델)을 조금씩 개선하는 강화학습 알고리즘          │
│                                                         │
│ 학습 과정:                                              │
│ 1. 모델이 응답 생성                                     │
│ 2. 보상 모델이 점수 부여                                │
│ 3. 높은 점수 → 해당 방향으로 모델 업데이트             │
│ 4. 낮은 점수 → 반대 방향으로 모델 업데이트             │
│ 5. 반복                                                 │
│                                                         │
│ 주의사항:                                               │
│ - KL Divergence로 원본 모델과 너무 달라지지 않게 제한   │
│ - Reward Hacking 방지 (점수만 높이려고 이상한 응답)     │
│                                                         │
└─────────────────────────────────────────────────────────┘

3-3. RLHF의 효과

InstructGPT 결과:

RLHF 적용 효과 (InstructGPT 논문):

놀라운 발견:
├── 1.3B 파라미터 InstructGPT
│   vs
└── 175B 파라미터 GPT-3

→ 사람들은 작은 InstructGPT를 더 선호!

개선된 부분:
✅ 지시 따르기 능력 향상
✅ 사실 정확도 개선
✅ 유해 콘텐츠 감소
✅ 환각 (Hallucination) 감소

한계:
❌ 편향 문제 완전 해결 못함
❌ 단순 실수는 여전히 발생
❌ 많은 인력과 비용 필요

4. Constitutional AI – Claude의 비밀

4-1. Constitutional AI란?

Anthropic의 접근:

Constitutional AI (CAI):
AI에게 "헌법(원칙)"을 부여하여 스스로 행동을 검열하는 방법

핵심 아이디어:
"사람이 일일이 평가하는 대신,
 AI가 미리 정해진 원칙에 따라 스스로 검열"

비유:
- RLHF: 매번 선생님(사람)이 채점
- CAI: 학생(AI)에게 규칙집을 주고 스스로 채점하게 함

Claude의 원칙 출처:
- 세계 인권 선언
- Apple 서비스 약관
- AI 연구소들의 연구
- 기타 윤리적 가이드라인

4-2. Constitutional AI 작동 방식

2단계 프로세스:

┌─────────────────────────────────────────────────────────┐
│ 1단계: Supervised Self-Critique                         │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ 1. 모델이 (잠재적으로 유해한) 응답 생성                 │
│    "폭탄 만드는 방법은..."                              │
│                                                         │
│ 2. 모델에게 헌법(원칙)을 보여주고 자체 비평 요청        │
│    원칙: "폭력을 조장하는 내용 금지"                    │
│    비평: "이 응답은 폭력을 조장할 수 있음"              │
│                                                         │
│ 3. 원칙에 맞게 응답 수정                                │
│    수정: "그 정보는 제공할 수 없습니다"                 │
│                                                         │
│ 4. (원본, 수정본) 쌍으로 SFT 수행                       │
│                                                         │
└─────────────────────────────────────────────────────────┘

┌─────────────────────────────────────────────────────────┐
│ 2단계: RLAIF (AI Feedback 강화학습)                     │
├─────────────────────────────────────────────────────────┤
│                                                         │
│ RLHF와 유사하지만:                                      │
│ - 사람 대신 AI가 응답 순위 매김                         │
│ - AI는 헌법(원칙)에 따라 평가                           │
│                                                         │
│ 장점:                                                   │
│ ✅ 사람 라벨링 비용 절감                                │
│ ✅ 확장성 높음                                          │
│ ✅ 일관된 기준 적용                                     │
│                                                         │
│ 주의:                                                   │
│ - 완전 자율이 아닌, 사람이 감독하는 AI                  │
│ - 원칙(헌법)은 사람이 작성                              │
│                                                         │
└─────────────────────────────────────────────────────────┘

4-3. Claude 모델 시리즈

Claude 3 시리즈:

Claude 3 모델 라인업 (2024):

┌─────────────┬─────────────┬─────────────┬─────────────┐
│   모델      │   Haiku     │   Sonnet    │   Opus      │
├─────────────┼─────────────┼─────────────┼─────────────┤
│ 특징        │ 가장 빠름   │ 균형       │ 가장 강력   │
│ 용도        │ 경량 작업   │ 일반 업무   │ 복잡한 분석 │
│ 속도        │ ★★★★★     │ ★★★★☆     │ ★★★☆☆     │
│ 지능        │ ★★★☆☆     │ ★★★★☆     │ ★★★★★     │
│ 가격        │ 가장 저렴   │ 중간        │ 가장 비쌈   │
└─────────────┴─────────────┴─────────────┴─────────────┘

Claude 3.5 Sonnet의 혁신:

Claude 3.5 Sonnet (2024.06):

성능 비교 (vs Claude 3 Opus):
├── 속도: 2배 빠름
├── 비용: 더 저렴 (중간 티어 가격)
├── 코딩: 64% 해결 (Opus 38%)
└── 대학원 추론: Opus 능가

vs GPT-4o:
├── 코딩: Claude 3.5 > GPT-4o
├── 수학: GPT-4o > Claude 3.5 (근소)
├── 비전: Claude 3.5 > GPT-4o
└── 속도: Claude 3.5 > GPT-4o

Artifacts 기능:
- 코드 결과를 실시간 미리보기
- 입코딩으로 앱 즉시 테스트
- 개발 생산성 대폭 향상

5. Diffusion Model – 이미지 생성의 원리

5-1. Diffusion Model이란?

핵심 개념:

Diffusion Model:
"이미지에 노이즈를 조금씩 추가했다가,
 그 역과정을 학습해서 노이즈에서 이미지 생성"

비유: 라벤더 디퓨저
- Forward: 향이 방 전체로 확산 (이미지 → 노이즈)
- Reverse: 향을 다시 디퓨저로 모음 (노이즈 → 이미지)

실제로는 역과정(Reverse)만 학습:
- 노이즈가 섞인 이미지에서 노이즈를 예측
- 예측한 노이즈를 제거하면 원본에 가까워짐

5-2. DDPM (Denoising Diffusion Probabilistic Model)

Forward Process (확산):

Forward Diffusion Process:

x₀ → x₁ → x₂ → ... → x_T

각 단계에서 가우시안 노이즈 추가:
x_t = √(1-β_t) · x_{t-1} + √β_t · ε

여기서:
- β_t: t 시점의 노이즈 스케줄 (작은 값)
- ε: 표준 가우시안 노이즈

특별한 성질:
x_t = √(ᾱ_t) · x₀ + √(1-ᾱ_t) · ε

→ 임의의 t 시점으로 한 번에 이동 가능!
→ 학습 시 매우 효율적

Reverse Process (복원):

Reverse Diffusion Process:

x_T → x_{T-1} → ... → x₁ → x₀

신경망이 학습하는 것:
"노이즈가 섞인 x_t에서 추가된 노이즈 ε 예측"

손실 함수 (단순화):
L = E[||ε - ε_θ(x_t, t)||²]

ε: 실제로 추가한 노이즈
ε_θ: 모델이 예측한 노이즈

→ 예측한 노이즈를 빼면 x_{t-1}로 이동
→ T번 반복하면 x₀ (원본 이미지) 복원

시각화:

Forward (학습 데이터 준비):
[고양이 사진] → [노이즈 10%] → [노이즈 50%] → [완전 노이즈]
     x₀            x_{100}        x_{500}         x_{1000}

Reverse (이미지 생성):
[완전 노이즈] → [형체 보임] → [고양이?] → [선명한 고양이]
    x_{1000}      x_{500}       x_{100}         x₀

각 단계에서 모델은 "어떤 노이즈가 추가됐는지" 예측
예측한 노이즈를 제거하면 이전 단계로 복원

5-3. Stable Diffusion

Latent Diffusion Model:

Stable Diffusion의 혁신:
"픽셀 공간이 아닌 잠재 공간에서 확산"

기존 DDPM:
- 512×512 이미지 직접 처리
- 계산량 매우 큼
- 학습/생성 느림

Stable Diffusion (LDM):
- VAE로 이미지를 64×64 잠재 벡터로 압축
- 잠재 공간에서 확산 수행
- 결과를 다시 이미지로 복원
- 계산량 대폭 감소!

구조:
┌─────────┐     ┌───────────────┐     ┌─────────┐
│ 텍스트  │ ──→ │ CLIP Encoder  │ ──→ │ 텍스트  │
│ 프롬프트│     │               │     │ 임베딩  │
└─────────┘     └───────────────┘     └────┬────┘
                                           │
┌─────────┐     ┌───────────────┐          │
│ 노이즈  │ ──→ │ U-Net         │ ←────────┘
│ (잠재)  │     │ (확산 모델)   │
└─────────┘     └───────┬───────┘
                        │
                ┌───────▼───────┐     ┌─────────┐
                │ VAE Decoder   │ ──→ │ 이미지  │
                │               │     │ 출력    │
                └───────────────┘     └─────────┘

5-4. DALL-E 시리즈

DALL-E (2021):

DALL-E 1:
- GPT-3 기반 (120억 파라미터)
- dVAE로 이미지 토큰화
- 텍스트 + 이미지 토큰을 Autoregressive 생성
- 256×256 해상도

DALL-E 2 (2022):
- CLIP + Diffusion 결합
- Prior: 텍스트 임베딩 → 이미지 임베딩
- Decoder: 이미지 임베딩 → 실제 이미지
- 512×512, 1024×1024 해상도
- 이미지 편집, 변형 기능

DALL-E 3 (2023):
- ChatGPT와 통합
- 프롬프트 자동 개선
- 텍스트 렌더링 개선
- 안전성 강화

6. 멀티모달 AI – 보고 듣고 말하는 AI

6-1. 멀티모달이란?

정의:

멀티모달 AI:
여러 형태(Modality)의 데이터를 통합 처리하는 AI

형태(Modality)의 종류:
- 텍스트: 자연어, 코드
- 이미지: 사진, 그림, 차트
- 오디오: 음성, 음악, 소리
- 비디오: 영상 콘텐츠
- 3D: 공간 데이터
- 기타: 센서 데이터, 온도 등

인간과의 유사성:
- 인간은 여러 감각을 통합해 세상 이해
- 멀티모달 AI도 여러 입력을 통합 처리
- 더 풍부하고 정확한 이해 가능

6-2. 멀티모달 AI 접근법

두 가지 방식:

방식 1: 모듈 조합형
- 각 모달리티별 전문 모델 개발
- 결과를 합쳐서 통합
- 예: CLIP(이미지) + GPT(텍스트)

장점: 각 모달리티에 최적화
단점: 통합 과정에서 정보 손실

방식 2: 네이티브 멀티모달
- 처음부터 여러 모달리티 통합 학습
- 단일 신경망에서 모든 형태 처리
- 예: GPT-4o, Gemini 2.0

장점: 더 깊은 통합, 교차 모달 이해
단점: 학습 복잡성 증가

6-3. GPT-4o의 멀티모달

옴니모델:

GPT-4o (Omni):
"모든 것을 하나로" - 진정한 멀티모달

입력:
├── 텍스트: 자연어 질문/지시
├── 이미지: 사진, 문서, 차트
├── 오디오: 음성 명령
└── 비디오: (향후 지원)

출력:
├── 텍스트: 답변, 설명
├── 이미지: (DALL-E 통합)
└── 오디오: 음성 답변 (감정 표현)

실시간 대화:
- 음성 응답 속도: 평균 320ms
- 인간 대화 반응 시간과 유사
- 감정을 담은 음성 표현

기술적 특징:
- End-to-End 학습 (별도 ASR/TTS 없음)
- 단일 신경망에서 모든 모달리티 처리
- 더 자연스러운 상호작용

6-4. Gemini의 네이티브 멀티모달

바닥부터 멀티모달:

Gemini 2.0:
"처음부터 멀티모달로 설계"

다른 모델과의 차이:
- GPT-4: 텍스트 모델 + 비전 모듈 추가
- Gemini: 처음부터 모든 모달리티 통합 학습

Gemini 2.0 Flash:
├── 컨텍스트: 100만 토큰
├── 입력: 텍스트, 이미지, 오디오, 비디오
├── 출력: 텍스트, 이미지, TTS
├── 속도: Gemini 1.5 대비 2배
├── 가격: Flash-Lite로 비용 최적화
└── 특징: 에이전트 기능 내장

고유 강점:
- 장시간 비디오 분석 (수 시간)
- 다국어 음성 실시간 처리
- Google 생태계 통합

7. GPT vs Claude vs Gemini 완전 비교

7-1. 벤치마크 성능 비교

2024-2025 주요 벤치마크:

┌──────────────────┬────────────┬────────────────┬────────────────┐
│ 벤치마크         │ GPT-4o     │ Claude 3.5     │ Gemini 2.0     │
│                  │            │ Sonnet         │ Flash          │
├──────────────────┼────────────┼────────────────┼────────────────┤
│ MMLU (지식)      │ 88.7%      │ 88.7%          │ 90.0%+         │
│ HumanEval (코딩) │ 90.2%      │ 92.0%          │ 89.5%          │
│ MATH (수학)      │ 76.6%      │ 71.1%          │ 78.0%          │
│ GPQA (과학)      │ 53.6%      │ 59.4%          │ 54.0%          │
│ 코드 (SWE-bench) │ 33.2%      │ 49.0%          │ 32.0%          │
├──────────────────┼────────────┼────────────────┼────────────────┤
│ 종합 강점        │ 균형잡힌   │ 코딩 최강      │ 멀티모달,      │
│                  │ 성능       │                │ 장문맥락       │
└──────────────────┴────────────┴────────────────┴────────────────┘

7-2. 특성별 비교

각 모델의 성격:

┌─────────────────┬─────────────────┬─────────────────┬─────────────────┐
│ 특성            │ GPT-4o          │ Claude 3.5      │ Gemini 2.0      │
├─────────────────┼─────────────────┼─────────────────┼─────────────────┤
│ 개발사          │ OpenAI          │ Anthropic       │ Google          │
│ 출시일          │ 2024.05         │ 2024.06         │ 2024.12         │
│ 컨텍스트 창     │ 128K            │ 200K            │ 1M (100만)      │
│ 멀티모달        │ 텍스트+이미지   │ 텍스트+이미지   │ 텍스트+이미지   │
│                 │ +오디오         │                 │ +오디오+비디오  │
│ 안전성 접근     │ RLHF            │ Constitutional  │ RLHF +          │
│                 │                 │ AI (CAI)        │ 내부 가이드     │
│ 특화 영역       │ 범용, 균형      │ 코딩, 분석      │ 멀티모달, 검색  │
│ 가격 (입력)     │ $5/1M 토큰      │ $3/1M 토큰      │ $0.075/1M       │
│ API 접근성      │ 높음            │ 높음            │ 높음            │
└─────────────────┴─────────────────┴─────────────────┴─────────────────┘

7-3. 용도별 추천

어떤 상황에 어떤 모델?

┌─────────────────────┬─────────────────────────────────────┐
│ 용도                │ 추천 모델                           │
├─────────────────────┼─────────────────────────────────────┤
│ 일반 대화/질의응답  │ GPT-4o (균형, 접근성)               │
│ 코딩/프로그래밍     │ Claude 3.5 Sonnet (SWE-bench 1위)   │
│ 긴 문서 분석        │ Gemini 2.0 (100만 토큰)             │
│ 수학/과학           │ GPT-4o 또는 Gemini 2.0              │
│ 창작/글쓰기         │ Claude 3.5 (자연스러운 문체)        │
│ 멀티모달 작업       │ Gemini 2.0 (네이티브 멀티모달)      │
│ 안전성 중시         │ Claude 3.5 (Constitutional AI)      │
│ 실시간 음성         │ GPT-4o (320ms 응답)                 │
│ 비용 효율           │ Gemini 2.0 Flash-Lite               │
│ Google 생태계       │ Gemini 2.0                          │
└─────────────────────┴─────────────────────────────────────┘

7-4. 실제 사용 경험 비교

코딩 능력:

코딩 성능 (실무자 평가):

Claude 3.5 Sonnet:
✅ 복잡한 코드 문제 64% 해결 (Opus 38%)
✅ Artifacts로 실시간 코드 테스트
✅ 상세한 설명과 주석
✅ 리팩토링 제안 우수

GPT-4o:
✅ 다양한 언어 지원
✅ 안정적인 코드 생성
✅ 디버깅 능력 우수
❌ 최신 라이브러리 지식 한계

Gemini 2.0:
✅ Google Cloud 통합 우수
✅ TensorFlow/PyTorch 지원
✅ 대용량 코드베이스 분석
❌ 창의적 코드 생성 약간 약함

문서 분석:

긴 문서 처리:

Gemini 2.0 (100만 토큰):
- 500페이지 기술 문서 한 번에 분석
- 수 시간 분량 비디오 요약
- 대규모 코드베이스 전체 검토

Claude 3.5 (200K 토큰):
- 약 150,000 단어 처리
- 99% 메모리 정확도
- 복잡한 분석 우수

GPT-4o (128K 토큰):
- 약 100,000 단어 처리
- 안정적인 성능
- 긴 문서에서 정확도 하락 가능

8. OpenAI o1 – 추론 모델의 등장

8-1. o1이란?

새로운 패러다임:

OpenAI o1 (2024.09):
"답하기 전에 생각하는" 추론 모델

핵심 차이:
- 기존 모델: 질문 → 즉시 답변
- o1: 질문 → 생각(추론) → 답변

내부 동작:
1. "Chain of Thought" 자동 생성
2. 여러 추론 경로 탐색
3. 자기 검증 (Self-Reflection)
4. 최종 답변 도출

특징:
- 복잡한 문제에서 더 정확
- 과학, 수학, 코딩에 강함
- 더 많은 "사고 토큰" 사용
- 응답 시간 더 길어질 수 있음

8-2. o1 성능

벤치마크 결과:

o1 vs GPT-4o 비교:

AIME 2024 (수학 경시):
- GPT-4o: 13.4%
- o1-preview: 74.4%
- o1: 83.3%

GPQA Diamond (과학):
- GPT-4o: 53.6%
- o1: 78.0%

코딩 (CodeForces):
- GPT-4o: 상위 11%
- o1: 상위 89%

의학 면허:
- GPT-4o: 합격
- o1: 높은 점수로 합격

특히 강한 분야:
✅ 수학적 추론
✅ 과학 문제 해결
✅ 복잡한 코딩
✅ 논리적 분석

8-3. o1의 한계

아직 개선 필요한 부분:

o1의 한계:

❌ 일반 글쓰기/대화:
   - GPT-4o와 비슷하거나 약간 나음
   - 추론 능력이 모든 영역에 적용되진 않음

❌ 속도:
   - "생각하는 시간" 필요
   - 간단한 질문에도 더 오래 걸림

❌ 비용:
   - 추론 토큰이 컨텍스트 차지
   - 동일 질문에 더 많은 토큰 사용

❌ 프롬프트 민감도:
   - "단계별로 생각해"라고 하면 오히려 성능 하락
   - 자체 추론 방식과 충돌

❌ 환각:
   - 여전히 잘못된 정보 생성 가능
   - 추론 과정에서도 오류 발생

FAQ: 생성형 AI Q&A

Q1. GPT와 BERT의 차이점은?

A. 구조와 용도의 차이:

BERT (Bidirectional Encoder):
- Transformer Encoder 사용
- 양방향 문맥 파악
- 빈칸 채우기(MLM) 학습
- 용도: 분류, 추출, 이해 작업

GPT (Generative Pre-trained Transformer):
- Transformer Decoder 사용
- 단방향 (왼쪽 → 오른쪽)
- 다음 단어 예측(CLM) 학습
- 용도: 텍스트 생성

비유:
- BERT: 독해력 테스트 전문가
- GPT: 글쓰기 전문가

Q2. 왜 모델 크기가 중요한가?

A. 스케일링 법칙:

Scaling Laws (스케일링 법칙):

발견:
모델 크기 ↑ + 데이터 ↑ + 연산 ↑
→ 성능 예측 가능하게 향상

GPT 시리즈 예:
- GPT-1 (117M): 기본 능력
- GPT-2 (1.5B): Zero-shot
- GPT-3 (175B): Few-shot
- GPT-4 (1T+?): 추론, 멀티모달

하지만 한계도:
- 비용 기하급수 증가
- 에너지 소비 문제
- 수확 체감 (크기 10배 ≠ 성능 10배)
- 효율성 연구 중요 (MoE, 경량화)

Q3. RLHF와 Constitutional AI 중 뭐가 나은가?

A. 상호 보완적:

RLHF:
✅ 직접적인 인간 선호 학습
✅ 섬세한 조정 가능
❌ 비용 높음 (인력 필요)
❌ 확장성 한계

Constitutional AI:
✅ 확장성 높음 (AI가 AI 평가)
✅ 일관된 원칙 적용
❌ 원칙 설계에 의존
❌ 미묘한 상황 판단 어려움

실제:
- Claude: CAI + 일부 RLHF
- GPT: RLHF 중심
- 둘 다 장단점 있음

Q4. 생성형 AI의 미래는?

A. 주요 트렌드:

2025-2030 예상 트렌드:

1. 추론 능력 강화:
   - o1 같은 "생각하는" 모델 확산
   - 복잡한 문제 해결 능력 향상

2. 에이전트 AI:
   - 도구 사용, 자율 실행
   - 업무 자동화 확대

3. 멀티모달 진화:
   - 더 많은 모달리티 통합
   - 현실 세계 이해 강화

4. 효율성:
   - 작은 모델로 높은 성능
   - 에지 디바이스 실행

5. 안전성:
   - 규제 강화 (EU AI Act)
   - 설명 가능한 AI 요구

외부 참고 자료

생성형 AI를 더 깊게 배우고 싶다면:

Attention is All You Need 논문 – Transformer 원본
OpenAI GPT-4 Technical Report – GPT-4 공식 문서
Anthropic Constitutional AI 논문 – Claude의 원리
DDPM 논문 – Diffusion Model 원본
Google Gemini 블로그 – Gemini 공식

최종 정리: 생성형 AI 해부

핵심 메시지:

✅ Transformer: 2017년 혁명, Self-Attention이 핵심
✅ GPT 진화: 117M → 175B → 1T+ (규모의 힘)
✅ RLHF: 인간 피드백으로 안전하고 유용한 AI
✅ Constitutional AI: 원칙 기반 자체 검열 (Claude)
✅ Diffusion: 노이즈 추가 → 제거로 이미지 생성
✅ 멀티모달: 텍스트+이미지+오디오+비디오 통합
✅ o1: "생각하는" 추론 모델의 등장

모델 선택 가이드:

용도별 최적 선택:

일반 용도: GPT-4o (균형, 접근성)
코딩: Claude 3.5 Sonnet (SWE-bench 1위)
긴 문서: Gemini 2.0 (100만 토큰)
수학/과학: o1 (추론 특화)
안전성: Claude (Constitutional AI)
비용 효율: Gemini Flash-Lite