블랙박스를 열다: Mechanistic Interpretability와 희소 오토인코더(Sparse Autoencoder) 완벽 가이드! AI의 “개념 지도”를 그리다
핵심 요약
“AI가 실제로 생각하는 방식을 우리가 볼 수 있을까?”
이것이 2024년 AI 해석 가능성(Interpretability) 분야의 가장 뜨거운 질문입니다.
Anthropic의 혁신적 연구 결과, 희소 오토인코더(Sparse Autoencoder, SAE)라는 기술로 신경망 내 수백만 개의 뉴런 활성화를 단 몇 개의 해석 가능한 “개념(concept)”으로 변환할 수 있음이 증명되었습니다.
놀랍게도, Anthropic 연구팀은 Claude 3 Sonnet의 활성화 데이터에서 “Golden Gate Bridge” 특징을 발견했고, 이를 조절하면 모델이 모든 응답에 금문교를 언급하도록 만들 수 있습니다.
더 충격적인 것은, 최신 연구 (2025)에서 SAE가 단순한 해석을 넘어 인과관계 실험(causal intervention)을 가능하게 하며, 모델 안의 “미지의 개념” 발견에 특히 강력하다는 점입니다.
이 포스팅에서는 다의성(Polysemanticity)의 문제, 중첩(Superposition) 가설, SAE의 작동 원리, Monosemanticity의 의미, 그리고 실제 발견 사례와 미래의 AI 안전성까지 완벽하게 분석합니다.
1. 신경망의 블랙박스: 다의성과 슈퍼포지션의 수수께끼
1-1. 뉴런은 “하나의 개념”을 나타낼까?

초기 신경망 해석 연구의 기대:
- “깊은 신경망의 뉴런은 사람이 이해할 수 있는 개념에 대응할 것이다”
- 예: 특정 뉴런은 “고양이”를 인식, 다른 뉴런은 “문”을 인식
현실의 충격:
“단일 뉴런이 여러 개의 전혀 무관한 개념에 동시에 반응합니다. 예를 들어, 한 뉴런이 ‘강아지’, ‘금지 표지판’, ‘그리스 텍스트’에 동시에 활성화됩니다!”
이 현상을 “다의성(Polysemanticity)”이라 합니다.
1-2. 왜 다의성이 발생하는가? – 중첩(Superposition) 가설

중첩 가설 (Superposition Hypothesis):
핵심 아이디어:
신경망이 더 많은 개념(M)을 더 적은 뉴런(N)에 저장하려면:
- 개념을 “방향(direction)”으로 표현
- 각 뉴런이 여러 방향(개념)에 기여
- 각 개념이 여러 뉴런에 분산
비유:
생각해보세요. 당신이 100명의 방 (뉴런)에 1000명의 손님 (개념)을 배치해야 한다면?
- 옵션 1: 각 방에 10명씩 → 한 방에 여러 무관한 사람들 (다의성!)
- 옵션 2: 손님들을 3D 좌표 공간으로 표현 → “특정 각도”에 있는 손님들만 원함
신경망은 옵션 2를 선택합니다!
1-3. 중첩의 증거와 위험성
발견:
- 작은 신경망에서 의도적으로 superposition 만들기 성공
- Phase Change: 특정 데이터 스파시티에서 갑자기 중첩 현상 발생
- 균형 있는 polytope와의 기하학적 연결 발견
why 중요한가?
중첩이 있으면:
- 뉴런 해석 불가능 (여러 개념 섞임)
- 적대적 예시(Adversarial Examples)와 연결
- 모델 안전성 위험 (의도하지 않은 행동)
2. 희소 오토인코더(SAE): 차원 축소를 통한 해석
2-1. SAE의 기본 구조

기본 개념:
기존 오토인코더:
- 입력 → 작은 병목 → 출력
- 목표: “압축”
SAE:
- 입력 (뉴런 활성화) → 큰 중간층 → 출력
- 목표: “희소 표현으로 복원“
3단계:
Step 1: 인코더
- 뉴런 활성화 x를 받음
- 크기 M인 특징 벡터로 변환 (M >> 뉴런 수)
- 수식: ()
Step 2: 스파시티 강제 (핵심!)
- 중간층의 대부분 뉴런이 비활성화 상태
- Loss 함수에 페널티 추가: 활성화 뉴런 수 최소화
- “전체 중 1% 뉴런만 활성화”처럼 강제
Step 3: 디코더
- 희소 표현에서 원본 활성화 재구성
- 목표: 원본과 거의 동일하게 복원
2-2. 재구성 손실(Reconstruction Loss)
- 첫 항: 원본 활성화와의 거리 최소화
- 두 번째 항: 활성화 뉴런 개수 최소화 (() 노름)
- (): 스파시티 강도
2-3. SAE가 일반 PCA나 다른 차원 축소와 다른 점
| 방법 | 희소성 | 해석성 | 재구성 오류 |
|---|---|---|---|
| PCA | 낮음 | 보통 | 기준 |
| NMF | 높음 | 보통 | 약간 높음 |
| SAE | 매우 높음 | 매우 높음 | 비슷 |
“SAE는 희소성과 해석성 모두에서 SOTA를 달성합니다.”
3. Claude의 뇌 지도: Golden Gate Bridge 사건과 Monosemanticity
3-1. “Golden Gate Bridge” 특징 발견

실험:
- Claude 3 Sonnet의 중간 layer 활성화 데이터 수집
- SAE 훈련: 이 활성화를 재구성하도록
- 특징 벡터 분석
결과:
- “Golden Gate Bridge” 특징 발견
- 텍스트에서 “Golden Gate Bridge” 언급할 때 강하게 활성화
- 동의어 “Suspension bridge” (현수교)도 활성화
- 이미지에서 금문교 표시될 때도 동일하게 활성화!
- 언어-이미지 정렬
- 한국어 “금문교”도 같은 특징 벡터 활성화
- 중국어, 스페인어 등 다언어 정렬 확인
3-2. Monosemanticity의 의미
용어 정의:
Monosemantic = “하나의 의미”
- Mono: 하나
- Semantic: 의미
vs Polysemantic:
- 하나의 특징이 정확히 하나의 개념에만 반응
- 다른 무관한 개념에는 활성화 안 함
자동 평가 방법:
- 특징이 활성화되는 샘플들 수집
- LLM에게 “이 샘플들의 공통점은?” 질문
- 응답이 일관되고 단순하면 monosemantic
예시:
- 높은 monosemanticity: “모두 Golden Gate Bridge 관련”
- 낮은 monosemanticity: “강아지 + 금지 표지판 + 그리스 텍스트… 공통점 없음”
3-3. 대규모 모델에서의 도전
Claude 3 Sonnet 결과:
성공:
- SAE는 큰 모델(Claude 3)에서도 작동
- 1600만 개 특징을 학습할 수 있음 (기존 한계 돌파)
- 각 특징이 여전히 monosemantic
도전:
- 모델이 클수록 superposition 심해짐
- Polysemanticity 여전히 존재
- 특징 “품질” 측정 어려움
4. 인과관계 개입: SAE로 모델 행동 조종하기
4-1. 단순 활성화 vs 인과 조종

기존 해석:
- “이 특징이 활성화되면 모델이 X를 생각한다”
- 단순 상관관계
인과 개입 (Causal Intervention):
- 특징 활성화를 강제로 증가시키면 실제 행동이 바뀌는가?
실험:
- Claude에게 프롬프트: “당신의 취미는?”
- 기본 응답: “독서, 하이킹, 영화”
- Golden Gate Bridge 특징 활성화 x2
- 새 응답: “독서, 하이킹, 영화, 그리고 Golden Gate Bridge 방문!“
“특징을 조종하면 실제 모델 행동이 변한다! 이는 인과관계의 강한 증거입니다.”
4-2. Causal Feature를 찾는 방법
Challenge:
- 수백만 개 특징 중 “실제로 행동에 영향주는” 것은?
- 많은 특징은 단순 “부산물(epiphenomenon)”일 수 있음
해결책:
- 특징 활성화 조절
- 모델 행동 변화 측정
- 통계적 유의성 검증
결과:
- 수십만 개 특징이 실제로 인과적
- 특징 간 상호작용 발견 가능
4-3. 알려지지 않은 개념 발견
SAE의 두 가지 사용법:
- 알려진 개념 조종 (덜 효과적)
- “감정” 특징을 찾아 조종
- 문제: 이미 알고 있는 개념
- 미지의 개념 발견 (매우 효과적) ⭐
- “이 특징이 무엇을 의미하나?”에서 시작
- 실제로 흥미로운 메커니즘 발견
실제 예시:
한 연구에서:
- 특정 특징을 찾음
- 처음엔 해석 불가능했으나
- 자세히 분석하니 “시 라이팅에서 운율 계획”을 나타냄
- 모델이 2줄 시 작성할 때, 2줄 전부를 미리 계획하는 메커니즘 발견!
5. 응용 분야와 미래
5-1. AI 안전성과 정렬(Alignment)

응용:
- 편향 탐지 및 제거
- 성차별 특징 찾기
- 인종 편향 메커니즘 파악
- 특징 강도 조절로 제거
- 모델 스티어링
- 원치 않는 행동의 특징 약화
- 바람직한 행동 특징 강화
- 해석 가능한 AI
- 모델 결정을 “특징” 단위로 설명
- 사람이 이해할 수 있는 근거 제시
5-2. 크로스-모델 개념 정렬
아이디어:
- 여러 모델이 같은 개념을 어떻게 표현하는가?
- 모델 간 “개념 공간” 정렬 가능한가?
결과:
- 다양한 모델이 거의 동일한 개념 구조 사용
- Cross-model transfer 가능성 열림
5-3. 미래의 기계적 해석성
로드맵:
현재 (2025):
- 단일 layer 해석 성공
- 특징 수백만 개 처리 가능
- 인과 개입 초기 단계
근미래 (2-3년):
- 전체 모델 통합 해석 가능할 가능성
- 특징 간 상호작용 완전 이해
- 정교한 모델 수정 기술
먼 미래:
- “유리상자 AI”: 모든 결정 설명 가능
- AI 안전성의 근본적 향상
정리: 핵심 포인트

✅ 다의성(Polysemanticity): 뉴런이 여러 무관한 개념에 동시 반응
✅ 중첩 가설(Superposition): 많은 개념을 적은 뉴런에 “방향”으로 저장
✅ SAE의 해법: 희소성 강제로 중첩 해제, 1600만 개 특징 추출
✅ Monosemanticity: 각 특징이 정확히 하나의 개념만 나타냄
✅ Golden Gate 사건: SAE로 특정 개념 조종, 모델 행동 직접 변화 증명
✅ 미지의 개념: SAE는 알려지지 않은 메커니즘 발견에 특히 강력
FAQ: 자주 묻는 질문
Q1. 왜 다의성이 생기나요? 모델을 다르게 설계하면 안 되나요?
A. 깊은 이유가 있습니다:
- 데이터 스파시티 (대부분 개념은 드물게 나타남)
- 신경망이 “더 효율적” 표현 선택
- 설계로 완전히 제거 불가능 (자연 현상)
Q2. SAE를 실제 모델에 적용할 수 있나요?
A. 네, 점점 가능해지고 있습니다:
- 오픈소스 코드: GitHub에 공개됨
- 작은 모델: 이미 완전 적용 가능
- 큰 모델: Claude 3, GPT 수준도 가능 (Anthropic 실증)
Q3. SAE의 특징이 정확한지 어떻게 검증하나요?
A. 여러 방법:
- 자동 평가: LLM이 특징 일관성 판단
- 인과 개입: 특징 조종 → 행동 변화 확인
- 인간 평가: 전문가가 해석 검토
Q4. 이게 AI 안전에 어떻게 도움이 되나요?
A. 혁명적 잠재력:
- 편향/위험 메커니즘 직접 파악 가능
- 모델 수정이 투명하고 검증 가능
- “블랙박스”에서 “유리상자”로 진화
Q5. 다른 분야(이미지, 음성)에도 적용되나요?
A. 적극적으로 진행 중:
- 비전 모델: 최근 성공 (2025 연구)
- 멀티모달: Claude의 이미지 이해 구간도 해석 가능
- 음성: 아직 초기 단계
외부 참고 자료
Mechanistic Interpretability를 더 깊게 배우고 싶다면:
- Anthropic 본 연구 – Golden Gate 발견, 실제 구현
- SAE 원 논문 – 기초 이론과 방법
- SAGE 평가 프레임워크 – SAE 품질 검증 방법
- 비전 모델 SAE – 이미지 해석으로 확대
- Toy Model 논문 – 중첩 가설의 수학적 기초
정리: 이 글에서 배운 것
✅ 뉴런 vs 특징: 뉴런은 다의적, 특징은 명확한 의미
✅ 중첩의 기하학: 고차원 벡터로 많은 개념을 효율적으로 표현
✅ SAE의 마법: 희소성으로 중첩을 해제, monosemantic 특징 추출
✅ Golden Gate 사건: SAE 해석의 현실적 증거, 모델 행동 직접 증명
✅ 인과 개입: 단순 관찰을 넘어 모델의 인과 메커니즘 발견
✅ AI 안전의 미래: 기계적 해석성이 신뢰할 수 있는 AI의 기초
다음 포스팅에서는 “AI Jailbreak와 적대적 공격: 구멍을 찾고 막는 무기”에 대해 자세히 알아봅니다. 우리가 SAE로 이해한 AI 메커니즘이 어떻게 공격받고 방어되는지 파헤쳐 봅시다!
관련 포스팅:
