블랙박스를 열다: Mechanistic Interpretability와 희소 오토인코더(Sparse Autoencoder) 완벽 가이드! AI의 “개념 지도”를 그리다


핵심 요약

“AI가 실제로 생각하는 방식을 우리가 볼 수 있을까?”
이것이 2024년 AI 해석 가능성(Interpretability) 분야의 가장 뜨거운 질문입니다.

Anthropic의 혁신적 연구 결과, 희소 오토인코더(Sparse Autoencoder, SAE)라는 기술로 신경망 내 수백만 개의 뉴런 활성화를 단 몇 개의 해석 가능한 “개념(concept)”으로 변환할 수 있음이 증명되었습니다.
놀랍게도, Anthropic 연구팀은 Claude 3 Sonnet의 활성화 데이터에서 “Golden Gate Bridge” 특징을 발견했고, 이를 조절하면 모델이 모든 응답에 금문교를 언급하도록 만들 수 있습니다.
더 충격적인 것은, 최신 연구 (2025)에서 SAE가 단순한 해석을 넘어 인과관계 실험(causal intervention)을 가능하게 하며, 모델 안의 “미지의 개념” 발견에 특히 강력하다는 점입니다.

이 포스팅에서는 다의성(Polysemanticity)의 문제, 중첩(Superposition) 가설, SAE의 작동 원리, Monosemanticity의 의미, 그리고 실제 발견 사례와 미래의 AI 안전성까지 완벽하게 분석합니다.



1. 신경망의 블랙박스: 다의성과 슈퍼포지션의 수수께끼

1-1. 뉴런은 “하나의 개념”을 나타낼까?

초기 신경망 해석 연구의 기대:

초기 연구자들의 가설:

  • “깊은 신경망의 뉴런은 사람이 이해할 수 있는 개념에 대응할 것이다”
  • 예: 특정 뉴런은 “고양이”를 인식, 다른 뉴런은 “문”을 인식

현실의 충격:

실제 연구 결과:

“단일 뉴런이 여러 개의 전혀 무관한 개념에 동시에 반응합니다. 예를 들어, 한 뉴런이 ‘강아지’, ‘금지 표지판’, ‘그리스 텍스트’에 동시에 활성화됩니다!”

이 현상을 “다의성(Polysemanticity)”이라 합니다.

1-2. 왜 다의성이 발생하는가? – 중첩(Superposition) 가설

중첩 가설 (Superposition Hypothesis):

핵심 아이디어:

많은 개념=적은 뉴런\text{많은 개념} = \text{적은 뉴런}

신경망이 더 많은 개념(M)을 더 적은 뉴런(N)에 저장하려면:

  • 개념을 “방향(direction)”으로 표현
  • 각 뉴런이 여러 방향(개념)에 기여
  • 각 개념이 여러 뉴런에 분산

비유:

생각해보세요. 당신이 100명의 방 (뉴런)에 1000명의 손님 (개념)을 배치해야 한다면?

  • 옵션 1: 각 방에 10명씩 → 한 방에 여러 무관한 사람들 (다의성!)
  • 옵션 2: 손님들을 3D 좌표 공간으로 표현 → “특정 각도”에 있는 손님들만 원함

신경망은 옵션 2를 선택합니다!

1-3. 중첩의 증거와 위험성

Toy Model 연구:

발견:

  • 작은 신경망에서 의도적으로 superposition 만들기 성공
  • Phase Change: 특정 데이터 스파시티에서 갑자기 중첩 현상 발생
  • 균형 있는 polytope와의 기하학적 연결 발견

why 중요한가?

중첩이 있으면:

  1. 뉴런 해석 불가능 (여러 개념 섞임)
  2. 적대적 예시(Adversarial Examples)와 연결
  3. 모델 안전성 위험 (의도하지 않은 행동)

2. 희소 오토인코더(SAE): 차원 축소를 통한 해석

2-1. SAE의 기본 구조

기본 개념:

기존 오토인코더:

  • 입력 → 작은 병목 → 출력
  • 목표: “압축”

SAE:

  • 입력 (뉴런 활성화) → 큰 중간층 → 출력
  • 목표: “희소 표현으로 복원

SAE 작동 원리:

3단계:

Step 1: 인코더

  • 뉴런 활성화 x를 받음
  • 크기 M인 특징 벡터로 변환 (M >> 뉴런 수)
  • 수식: (z=Encoder(x)z = \text{Encoder}(x))

Step 2: 스파시티 강제 (핵심!)

  • 중간층의 대부분 뉴런이 비활성화 상태
  • Loss 함수에 페널티 추가: 활성화 뉴런 수 최소화
  • “전체 중 1% 뉴런만 활성화”처럼 강제

Step 3: 디코더

  • 희소 표현에서 원본 활성화 재구성
  • 목표: 원본과 거의 동일하게 복원

2-2. 재구성 손실(Reconstruction Loss)

Loss=|xDecoder(z)|2+λ|z|0\text{Loss} = |\text{x} – \text{Decoder}(z)|^2 + \lambda |\text{z}|_0
  • 첫 항: 원본 활성화와의 거리 최소화
  • 두 번째 항: 활성화 뉴런 개수 최소화 ((L0L_0) 노름)
  • (λ\lambda): 스파시티 강도

2-3. SAE가 일반 PCA나 다른 차원 축소와 다른 점

비교 연구:

방법희소성해석성재구성 오류
PCA낮음보통기준
NMF높음보통약간 높음
SAE매우 높음매우 높음비슷

“SAE는 희소성과 해석성 모두에서 SOTA를 달성합니다.”


3. Claude의 뇌 지도: Golden Gate Bridge 사건과 Monosemanticity

3-1. “Golden Gate Bridge” 특징 발견

Anthropic의 획기적 발견:

실험:

  • Claude 3 Sonnet의 중간 layer 활성화 데이터 수집
  • SAE 훈련: 이 활성화를 재구성하도록
  • 특징 벡터 분석

결과:

  1. “Golden Gate Bridge” 특징 발견
  • 텍스트에서 “Golden Gate Bridge” 언급할 때 강하게 활성화
  • 동의어 “Suspension bridge” (현수교)도 활성화
  • 이미지에서 금문교 표시될 때도 동일하게 활성화!
  1. 언어-이미지 정렬
  • 한국어 “금문교”도 같은 특징 벡터 활성화
  • 중국어, 스페인어 등 다언어 정렬 확인

3-2. Monosemanticity의 의미

용어 정의:

Monosemantic = “하나의 의미”

  • Mono: 하나
  • Semantic: 의미

vs Polysemantic:

  • 하나의 특징이 정확히 하나의 개념에만 반응
  • 다른 무관한 개념에는 활성화 안 함

Monosemanticity 측정:

자동 평가 방법:

  1. 특징이 활성화되는 샘플들 수집
  2. LLM에게 “이 샘플들의 공통점은?” 질문
  3. 응답이 일관되고 단순하면 monosemantic

예시:

  • 높은 monosemanticity: “모두 Golden Gate Bridge 관련”
  • 낮은 monosemanticity: “강아지 + 금지 표지판 + 그리스 텍스트… 공통점 없음”

3-3. 대규모 모델에서의 도전

Claude 3 Sonnet 결과:

성공:

  • SAE는 큰 모델(Claude 3)에서도 작동
  • 1600만 개 특징을 학습할 수 있음 (기존 한계 돌파)
  • 각 특징이 여전히 monosemantic

도전:

  • 모델이 클수록 superposition 심해짐
  • Polysemanticity 여전히 존재
  • 특징 “품질” 측정 어려움

4. 인과관계 개입: SAE로 모델 행동 조종하기

4-1. 단순 활성화 vs 인과 조종

기존 해석:

  • “이 특징이 활성화되면 모델이 X를 생각한다”
  • 단순 상관관계

인과 개입 (Causal Intervention):

  • 특징 활성화를 강제로 증가시키면 실제 행동이 바뀌는가?

최신 연구:

실험:

  1. Claude에게 프롬프트: “당신의 취미는?”
  2. 기본 응답: “독서, 하이킹, 영화”
  3. Golden Gate Bridge 특징 활성화 x2
  4. 새 응답: “독서, 하이킹, 영화, 그리고 Golden Gate Bridge 방문!

“특징을 조종하면 실제 모델 행동이 변한다! 이는 인과관계의 강한 증거입니다.”

4-2. Causal Feature를 찾는 방법

SAGE 프레임워크:

Challenge:

  • 수백만 개 특징 중 “실제로 행동에 영향주는” 것은?
  • 많은 특징은 단순 “부산물(epiphenomenon)”일 수 있음

해결책:

  1. 특징 활성화 조절
  2. 모델 행동 변화 측정
  3. 통계적 유의성 검증

결과:

  • 수십만 개 특징이 실제로 인과적
  • 특징 간 상호작용 발견 가능

4-3. 알려지지 않은 개념 발견

중요한 발견:

SAE의 두 가지 사용법:

  1. 알려진 개념 조종 (덜 효과적)
  • “감정” 특징을 찾아 조종
  • 문제: 이미 알고 있는 개념
  1. 미지의 개념 발견 (매우 효과적) ⭐
  • “이 특징이 무엇을 의미하나?”에서 시작
  • 실제로 흥미로운 메커니즘 발견

실제 예시:

한 연구에서:

  • 특정 특징을 찾음
  • 처음엔 해석 불가능했으나
  • 자세히 분석하니 “시 라이팅에서 운율 계획”을 나타냄
  • 모델이 2줄 시 작성할 때, 2줄 전부를 미리 계획하는 메커니즘 발견!

5. 응용 분야와 미래

5-1. AI 안전성과 정렬(Alignment)

AI 안전의 새 방향:

응용:

  1. 편향 탐지 및 제거
  • 성차별 특징 찾기
  • 인종 편향 메커니즘 파악
  • 특징 강도 조절로 제거
  1. 모델 스티어링
  • 원치 않는 행동의 특징 약화
  • 바람직한 행동 특징 강화
  1. 해석 가능한 AI
  • 모델 결정을 “특징” 단위로 설명
  • 사람이 이해할 수 있는 근거 제시

5-2. 크로스-모델 개념 정렬

Universal SAE 연구 (2025):

아이디어:

  • 여러 모델이 같은 개념을 어떻게 표현하는가?
  • 모델 간 “개념 공간” 정렬 가능한가?

결과:

  • 다양한 모델이 거의 동일한 개념 구조 사용
  • Cross-model transfer 가능성 열림

5-3. 미래의 기계적 해석성

로드맵:

현재 (2025):

  • 단일 layer 해석 성공
  • 특징 수백만 개 처리 가능
  • 인과 개입 초기 단계

근미래 (2-3년):

  • 전체 모델 통합 해석 가능할 가능성
  • 특징 간 상호작용 완전 이해
  • 정교한 모델 수정 기술

먼 미래:

  • “유리상자 AI”: 모든 결정 설명 가능
  • AI 안전성의 근본적 향상

정리: 핵심 포인트

다의성(Polysemanticity): 뉴런이 여러 무관한 개념에 동시 반응

중첩 가설(Superposition): 많은 개념을 적은 뉴런에 “방향”으로 저장

SAE의 해법: 희소성 강제로 중첩 해제, 1600만 개 특징 추출

Monosemanticity: 각 특징이 정확히 하나의 개념만 나타냄

Golden Gate 사건: SAE로 특정 개념 조종, 모델 행동 직접 변화 증명

미지의 개념: SAE는 알려지지 않은 메커니즘 발견에 특히 강력


FAQ: 자주 묻는 질문

Q1. 왜 다의성이 생기나요? 모델을 다르게 설계하면 안 되나요?

A. 깊은 이유가 있습니다:

  • 데이터 스파시티 (대부분 개념은 드물게 나타남)
  • 신경망이 “더 효율적” 표현 선택
  • 설계로 완전히 제거 불가능 (자연 현상)

Q2. SAE를 실제 모델에 적용할 수 있나요?

A. 네, 점점 가능해지고 있습니다:

  • 오픈소스 코드: GitHub에 공개됨
  • 작은 모델: 이미 완전 적용 가능
  • 큰 모델: Claude 3, GPT 수준도 가능 (Anthropic 실증)

Q3. SAE의 특징이 정확한지 어떻게 검증하나요?

A. 여러 방법:

  1. 자동 평가: LLM이 특징 일관성 판단
  2. 인과 개입: 특징 조종 → 행동 변화 확인
  3. 인간 평가: 전문가가 해석 검토

Q4. 이게 AI 안전에 어떻게 도움이 되나요?

A. 혁명적 잠재력:

  • 편향/위험 메커니즘 직접 파악 가능
  • 모델 수정이 투명하고 검증 가능
  • “블랙박스”에서 “유리상자”로 진화

Q5. 다른 분야(이미지, 음성)에도 적용되나요?

A. 적극적으로 진행 중:

  • 비전 모델: 최근 성공 (2025 연구)
  • 멀티모달: Claude의 이미지 이해 구간도 해석 가능
  • 음성: 아직 초기 단계

외부 참고 자료

Mechanistic Interpretability를 더 깊게 배우고 싶다면:


정리: 이 글에서 배운 것

뉴런 vs 특징: 뉴런은 다의적, 특징은 명확한 의미

중첩의 기하학: 고차원 벡터로 많은 개념을 효율적으로 표현

SAE의 마법: 희소성으로 중첩을 해제, monosemantic 특징 추출

Golden Gate 사건: SAE 해석의 현실적 증거, 모델 행동 직접 증명

인과 개입: 단순 관찰을 넘어 모델의 인과 메커니즘 발견

AI 안전의 미래: 기계적 해석성이 신뢰할 수 있는 AI의 기초

다음 포스팅에서는 “AI Jailbreak와 적대적 공격: 구멍을 찾고 막는 무기”에 대해 자세히 알아봅니다. 우리가 SAE로 이해한 AI 메커니즘이 어떻게 공격받고 방어되는지 파헤쳐 봅시다!


관련 포스팅:

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다