튜링에서 DeepSeek까지, AI 80년의 모든 것 – 겨울 2번 버티고 폭발한 진짜 역사
AI의 역사는 ‘과장된 약속 → 혹독한 겨울 → 하드웨어·데이터·알고리즘 삼박자의 혁신’이 반복된 이야기예요. 지금의 ChatGPT, Sora, DeepSeek-R1은 하늘에서 뚝 떨어진 기적이 아니라, 80년에 걸친 시행착오의 결과랍니다.
1. AI 역사의 큰 그림: 5단계로 보는 빅픽처

AI의 70~80년을 아주 거칠게 나누면 이렇게 다섯 단계로 나뉜답니다.
- 이론 태동기 (1940s~1955)
튜링, 맥컬럭-피츠 같은 괴물 수학자들이 “생각하는 기계”의 수학적 토대를 깔아두던 시기예요. - 기호주의 황금기와 1차 AI 겨울 (1956~1980)
다트머스 회의에서 ‘Artificial Intelligence’라는 이름을 달고, 규칙과 논리로 세상을 푼다고 믿었다가 현실 앞에서 꺾인 시기였어요. - 전문가 시스템 붐과 2차 AI 겨울 (1980~1993)
“전문가의 룰을 다 때려 넣으면 된다”던 전문가 시스템이 실제 돈을 벌기도 했지만, 유지보수 지옥에 빠져 붕괴한 시기였답니다. - 통계적 기계학습과 조용한 성장기 (1990s~2011)
딥블루, LeNet, SVM, 랜덤포레스트 등, 화려한 언론 플레이 대신 차근차근 “쓸 만한 AI”가 늘어난 시기네요. - 딥러닝·생성형·추론형 AI 대폭발 (2012~현재)
AlexNet → AlphaGo → Transformer → BERT/GPT → ChatGPT → Sora → o1 → DeepSeek-R1까지 이어지는 연쇄 혁명 말이에요.
이제부터는 이 흐름을 연대기 + 핵심 논문·모델·서비스 + 시사점 중심으로 압축 정리하는 거니까, 함께 따라와 보세요.
2. AI라는 말이 생기기 전: 수학자들이 깔아둔 포석 (1940s~1955)
2.1 튜링과 튜링 테스트 – “기계가 생각할 수 있는가?”
- 1936년: 앨런 튜링이 「On Computable Numbers」에서 튜링 머신 개념을 제시했어요 – 어떤 계산이 가능한지(계산 가능성)를 정의한 거예요.
- 1950년: 「Computing Machinery and Intelligence」에서 튜링 테스트(이미테이션 게임) 를 제안했는데, “기계가 생각하는가?”라는 질문을 “사람과 채팅만 보고 구분할 수 있는가?”로 바꿔버렸어요.
시사점
- 오늘날 ChatGPT 같은 LLM을 두고 “튜링 테스트를 넘었냐” 논쟁이 나오는 건, 기준 자체가 1950년에 이미 세팅됐기 때문이에요.
- 튜링은 이때 이미 “아이의 두뇌처럼, 학습 가능한 기계를 만들어 교육하는 방식이 효율적일 것”이라고 예측했답니다. ‘프롬프트+파인튜닝’ 시대를 예언한 셈이죠.
관련 내부 링크:
AI 초보자 필독! 인공지능의 정의부터 역사까지
2.2 McCulloch-Pitts 뉴런과 사이버네틱스
- 1943년: 맥컬럭 & 피츠가 「A Logical Calculus of the Ideas Immanent in Nervous Activity」 에서 McCulloch-Pitts 뉴런 모델을 제안했어요 – 뉴런을 0/1 논리 게이트로 모델링한 거랍니다.
- 노버트 위너의 사이버네틱스 – 생물·기계·사회 시스템의 피드백·제어를 공통 언어로 설명하려는 멋진 시도였어요.
- Grey Walter의 ‘거북이’ 로봇 – 단순 회로와 센서만으로도 “빛을 따라가고, 배터리가 떨어지면 충전소를 찾는” 행동을 보여주었어요. 복잡한 중앙제어 없이도 지능적인 행동이 나올 수 있다는 걸 증명한 거예요.
시사점
- 신경망 vs 기호주의 대립은 2010년대에 갑자기 튀어나온 게 아니라, 1940년대부터 씨앗이 있었거든요.
- 지금의 퍼셉트론·딥러닝은 이 논문들의, 한참 뒤손자 세대일 뿐이에요.
관련 내부 링크:
퍼셉트론에서 딥러닝까지 – 신경망의 모든 것
3. ‘Artificial Intelligence’라는 이름의 탄생과 기호주의 전성기 (1956~1974)

3.1 다트머스 회의(1956): AI의 공식 출범
- 존 매카시, 마빈 민스키 등이 다트머스 대학에서 여름 워크숍 형태로 모여서 회의를 열었어요.
- 이때 ‘Artificial Intelligence’라는 표현이 처음 공식 제안되었답니다.
- 제안서의 핵심 문장이 정말 멋있었어요:
“학습의 모든 양상이나 지능의 다른 기능은, 기계가 시뮬레이션할 수 있을 만큼 정밀하게 기술될 수 있다.“ - Logic Theorist – 뉴얼 & 사이먼이 만든 세계 최초 AI 프로그램이에요. 『Principia Mathematica』의 정리들을 실제로 증명했고, 일부는 인간보다 더 우아한 증명법을 찾기도 했거든요.
시사점
- 다트머스 회의는 AI를 독립 학문분야로 탄생시킨 동시에, “한두 여름이면 지능 문제 다 풀릴 것”이라는 과도한 낙관론을 심었어요.
- 이 낙관이 결국 첫 번째 AI 겨울의 원인이 되었거든요.
3.2 기호주의(Symbolic AI): 세상을 상태·규칙으로 보는 패러다임
- GPS (General Problem Solver, 1959) – 문제 해결 과정을 “현재 상태 → 목표 상태”로 가는 탐색 문제로 모델링했어요.
- LISP (1958) – 리스트 기반 언어인데, 코드와 데이터를 같은 구조로 표현해서 “프로그램이 자기 자신을 수정”하는 AI 연구에 최적화된 언어였답니다.
핵심 아이디어
- 지능 = 기호(symbol)를 규칙(rule)로 조작하는 능력이라고 생각했거든요.
- 바둑판·수학 증명·퍼즐 등은 상태공간 탐색으로 꽤 잘 풀렸어요.
3.3 ELIZA, SHRDLU, Shakey: 챗봇과 로봇의 원형
- ELIZA (1966) – 키워드 매칭 기반 심리상담 챗봇이었어요. 지능은 없는데, 사람들이 진심으로 고민을 털어놓으면서 “ELIZA 효과”라는 심리 현상을 낳았거든요.
- SHRDLU (1968~1970) – 블록 월드라는 작은 가상 세계에서 자연어 명령을 이해하고 블록을 옮기는 프로그램이었어요. 제한된 도메인에서는 “완벽히 이해하는 것처럼” 보였답니다.
- Shakey (1966~1972) – 카메라·센서·추론 엔진을 붙인 범용 로봇이었어요. 복잡한 지시를 여러 하위 작업으로 쪼개 스스로 수행했거든요. 이 과정에서 A* 탐색 알고리즘이 개발되어, 오늘날 내비게이션과 게임 AI의 교과서가 되었어요.
시사점
- “챗봇·로봇·플래닝”의 기본 아이디어는 이미 60~70년대에 다 나왔었어요.
- 문제는, 이 모든 것이 극도로 단순한 환경(마이크로 월드)에서만 잘 통했다는 거죠.
관련 내부 링크:
자연어 처리(NLP) – AI와 대화하기
컴퓨터 비전 – AI가 세상을 보는 방법
3.4 퍼셉트론 논쟁: 신경망의 첫 암흑기
- Perceptron (1958) – Rosenblatt의 단층 신경망이었는데, 간단한 패턴 인식이 가능했어요.
- Minsky & Papert (1969) – 『Perceptrons』에서 단층 퍼셉트론이 XOR 같은 비선형 문제를 절대 풀 수 없다는 걸 수학적으로 증명해버렸어요.
- 당시에는 다층 신경망을 학습할 역전파 알고리즘이 없었기 때문에, 이 책은 사실상 “신경망 사망선고”가 되어버렸어요.
시사점
- 훗날 Geoffrey Hinton이 역전파를 들고 나오며 이 한계를 뒤집으면서, 『Perceptrons』는 “너무 일찍 맞은 정답”이 된 역사적 아이러니가 되었거든요.
4. 첫 번째 AI 겨울: 조합폭발·정치·예산의 삼중펀치 (1974~1980)

4.1 조합폭발(Combinatorial Explosion)
- 기호주의 AI는 블록 몇 개, 방 하나 정도는 잘 다뤘지만, 현실로 스케일업하는 순간 지옥문이 열렸어요.
- 변수 조금만 늘어나도 상태 수가 기하급수적으로 늘어나, 탐색 자체가 불가능해지는 조합폭발 문제가 생겼거든요.
- 당시 컴퓨터 성능·알고리즘으로는 감당할 수 없었답니다.
4.2 라이트힐 보고서 & DARPA 기조 변화
- 라이트힐 보고서(1973) – 영국 정부에 제출된 AI 평가 보고서였는데, “약속했던 거대한 영향력은 어디에도 없다”라는 혹평과 함께 AI 예산이 대폭 삭감되었어요.
- 미국 DARPA – 맨스필드 수정안으로, “군사적 목적과 직접 연결되지 않은 기초 AI 연구” 예산이 줄어들었답니다.
시사점
- AI 발전은 기술만의 문제가 아니에요. 정치·예산·사회적 기대관리 실패가 곧 “겨울”로 이어진다는 거죠.
5. 전문가 시스템 붐과 두 번째 AI 겨울 (1980~1993)
5.1 전문가 시스템 – 룰로 무장한 AI의 재기
- XCON (R1, 1980) – DEC의 VAX 컴퓨터 구성을 자동 설계해 주는 전문가 시스템이었어요. 연간 4천만 달러 이상 비용 절감이라는 엄청난 성과를 올렸답니다.
- 이후 기업마다 “우리도 전문가 시스템 하나” 분위기가 되면서, 주식거래, 의료 진단, 회로 설계용 룰 기반 시스템이 쏟아졌어요.
5.2 일본 제5세대 컴퓨터 프로젝트(1981)
- 일본 MITI가 8억5천만 달러를 투입해서 “논리 프로그래밍과 병렬처리 기반 인간형 추론 컴퓨터”를 만들겠다고 선언했어요.
- 서구권에는 일종의 AI 스푸트니크 쇼크로 받아들여져서, 미국(MCC)과 영국(Alvey 프로젝트)도 다시 돈을 붓게 되었답니다.
5.3 두 번째 AI 겨울 – “룰 공사판”의 붕괴
- 룰이 수천·수만 개로 불어나면서, 지식 공학(knowledge engineering)이 진짜 지옥이 되었어요.
- 새로운 예외가 나올 때마다 규칙을 손으로 추가·수정해야 했고, 서로 모순되는 룰을 정리하는 것도 어려웠거든요.
- 취약성(brittleness): 시스템이 아는 범위 밖 입력이 들어오면 완전히 망가지는 현상이 나타났어요.
- 동시에 PC 성능 향상으로 비싼 LISP 머신이 경쟁력을 잃어서, 관련 회사들이 줄도산했답니다.
시사점
- “룰만 많이 넣으면 된다”는 접근이 왜 실패했는지 보여주는 좋은 사례예요.
- 오늘날 딥러닝이 데이터에서 자동으로 규칙을 학습하는 방향으로 이동한 이유와 직결되어 있어요.
관련 내부 링크:
AI 블랙박스 99% 못 믿는 이유 – 설명가능한 AI(XAI)
6. 통계적 기계학습과 조용한 성장기 (1993~2011)
6.1 딥블루 vs 카스파로프(1997): 무식한 힘의 승리
- IBM의 Deep Blue가 체스 세계 챔피언 가리 카스파로프를 3.5:2.5로 격파했어요.
- 초당 2억 포지션 탐색 + 인간 그랜드마스터들이 설계한 평가 함수의 조합이었어요.
- “지능이라기보다 엄청난 브루트포스”라는 비판도 있었지만, “AI가 인간 챔피언을 이겼다”는 상징성은 정말 어마어마했거든요.
6.2 DBN (Deep Belief Network): AI 겨울을 끝낸 신비로운 기계 (2006)
2006년, Hinton의 귀환
2006년은 AI 역사에서 진짜 전환점이 된 해예요. Geoffrey Hinton과 그의 팀이 「A fast learning algorithm for deep belief nets」라는 논문을 발표하면서, 사실상 두 번째 AI 겨울을 종료시켰거든요.
왜 DBN이 혁명이었을까요?
- 1980년대 이후 신경망 연구는 사실상 “사망” 선고를 받은 상태였어요.
- 깊은 신경망(3층 이상)은 역전파로 학습이 안 된다는 게 정설이었거든요 – 기울기 소실(Vanishing Gradient) 문제 때문에요.
- Hinton은 이 문제를 “그리디 레이어별 사전학습(Greedy Layer-wise Pre-training)”이라는 비지도학습 기법으로 돌파해냈어요.
DBN의 핵심 아이디어
DBN은 제한된 볼츠만 머신(Restricted Boltzmann Machine, RBM)을 여러 층 쌓아올린 구조예요.
RBM이란?
- 입력층(Visible)과 은닉층(Hidden) 사이만 연결된 이층 신경망이에요.
- 같은 층 내부에는 연결이 없어서(Restricted), 효율적으로 학습할 수 있었어요.
- 에너지 기반 모델로, 데이터의 확률 분포를 학습하는 방식이었답니다.
DBN 학습 과정 (2단계):
- 사전학습(Pre-training): 각 RBM을 아래층부터 하나씩 비지도학습으로 학습했어요.
- 1층 RBM이 원본 데이터의 특징을 추출했고요.
- 2층 RBM은 1층의 출력을 입력으로 받아서 더 추상적인 특징을 학습했어요.
- 이 과정을 반복해서 깊은 계층 구조를 쌓아올린 거랍니다.
- 미세조정(Fine-tuning): 전체 네트워크를 역전파로 미세조정했어요.
- 사전학습이 이미 좋은 초기 가중치를 제공했기 때문에, 기울기 소실 문제를 피할 수 있었거든요.
MNIST에서의 충격적 성능
Hinton의 DBN은 MNIST 손글씨 숫자 인식에서 1.25% 오류율을 기록했어요. 정말 인상적이었답니다!
| 모델 | 오류율 | 방법 |
|---|---|---|
| 최근접 이웃 | 2.8% | 전통적 방법 |
| SVM | 1.4% | 당시 최고 성능 |
| DBN | 1.25% | 그리디 사전학습 + 역전파 |
시사점
- “신경망은 3층 이상 학습이 안 된다”는 통념을 깼어요.
- 비지도학습(사전학습)과 지도학습(미세조정)의 하이브리드 접근이 정말 효과적이라는 걸 입증했거든요.
- 이후 AlexNet(2012), VGGNet(2014) 등 딥러닝 붐의 직접적 토대가 되었답니다.
관련 내부 링크:
Deep Belief Network (DBN) 완벽 분석: AI 겨울을 끝낸 신비로운 기계의 탄생
AlexNet – ImageNet 우승으로 시작된 AI 혁명
VGGNet 완전 정복 – 3×3 컨볼루션만으로 만든 딥러닝 레전드
6.3 LeNet-5(1998): CNN의 실용화
- Yann LeCun의 LeNet-5가 합성곱 신경망(CNN) 구조로 손글씨 숫자 인식에서 뛰어난 성능을 보였어요.
- 실제 수표 자동 판독 시스템에 도입되면서, 딥러닝이 상업적으로 쓰이기 시작했답니다.
관련 내부 링크:
CNN – 이미지를 이해하는 AI의 비밀
6.4 2000년대: 빅데이터와 통계적 ML의 시대
- 웹·스마트폰·센서가 쏟아내는 데이터 → 빅데이터 개념이 등장했어요.
- SVM, 랜덤 포레스트 같은 통계 기반 모델들이 OCR, 스팸필터, 추천 시스템 등에 널리 쓰였답니다.
- AI 연구자들도 “AI”라는 단어보다 Machine Learning, Pattern Recognition이라는 단어를 선호하던 시대였어요.
관련 내부 링크:
AI가 데이터를 이해하는 방법 – 데이터가 AI의 연료인 이유
7. 딥러닝 빅뱅: AlexNet → AlphaGo → Transformer (2012~2020)

7.1 CNN 혁명: ImageNet을 정복한 모델들
7.1.1 AlexNet(2012): ImageNet을 찢어버린 CNN
- Krizhevsky, Sutskever, Hinton의 “ImageNet Classification with Deep Convolutional Neural Networks”였어요.
- GPU 2장, 8층 CNN, ReLU, Dropout, Data Augmentation 등 오늘날 딥러닝 교과서에 나오는 기법들을 한 번에 때려박은 모델이었거든요.
- ImageNet 대회에서 Top-5 오류율 15.3%로 2위(26.2%)와 압도적 격차를 기록했어요.
시사점
- “데이터+GPU+딥러닝” 조합이 기존 전통 비전 알고리즘을 완전히 박살내버렸다는 사건이에요.
- 이 이후 컴퓨터 비전은 사실상 CNN+딥러닝 일색으로 재편되었답니다.
관련 내부 링크:
딥러닝의 커튼을 열다: AlexNet – ImageNet 우승으로 시작된 AI 혁명
7.1.2 2014년 ImageNet의 쌍두마차: VGGNet vs GoogLeNet
2012년 AlexNet이 딥러닝의 가능성을 보여줬다면, 2014년은 “어떻게 더 깊고 효율적으로 만들 것인가”라는 질문에 두 가지 멋진 답이 나온 해예요.
VGGNet: “단순함의 승리” (ILSVRC 2014 2위)
논문: 「Very Deep Convolutional Networks for Large-Scale Image Recognition」 – Karen Simonyan, Andrew Zisserman
핵심 아이디어:
- “3×3 필터만 쓰자” – 작은 필터를 여러 번 쌓으면, 큰 필터 하나와 같은 효과를 내면서도 파라미터는 더 적어요.
- “더 깊게 쌓자” – 11층(AlexNet) → 16층/19층(VGGNet-16/19)으로 깊이를 늘렸어요.
성능:
- ImageNet Top-5 오류율: 7.3%
- 파라미터: 138M (1억 3,800만 개)
장점:
- 구조가 단순하고 직관적 → 전이학습(Transfer Learning)에 정말 유용해요.
- 깊이가 중요하다는 걸 명확히 입증했거든요.
단점:
- 파라미터 수가 너무 많아서 학습·추론 속도가 느렸어요.
관련 내부 링크:
VGGNet 완전 정복 – 3×3 컨볼루션만으로 만든 딥러닝 레전드
GoogLeNet (Inception v1): “효율성의 승리” (ILSVRC 2014 1위)
논문: 「Going Deeper with Convolutions」 – Christian Szegedy et al.
핵심 아이디어:
- Inception 모듈: 여러 크기의 필터(1×1, 3×3, 5×5)와 Max Pooling을 병렬로 수행한 뒤, 출력을 합치는 방식이었어요.
- 1×1 Convolution: 채널 수를 줄여서 연산량을 획기적으로 감소시켰어요 (최대 90% 절감!).
- Global Average Pooling: FC 층 대신 사용해서 파라미터 수를 대폭 감소시켰답니다.
성능:
- ImageNet Top-5 오류율: 6.67% (VGGNet보다 0.6%p 더 좋아요)
- 파라미터: 6.8M (680만 개 – VGGNet의 1/20 수준!)
- 22층 깊이 (VGG-19보다 더 깊어요)
시사점:
- “큰 모델이 아니라, 똑똑한 모델”이 중요하다는 걸 보여줬어요.
- 1×1 Convolution은 이후 ResNet, MobileNet, EfficientNet 등 거의 모든 현대 CNN의 핵심 기법이 되었답니다.
2014년의 교훈: 깊이 vs 효율성
| 모델 | 순위 | Top-5 오류율 | 파라미터 수 | 철학 |
|---|---|---|---|---|
| VGGNet-19 | 2위 | 7.3% | 138M | “단순하게, 깊게” |
| GoogLeNet | 1위 | 6.67% | 6.8M | “똑똑하게, 효율적으로” |
양쪽 다 승자였어요:
- VGGNet은 전이학습의 표준이 되었거든요 – 단순한 구조 덕분에 다른 태스크에 적용하기 쉬웠어요.
- GoogLeNet은 효율성 연구의 출발점이 되었어요 – MobileNet, EfficientNet 등으로 이어졌거든요.
7.1.3 ResNet(2015): Skip Connection의 등장
- 구글 DeepMind의 AlphaGo가 이세돌 9단을 4:1로 제압했어요.
- 정책망·가치망·MCTS·강화학습을 결합해서, 경우의 수가 우주 원자 수보다 많다는 바둑을 정복해낸 거죠.
- 특히 2국 37수처럼 인간이 잘 두지 않던 수를 둔 장면은, “AI가 인간의 창의성까지 넘는가?”라는 충격을 주었어요.
ResNet (2015.12) – Skip Connection으로 152층 학습 성공
논문: 「Deep Residual Learning for Image Recognition」 – Kaiming He et al.
핵심 아이디어: Residual Learning
He의 생각이 정말 흥미로워요. Vanishing gradient 해결(BN+ReLU)했는데도 모델이 깊으면 underfitting이 일어나는 건 말도 안 된다고 생각했어요!
- 깊은 것은 얕은 것을 똑같이 흉내 낼 수 있거든요
- 50층이 10층 짜리를 나타내고 싶다면? 나머지 40층은 identity mapping 하면 되지 않을까?
- 즉, 얕은 것이 표현할 수 있는 것을 포함해서 그 이상의 표현력을 가진다는 뜻이에요
- 그런데, 오히려 training error 조차 깊은 것이 더 크다는 실험 결과가 나왔어요
- 따라서, 이건 vanishing gradient가 아닌 loss landscape가 꼬불해진다는 새로운 문제였던 거예요!
Skip Connection (Shortcut Connection):

- x가 들어와서 F(x)가 나가는 게 기존 방식이었어요
- F(x) + x가 나가게끔 연결해 주는 게 skip-connection이었거든요
- 차이만을 학습한다고 해서 잔차(residual) 학습이라고 부르는 거죠
성능:
- ImageNet Top-5 오류율: 3.6% (ResNet-152)
- 무려 152층! (일반 CNN은 10~20층 수준이었거든요)
- 인간 수준(5.1%)을 넘어섰어요!
시사점:
- Skip Connection 없이는 깊은 네트워크 학습이 불가능하다는 걸 증명했어요.
- “값의 변화가 그리 크지 않은 게 좋을 테니 조금씩만 바꿔 나가라!”라고 AI에게 귀띔 해주는 셈이에요.
- 이후 거의 모든 딥러닝 모델에 Skip Connection이 적용되었답니다.
7.1.4 Inception v2/v3 (2015): Factorization의 예술
논문: 「Rethinking the Inception Architecture for Computer Vision」
핵심 혁신:
- VGG Net의 아이디어를 수용해서 확장했어요
- VGG Net처럼 3×3 두 번으로 5×5의 receptive field를 얻는 방식을 채택했어요!
- VGG Net에서 나아가서 1×3, 3×1 두 번으로 3×3의 receptive field를 얻는 방식을 시도했어요!
- Label Smoothing 제안 – one-hot encoding 된 label은 너무 머신이 확신에 차게 만드니까요
성능:
- ImageNet Top-5 오류율: 5.6%
7.1.5 Inception-ResNet v2 (2016): 하이브리드의 탄생
논문: 「Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning」
- Inception 모듈 + Skip Connection을 결합했어요
- ImageNet Top-5 오류율: 3.1%
7.1.6 WideResNet (2016): “더 깊이가 아니라 더 넓게!”
2016년, 한 연구팀이 멋진 의문을 제기했어요: “ResNet은 왜 무조건 ‘깊게’ 만들기만 했을까?”
WideResNet의 발견:
- ResNet-1001 (1001층)
- 같은 학습 시간에 더 넓은 네트워크가 더 효과적일 수 있다는 걸 보여준 거죠.
Width Multiplier (k)
WideResNet-depth-k:
- depth: 층 개수
- k: 폭 배수 (기본 64 채널 → 64k 채널)
예시:
WideResNet-28-10 = 28층, 채널 10배
→ ResNet-28: [64, 128, 256, 512]
→ WideResNet-28-10: [640, 1280, 2560, 5120]성능 비교 (CIFAR-10)
| 모델 | 층 | 파라미터 | 오류율 | 학습 시간 |
|---|---|---|---|---|
| ResNet-1001 | 1001 | 10.2M | 4.92% | 매우 느림 |
| ResNet-164 | 164 | 1.7M | 5.46% | 느림 |
| WideResNet-28-10 | 28 | 36.5M | 4.00% | 빠름 |
| WideResNet-40-4 | 40 | 8.9M | 4.53% | 중간 |
시사점:
- “깊이만이 능사가 아니다”를 실험적으로 증명했어요.
- 깊은 네트워크는 기울기 소실·병렬화 어려움·학습 불안정 문제가 있거든요.
- 넓은 네트워크는 GPU 병렬화 유리, Dropout 효과 증대라는 장점이 있었어요.
7.1.7 ResNeXt (2017): “집단지성의 힘”

논문: 「Aggregated Residual Transformations for Deep Neural Networks」
Cardinality: 세 번째 차원의 발견
기존 네트워크 설계 차원이 있었어요:
- Depth (깊이) – 층 개수
- Width (넓이) – 채널 수
- Cardinality (기수) – 병렬 경로의 수 ← ResNeXt가 발견한 새로운 차원!
Grouped Convolution
핵심 아이디어:
입력 채널을 여러 그룹으로 나눠서 각각 독립적으로 합성곱을 한 뒤 → 마지막에 Concatenate하는 방식이에요
# 일반 Conv2d
nn.Conv2d(256, 256, 3) # 파라미터: 256×256×3×3 = 589,824
# Grouped Conv2d (32 groups)
nn.Conv2d(256, 256, 3, groups=32) # 파라미터: 256×(256/32)×3×3 = 18,432
# 무려 32배 감소해요!ResNeXt Block 구조
ResNeXt-50 (32×4d) 예시:
- 32: Cardinality (병렬 경로 32개)
- 4d: 각 경로의 채널 수 (4차원)

성능 비교
| 모델 | Cardinality | FLOPs | ImageNet Top-1 | Top-5 |
|---|---|---|---|---|
| ResNet-50 | 1 | 4.0B | 24.80% | 7.48% |
| ResNeXt-50 (32×4d) | 32 | 4.2B | 22.11% | 5.90% |
| ResNet-101 | 1 | 7.6B | 23.17% | 6.52% |
| ResNeXt-101 (32×4d) | 32 | 7.9B | 21.18% | 5.57% |
| ResNeXt-101 (64×4d) | 64 | 15.5B | 20.60% | 5.31% |
핵심 통찰:
- 같은 연산량에서 Cardinality 증가 > Depth 증가예요!
- ResNeXt-50이 ResNet-101보다 좋은 성능을 기록했어요 (절반의 깊이로!).
- “깊게 vs 넓게”를 넘어, “병렬로”라는 새로운 축을 발견한 거죠.
Inception과의 차이:
- Inception: 각 경로마다 다른 구조 (1×1, 3×3, 5×5, MaxPool)
- ResNeXt: 모든 경로가 같은 구조 (3×3만) → 하이퍼파라미터 설계가 단순해져요!
7.1.8 DenseNet (2017): “모든 층을 다 연결하면?”

논문: 「Densely Connected Convolutional Networks」 – Gao Huang et al.
Dense Connection: 극단의 Skip Connection
ResNet이 바로 이전 층과만 Skip Connection 했다면,
DenseNet은 모든 이전 층과 다 연결한다는 아이디어가 정말 창의로워요!
일반 네트워크 (L층):
L개 연결 (1→2, 2→3, ..., L-1→L)
ResNet:
L개 + L개 (Skip) = 2L개 연결
DenseNet:
L(L+1)/2 개 연결!
→ 5층이면 15개, 10층이면 55개 연결이에요!Dense Block 구조
수식
- : l번째 층의 출력
- : 모든 이전 층의 Feature Map을 Channel 방향으로 Concatenate
- : BN-ReLU-Conv 3×3
시각화:

Growth Rate (k)
핵심 하이퍼파라미터:
- 각 층이 추가하는 채널 수 (보통 k=12 또는 k=32)
- k가 작아도 모든 층이 이전 정보를 다 받으므로 충분해요!
성능 비교
| 모델 | 깊이 | 파라미터 | ImageNet Top-1 | Top-5 |
|---|---|---|---|---|
| ResNet-50 | 50 | 25.6M | 24.80% | 7.48% |
| ResNet-101 | 101 | 44.5M | 23.17% | 6.52% |
| DenseNet-121 | 121 | 8.0M | 25.02% | 7.71% |
| DenseNet-169 | 169 | 14.1M | 23.80% | 6.85% |
| DenseNet-201 | 201 | 20.0M | 22.58% | 6.34% |
정말 놀라운 사실:
- DenseNet-201 (20M) > ResNet-101 (44.5M), 파라미터 절반 이하예요!
- CIFAR-10에서 DenseNet-BC (L=190, k=40): 3.46% 오류율 (당시 SOTA)
DenseNet의 장점
- Feature Reuse – 모든 층이 이전 정보 재사용 → 중복 학습 방지
- Gradient Flow – 모든 층이 Loss에 직접 연결 → Vanishing Gradient 완화
- Parameter Efficiency – 작은 Growth Rate로도 충분 (k=12면 층당 144 파라미터만 추가)
- Regularization – 파라미터가 적어서 과적합 방지
7.1.9 SENet (2017): “채널에도 주목하자!”

논문: 「Squeeze-and-Excitation Networks」 – Jie Hu et al.
ILSVRC 2017 우승 🏆
SE (Squeeze-and-Excitation) Block
핵심 질문:
“모든 채널(Feature Map)이 다 똑같이 중요할까요?”
답: 아니에요! → 채널별로 가중치를 다르게 주면 어떨까?
SE Block 작동 원리
3단계:

성능 비교 (ImageNet)
| 모델 | 파라미터 | GFLOPs | Top-1 오류율 | Top-5 오류율 |
|---|---|---|---|---|
| ResNet-50 | 25.6M | 3.86 | 24.80% | 7.48% |
| SE-ResNet-50 | 28.1M (+10%) | 3.87 | 23.29% (-1.51%p) | 6.62% (-0.86%p) |
| ResNet-101 | 44.5M | 7.58 | 23.17% | 6.52% |
| SE-ResNet-101 | 49.3M | 7.60 | 22.38% (-0.79%p) | 6.07% (-0.45%p) |
| ResNeXt-101 | 44.2M | 7.99 | 21.18% | 5.57% |
| SE-ResNeXt-101 | 48.9M | 8.00 | 20.70% (-0.48%p) | 5.01% (-0.56%p) |
| SENet-154 (앙상블) | – | – | 17.36% | 2.3% 🏆 |
정말 놀라운 효율:
- 파라미터 +10%만으로 정확도 1~1.5%p 향상이 됐어요!
- “Plug-and-Play” – 기존 네트워크 어디에나 끼워 넣기만 해도 돼요.
왜 SE Block이 효과적할까요?
직관적 설명:
- 컨텍스트 인지 – GAP로 전역 정보를 파악해요
- 채널 중요도 학습 – FC Layer로 “어떤 특징이 이 이미지에 중요한가” 학습하는 거죠
- 동적 가중치 – 이미지마다 다른 채널을 강조하는 거예요 (Static Filter와 차이!)
예시:
- 강아지 이미지 → “털 텍스처” 채널 가중치 ↑, “바퀴” 채널 ↓
- 자동차 이미지 → “금속 반사” 채널 ↑, “털” 채널 ↓
7.1.10 MobileNet 시리즈 (2017~2019): “모바일도 AI 돌린다!”

MobileNet V1 (2017.04) – Depthwise Separable Convolution
핵심 질문:
“스마트폰에서도 CNN 돌릴 수 없을까요?”
해법: Depthwise Separable Convolution
Depthwise Separable Conv 원리
일반 Conv2d:
nn.Conv2d(3, 16, 3) # 입력 3채널 → 출력 16채널
파라미터: 16×3×3×3 = 432
연산량: 432 × H × WDepthwise Separable Conv:
# 1단계: Depthwise (채널별로 따로)
nn.Conv2d(3, 3, 3, groups=3) # 3×3×3 = 27
# 2단계: Pointwise (1×1로 채널 믹스)
nn.Conv2d(3, 16, 1) # 16×3×1×1 = 48
총 파라미터: 27 + 48 = 75 (일반 대비 1/5.7!)비유:
- 일반 Conv: “모든 재료를 한 번에 섞는 요리”
- Depthwise Sep Conv: “재료별로 손질 → 마지막에 조합”
Width Multiplier (α):
- α=1.0: 기본 (4.2M 파라미터)
- α=0.75: 75% 채널
- α=0.5: 50% 채널 (1.3M, 실시간 가능!)
MobileNet V2 (2018.01) – Inverted Residual + Linear Bottleneck
V1의 문제:
Depthwise Conv는 채널 수가 적으면 표현력이 떨어진다는 문제가 있었어요.
V2의 해법:
- Inverted Residual – 안쪽이 넓고, 바깥이 좁은 구조 (ResNet과 반대!)
- Linear Bottleneck – 마지막 ReLU 제거 (정보 손실 방지)
Inverted Residual Block

왜 Linear일까요?
- ReLU는 음수를 0으로 만들어버려요 → 정보 손실
- 저차원 채널에서는 이 손실이 정말 치명적이에요
- 마지막 Projection 층은 Linear 활성화로 정보를 보존하는 거죠!
성능 비교
| 모델 | 파라미터 | MAdds | ImageNet Top-1 |
|---|---|---|---|
| MobileNet V1 | 4.2M | 575M | 70.6% |
| MobileNet V2 | 3.5M | 300M | 72.0% (+1.4%p) |
| MobileNet V2 (1.4×) | 6.9M | 585M | 74.7% |
→ V1 대비 30% 연산량 감소 + 정확도 향상이 됐어요!
MobileNet V3 (2019.05) – NAS + h-swish
V3의 혁신:
- NAS (Neural Architecture Search) – 구조를 AI가 자동 탐색해요
- h-swish 활성화 함수 – ReLU6 대체, 정확도 ↑
- SE Block 통합 – 경량화 + 채널 주목 결합
h-swish (Hard Swish):
- Swish와 비슷한 성능을 내요
- 하드웨어 최적화 가능해요 (Sigmoid 없이 ReLU6만!)
성능 비교
| 모델 | 파라미터 | Latency (ms) | ImageNet Top-1 |
|---|---|---|---|
| MobileNet V2 | 3.5M | 75 | 72.0% |
| MobileNet V3-Large | 5.4M | 61 | 75.2% (+3.2%p) |
| MobileNet V3-Small | 2.9M | 15 | 67.4% |
→ V2 대비 20% 연산량 감소 + 3%p 정확도 향상이 됐어요!
MobileNet 시리즈 총정리
| 버전 | 핵심 기술 | 파라미터 | 특징 |
|---|---|---|---|
| V1 (2017) | Depthwise Separable | 4.2M | 파라미터 1/9 감소 |
| V2 (2018) | Inverted Residual + Linear Bottleneck | 3.5M | 정보 손실 최소화 |
| V3 (2019) | NAS + h-swish + SE | 5.4M / 2.9M | 하드웨어 최적화 |
7.1.11 EfficientNet (2019): “크기·깊이·해상도를 동시에!”

논문: 「EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks」 – Mingxing Tan, Quoc V. Le (Google)
Compound Scaling의 발견
기존 CNN 스케일업 방법:
- Depth Scaling – 층 늘리기 (ResNet-50 → ResNet-152)
- Width Scaling – 채널 늘리기 (WideResNet)
- Resolution Scaling – 입력 해상도 올리기 (224×224 → 299×299)
문제: 하나만 키우면 수확체감의 법칙이 적용되더라고요!
EfficientNet의 해법:
“셋을 동시에, 균형있게 키우자!” – Compound Scaling
Compound Scaling 수식
φ (Compound Coefficient) 하나로 모두 조절하는 거예요:
제약 조건:
→ FLOPs가 배로 증가하도록 설정하는 거죠!
EfficientNet 계열
기본 모델 (B0) – NAS로 발견:
- MBConv (MobileNet V2의 Inverted Residual) 기반
- SE Block 통합
- Swish 활성화 함수
| 모델 | φ | 파라미터 | FLOPs | ImageNet Top-1 | Top-5 |
|---|---|---|---|---|---|
| EfficientNet-B0 | 0 | 5.3M | 0.39B | 77.1% | 93.3% |
| EfficientNet-B1 | 1 | 7.8M | 0.70B | 79.1% | 94.4% |
| EfficientNet-B2 | 2 | 9.2M | 1.0B | 80.1% | 94.9% |
| EfficientNet-B3 | 3 | 12M | 1.8B | 81.6% | 95.7% |
| EfficientNet-B4 | 4 | 19M | 4.2B | 82.9% | 96.4% |
| EfficientNet-B5 | 5 | 30M | 9.9B | 83.6% | 96.7% |
| EfficientNet-B6 | 6 | 43M | 19B | 84.0% | 96.8% |
| EfficientNet-B7 | 7 | 66M | 37B | 84.3% | 97.0% 🏆 |
효율성 비교 (같은 정확도 기준)
| 모델 | ImageNet Top-1 | 파라미터 | FLOPs |
|---|---|---|---|
| ResNet-152 | 77.8% | 60M | 11.3B |
| DenseNet-264 | 77.9% | 33M | 5.8B |
| EfficientNet-B0 | 77.1% | 5.3M (1/11) | 0.39B (1/29) |
| GPipe (큰 모델) | 84.3% | 557M | – |
| EfficientNet-B7 | 84.3% | 66M (1/8.4) | 37B (1/6.1x 빠름) |
→ 같은 성능을 8배 작은 크기, 6배 빠른 속도로 달성했어요!
Compound Scaling vs 단일 Scaling
실험 (EfficientNet-B0 기준):
| 방법 | FLOPs | ImageNet Top-1 |
|---|---|---|
| Baseline (B0) | 0.39B | 77.1% |
| Depth만 2배 | 0.60B | 78.3% (+1.2%p) |
| Width만 2배 | 0.80B | 78.8% (+1.7%p) |
| Resolution만 2배 | 1.56B | 78.9% (+1.8%p) |
| Compound (균형) | 0.70B | 79.8% (+2.7%p) ⭐ |
→ 균형 스케일링이 훨씬 효율적이네요!
왜 Compound Scaling이 효과적할까요?
직관적 설명:
- Resolution ↑ → 더 큰 receptive field 필요 → Depth ↑
- Depth ↑ → 더 많은 채널로 풍부한 패턴 캡처 필요 → Width ↑
- Width ↑ → 고해상도로 세밀한 패턴 학습 가능 → Resolution ↑
→ 서로 시너지가 생기는 거죠!
비유:
- Depth만 ↑: “깊은 우물, 좁은 입구” → 정보 병목
- Width만 ↑: “넓은 호수, 얕은 깊이” → 복잡한 패턴 학습 불가
- Resolution만 ↑: “4K 카메라, 구형 프로세서” → 처리 불가
- Compound: “균형잡힌 성능”
관련 내부 링크:
Transfer Learning으로 100배 적은 데이터로 SOTA 달성
하이퍼파라미터 튜닝 하나로 AI 성능 2배
7.1.12 YOLO: “한 번만 봐도 된다” – 실시간 객체 탐지의 혁명 (2015)
논문: 「You Only Look Once: Unified, Real-Time Object Detection」 – Joseph Redmon et al.
2015년까지 객체 탐지(Object Detection)는 진짜 느렸어요. R-CNN 계열은 이미지를 수천 개의 영역으로 쪼개서 각각 분류하는 방식이라서, 한 이미지에 수십 초가 걸렸거든요.
YOLO의 혁신:
- “이미지를 한 번만 본다(You Only Look Once)” – 전체 이미지를 한 번에 신경망에 넣고, 모든 객체와 위치를 동시에 예측해버렸어요.
- 그리드 기반 예측: 이미지를 7×7 그리드로 나누고, 각 셀이 담당 영역의 객체를 예측하는 방식이었어요.
- 속도: 초당 45프레임(FPS) – 실시간 영상 처리가 가능했어요!
성능:
- mAP (mean Average Precision): 63.4% (당시 Faster R-CNN은 73.2%로 더 정확했지만, 1000배 느렸어요)
- 실시간 자율주행, 로봇 비전, CCTV 분석 등에 즉시 적용 가능했답니다.
시사점:
- “정확도 vs 속도” 트레이드오프를 극적으로 개선한 최초의 모델이었어요.
- YOLO v2, v3, v4, v5, … YOLOv11(2024)까지 계속 발전하면서, 객체 탐지의 사실상 표준이 되었어요.
관련 내부 링크:
YOLO v1 완벽 분석: “한 번만 봐도 된다”는 AI의 자신감
컴퓨터 비전 – AI가 세상을 보는 방법
7.2 ImageNet Challenge 역대 우승 모델 완전판
| 연도 | 모델 | Top-5 오류율 | 핵심 혁신 | 의의 |
|---|---|---|---|---|
| 2010 | NEC-UIUC | 28.2% | 전통적 CV | 딥러닝 이전 |
| 2011 | XRCE | 25.8% | 전통적 CV | 딥러닝 이전 |
| 2012 | AlexNet | 15.3% | 8층 CNN + GPU | 딥러닝 혁명 🔥 |
| 2013 | ZFNet | 11.7% | AlexNet 개선 | – |
| 2014 | GoogLeNet | 6.67% | Inception 모듈 | 효율성 |
| 2014 (2위) | VGGNet | 7.3% | 3×3 필터 | 깊이 |
| 2015 | ResNet-152 | 3.6% | Skip Connection | 초깊은 네트워크 |
| 2016 | Inception-v4 | 3.08% | Inception + ResNet | – |
| 2017 | SENet-154 | 2.3% | SE Block | 채널 주목 🏆 |
인간 수준: 5.1% (2014)
2015년 ResNet-152: 인간을 넘어섰어요!
7.3 CNN 진화의 핵심 통찰 10가지
- 깊이 (Depth)
- LeNet (1998): 5층
- AlexNet (2012): 8층
- VGGNet (2014): 19층
- ResNet (2015): 152층
- ResNet Pre-act (2016): 1001층!
→ Skip Connection 없이는 불가능해요
- 효율성 (Efficiency)
- VGGNet: 138M 파라미터
- GoogLeNet: 6.8M (1/20!)
- MobileNet V2: 3.5M
- EfficientNet-B0: 5.3M, 8배 효율적
→ “크면 무조건 좋다” 시대는 끝났어요
- 병렬화 (Parallelization)
- Inception: 여러 필터 크기 병렬 사용
- ResNeXt: Grouped Convolution
→ “깊이 vs 넓이”를 넘어 “병렬”이 중요해요
- 연결성 (Connectivity)
- 일반 CNN: 순차 연결
- ResNet: Skip Connection
- DenseNet: 모든 층 연결
→ Gradient Flow가 정말 중요해요
- 주목 (Attention)
- SENet: 채널 주목
- CBAM: 채널 + 공간 주목
- Vision Transformer: Self-Attention
→ “어디를 봐야 하는가”가 핵심이에요
- 모듈화 (Modularity)
- Inception: Inception Module
- ResNet: Residual Block
- MobileNet: MBConv
→ “레고 블록”처럼 조립하는 거죠
- NAS (Neural Architecture Search)
- EfficientNet: AI가 구조 탐색
- MobileNet V3: NAS 활용
→ 사람 설계
- 하드웨어 최적화
- MobileNet V2: Inverted Residual
- MobileNet V3: h-swish
→ CPU/GPU 친화적 설계가 중요해요
- Compound Scaling
- EfficientNet: Depth·Width·Resolution 동시 조절
→ 균형이 정말 중요하다는 걸 배웠어요
- Transfer Learning 시대
- ImageNet Pre-training → Fine-tuning
- 99%의 실전 프로젝트는 처음부터 학습 안 해요
→ “거인의 어깨 위에서” 시작하는 거죠
관련 내부 링크:
CNN – 이미지를 이해하는 AI의 비밀
딥러닝의 커튼을 열다: AlexNet
Vision Transformer (ViT)가 이미지를 보는 새로운 방식
7.4 AlphaGo(2016): 직관의 영역까지 점령
- 구글 DeepMind의 AlphaGo가 이세돌 9단을 4:1로 제압했어요.
- 정책망·가치망·MCTS·강화학습을 결합해서, 경우의 수가 우주 원자 수보다 많다는 바둑을 정복해냈거든요.
- 특히 2국 37수처럼 인간이 잘 두지 않던 수를 둔 장면은, “AI가 인간의 창의성까지 넘는가?”라는 충격을 줬어요.
관련 내부 링크:
강화학습 심화 완벽 가이드
7.5 Transformer(2017): “Attention Is All You Need”
- 기존 RNN/LSTM은 단어를 순서대로 처리해야 해서 느렸고, 긴 문장을 잘 못 기억했어요.
- Transformer 아키텍처는 순차적 처리를 버리고 셀프 어텐션(Self-Attention) 메커니즘을 도입했어요.
- 문장 내 모든 단어가 서로를 동시에 참조해서 문맥적 관계를 파악하게 함으로써, 병렬 처리를 통한 대규모 학습이 가능해졌어요.
- 이는 BERT, GPT와 같은 초거대 언어 모델(LLM)의 탄생을 가능케 한 결정적 기술이었답니다.
핵심 개념:
- Self-Attention: 모든 단어가 다른 모든 단어를 “보면서” 중요도를 계산해요
- Multi-Head Attention: 여러 개의 Attention을 병렬로 수행하는 거죠
- Positional Encoding: 단어의 순서 정보를 주입해요
시사점:
- RNN/LSTM 시대가 끝났어요
- 거의 모든 최신 LLM(GPT, BERT, T5, etc.)의 기반이 되었어요
- 이미지(ViT), 음성, 비디오에도 확장되었답니다
관련 내부 링크:
GPT vs Claude vs Gemini – 생성형 AI 완전 해부: Transformer부터 RLHF까지
7.6 AlphaFold(2020): 과학적 발견의 가속화
2020년, 딥마인드의 알파폴드 2(AlphaFold 2)는 50년 난제였던 ‘단백질 접힘(Protein Folding)’ 문제를 해결했어요. 아미노산 서열만으로 단백질의 3차원 구조를 실험적 오차 범위 내에서 예측해 낸 거죠. 이는 AI가 단순한 패턴 인식을 넘어 기초 과학의 난제를 해결할 수 있음을 입증한 사례예요. 개발자인 데미스 허사비스와 존 점퍼는 2024년 노벨 화학상을 수상했답니다.
8. 생성형 AI 붐과 현재 (2021~현재)

2020년대 초반, AI는 연구실을 벗어나 대중의 일상으로 파고들었어요. 생성형 AI(Generative AI)는 텍스트, 이미지, 코드를 인간 수준으로 생성해 내며 산업 전반에 충격을 주었답니다.
8.1 핵심 기술: RLHF와 확산 모델
RLHF (인간 피드백 기반 강화학습):
- 2022년 OpenAI는 InstructGPT 논문을 통해 단순히 다음 단어를 예측하는 모델을 인간의 의도에 맞게 정렬(Align)하는 기술을 공개했어요.
- 인간이 선호하는 답변에 보상을 주는 방식으로 모델을 미세 조정해서, 유해한 답변을 줄이고 유용성을 높였어요.
- 이는 챗GPT 성공의 핵심 비결이었답니다.
확산 모델 (Diffusion Models):
- 이미지 생성 분야에서는 GAN(생성적 적대 신경망)을 대체하는 확산 모델이 등장했어요.
- 이미지에 노이즈를 입혔다가 다시 노이즈를 제거하며 원본을 복원하는 과정을 학습하는 이 방식은 Stable Diffusion과 Midjourney의 기반 기술이 되었거든요.
관련 내부 링크:
강화학습 심화 완벽 가이드 – RLHF, DPO, PPO, GRPO 완벽 정리
8.2 주요 AI 서비스 출시 타임라인
| 서비스/모델명 | 개발사 | 출시일 | 핵심 의의 |
|---|---|---|---|
| Midjourney | Midjourney, Inc. | 2022년 7월 12일 | 디스코드 기반으로 고품질 예술 창작을 대중화시켰어요 |
| Stable Diffusion | Stability AI | 2022년 8월 22일 | 오픈소스라서 개인 PC에서도 돌릴 수 있어요 |
| ChatGPT | OpenAI | 2022년 11월 30일 | AI의 ‘아이폰 모먼트’라고 불렸어요, 5일 만에 100만 사용자 달성 |
| Llama 1 | Meta AI | 2023년 2월 24일 | 고성능 LLM을 오픈소스로 제공했어요 |
| Claude 1 | Anthropic | 2023년 3월 14일 | 헌법적 AI, 안전성·긴 문맥 처리에 강해요 |
| GPT-4 | OpenAI | 2023년 3월 14일 | 추론 능력·멀티모달 성능이 비약적으로 향상됐어요 |
| Gemini 1.0 | Google DeepMind | 2023년 12월 6일 | 네이티브 멀티모달 (텍스트·이미지·오디오·비디오) |
| Gemini 1.5 Pro | Google DeepMind | 2024년 2월 15일 | 100만 토큰 컨텍스트 윈도우를 처리할 수 있어요 |
| Claude 3 | Anthropic | 2024년 3월 4일 | Opus 모델이 GPT-4를 능가했어요 |
| Llama 3 | Meta AI | 2024년 4월 18일 | 오픈형 모델 성능을 폐쇄형 수준으로 끌어올렸어요 |
| GPT-4o | OpenAI | 2024년 5월 13일 | 멀티모달 실시간 처리가 가능해요 |
| OpenAI o1 | OpenAI | 2024년 9월 12일 | 추론형 모델이에요 (Chain of Thought) |
| Sora | OpenAI | 2024년 12월 | 텍스트→비디오 생성이 가능해요 |
| DeepSeek-R1 | DeepSeek | 2025년 1월 | 추론 특화 오픈소스 LLM이에요 |
8.3 추론(Reasoning) 모델로의 전환: OpenAI o1 & DeepSeek-R1
2024년 9월 공개된 OpenAI o1(코드명 Strawberry)은 생성형 AI의 새로운 패러다임을 제시했어요.
- 기존 LLM이 즉각적으로 단어를 생성하는 ‘시스템 1(직관적 사고)’ 방식이었다면,
- o1은 답변을 내기 전 내부적으로 ‘생각의 사슬(Chain of Thought)’을 거치는 ‘시스템 2(숙고적 사고)’ 방식을 채택했어요.
- 이는 수학, 코딩, 과학 등 복잡한 추론이 필요한 영역에서 박사급 문제 해결 능력을 보여주며, 단순한 챗봇을 넘어선 에이전트(Agent)로의 진화를 예고하고 있답니다.
DeepSeek-R1 (2025년 1월)
- 중국의 DeepSeek이 공개한 오픈소스 추론 모델이에요
- o1과 유사한 추론 능력을 오픈소스로 제공해요
- 수학·코딩 벤치마크에서 o1과 대등한 성능을 보여줘요
관련 내부 링크:
강화학습 심화 완벽 가이드 – DeepSeek-R1의 GRPO 메커니즘
9. 미래: AI가 더 발전하려면 무엇이 필요한가?

AI가 ‘좁은 지능(ANI)’에서 범용적 문제 해결 능력을 갖춘 시스템으로 나아가려면, 하드웨어, 데이터, 기술, 그리고 윤리적 측면에서 해결해야 할 과제들이 있어요.
9.1 하드웨어: GPU를 넘어선 특화 칩 전쟁
현재 엔비디아(NVIDIA)의 GPU(H100, Blackwell)가 AI 연산 시장을 독점하고 있지만, 추론 비용 절감과 속도 향상을 위한 새로운 아키텍처가 부상하고 있어요.
LPU (Language Processing Unit):
- Groq사가 개발한 LPU는 추론(Inference)에 특화된 칩이에요.
- GPU의 고대역폭 메모리(HBM) 대신 칩 내부의 초고속 SRAM을 활용하고, 컴파일러가 데이터 흐름을 결정론적으로 제어해요.
- 이를 통해 초당 500토큰 이상의 생성 속도를 구현해서, 실시간 음성 대화 등의 지연 시간(latency) 문제를 해결하고 있어요.
웨이퍼 스케일(Wafer-Scale) 칩:
- Cerebras사는 웨이퍼 하나를 통째로 하나의 칩(WSE-3)으로 만드는 접근법을 취해요.
- 칩 간 통신 병목을 없애고 메모리를 온칩(on-chip)화해서 거대 모델의 학습 속도를 획기적으로 높이고 있어요.
뉴로모픽(Neuromorphic) 컴퓨팅:
- 인텔의 로이히(Loihi)와 같이 인간 뇌의 스파이킹 신경망(SNN)을 모방한 칩은 전력 효율성을 극대화해서 엣지 디바이스(Edge Device)에서의 AI 구동을 가능하게 할 거예요.
관련 내부 링크:
역설의 칩들: 왜 똑같이 AI를 돌리는데 어떤 건 배우지 못하고 추론만 하는가?
9.2 데이터: 고갈 위기와 합성 데이터(Synthetic Data)
인터넷상의 고품질 인간 텍스트 데이터는 2026~2028년경 고갈될 것으로 예측되고 있어요. AI가 생성한 데이터로 다시 AI를 학습시키면 모델 성능이 붕괴하는 ‘모델 붕괴(Model Collapse)’ 위험도 제기되고 있어요.
해결책:
- 합성 데이터(Synthetic Data)의 중요성이 커지고 있어요.
- 고성능 모델(예: GPT-4)이 생성한 고품질 데이터를 검증해서 작은 모델을 학습시키거나,
- 물리 엔진 시뮬레이션을 통해 로봇 학습 데이터를 생성하는 방식이 있어요.
- 앤스로픽의 ‘헌법적 AI’처럼 AI가 스스로 데이터를 평가하고 정제하는 기술도 필수적이에요.
관련 내부 링크:
AI가 데이터를 이해하는 방법 – 데이터가 AI의 연료인 이유
9.3 기술: 뉴로심볼릭(Neuro-symbolic) AI와 신뢰성
딥러닝의 ‘블랙박스’ 문제(결과 도출 과정을 설명하지 못함)와 환각(Hallucination) 현상은 의료, 국방 등 중요 분야 적용의 걸림돌이에요.
뉴로심볼릭 AI:
- 신경망의 학습 능력(직관)과 기호주의 AI의 논리적 추론(규칙)을 결합하는 하이브리드 접근법이에요.
- 예를 들어, 자율주행차가 신경망으로 보행자를 인식(Perception)하고, 심볼릭 로직으로 “보행자가 횡단보도에 있으면 정지한다”는 규칙을 적용(Reasoning)함으로써 안전성과 설명 가능성을 동시에 확보할 수 있어요.
관련 내부 링크:
AI 블랙박스 99% 못 믿는 이유 – 설명가능한 AI(XAI)
왜 AI는 자신있게 거짓말을 하는가? 원인, 탐지, 해결법까지!
9.4 윤리 및 규제: ‘무법지대’의 종언

AI 기술의 파급력이 커짐에 따라, 자율 규제를 넘어선 법적 구속력이 생기기 시작했어요.
아실로마 AI 원칙 (2017):
- 23개의 원칙을 통해 안전, 투명성, 가치 정렬 등의 가이드라인을 제시했어요.
EU AI 법(EU AI Act):
- 세계 최초의 포괄적 AI 규제법이에요.
- 2024년 7월 발효되었으며, 2025년 2월부터 ‘용인할 수 없는 위험'(사회적 신용 평가, 실시간 생체 감시 등)을 금지하고,
- 2026년 8월부터는 의료 등 ‘고위험’ AI에 대한 엄격한 적합성 평가를 의무화할 거예요.
- 이는 전 세계 AI 규제의 표준(Brussels Effect)이 될 전망이에요.
관련 내부 링크:
EU AI Act 완벽 해부: 세계 최초 AI 규제법의 모든 것
10. 결론: 80년의 교훈
인공지능의 역사는 ‘단속적 평형(Punctuated Equilibrium)’의 과정이었어요. 긴 침체기(겨울)는 새로운 이론, 데이터, 하드웨어의 삼박자가 맞아떨어질 때 폭발적인 혁신(붐)으로 이어졌거든요.
우리는 이제 ‘기술적(Descriptive) AI’와 ‘예측형(Predictive) AI’를 지나, 새로운 콘텐츠를 만드는 ‘생성형(Generative) AI’ 시대를 살고 있으며, 곧 스스로 계획하고 행동하는 ‘에이전트(Agentic) AI’ 시대로 진입할 거예요.
핵심 교훈
- 과대평가의 위험 – 다트머스 회의의 “한두 여름이면 된다”는 낙관론은 두 번의 AI 겨울을 초래했어요.
- 삼박자의 중요성 – 이론(알고리즘) + 데이터 + 하드웨어가 모두 맞아떨어져야 혁신이 일어나요.
- 점진적 발전의 가치 – AlexNet, ResNet 등 대부분의 혁신은 기존 아이디어의 점진적 개선에서 나왔어요.
- 오픈소스의 힘 – Stable Diffusion, Llama 등 오픈소스 모델이 혁신을 가속화했어요.
- 윤리와 규제의 필수성 – 기술만으로는 충분하지 않아요. 사회적 합의와 법적 프레임워크가 필요해요.
미래의 AI 경쟁력은 단순히 모델의 크기(파라미터 수)를 키우는 것에 그치지 않을 거예요. 얼마나 효율적인 하드웨어 위에서, 얼마나 정제된(합성) 데이터를 통해, 인간의 가치와 윤리에 부합하는 방식으로 추론할 수 있는가가 핵심이 될 거라고 생각해요.
다트머스 회의에서 꿈꾸었던 “지능의 모든 측면을 기계로 구현하는 것”은 더 이상 먼 미래의 공상이 아니에요. 이제는 우리가 마주하고 해결해야 할 구체적인 현실이 되었답니다.
같이 보기
AI 기초
CNN & 컴퓨터 비전
- CNN – 이미지를 이해하는 AI의 비밀
- 딥러닝의 커튼을 열다: AlexNet
- Deep Belief Network (DBN) 완벽 분석
- YOLO v1 완벽 분석
- 컴퓨터 비전 – AI가 세상을 보는 방법
- Vision Transformer (ViT)가 이미지를 보는 새로운 방식
생성형 AI & LLM
- GPT vs Claude vs Gemini – 생성형 AI 완전 해부
- GPT – 창의적인 글을 쓰는 AI
- 자연어 처리(NLP) – AI와 대화하기
- ChatGPT 10배 활용법 – Prompt Engineering 완벽 마스터 가이드
강화학습 & 추론
실전 활용
- Transfer Learning으로 100배 적은 데이터로 SOTA 달성
- 하이퍼파라미터 튜닝 하나로 AI 성능 2배
- 특성 공학(Feature Engineering) – AI 성능을 2배 높이는 비밀
- 모델 학습과 최적화 – AI가 스스로 똑똑해지는 4가지 비밀
- 선형회귀와 분류 – 모든 머신러닝 알고리즘의 시작점
AI 윤리 & 규제
- AI 블랙박스 99% 못 믿는 이유 – 설명가능한 AI(XAI)
- 왜 AI는 자신있게 거짓말을 하는가? Hallucination 완벽 분석
- EU AI Act 완벽 해부: 세계 최초 AI 규제법의 모든 것
