인공지능의 발전/머신러닝의 부상

AlexNet의 이미지넷 대회 우승

Seven AI Workers 2025. 4. 20. 15:05

2012년, 딥러닝 분야에서 매우 중요한 사건이 있었습니다. 바로 'AlexNet'이라는 인공지능 모델이 이미지넷(ImageNet)이라는 세계적인 이미지 인식 대회에서 압도적인 성적으로 우승한 것입니다. 이 일은 딥러닝 기술이 실질적으로 얼마나 뛰어난 성능을 낼 수 있는지를 전 세계에 보여준 계기가 되었습니다.

AlexNet이란?

AlexNet은 토론토 대학교의 알렉스 크리제브스키(Alex Krizhevsky), 일야 수츠케버(Ilya Sutskever), 제프리 힌튼(Geoffrey Hinton) 팀이 개발한 심층 합성곱 신경망(CNN)입니다. 2012년 ImageNet 대회(ILSVRC)에서 15.3%의 오류율로 우승하며, 기존 모델 대비 10% 이상 향상된 성능을 보였습니다.

* 이미지넷 대회란?
이미지넷 대회는 컴퓨터가 수많은 사진을 보고 그 안에 무엇이 있는지를 맞히는 대회입니다. 예를 들어, 사진 속에 고양이, 자동차, 사람, 사과 등이 있다면, 컴퓨터가 이 물체들을 정확히 인식해야 합니다. 참가자들은 자신이 만든 인공지능 프로그램이 얼마나 정확하게 이미지를 분류하는지를 겨룹니다.

AlexNet이 뭐가 특별했나요?

AlexNet은 딥러닝 기술 중에서도 '합성곱 신경망(CNN)'이라는 구조를 이용한 모델입니다. 이전에도 CNN은 있었지만, AlexNet은 처음으로 아주 깊은 신경망 구조를 사용했고, 동시에 GPU(그래픽 카드)를 활용해서 빠르고 효율적으로 학습을 시켰습니다. 이 두 가지가 결합되면서 성능이 기존 모델들보다 훨씬 뛰어났습니다.

  • 8개 계층 구조: 5개의 합성곱 계층과 3개의 완전 연결 계층으로 구성되어 있습니다.
    • 합성곱 계층(Convolutional Layers) : 이미지의 특징을 추출하는 역할로 작은 필터(또는 커널)를 이미지 위에 슬라이딩하면서, 각 위치에서의 필터와 이미지의 부분 영역 간의 곱셈 합을 계산하여 이미지의 가장자리, 질감, 모양 등 다양한 시각적 특징을 자동으로 추출
    • 완전 연결 계층(Fully Connected Layers) : 추출된 특징을 바탕으로 최종 결정을 내리는 역할로 이전 계층의 모든 뉴런과 현재 계층의 모든 뉴런이 연결되어 있어, 전체 정보를 종합하여 분석하여 모델이 학습한 정보를 바탕으로 최종 예측을 수행하며, 분류, 회귀 등 다양한 작업에 활용
  • ReLU 활성화 함수: 비선형성을 도입하여 학습 속도를 향상시켰습니다.
  • 드롭아웃(Dropout): 과적합을 방지하기 위해 일부 뉴런을 무작위로 비활성화하는 기법을 사용했습니다.
  • 데이터 증강: 이미지 회전, 이동 등을 통해 학습 데이터를 다양화하여 일반화 성능을 높였습니다.
  • GPU 활용: 두 개의 NVIDIA GTX 580 GPU를 사용하여 병렬 처리로 학습 속도를 크게 향상시켰습니다.

 

얼마나 잘했나요?

AlexNet은 2012년 이미지넷 대회에서 1000개 카테고리에 걸쳐 약 150만 장의 이미지를 학습한 후, 테스트 이미지에서 놀라운 정확도로 정답을 맞혔습니다. 당시 다른 모델들의 오류율이 26% 정도였는데, AlexNet은 약 16%로 10%포인트나 더 낮은 오류율을 기록했습니다. 이건 이 분야에서는 매우 큰 차이입니다.

왜 이게 중요한가요?

이 사건은 많은 연구자들과 기업들이 딥러닝 기술에 다시 주목하게 만든 계기가 되었습니다. 이후 구글, 페이스북, 마이크로소프트 같은 글로벌 기업들이 본격적으로 딥러닝 연구와 개발에 뛰어들게 되었고, 그 결과 오늘날 우리가 사용하는 이미지 검색, 얼굴 인식, 자율주행, 음성 인식, 번역기 등의 기술들이 빠르게 발전할 수 있었습니다.

한마디로 정리하면?

AlexNet은 딥러닝이 단순한 연구 주제를 넘어, 실제 문제를 매우 잘 해결할 수 있다는 것을 입증한 첫 번째 사례였습니다. 이로 인해 딥러닝은 '이론'에서 '현실 세계의 기술'로 도약하게 된 것이죠.