fbpx
Gradient 2018-09-20T18:29:15+00:00
강의 소개

개요

GRADIENT는 전통적인 머신러닝 알고리즘에서 출발하여 가장 최신의 딥러닝 알고리즘까지 다루는 강의를 제공합니다. 머신러닝을 처음 접하시는 분들을 강의 대상으로 하며, 고등학교 인문계열(문과) 수준의 기초 수학을 전제로 합니다. 통계학이나 수학, 프로그래밍 분야에서 전공자 수준의 지식을 요구하지는 않습니다. 강의는 24시간의 기본 과정과 12시간의 심화 과정으로 진행됩니다.

커리큘럼 I (알고리즘)

수업에서 다루는 알고리즘들은 아래와 같습니다.

  • 선형 모형 : 선형 회귀분석, 로지스틱 회귀분석, 소프트맥스 회귀분석
  • 의사 결정 나무에 기반한 모형 : 배깅, 랜덤 포레스트, 경사 부스팅
  • 인공신경망 류 모형 (딥 러닝) : 합성곱 신경망 (CNN), 순환 신경망 (RNN), 자기부호화기 (Autoencoder), 적대적 생성 신경망 (GAN)

수업의 전반부에는 선형 모형들에 대해 탐구하는데 많은 시간을 할애합니다. 선형 모형은 가장 단순한 형태의 머신러닝 모형이지만 그 구조와 원리를 명확히 이해하는건 쉬운 일만은 아닙니다. 전반부에서 공부하는 내용들은 모두 라이브러리를 사용하지 않고 바닥부터 코드로 구현하는 연습 과정을 거칩니다. 수강생들은 그러한 과정을 통해 기계의 학습이 본질적으로 어떻게 이루어지는지 이해하게 됩니다. 이러한 구현을 위해 기초적인 수치해석과 최적화, 특히 경사 하강법을 비중있게 다룹니다. 경사 하강법의 문제를 해결하기 위한 여러 알고리즘들도 알아봅니다.

그 다음으로는 의사 결정 나무에 기반한 여러 모형들을 배웁니다. 의사 결정 나무에 기반한 모형들을 사용하면 비정형 데이터, 예를 들어 음성, 영상, 텍스트 등을 제외한 대부분의 정형 데이터들을 다룰 때 쉽고 빠르게 좋은 성능을 낼 수 있기 때문에 반드시 익숙해져야만 하는 모형들입니다. 수강생들은 의사 결정 나무에 대해 공부하고 이를 기발한 방법으로 개선한 랜덤 포레스트 모형과 여러 가지 부스팅에 대해 배우게 됩니다.  특히 경사 부스팅을 구현하기 위해 가장 널리 쓰이는 XGBoost와 같은 라이브러리에 대해 배우고 능숙히 사용할 수 있도록 연습할겁니다.

이후 심화 과정에서는 흔히 딥 러닝이라 부르는 인공신경망 류 모형들에 대해 배웁니다. 먼저 신경망의 학습을 효율적으로 구현하기 위한 역전파 알고리즘에 대해 배우고, 학습 과정에서 발생하는 경사 소실과 같은 특유의 문제들에 대해 이해합니다. 이를 해결하기 위한 가중치 초기화, 드롭아웃, 배치 정규화 등 여러 방법론들에 대해 배웁니다. 이후 합성곱 신경망과 순환 신경망, 자기부호화기, 적대적 생성 신경망과 같은 유명한 신경망 구조들에 대해 공부합니다. 합성곱 신경망와 순환 신경망을 응용한 현대 영상처리, 자연어처리 모형들에 대해 이해합니다.

커리큘럼 II (일반화)

시중 대부분의 머신러닝 강의들은 자주 사용되는 알고리즘을 가르치는 데에만 집중합니다. 머신러닝은 그저 알고리즘들의 집합이 아니므로, 알고리즘을 배우는 데에만 집중한다면 핵심을 놓치게 됩니다.

각론(各論)에 해당하는 다양한 머신러닝 알고리즘들에 대해 이해했다면, 그 이후에는 총론(總論)에 해당하는 통계적 학습 이론 (Statiatical Learning Theory)이라는 분야의 중요한 결과들에 대해 이해해야 합니다. 수강생들은 ‘일반화의 오차’라고 부르는 오차가 왜 발생하고 어떻게 이루어졌는지, 그것을 효과적으로 추정하는 방법은 무엇인지 공부하게 됩니다.

일반화의 오차에 대해 확실히 이해하는 것은 현실적인 문제와 직결됩니다. 오류가 왜, 얼마나 생기는지 확실히 이해해야 정확하고 안전하게 머신러닝을 사용할 수 있고, 효율적이고 빠르게 알고리즘을 선택할 수 있기 때문입니다.

수강생들은 이를 응용하여 가장 성능이 좋은 머신러닝 모형을 선택하고 평가하는 과정을 연습해 봅니다. 가령 랜덤 포레스트와 인공신경망 중 어떤 모형을 사용해야 하는가? 인공신경망을 사용한다면 뉴런이 얼마나 있는 인공신경망을 사용해야 하는가? 과 같은 선택 상황에서, 무엇을 기준으로 어떻게 선택해야 하는지 연습할 겁니다. 흔히 “교차 검증을 통한 하이퍼 파라미터 튜닝/모형 선택” 이라고 부르는 과정인데, 이 과정을 반복적으로 연습해 볼 수 있도록 다양한 분야의 데이터들을 다루어 보는 실습 과제들이 주어집니다. 정확하고 효율적인 튜닝을 위한 현실적인 노하우들을 전달합니다.

커리큘럼 III (실전)

머신러닝에 대해 확실히 이해했다면 그러한 이해를 바탕으로 현실의 데이터에 머신러닝을 적용할 수 있어야 합니다. 그러나 현실의 데이터에 머신러닝을 적용하고 높은 성능을 이끌어내는 것은 또 다른 능력을 필요로 합니다. 현실의 데이터는 지저분한 경우가 대부분이기 때문에 머신러닝을 적용할 수 조차 없는 경우에 자주 직면하게 됩니다. 어떻게든 데이터를 정제해서 머신러닝을 적용한다 하더라도 그다지 좋은 성능을 뽑아내지 못할 가능성이 높습니다.

실제 머신러닝 컨테스트에서 수상 경력이 있는 강사과 함께, Kaggle의 데이터를 이용해 현실 세계의 데이터들에 머신러닝을 적용하기 위한 다음과 같은 방법론들에 대해 공부해 볼 겁니다.

  • 데이터 전처리, 결측치, 이상치 처리.
  • 탐색적 데이터 분석 (EDA)
  • Feature Engineering

대부분의 데이터를 다루는 경우에, 사실상 머신러닝 모형의 성능을 좌우하는 요인은 기존의 변수들을 가공해 새로운 변수를 만들어내는 특징 추출 (Feature Engineering) 이라 부르는 테크닉입니다. 특징 추출 테크닉이 수학적으로 어떤 의미를 가지는지, 실제로 특징 추출을 어떤 방식으로 수행하는지 조목조목 알아보고 이를 통해 모형의 성능을 높이는 실습을 진행합니다. Kaggle Competition들 중 1~2개를 골라 다루어 보게 됩니다.

주차별 커리큘럼 내려받기

교재 및 참고도서

전반적인 강의 교재로는 Introduction to Statistical Learning (교재 링크)와 Deep Learning (교재 링크)을 사용합니다. 참고 도서로는 Elements of Statistical Learning (교재 링크)을 사용합니다. 강의 교재와 여러 참고 도서를 요약 및 보충한 PPT를 제공합니다.

강의 자료 내려받기 (수강생 전용)

강의 정보

강사는 수학을 전공했고, 국내 유일한 머신러닝 컨테스트인 빅콘테스트에서 수상한 이력이 있습니다. 현재는 국내 여러 스타트업과 머신러닝 모델링 부문에서 협업하고 있으며, GRADIENT를 운영중입니다. 🙂

  • 강의 시간 : 기본 과정 (24시간) + 심화 과정 (12시간)
  • 강의 장소 : 강남역 마이캠퍼스 [서울특별시 강남구 테헤란로 111, 대건빌딩 나동(준경타워)​ 7층]
  • 강의 일정 : [개강] 2018/10/27 
  • 강의료 : 기본 과정 (690,000₩), 기본 과정 + 심화 과정 (990,000₩)

FAQS

머신러닝은 데이터에서 패턴을 인식해내고, 그렇게 얻은 패턴 인식 능력을 지능이라 정의하는 것으로 인공지능을 구현하고자 하는 학문 분야입니다. 데이터 사이언스에서는 지능의 구현이라는 본래의 목적보다 이러한 패턴 인식 능력을 응용하여 여러 문제를 해결하는 방향으로 사용하고 있습니다. 사실상 데이터 사이언스와 머신러닝 두 용어를 구분하지 않고 사용하는 경우가 대부분입니다. 머신러닝 알고리즘들 중 특히 이미지, 음성, 텍스트 등 비정형 데이터에서 패턴을 읽어내는데 능한 신경망 류 알고리즘을 딥러닝이라 부릅니다. GRADIENT의 강의는 다음과 같은 두 가지 목적을 가지고 있습니다.

  1.  머신러닝 분야에 대한 정확한 이해
  2.  딥러닝 분야의 최신 연구 결과 이해

GRADIENT는 머신러닝 강의란 응용에 앞서 그 근간이 되는 이론적 개념들을 필요한 만큼 자세히 제공해야 한다는 가치관을 가지고 있습니다.  머신러닝이라는 분야에서는  누가누가 tensorflow를 잘 다루고, scikit-learn을 잘 쓰는지가 크게 중요하지 않습니다. 정말로 필요한 능력은 그 기저에 깔려있는 수학적이고 통계적인 개념들을 정확히 이해하는 것이고, 그러한 이해가 뒷받침 되어야만 비로소 머신러닝을 정확하고 효율적으로 사용할 수 있게 됩니다. 그러나 수리, 통계 계열의 학문을 전공하지 않은 사람들에게 머신러닝은 다소 까다로울 수 있는 분야이므로 혼자서 공부하기에는 머신러닝의 이론적 개념들에 대한 직관을 얻기가 쉽지 않은 것이 사실입니다. GRADIENT는 그러한 직관과 이론에 대한 정확한 이해를 제공하는 역할을 담당하고자 합니다.

GRADIENT는 “취업 연계, 데이터 사이언티스트로의 화려한 커리어 전환!”과 같은 허황된 주장을 하지 않습니다. “데이터”를 빼면 여하간 과학자라는 뜻인데, 과학자라는 타이틀을 그렇게 간단히 얻을 수 있을리가 없겠죠. 과학자가 아니더라도 적당한 과학 지식은 삶을 풍요롭게 하듯이, 데이터의 홍수 속에 살고있는 현대인으로서 머신러닝을 이해하고 사용할 수 있는 능력을 갖춘다는 건 꽤나 매력적인 선택일거에요. 비록 데이터 사이언티스트까지는 될 수 없다고 해도 말이죠. 🙂

수강 신청
사업자등록번호 : 263-41-00360    |    대표 : 유준형    |    © GRADIENT 2018