지도학습 이란?
지도학습이란, 컴퓨터에게 어떤 것이 맞는 답인지를 지정해줌으로써 모델을 생성했을 때, 컴퓨터는 지정해 준 답과 비슷한 것을 판단해서 맞는 것이 무엇인지 판단하게 됩니다. 맞는 답이란 목적 값인 Target Value 입니다. 지도학습을 위해서는 세가지를 따져봐야 합니다. 무엇을 분석할 것인지, 분석을 위한 준비 사항은 무엇인지에 대해 정의되어야하며, 머신러닝에 사용하기 위한 데이터 준비가 필요합니다. 학습을 위한 데이터는 최대한 정답에 가까운 데이터가 필요합니다.
지도학습의 방법에는 크게 분류(Classification)와 예측(Regression)이 있습니다. 예측은 Continuous Value가 목적 값이며, 분류는 Ordinal Data가 목적 값으로 머신러닝을 수행합니다. 간단하게 말해서 분류는 분리수거 쓰레기를 보고 어떤 카테고리에 속하는지 분류하는 것이라고 보면 되고, 예측은 여러 인덱스를 보고 주가를 예측하는 것이라고 보시면 편합니다. 아래에서 분류와 예측에 대해 자세히 설명해보겠습니다.
분류(Classification)
분류란 위에서 설명한 바와 같이 목적 값이 연속성이 없이 몇가지 값으로 분류되는 Ordinal Data 입니다. 예를 들면, 스팸 메일을 골라야 할 때, 컴퓨터는 학습된 데이터를 기초로 판단하는 모델입니다. 이를 위해서는 수많은 스팸 메일로 컴퓨터를 학습시켜서 학습한 데이터에 의해 컴퓨터는 일정 조건을 만들고 그에 맞게 판단하게 됩니다. 스팸 메일을 자동으로 걸러 내는 것입니다.
아래 그림은 분류의 예시 입니다. 스팸 메일과 정상 메일 간에는 머신러닝을 통해 생성한 기준선이 존재하며 이 기준으로 스팸 메일과 정상 메일을 나눠준다고 이해하시면 됩니다.
예측(Regression)
예측은 일종의 회귀분석 입니다. 목적 값에 연속성이 있는 Continuous Data를 사용합니다. 예를 들면, 여러 변수를 사용해서 아파트 매매가격을 예측하는 모델을 들 수 있습니다. 이를 위해 분류와 마찬가지로 수 많은 아파트 가격 정보를 컴퓨터가 분석해서 학습한 데이터에 의한 조건에 따라 아파트 가격을 예측한 결과를 보여줍니다.
아래 그림은 회귀 모델의 예시입니다. 기본적인 RSM과 같은 회귀모델에서는 아래와 같이 비선형성이 강한 머신러닝 모델을 생성할 수 없겠지만, Neural Net이나 Gaussian Process(Kriging), RBF과 같은 머신러닝 모델을 사용하면 Local Optima가 많은 아래와 같은 모델도 생성 가능합니다. 물론, 머신러닝이 각광받게 된 이유는 인간의 뇌를 어느 정도 수식화했기 때문이고, 이것은 Deep Neural Net (DNN) 입니다. 결과적으로, 최근 머신러닝을 공부한다는 것은 뉴럴넷 알고리즘을 공부하는 것과 같은 이치입니다. 물론, 통계 관련 지식은 필수입니다.
댓글