본문 바로가기

Machine Learning47

ML #16 : 머신러닝 강화학습 MDP 특징 및 파라미터 (Markov Decision Process) 강화학습이란 인간이 어떤 행동을 습득했을 때와 비슷한 방법으로 컴퓨터를 학습시키는 방법입니다. 어떠한 공식이 있는 것이 아니고, 경험에 의해 모델을 학습하는 것입니다. 강화학습의 목적은 Optimal Policy를 찾는 것이며, 누적보상을 최대화하는 Policy를 찾도록 학습합니다. 이번 포스팅에서는 강화학습에 대해 소개해보겠습니다. 강화학습이란?학습에 의해 답이 정해지는 것이 아니고, 모르는 환경에서 보상 값(Reward)이 최대가 되게 행동하도록 컴퓨터를 학습시키는 방법이 강화학습입니다. 기존에 학습했던 지도학습, 비지도학습(자율학습)과 비교한 강화학습의 특성은 아래와 같습니다. - 지도학습 : 정답을 알 수 있는 학습- 비지도학습 : 정답이 없는 값의 특성 파악- 강화학습 : 정답은 모르지만 최대 .. 2020. 4. 26.
ML #15 : 계층적 클러스터링 특징 및 수행 절차 (H-Clustering) 계층적 클러스터링 이란?계층적 클러스터링은 고차원 혹은 다차원 데이터를 클러스터링하는 방법 중 하나입니다. 사용하기가 간단하며, 방법이 직관적이기 때문에 사람이 확인하기 쉽다는 장점을 가지고 있습니다. 계층적 클러스터링은 k평균 혹은 DBSCAN 클러스터링과는 다르게 Bottom-up 방식으로 클러스터링을 수행합니다. 가까운 데이터끼리 클러스터를 형성하고, 가까운 클러스터들끼리 클러스터를 병합하는 과정을 반복함으로써 하나의 클러스터가 되도록하는 클러스터링 기법입니다. - 데이터 : 다차원, 고차원- 사용성 : 간단, 직관적 계층적 클러스터링 수행 절차계측정 클러스터링 방법은 여러 물방울이 흩어져 있는 상황에서 물방울들이 서로 병합해서 하나의 큰 물방울을 형성하는 것과 같은 형태로 수행됩니다. 물방울을 클.. 2020. 4. 25.
ML #14 : 머신러닝 군집, DBSCAN 클러스터링 개요, 특징, 장단점 DBSCAN 클러스터링 이란?Density-Based Spatial Clustering of Applications with Noise 의 약자인 DBSCAN 클러스터링은 k평균 클러스터링과 같이 데이터의 위치 정보를 이용해서 클러스터링하는 기법입니다. k평균 클러스터링은 평균과의 거리가 얼마나 떨어졌는지를 결정하는 반면에, DBSCAN 클러스터링은 데이터의 밀도를 활용해서 클러스터링을 합니다. 따라서, 원뿔모양의 데이터 분포나 아래와 같이 특이한 데이터 분포에 대해 잘 클러스터링할 수 있습니다. 만일, 행정구역을 나눈다고 했을 때, 지역의 크기 vs 인구 밀도를 기준으로 행정구역을 나눌 수 있습니다. DBSCAN은 인구 밀도를 기준으로 행정구역을 나누는 것에 가까운 클러스터링 기법입니다. DBSCAN .. 2020. 4. 25.
ML #13 : 머신러닝 k-means Clustering 특징, 장단점, 적용 예시 (비지도학습) k-means Clustering 개요k평균 클러스터링은 앞 포스팅에서 설명한 자율학습(비지도학습)의 분류기법 입니다. k평균 클러스터링의 분류 절차는 아래와 같은 순서대로 이루어집니다. 1. 중심값 선정2. 중심값과 다른 데이터 간 거리로 분류3. 분류 완료 때까지 반복 k평균 클러스터링은 모집단 또는 범주에 대한 사전 정보가 없을 때, 주어진 관측값들 사이의 거리를 측정함으로써 유사성을 이용해서 분석할 수 있습니다. 또한, 전체 데이터를 여러 개의 집단으로 그룹화하는데, 이는 각 집단의 성격을 파악하며 데이터 전체 구조를 이해하기 위함입니다. k평균 클러스터링의 핵심은 새로운 데이터와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 분류하는 것입니다. 기존 데이터를 기준점으로 유클리디안 거리를 측정.. 2020. 4. 25.
ML #12 : 머신러닝 자율학습 특징과 적용 예시 (비지도학습) 개인적으로 머신러닝 관련 학습을 하고 있어서 작성하는 메모 형태의 포스팅이니 감안하고 읽어주시면 감사하겠습니다. 개인적으로 자율학습을 사용하는 일은 많이 없지만 가끔 클러스터링을 위해 사용하곤 합니다. 오늘은 비지도학습이라고도 불리는 자율학습에 대한 기본 내용과 특징에 대해 포스팅하겠습니다. 자율학습 개요예를 들어 머신러닝을 통해 분류를 수행한다고 했을 때, 지도학습과 같은 방법으로 분류를 수행할 수 있으며, 오늘 살펴볼 내용과 같이 자율학습을 사용해서 분류를 수행할 수 있습니다. 지도학습은 목적 값이 존재하는 데이터이며, 자율학습은 목적값이 없는 데이터입니다. 자율학습은 비지도학습이라고도 불립니다. 비지도학습의 특징은 아래와 같습니다. 관찰한 데이터의 패턴, 규칙 탐색입력 데이터의 패턴을 찾음종속 변수.. 2020. 4. 24.
ML #11 : 머신러닝 예측, 은닉 마르코프 모델 (HMM) 개념 및 예시 마르코프 모델이란?은닉 마르코프 모델은 과거의 데이터를 기반으로 예측을 하는 방법입니다. 예를 들면 지난 3일간의 날씨가 3일전 흐림, 2일전 맑음, 어제 비 였다면 내일의 날씨는 어떻게 될지를 확률로 예측하는 방법입니다. 어떠한 시점에서 가능한 상태를 확인하는 것이 마르코프 모델이며, 일정한 시간 간격으로 어떠한 상태로 발전하는지를 확률적으로 표현하는 방식입니다. 마르코프의 가정은 시간 t에서의 상태는 오직 가장 최근 r개 데이터에만 의존한다는 것입니다. 마르코프 모델은 상태가 옮겨지는 상황에 따라 두가지 모델로 구분할 수 있습니다. 에르고딕 모델(Ergodic)과 좌우 모델(Left-to-Right) 입니다. - 마르코프 가정 : 시간 t에서의 상태는 오직 가장 최근 r개 데이터에만 의존- 마르코프 .. 2020. 4. 22.
ML #10 : 나이브베이즈 분류 개요와 특징 (Laplace Smoothing, 언더플로우) 나이브베이즈 개요머신러닝의 분류 알고리즘 중 하나인 나이브베이즈 분류에 대해 소개하겠습니다. 나이브 베이즈 분류의 알고리즘은 간단합니다. 매개 변수 x, y가 있을 때 그룹 A에 속할 확률을 P1(x, y), 그룹 B에 속할 확률을 P2(x, y)라고 가정하고 P1이 P2보다 크다면 그룹A로 분류하고, P2가 P1보다 크다면 그룹B로 분류합니다. 그룹 A에 속할 확률을 P1(x, y)그룹 B에 속할 확률을 P2(x, y) P1(x, y) > P2(x, y) → 그룹AP1(x, y) 2020. 4. 21.
ML #9 : 머신러닝 의사결정트리, 모델 생성 방법 및 장단점 의사결정트리란?의사결정트리는 분류와 같은 의사결정을 수행할 때, 나무와 같이 가지치기를 함으로써 분류하는 방법입니다. 이는 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형입니다. 의사결정트리 분류 절차는 아래와 같습니다. 1. 새로운 데이터 분류 (Classification)2. 해당 범주 값 예측 3. 트리 구조의 일반화된 지식 추출 의사결정트리는 두가지의 데이터 유형으로 나뉩니다. 범주형과 연속형입니다. 범주형은 분류나무로써 의사결정트리를 구성하며, 연속형은 회귀나무로 의사결정트리를 구성합니다. 하지만, 의사결정트리는 회귀모델의 정확도가 낮기 때문에 주로 분류의 목적으로 사용됩니다. 연속형 데이터를 위한 회귀나무는 쓸모 없다는 말입니다. - 범주형 :.. 2020. 4. 21.
ML #8 : 머신러닝 SVM 기본 개념과 장,단점 (Support Vector Machine) kNN과 같이 기존 데이터를 사용해서 새로운 데이터가 입력되었을 때, 분류하는 방법이 있습니다. 이름은 Support Vector Machine (SVM) 입니다. 만약 영화의 장르와 같이 명확한 분류 기준은 없지만 기존에 분류된 장르에 해당하는 데이터가 있다면 기존 데이터를 SVM 알고리즘을 이용해서 분류할 수 있습니다. 오늘 포스팅에서는 SVM에 대해 간단히 공유하겠습니다. SVM 이란?SVM은 많이 사용하고 있는 신경망보다 사용이 간결하며 분류나 회귀 분석에서 사용 가능합하지만, 분류에서 주로 사용하고 있는 기법입니다. SVM은 Support Vector와 Hyperplane(초평면)을 이용해서 분류를 수행하게 되는 알고리즘입니다. 간단하게 설명하자면 평면 상태에서 아래와 같이 Hyperplane으.. 2020. 4. 18.
ML #7 : 머신러닝 k Nearest Neighbors (kNN) 알고리즘 장점, 단점 kNN 이란?k Nearest Neighbors (kNN) 알고리즘이란, 새로운 데이터의 분류를 알기위해 사용하는 최근접 이웃 알고리즘입니다. 예를 들면 새로운 음악이 발표되었을 때, 기존의 데이터를 사용해서 해당 음악의 장르를 분류하기 위해 사용합니다. 새로운 데이터가 입력되었을 때, 기존의 데이터와 새로운 데이터를 비교함으로써 새로운 데이터와 가장 인접한 데이터 k개를 선정합니다. 이어서, k 값에 의해 결정된 분류를 입력된 데이터의 분류로 확정합니다. 즉, 새로 입력된 데이터와 기존 데이터를 비교함으로써 새로운 데이터를 유사하게 판단된 기존 데이터로 분류하는 것입니다. 1. 새로운 데이터와 가장 인접 데이터 k개 선정2. k개의 데이터가 가장 많이 속한 분류를 선택 kNN 장점kNN을 사용하면 여러.. 2020. 4. 13.