본문 바로가기

Machine Learning7

ML #13 : 머신러닝 k-means Clustering 특징, 장단점, 적용 예시 (비지도학습) k-means Clustering 개요k평균 클러스터링은 앞 포스팅에서 설명한 자율학습(비지도학습)의 분류기법 입니다. k평균 클러스터링의 분류 절차는 아래와 같은 순서대로 이루어집니다. 1. 중심값 선정2. 중심값과 다른 데이터 간 거리로 분류3. 분류 완료 때까지 반복 k평균 클러스터링은 모집단 또는 범주에 대한 사전 정보가 없을 때, 주어진 관측값들 사이의 거리를 측정함으로써 유사성을 이용해서 분석할 수 있습니다. 또한, 전체 데이터를 여러 개의 집단으로 그룹화하는데, 이는 각 집단의 성격을 파악하며 데이터 전체 구조를 이해하기 위함입니다. k평균 클러스터링의 핵심은 새로운 데이터와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 분류하는 것입니다. 기존 데이터를 기준점으로 유클리디안 거리를 측정.. 2020. 4. 25.
ML #9 : 머신러닝 의사결정트리, 모델 생성 방법 및 장단점 의사결정트리란?의사결정트리는 분류와 같은 의사결정을 수행할 때, 나무와 같이 가지치기를 함으로써 분류하는 방법입니다. 이는 과거에 수집된 데이터들을 분석하여 이들 사이에 존재하는 패턴을 속성의 조합으로 나타내는 분류 모형입니다. 의사결정트리 분류 절차는 아래와 같습니다. 1. 새로운 데이터 분류 (Classification)2. 해당 범주 값 예측 3. 트리 구조의 일반화된 지식 추출 의사결정트리는 두가지의 데이터 유형으로 나뉩니다. 범주형과 연속형입니다. 범주형은 분류나무로써 의사결정트리를 구성하며, 연속형은 회귀나무로 의사결정트리를 구성합니다. 하지만, 의사결정트리는 회귀모델의 정확도가 낮기 때문에 주로 분류의 목적으로 사용됩니다. 연속형 데이터를 위한 회귀나무는 쓸모 없다는 말입니다. - 범주형 :.. 2020. 4. 21.
ML #7 : 머신러닝 k Nearest Neighbors (kNN) 알고리즘 장점, 단점 kNN 이란?k Nearest Neighbors (kNN) 알고리즘이란, 새로운 데이터의 분류를 알기위해 사용하는 최근접 이웃 알고리즘입니다. 예를 들면 새로운 음악이 발표되었을 때, 기존의 데이터를 사용해서 해당 음악의 장르를 분류하기 위해 사용합니다. 새로운 데이터가 입력되었을 때, 기존의 데이터와 새로운 데이터를 비교함으로써 새로운 데이터와 가장 인접한 데이터 k개를 선정합니다. 이어서, k 값에 의해 결정된 분류를 입력된 데이터의 분류로 확정합니다. 즉, 새로 입력된 데이터와 기존 데이터를 비교함으로써 새로운 데이터를 유사하게 판단된 기존 데이터로 분류하는 것입니다. 1. 새로운 데이터와 가장 인접 데이터 k개 선정2. k개의 데이터가 가장 많이 속한 분류를 선택 kNN 장점kNN을 사용하면 여러.. 2020. 4. 13.
ML #5 : 머신러닝 데이터 샘플링 방법과 필요성 (확률적, 비확률적 샘플링) 데이터 샘플링 필요성머신러닝에서 입력 데이터가 많아지면 처리 속도가 느려지게 됩니다. 그렇기 때문에 머신러닝의 처리 속도를 빠르게 하기 위해서 대표되는 데이터로 최적화한 후에 머신러닝을 수행한다면 머신러닝의 학습 속도가 빨라집니다. 그렇다면 어떻게 해야 필요한 데이터만 사용할 수 있도록 데이터를 축소할 수 있는지 알아보겠습니다. 데이터 샘플링이란?데이터를 일부 정리해서 최적의 입력 데이터로 만드는 과정입니다. 데이터 샘플링을 예로 들자면 한 피자집의 작년 수익을 분석하기 위해 '일' 단위의 매출을 사용하는 것보다는 '월' 단위의 매출을 사용함으로써 머신러닝의 처리 속도를 빠르게 해줄 수 있습니다. 이와 같이 최적의 데이터를 만들에 내는 작업이 필요합니다. 데이터 샘플링 방법에는 확률적 샘플링, 비확률적 .. 2020. 4. 7.
ML #2 : 머신러닝 수행 절차 (데이터 수집, 전처리, 학습, 평가) 머신러닝 수행 절차머신러닝은 데이터로부터 모델을 만드는 단계와 만들어진 모델을 적용하는 단계로 나눌 수 있습니다. 모델을 만드는 단계는 예를 들자면 고양이가 있는 사진으로 고양이를 판별하는 모델을 만드는 단계를 말합니다. 만들어진 모델을 적용한는 단계는 말그대로 새로운 데이터가 들어왔을 때 결과를 내주는 단계입니다. 예를 들자면, 새로운 고양이 사진으로 고양이인지 아닌지를 판별하는 단계입니다. 데이터로부터 모델을 만드는 단계를 조금 더 세분화하면 아래 4단계로 나눌 수 있습니다. 데이터 수집은 말그대로 고양이가 포함된 사진 혹은 고양이가 포함되지 않은 사진을 수집하는 단계입니다. 데이터 전처리는 수집된 데이터를 학습하기에 적당한 데이터로 전처리하는 단계입니다. 이후에 데이터를 학습시키고 모델을 만들고 만.. 2020. 4. 4.
ML #1 : 머신러닝의 역사와 종류, 용어 정리하기! (AI, 딥러닝, 한계) 머신러닝 역사머신러닝이라는 용어는 1959년에 아서 사무엘 (Arthur Samuel)의 논문에서 최초로 아래와 같이 정의되었습니다. 이후에 머신러닝에 대한 수많은 연구가 진행되었고 발전에 발전을 거듭하다가 침체기에 빠지고 21세기에 와서야 빛을 발한 기술입니다. 머신러닝이란, 명시적으로 프로그램을 작성하지 않고 컴퓨터에 학습할 수 있는 능력을 부여하기 위한 연구 분야 머신러닝은 최근에 주목을 받게 되었습니다. 물론, 이전의 역사가 주목받기 시작한 역사보다 훨씬 깁니다. Neural Net이 처음 만들어졌고, XOR 논리를 해결하기 위해 다층 신경망이 개발되었고 딥러닝 모델이 만들어졌지만 컴퓨팅 파워와 테크닉의 부재로 딥러닝 모델을 학습 시키지 못해서 인공지능의 겨울이 찾아왔다가 Weight와 Bias의.. 2020. 4. 1.
AI 머신러닝 딥러닝 온라인 무료 교육 사이트 공유 몇년전 알파고의 흥행과 더불어 이제는 엔지니어와 직장인이라면 누구나 AI의 중요성에 대해 알고 계실 것입니다. 현재 AI를 써서 데이터마이닝으로 공정을 제어하고 사람이 하는 단순 반복성 작업들은 컴퓨터가 대신할 수 있을 정도로 AI의 보급화가 빠르게 진행되고 있습니다. 이번 포스팅에서는 이러한 AI에 대해 전문적으로, 그리고 무료로 사람들과 지식을 나누는 Open Course를 공유하고자 합니다. 아래 네 개의 사이트를 접속해서 확인하면 되겠습니다. ◎ 코세라 : https://www.coursera.org ◎ K-MOOC : https://www.kmooc.kr◎ edwith : https://www.edwith.org◎ KOOC : https://kooc.kaist.ac.kr 2020. 2. 7.