본문 바로가기

정규화3

파이썬 데이터 최대 최소 정규화 예제 (Python Data MinMaxScaler with sklearn) 파이썬을 이용해 데이터 정규화를 해야 하는 일이 자주 있습니다. 대표적으로, 텐서플로우를 활용한 머신러닝 혹은 딥러닝이 이에 해당합니다. 이번 포스팅에서는 파이썬을 사용한 최대 최소 데이터 정규화 방법에 대해 여러분과 공유하고자합니다. 최대 최소 데이터 정규화는 sklearn 패키지의 MinMaxScaler를 사용하여 간단하게 구현 가능합니다. 바로 본론 및 예제에 적용해보겠습니다. 예제 데이터 최대 최소 정규화를 예제로 구현해보기 위해서는 데이터가 필요합니다. Numpy를 사용해서 예제 데이터를 생성하겠습니다. 아시겠지만, 데이터 엔지니어링을 위해서 Numpy의 사용은 필수적입니다. 많은 패키지와 연동이 잘 되어있기 때문입니다. 최대 최소 정규화 예제 적용을 위한 데이터는 아래와 같습니다. # 예제 데.. 2021. 4. 10.
ML #3 : 머신러닝 과적합 판단 기준과 일반화 방법 (정규화, 검증) 과적합란?일반적으로 과적합이란 만들어진 모델이 지나치게 복잡하여 학습 데이터에 대해서는 올바른 결과를 출력하지만 실제 데이터가 입력되었을 때 올바른 결과를 출력하지 못하는 것을 말합니다. 머신러닝에서 데이터가 너무 많다고해서 좋은 것만은 아닙니다. 학습 알고리즘은 적절한 수준을 유지할 필요가 있습니다. 즉, 만들어진 모델이 지나치게 단순하거나 지나치게 복잡하다면 실제 데이터가 입력되었을 대 정확한 출력을 기대하기 어렵다는 것입니다. 동일한 학습데이터로 학습된 3개의 모델을 비교해본다면 위와 같습니다. 모델 1은 너무 단순화 되어있고 모델 3은 과적합이 되어 있습니다. 위에서 설명한 바와 같이 학습데이터에 대해서는 정확한 결과를 출력하지만, 실제 데이터에 대해서는 부정확한 결과를 출력합니다. 모델 2와 같.. 2020. 4. 5.
ML #2 : 머신러닝 수행 절차 (데이터 수집, 전처리, 학습, 평가) 머신러닝 수행 절차머신러닝은 데이터로부터 모델을 만드는 단계와 만들어진 모델을 적용하는 단계로 나눌 수 있습니다. 모델을 만드는 단계는 예를 들자면 고양이가 있는 사진으로 고양이를 판별하는 모델을 만드는 단계를 말합니다. 만들어진 모델을 적용한는 단계는 말그대로 새로운 데이터가 들어왔을 때 결과를 내주는 단계입니다. 예를 들자면, 새로운 고양이 사진으로 고양이인지 아닌지를 판별하는 단계입니다. 데이터로부터 모델을 만드는 단계를 조금 더 세분화하면 아래 4단계로 나눌 수 있습니다. 데이터 수집은 말그대로 고양이가 포함된 사진 혹은 고양이가 포함되지 않은 사진을 수집하는 단계입니다. 데이터 전처리는 수집된 데이터를 학습하기에 적당한 데이터로 전처리하는 단계입니다. 이후에 데이터를 학습시키고 모델을 만들고 만.. 2020. 4. 4.