본문 바로가기
Machine Learning

통계 분석 #2 : 빅데이터 분석 및 활용 (데이터 저장, 처리, 분석, 시각화)

by 무적물리 2020. 3. 17.

빅데이터 유형, 분석, 활용

빅데이터는 데이터 형식에 따라 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 물론, 정형 데이터와 비정형 데이터도 더 많은 데이터 형식으로 잘게 나눌 수 있습니다. 정형 데이터인지, 비정형 데이터인지에 따라 데이터 분석 기술이 다르게 적용됩니다. 


결국 데이터를 분석하고 활용하는 이유는 수익실현을 위함입니다. 따라서, 빅데이터의 활용에서 시장을 예측함으로써 주식이나 비트코인의 가격을 예측하고 수익실현을 할 수 있습니다. 또한, 신제품/마케팅 전략의 활용도 결국 물건을 파는 행위이기 때문에 동일한 목적입니다.


- 빅데이터 유형

정형데이터 : 고객 데이터, 상품 판매 데이터

비정형데이터 : SNS 활동 기록, 영상 정보, 위치 정보


- 빅데이터 분석

정형데이터 : 데이터 마이닝, 회귀분석

비정형데이터 : 텍스트 마이닝, SNS 분석


- 빅데이터 활용

시장예측, 니즈 발견, 리스크 절감, 평판 개선, 신제품 전략, 마케팅 전략



데이터 저장 기술

빅데이터를 사용하기 위해서는 빅데이터 저장 기술이 중요한 포션을 차지합니다. 빅데이터 저장 기술에는 크게 두가지로 나눌 수 있는데, 이는 하둡과 NoSQL 입니다. 일반적으로 대기업에서는 하둡을 사용하는 반면에, 중소기업의 경우에는 저렴한 비용으로 운용 가능한 NoSQL이 사용됩니다.


- 하둡 (Hadoop) : 자바 기반 오픈 소스 프레임워크로, 분산 파일 시스템인 HDFS에 데이터를 저장, 분산 처리 시스템인 MapReduce 로 데이터를 처리

- NoSQL : SQL을 사용하지 않는 데이터베이스 시스템으로, 비정형 데이터의 저장을 위해 유연한 데이터 모델을 지원, 저렴한 비용으로 분산 처리와 병렬 처리가 가능


데이터 처리 기술

컴퓨터를 통한 데이터 처리 기술은 보통 비정형 데이터를 추출하고 가공해서 분석합니다. 그도 그럴 것이 인터넷 상에는 정량화된 데이터보다 비정형 데이터의 양이 훨씬 방대합니다. 결국 아래의 마이닝 기법이나 분석의 목적 역시 수익창출이라는 점을 알아두십시오.


- 텍스트 마이닝 : 가지 있는 정보를 추출 및 가공

- 오피니언 마이닝 : SNS, 블로그, 게시판 등에서 제품/서비스에 대한 선호도 추출

- 소셜 네트워크 분석 : SNS의 영향력, 관심사, 성향, 행동 패턴 분석

- 군집 분석 : 유사 특성의 데이터 집합을 추출


데이터 시각화 기술

데이터를 분석하고 상부에 보고를 하고 많은 사람들에게 공유를 해야한다면 데이터 시각화는 꼭 필요한 절차입니다. 회사에서는 차트의 인덱스 하나만 잘못 달아도 욕을 먹고 난리나기에 시각화를 잘 한 자료가 잘만든 자료라 할 수 있습니다. 


- 데이터 시각화란 : 데이터 분석 결과를 쉽게 이해 가능한 형태로 표현하고 전달하는 과정

- 데이터 시각화 도구 : R, 파워포인트, 엑셀, Tableau, 파이썬


댓글