빅데이터
빅데이터의 개요
빅데이터의 정의
디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐만 아니라 문자와 영상 데이터를 포함하는 대규모 데이터
빅데이터의 특징
- 3V, 자료가 모이는 속도(Velocity)가 매우 빠르고, 자료의 종류가 매우 다양하며(Variety), 그 양(Volume)이 매우 크다.
- 빅데이터 환경은 과거에 비해 데이터의 양이 폭증했다는 점과 함께 데이터의 종류도 다양해져 사람들의 행동은 물론 위치 정보와 SNS를 통해 생각과 의견까지 분석하고 예측할 수 있다.
빅데이터 분석
앙상블 방법
- 여러 개의 모혐을 이용하여 개별 모형보다 좋은 예측 성능을 얻는 방법이다.
- 대표적으로 배깅(Bagging; Bootstrap aggregating)과 부스팅(Boosting) 등이 있다.
- 앙상블 방법의 특징은 아주 단순한 모형을 결합함으로써 우수한 예측 성능을 갖는 모형을 만들 수 있다는 것이다.
Bagging
- 학습 집합의 임의 추출된 부분집합에서 각 모형을 적합하는 과정을 여러 번 수행한다.
- 회귀분석에서는 추정값들의 평균값으로, 분류분석에서는 추정확률들의 평균값을 가장 크게 하는 값으로 분류하는 방법론이다.
Boosting
- 여러 개의 모형의 가중 평균으로 새로운 모형을 구성하는데, 더 정확한 개별 모형에 더 많은 가중치를 부여하는 방법이다.
- 대표적인 방법으로 ada boost가 있다.