데이터 마이닝
데이터 마이닝의 기법
의사결정트리 (Decision Tree)
주어진 데이터를 분류(Classification)하는 목적으로 사용된다. 예측(Prediction)하는데는 사용할 수 없다. 즉, 목표 변수가 범주형인 경 우사용되며목표변수가수 치형인 경우에는 결정트리 알고리즘에 적용할 수 없다. 목표 변수가 수치형인 데이터에 적용하고자 한다면 목표 변수를 수치형 변수에서 범 주형 변수로 이산화한 후 적용하면 된다.
연관성규칙발견(Association Rule Discovery)
- 상품 혹은 서비스 간의 관계를 살펴보고 이로부터 유용한 규칙을 찾아내고자 할 때 이용될 수 있는 기법
- 연관성측정(Associations)은 어떤 특정 문제에 대해 아직은 일어나지 않은 답…(예를 들어, 부도·건전)을 얻고자 하는 예측(Prediction)의 문제나 고객들을 특정목적에 따라 분류(Segmentation)하는 문제가 아니라, 상품 혹은 서비스(이하 상품)의 거래기록(Historical) 데이터로부터 상품간의 연관성 정도를 측정하여 관성이 많은 상품들을 그룹화하는 클러스터링(clustering)의 일종
- 동시에 구매될 가능성이 큰 상품들을 찾아냄으로써 시장바구니분 석(Market Basket Analysis)에서 다루는 문제들에 적용
- 연관성측정에서의 연관규칙은 “상품 A가 구매되어진 경우는 상품 B도 구매된다.” 라고 해석된다.
- 연관 규칙기법을 이용할 수 있는 데이터는 판매시점에서 기록되어진 거래와 품목에 관한 정보를 담고 있어야 한다.
인공신경망(Artificial Neural Network)
자신이 가진 데이터로부터의 반복적인 학습 과정을 거쳐 패턴을 찾아내고 이를 일반화함으로써 특히 향후를 예측(Prediction) 하고자 하는 문제에 있어서 유용하게 이용되는 기법으로 매우 복잡한 구조를 가진 데이터들 사이의 관계나 패턴을 찾아내는 유연한 비선형 모형(Flexible nonlinear Model)의 하나다.
군집분석
- 어떤 목적변수(target)를 예측하기보다는 고객수입, 고객 연 령과 같이 속성이 비슷한 고객들을 묶어서 몇 개의 의미 있는 군집으로 나누는 것
- 대용량의 데이터가 너무 복잡할 때는 이를 구성하고 있는 몇 개의 군집을 나누어 살펴봄으로써 전체에 대한 윤곽을 잡 을 수 있을 것이다.
- 군집분석은 주로 다른 분석을 위한 사전 단계로 쓰여질 때 가 많다.
- 비슷한 속성을 가진 고객을 군집으로 묶는다는 개념을 이해 해보도록 하자. 눈으로 볼 수 있듯이 3개의 군집이 형성되며 가깝게 위치한 점(고객)들끼리가 각 군집을 이루는 점(고객) 들이 된다. 3차원에서도 마찬가지로 가깝게 위치한 점들을 눈으로 확인해가면서 같은 군집으로 묶을 수가 있겠는데 문제는 눈으로 어느 점이 가까운 지를 확인 할 수 없는 4차원 이상부터이다.
사례기반추론
- 사례 기반 추론 기법(CBR)은 한마디로 주어진 새로운 문제를 과 거의 유사한 사례를 바탕으로 주어진 문제의 상황에 맞게 응용하여 해결해 가는 기법
- 인공지능과 관련된 여러 가지 기법 중의 하나인 사례기반추론은 기억장치에서 현재의 문제와 유사한 이미 해결된 문제를 찾고, 과 거의 문제와 현재의 문제간의 차이를 고려하여 이전의 해결책 또 는 해결책들을 현재의 문제에 맞게끔 수행하는 과정을 가진다.
- 사례 기반 추론을 이용한 방법은 과거의 전문가 시스템에서 사용하던 지식 (정형화된 Rule)의 추론을 통해서 해를 얻는 방법보다는 단순하면서도 문제 영역이 잘 정형화되지 않는 분야에서는 좋은 접근법이라 할 수 있다. 문제를 해결할 때 미리 모든 지식을 구축할 수 없는 경우가 많이 있 다. 이러한 경우 사례 기반 추론 기법은 주어진 문제가 과거에 얻은 경험(사례로 저장)과 같다면 특별한 추론 없이 그 해를 도출하여 준다. 이러한 개념은 문제가 복잡하고 해를 구하는데 많은 시간이 요구 되는 문제에서는 과거 사례를 기억하여 찾아 해를 제공해 준다면 해를 얻는 시간이 매우 절약되며 효율적인 시스템이라 할 수 있다.