1. 연관규칙
-
항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴
-
이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함 -> 장바구니분석이라고도 함
-
측정지표
-
지지도
-
전체 거래항목 중 상품 A 와 상품 B를 동시에 포함하여 거래하는 비율을 의미
-
P ( A ∩ B ) : A와 B가 동시에 포함된 거래수 / 전체 거래 수
-
-
신뢰도
-
상품 A를 포함하는 거래 중 A와 B와 동시에 거래되는 비중
-
P ( A ∩ B ) / P ( A ) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수
-
-
향상도
-
상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율
-
A가 주어지지않았을 때 B의 확률대비 A가 주어졌을 때 B의 확률증가 비율
-
P ( A ∩ B ) / P(A) * P(B) = P(B|A) / P(B)
A와 B가 동시에 일어난 횟수 / A,B가 독립사건일 때 A,B가 동시에 일어날 확률
-
-
-
상호관계가 없으면(독립) 향상도는 1 , 향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있음
-
향상도가 1 이면 품목간에 연관성이 없다
-
향상도가 음 이면 서로 음의 상관관계를 의미
-
-
Process ( Apriori 알고리즘 : 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝힘)
-
최소 지지도를 설정
-
개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다
-
2에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두가지 품목 집합을 찾는다.
-
위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.
-
반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합을 찾는다.
-
-
장점
-
조건반응( if - then )으로 표현되는 연관분석의 결과를 이해하기 쉬움
-
강력한 비목적성 분석 기법
-
사용이 편리한 데이터 분석
-
분석계산이 간편
-
-
단점
-
분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가
-
너무 세부화된 품목을 가지고 연관규칙을 찾으려면 의미 없는 분석 결과가 도출
-
상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다
-
'ADSP > 3강) 데이터 분석' 카테고리의 다른 글
[11] 군집분석 (0) | 2020.02.19 |
---|---|
[10] 모형평가 (0) | 2020.02.17 |
[9] 앙상블 모형 (0) | 2020.02.16 |
[8] 신경망 모형 (0) | 2020.02.15 |
[7] 데이터마이닝 (0) | 2020.02.14 |