1. 연관규칙

  • 항목들 간의 '조건-결과' 식으로 표현되는 유용한 패턴

  • 이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함 -> 장바구니분석이라고도 함

  • 측정지표

    • 지지도

      • 전체 거래항목 중 상품 A 와 상품 B를 동시에 포함하여 거래하는 비율을 의미

      • P ( A ∩ B ) : A와 B가 동시에 포함된 거래수 / 전체 거래 수

    • 신뢰도

      • 상품 A를 포함하는 거래 중 A와 B와 동시에 거래되는 비중

      • P ( A ∩ B ) / P ( A ) : A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수

    • 향상도

      • 상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율

      • A가 주어지지않았을 때 B의 확률대비 A가 주어졌을 때 B의 확률증가 비율

      • P ( A ∩ B ) / P(A) * P(B) = P(B|A) / P(B)
        A와 B가 동시에 일어난 횟수 / A,B가 독립사건일 때 A,B가 동시에 일어날 확률

  • 상호관계가 없으면(독립) 향상도는 1 , 향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있음

    • 향상도가 1 이면 품목간에 연관성이 없다

    • 향상도가 음 이면 서로 음의 상관관계를 의미

  • Process ( Apriori 알고리즘 : 데이터들에 대한 발생 빈도를 기반으로 각 데이터 간의 연관관계를 밝힘)

    • 최소 지지도를 설정

    • 개별 품목 중에서 최소 지지도를 넘는 모든 품목을 찾는다

    • 2에서 찾은 개별 품목만을 이용하여 최소 지지도를 넘는 두가지 품목 집합을 찾는다.

    • 위의 두 절차에서 찾은 품목 집합을 결합하여 최소 지지도를 넘는 세 가지 품목 집합을 찾는다.

    • 반복적으로 수행해 최소 지지도가 넘는 빈발품목 집합을 찾는다.

  • 장점

    • 조건반응( if - then )으로 표현되는 연관분석의 결과를 이해하기 쉬움

    • 강력한 비목적성 분석 기법

    • 사용이 편리한 데이터 분석

    • 분석계산이 간편

  • 단점

    • 분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가

    • 너무 세부화된 품목을 가지고 연관규칙을 찾으려면 의미 없는 분석 결과가 도출

    • 상대적으로 거래량이 적으면 규칙 발견 시 제외되기 쉽다

'ADSP > 3강) 데이터 분석' 카테고리의 다른 글

[11] 군집분석  (0) 2020.02.19
[10] 모형평가  (0) 2020.02.17
[9] 앙상블 모형  (0) 2020.02.16
[8] 신경망 모형  (0) 2020.02.15
[7] 데이터마이닝  (0) 2020.02.14

+ Recent posts