분석 기법

2013. 11. 14. 11:05BigDATA/R

반응형

 

통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;;

많은 알고리즘과 기법들이 있다.  큰 그림만 소개를 해본다.

자세한 내용은 하나씩 찾아서 학습을 해야 한다.

 

군집(Clustering)

1. K-평균 군집(K-means clustering)

 

분류기

1. 나이브 베이지안(Naive Bayesian)

   - 많은 텍스트 분류 문제에 대해 선호되는 방법

      이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다.

 

2. 의사 결정 나무 분류기

   - if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합)

   - 트럼프 맞추기 예시

 

  1) 의사결정을 위한 일반적인 알고리즘

  CART, ID3, C4.5 etc.

  - CART

     지니지수(Gini Index) : 0~0.5 사이의 값을 가지며,

     0에 가까울 수록 순수 0.5에 가까울수록 불순도(impurity)가 높다.

     반복적 분할작업을 통해 지니지수의 순수한 계수를 구한다.

     업무적으로 납득이 될 때 멈춘다.

 

회귀(Regression)

  1. 로지스틱 회귀(Logistic Regression)

 

연관 규칙(Association Rules)

  1. Apriori : 빈발 항목 집합(자주나타나는 항목들)

    - 지지도와 신뢰도

      최소 지지도 제거 활동

 

 

 

 

 

 

반응형

'BigDATA > R' 카테고리의 다른 글

R을 배워보자~  (4) 2013.11.13