분석 기법

통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;;

많은 알고리즘과 기법들이 있다. 큰 그림만 소개를 해본다.

자세한 내용은 하나씩 찾아서 학습을 해야 한다.

군집(Clustering)

1. K-평균 군집(K-means clustering)

분류기

1. 나이브 베이지안(Naive Bayesian)

- 많은 텍스트 분류 문제에 대해 선호되는 방법

이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다.

2. 의사 결정 나무 분류기

- if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합)

- 트럼프 맞추기 예시

1) 의사결정을 위한 일반적인 알고리즘

CART, ID3, C4.5 etc.

- CART

지니지수(Gini Index) : 0~0.5 사이의 값을 가지며,

0에 가까울 수록 순수 0.5에 가까울수록 불순도(impurity)가 높다.

반복적 분할작업을 통해 지니지수의 순수한 계수를 구한다.

업무적으로 납득이 될 때 멈춘다.

회귀(Regression)

1. 로지스틱 회귀(Logistic Regression)

연관 규칙(Association Rules)

1. Apriori : 빈발 항목 집합(자주나타나는 항목들)

- 지지도와 신뢰도

최소 지지도 제거 활동

R을 배워보자~ (4)	2013.11.13

Developer 태하팍