반응형
통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;;
많은 알고리즘과 기법들이 있다. 큰 그림만 소개를 해본다.
자세한 내용은 하나씩 찾아서 학습을 해야 한다.
군집(Clustering)
1. K-평균 군집(K-means clustering)
분류기
1. 나이브 베이지안(Naive Bayesian)
- 많은 텍스트 분류 문제에 대해 선호되는 방법
이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다.
2. 의사 결정 나무 분류기
- if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합)
- 트럼프 맞추기 예시
1) 의사결정을 위한 일반적인 알고리즘
CART, ID3, C4.5 etc.
- CART
지니지수(Gini Index) : 0~0.5 사이의 값을 가지며,
0에 가까울 수록 순수 0.5에 가까울수록 불순도(impurity)가 높다.
반복적 분할작업을 통해 지니지수의 순수한 계수를 구한다.
업무적으로 납득이 될 때 멈춘다.
회귀(Regression)
1. 로지스틱 회귀(Logistic Regression)
연관 규칙(Association Rules)
1. Apriori : 빈발 항목 집합(자주나타나는 항목들)
- 지지도와 신뢰도
최소 지지도 제거 활동
반응형