본문 바로가기
반응형

BigDATA49

01. 하둡 소개 목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결.. 2014. 8. 27.
분석 기법 통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;; 많은 알고리즘과 기법들이 있다. 큰 그림만 소개를 해본다. 자세한 내용은 하나씩 찾아서 학습을 해야 한다. 군집(Clustering) 1. K-평균 군집(K-means clustering) 분류기 1. 나이브 베이지안(Naive Bayesian) - 많은 텍스트 분류 문제에 대해 선호되는 방법 이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다. 2. 의사 결정 나무 분류기 - if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합) - 트럼프 맞추기 예시 1) 의사결정을 위한 일반적인 알고리즘 CART, ID3, C4.5 etc. - CART 지니지수(Gini Index) : 0~0.5 사이의 .. 2013. 11. 14.
R을 배워보자~ R은 데이터사이언티스트가 분석을 하기 위한 도구이다. 특히, 시각화를 할 수 있는데(히스토그램 등) 이것은 분석을 돕기 위한 툴일 뿐이고 시각화를 전문적으로 하는 모듈은 아니라는거~! 셋팅 1) 아래에서 먼저 셋팅을 한 뒤 http://cran.nexr.com/ 2) R Studio를 셋팅 하자(UI 제공) http://www.rstudio.com/ide/download/desktop 참고 사이트 : http://madlib.net/ Ctrl+ l => R Studio Console 창 clean ex)> library("rgl", lib.loc="C:/Program Files/R/R-3.0.2/library") > library(rgl) > x = rnorm(10) > y = rnorm(10,2) > .. 2013. 11. 13.
[하둡교육 3일차] Pig Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro.. 2013. 6. 5.
[하둡교육 3일차] Zookeeper Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc.. 2013. 6. 5.
[하둡교육 2일차] Hadoop 설치 하둡을 설치 하기 위해 교육은 오라클 버추얼 박스로 진행 하였다.아쉽게 전체적인 셋팅을 소개 할 수는 없을 것 같다. 강사님이 미리 준비해오고 셋팅 다해오셨다 ㅋㅋ;; 1. JDK 설치 OpenJdk는 하둡에서 오류가 난다고 한다. 오라클 sun jdk를 셋팅 하도록 하자. 2. JAVA_HOME 설정 보통 일반 계정이라면 .bash_profile에 셋팅을 해주지만 이번 교육에서는 root로 잡아줬기 때문에 /etc/profile에서 PATH를 잡아주었다. 3. 하둡 복사 및 설치 하둡..이것 또한 미리 가져와있다 ㅋㅋ; hadoop-1.0.4-bin.tar.gz이라는 파일!! tar xvf hadoop-1.0.4-bin.tar.gz 로 압축을 해제 해준다. 자주 쓰는 하둡 명령어 confirm daem.. 2013. 6. 4.
[NoSQL] CAP Theorem 처음엔..NoSQL이 데이터를 처리 할 때 쓰이는 스크립트 언어인줄 알았다.. 그래서 학습을 하다보니 NoSQL을 하기 선지식으로 CAP이론을 언급하고 있었다. 그래서 찾다보니...CAP가..정말 다양하게...@.@.... ex) 예제 1 C(Consistency) : 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다. A(Availability) : 몇몇 노드 다운이 다른 정상 노드들이 작동하는데 악영향을 끼치지 말아야 한다. P(Partition Tolerance) : 몇몇 메시지 손실에도 시스템은 정상 동작을 해야 한다. ex) 예제 2 Consistency (일관성) : 모든 노드들은 동시에 같은 데이터를 보아야 합니다. Availability (유효성) : 모든 노드는 항상 읽기와 쓰기를 할.. 2012. 11. 28.
반응형