반응형 Data Platform53 04. 하둡 예제 실행 및 코딩해보기! 1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -.. 2014. 9. 15. 부록. 하둡 설치 하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1... 2014. 9. 11. 03. 맵리듀스 시작하기 - 맵-리듀스 개념 회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작.. 2014. 9. 1. 02. About HDFS.. 목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!.. 2014. 8. 28. 01. 하둡 소개 목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결.. 2014. 8. 27. 분석 기법 통계..수학을 공부해야 데이터과학자가 될 수 있는 것인가..-0-;; 많은 알고리즘과 기법들이 있다. 큰 그림만 소개를 해본다. 자세한 내용은 하나씩 찾아서 학습을 해야 한다. 군집(Clustering) 1. K-평균 군집(K-means clustering) 분류기 1. 나이브 베이지안(Naive Bayesian) - 많은 텍스트 분류 문제에 대해 선호되는 방법 이것을 먼저 시도하고 만약 잘 작동하지 않으면, 좀 더 복잡한 무언가로 시도한다. 2. 의사 결정 나무 분류기 - if-then의 질의, 앙상블 학습 기법(여러 통계 기법들을 조합) - 트럼프 맞추기 예시 1) 의사결정을 위한 일반적인 알고리즘 CART, ID3, C4.5 etc. - CART 지니지수(Gini Index) : 0~0.5 사이의 .. 2013. 11. 14. R을 배워보자~ R은 데이터사이언티스트가 분석을 하기 위한 도구이다. 특히, 시각화를 할 수 있는데(히스토그램 등) 이것은 분석을 돕기 위한 툴일 뿐이고 시각화를 전문적으로 하는 모듈은 아니라는거~! 셋팅 1) 아래에서 먼저 셋팅을 한 뒤 http://cran.nexr.com/ 2) R Studio를 셋팅 하자(UI 제공) http://www.rstudio.com/ide/download/desktop 참고 사이트 : http://madlib.net/ Ctrl+ l => R Studio Console 창 clean ex)> library("rgl", lib.loc="C:/Program Files/R/R-3.0.2/library") > library(rgl) > x = rnorm(10) > y = rnorm(10,2) > .. 2013. 11. 13. [하둡교육 3일차] Pig Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro.. 2013. 6. 5. [하둡교육 3일차] Zookeeper Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc.. 2013. 6. 5. [하둡교육 2일차] Hadoop 설치 하둡을 설치 하기 위해 교육은 오라클 버추얼 박스로 진행 하였다.아쉽게 전체적인 셋팅을 소개 할 수는 없을 것 같다. 강사님이 미리 준비해오고 셋팅 다해오셨다 ㅋㅋ;; 1. JDK 설치 OpenJdk는 하둡에서 오류가 난다고 한다. 오라클 sun jdk를 셋팅 하도록 하자. 2. JAVA_HOME 설정 보통 일반 계정이라면 .bash_profile에 셋팅을 해주지만 이번 교육에서는 root로 잡아줬기 때문에 /etc/profile에서 PATH를 잡아주었다. 3. 하둡 복사 및 설치 하둡..이것 또한 미리 가져와있다 ㅋㅋ; hadoop-1.0.4-bin.tar.gz이라는 파일!! tar xvf hadoop-1.0.4-bin.tar.gz 로 압축을 해제 해준다. 자주 쓰는 하둡 명령어 confirm daem.. 2013. 6. 4. [NoSQL] CAP Theorem 처음엔..NoSQL이 데이터를 처리 할 때 쓰이는 스크립트 언어인줄 알았다.. 그래서 학습을 하다보니 NoSQL을 하기 선지식으로 CAP이론을 언급하고 있었다. 그래서 찾다보니...CAP가..정말 다양하게...@.@.... ex) 예제 1 C(Consistency) : 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다. A(Availability) : 몇몇 노드 다운이 다른 정상 노드들이 작동하는데 악영향을 끼치지 말아야 한다. P(Partition Tolerance) : 몇몇 메시지 손실에도 시스템은 정상 동작을 해야 한다. ex) 예제 2 Consistency (일관성) : 모든 노드들은 동시에 같은 데이터를 보아야 합니다. Availability (유효성) : 모든 노드는 항상 읽기와 쓰기를 할.. 2012. 11. 28. 이전 1 2 3 다음 반응형