BigDATA/Hadoop(18)
-
03. 맵리듀스 시작하기 - 맵-리듀스 개념
회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작..
2014.09.01 -
02. About HDFS..
목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!..
2014.08.28 -
01. 하둡 소개
목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결..
2014.08.27 -
[하둡교육 3일차] Pig
Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro..
2013.06.05 -
[하둡교육 3일차] Zookeeper
Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc..
2013.06.05 -
[하둡교육 2일차] Hadoop 설치
하둡을 설치 하기 위해 교육은 오라클 버추얼 박스로 진행 하였다.아쉽게 전체적인 셋팅을 소개 할 수는 없을 것 같다. 강사님이 미리 준비해오고 셋팅 다해오셨다 ㅋㅋ;; 1. JDK 설치 OpenJdk는 하둡에서 오류가 난다고 한다. 오라클 sun jdk를 셋팅 하도록 하자. 2. JAVA_HOME 설정 보통 일반 계정이라면 .bash_profile에 셋팅을 해주지만 이번 교육에서는 root로 잡아줬기 때문에 /etc/profile에서 PATH를 잡아주었다. 3. 하둡 복사 및 설치 하둡..이것 또한 미리 가져와있다 ㅋㅋ; hadoop-1.0.4-bin.tar.gz이라는 파일!! tar xvf hadoop-1.0.4-bin.tar.gz 로 압축을 해제 해준다. 자주 쓰는 하둡 명령어 confirm daem..
2013.06.04