본문 바로가기

반응형

빅데이터

spark + scala + sbt 프로젝트!! 환경 : sbt : 0.13.11 - 참고 : https://twitter.github.io/scala_school/ko/sbt.htmlscala : 2.10.6spark : 1.5.2 음..환경설정이 조금 짜증이 났지만..아래와 같은 프로젝트 구조가 생겼다. 이제 한번 scala의 문법을 공부해보자. 그런 뒤 spark를 사용하여 지지고 볶고 해보자! 일단 여기까쥐~ - 끝 - 더보기
03. 맵리듀스 시작하기 - 맵-리듀스 개념 회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작.. 더보기
[하둡교육 3일차] Pig Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro.. 더보기
[하둡교육 3일차] Zookeeper Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc.. 더보기

반응형