하둡(9)
-
[꿀팁] 하둡 inputPath로 다중 File 작업하기
[그림 - 1 : 안구정화용~~] // 참고 소스~~ // 아래처럼 path 들을 list에 넣어준다.List inputPath = new ArrayList(); inputPath.add(otherArgs[0]+"/01_acet.clicklog_mo"); inputPath.add(otherArgs[0]+"/02_acet.clicklog_mo"); // 입출력 데이터 경로 설정 //FileInputFormat.addInputPath(job, new Path(otherArgs[0]));for(String input : inputPath){ // list에 담겨져있는 path들을 하나씩 넣어준다. FileInputFormat.addInputPath(job, new Path(input)); } 나의 의문은 현재..
2015.02.04 -
[Hadoop] 하둡 맵-리듀스 따라잡기
맵-리듀스! 이녀석을 알아가기 위해 정리를 하나씩 해보려고 한다. 가장 쉬우면서도 어려운 맵-리듀스 소스 짜보기! 1. Maven 설정 org.apache.hadoop hadoop-core 1.2.1 junit junit 4.11 2. runner : runner는 우선 map, reduce, data format등 그리고 run을 통해 시작 시킬수 있는 친구라고 생각하고 넘어가자. 아래의 소스는 가장 단순한 형태 이다. 보통 책에 나오거나 튜토리얼에 나오는 소스 형태! 중요한 것은 runner보다 map과reduce!public class MoClickDistributionChartRunner extends Configured implements Tool { public MoClickDistributi..
2015.02.02 -
하둡 configuration으로 객체 넘기기!
음....하둡 MR작업 중...configuration에서 객체를 넘겨주고 싶어서 아래와 같이 인터페이스(QueryCodeList)와 구현체(QueryCodeListImpl)을 만든 뒤setClass를 해주었다..conf.setClass("queryCodeList", QueryCodeListImpl.class, QueryCodeList.class);아래처럼 setClass시에 잘 생성 된 것을 알수가 있다. 그런 뒤 getClass를 통해 해당 객체를 가져오려고 하는데...잘안된다 ㅋㅋㅋㅋㅋ 널포인트 예외..ㄷㄷㄷ new 연산자를 통해 생성한 뒤에는 getClass로 가져올 수가 있었지만 아무 의미 없다~ 내가 하고자하는 것은 객체에 이미 데이터가 들어가 있는 상태이기 때문이다.어떻게 해서 객체를 전달할..
2015.01.12 -
04. 하둡 예제 실행 및 코딩해보기!
1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -..
2014.09.15 -
부록. 하둡 설치
하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1...
2014.09.11 -
03. 맵리듀스 시작하기 - 맵-리듀스 개념
회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작..
2014.09.01