반응형 BigDATA/Hadoop20 Hadoop을 학습해보자 ㅋㅋ Hadoop은?Hadoop은 Big Data를 처리하고 분석하는데 사용되는 OpenSource Software Framework 입니다.저렴한 하드웨어로 구성된 분산 시스템에서 페타바이트 규모의 데이터를 처리 할 수 있도록 설계data를 분석 할 때 나눠서 분석하고 합치면 되므로 빠르다.저장된 데이터를 변경하는 것이 불가능하고, 실시간 데이터와 같은 신속한 작업에서는 부적합하다.Hadoop 구성요소HDFS(Hadoop Distributed File System)Hadoop 분산 파일 시스템데이터를 저장하는 분산형 file system으로 실시간처리보다는 배치처리 목적으로 설계 → 작업량이 작거나 빠른 데이터 응답이 필요한 작업에는 적합하지 않음데이터를 여러 노드에 분산저장하여 처리 속도를 높입니다.Nam.. 2024. 7. 9. Hadoop이란? 구성요소? 용어? 요즘은 AI의 시대가 되었지만 10년전만 해도 빅데이터 열풍이 불었었다.당시 사내에서 해주는 하둡교육을 들었었는데 지금은 1도 기억이 나지 않는다 하하;;2013.06.04 - [BigDATA/Hadoop] - [하둡교육 2일차] Hadoop 설치2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Zookeeper2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Pig그나마 블로그에 끄적인 내용 덕분에 살포시 기억이 난다 ㅎㅎ여차저차해서 하둡을 다시 공부해보려고 한다.오늘은 용어를 익혀보자! 하둡(Hadoop) : hadoop은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다.HDFS(Hadoop Distributed Fil.. 2024. 7. 2. 하둡명령어로 삭제하기(fs -rm) 하둡 hdfs 삭제 하기! #!/bin/bash # 주기적으로 hdfs 데이터를 삭제한다. # crontab 에 등록하여 실행시킨다. # 2일 전 데이터 삭제 date=`date -d "2 days ago" "+%Y%m%d"` /home/acet/program/hadoop/bin/hadoop fs -rm -r -skipTrash "/HADOOP경로/하둡path/*.txt.$date*" # 하둡 temp 데이터 삭제 find /home/acet/data/ -ctime +2 -type f -exec rm -f {} \; 2016. 12. 6. hadoop distcp $ ./hadoop distcpusage: distcp OPTIONS [source_path...] OPTIONS -append Reuse existing data in target files and append new data to them if possible -async Should distcp execution be blocking -atomic Commit all changes or none -bandwidth Specify bandwidth per map in MB -delete Delete from target, files missing in source -diff Use snapshot diff report to identify the difference between source and .. 2016. 10. 28. (info) vagrant commands 내역1. 로컬에서 하둡을 간단히 돌려서 프로그래밍을할 수 있는 환경을 만들고 싶음.2. vagrant로 단일 하둡 셋팅 함.3. 우분투 관련 오류 발생 함. 오류recommended that you fix the library with 'execstack -c ', or link it with '-z noexecstack'. http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ vagrant 명령어Usage: vagrant [options] [] -v, --version Print the version and exit. -h, --help Print this help. Common commands:.. 2015. 2. 4. [꿀팁] 하둡 inputPath로 다중 File 작업하기 [그림 - 1 : 안구정화용~~] // 참고 소스~~ // 아래처럼 path 들을 list에 넣어준다.List inputPath = new ArrayList(); inputPath.add(otherArgs[0]+"/01_acet.clicklog_mo"); inputPath.add(otherArgs[0]+"/02_acet.clicklog_mo"); // 입출력 데이터 경로 설정 //FileInputFormat.addInputPath(job, new Path(otherArgs[0]));for(String input : inputPath){ // list에 담겨져있는 path들을 하나씩 넣어준다. FileInputFormat.addInputPath(job, new Path(input)); } 나의 의문은 현재.. 2015. 2. 4. [Hadoop] 하둡 맵-리듀스 따라잡기 맵-리듀스! 이녀석을 알아가기 위해 정리를 하나씩 해보려고 한다. 가장 쉬우면서도 어려운 맵-리듀스 소스 짜보기! 1. Maven 설정 org.apache.hadoop hadoop-core 1.2.1 junit junit 4.11 2. runner : runner는 우선 map, reduce, data format등 그리고 run을 통해 시작 시킬수 있는 친구라고 생각하고 넘어가자. 아래의 소스는 가장 단순한 형태 이다. 보통 책에 나오거나 튜토리얼에 나오는 소스 형태! 중요한 것은 runner보다 map과reduce!public class MoClickDistributionChartRunner extends Configured implements Tool { public MoClickDistributi.. 2015. 2. 2. 하둡 configuration으로 객체 넘기기! 음....하둡 MR작업 중...configuration에서 객체를 넘겨주고 싶어서 아래와 같이 인터페이스(QueryCodeList)와 구현체(QueryCodeListImpl)을 만든 뒤setClass를 해주었다..conf.setClass("queryCodeList", QueryCodeListImpl.class, QueryCodeList.class);아래처럼 setClass시에 잘 생성 된 것을 알수가 있다. 그런 뒤 getClass를 통해 해당 객체를 가져오려고 하는데...잘안된다 ㅋㅋㅋㅋㅋ 널포인트 예외..ㄷㄷㄷ new 연산자를 통해 생성한 뒤에는 getClass로 가져올 수가 있었지만 아무 의미 없다~ 내가 하고자하는 것은 객체에 이미 데이터가 들어가 있는 상태이기 때문이다.어떻게 해서 객체를 전달할.. 2015. 1. 12. Hadoop runner수행시 lib 못찾는 현상(IntelliJ 12 사용!) 아...설상가상으로...인텔리제이를 사용하고 있는데...아래처럼 maven에 설정되어있는 녀석을 못찾아오는 현상이 있었다..ㅜ.ㅜ.. 환경 : 인텔리J 12 1) 로컬에서 runner를 수행 하였다. 그런데!!mapper쪽에서 오류가 났다.오류내용 : ERROR="Error: java\.lang\.ClassNotFoundException: org\.json\.simple\.JSONValue ~ 해결은...아래와 같이 빌드 > 빌드 아티팩트즈... 를 통해서 빌드를 한다. 아래와 같이 Artifacts에 json.simple이 있다는 것을 알수가 있다. Add lib 를 통해서 add시킨다. command + ; 를 통해 Project Settings를 open한 뒤 아래와 같이 Moudles에 Artif.. 2015. 1. 4. 사용자 정의 옵션(Tool, ToolRunner) 하둡은맵리듀스 프로그램 개발을 편리하게 할수 있도록 다양한 helper class를 제공.ex) org.apache.hadoop.util package에 구현돼 있음. import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; 맵-리듀스 잡을 실행하면 잡 객체는 사용자가 설정한 Configuration객체를 이용해 org.apache.hadoop.mapred.JobConf 객체를 생성. JobConf는 하둡의 환경설정 파일과 하둡 명령어에서 입력한 파라미터를 참조해 모든 태스크에 이 정보를 제공. 분석 데이터의 종류에 따라 하둡 환경설정 정보와 다른 값을 사용해야 하는 경우가 있을 것입니다. 이런 불편함을 줄이기 위해 Gen.. 2014. 12. 8. What is MapReduce?? [wiki]맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다.[1] 이 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰도가 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다. 이 프레임워크는 함수형 프로그래밍에서 일반적으로 사용되는 Map과Reduce라는 함수 기반으로 주로 구성된다.[2]현재 MapReduce는 Java와 C++, 그리고 기타 언어에서 적용이 가능하도록 작성되었다. 대표적으로 아파치 하둡에서 오픈 소스 소프트웨어로 적용된다.출처 : http://ko.wikipedia.org/wiki/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4 [.. 2014. 12. 2. 부록. 하둡설치(CDH)-클라우데라 배포판 목표 - 배포판인 클라우데라 매니저를 통해 하둡2.X 이상 버전 설치, HIVE, TAJO등 SQL ON HADOOP, JOOKEEPER 등 설치 1. 리눅스 설치 - 총 6대 설치 네임노드 1대, 보조네임노드 1대, 데이터노드 3대, etc 1대 ㅇㅅㅇ;;;; 회사에서 iaas가 지원이 되어서 로컬 pc가 아닌 iaas 로 갈아탔다!로컬셋팅에서의 조금 다른점은 proxy서버를 사용했다는 것이다. 1) ssh설정과 host설정! 참고 : 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 2) proxy설정!(/etc/wgetrc, /etc/yum.conf)vi /etc/wgetrchttp_proxy = http://ip address:portftp_proxy = http://ip.. 2014. 10. 7. 04. 하둡 예제 실행 및 코딩해보기! 1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -.. 2014. 9. 15. 부록. 하둡 설치 하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1... 2014. 9. 11. 03. 맵리듀스 시작하기 - 맵-리듀스 개념 회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작.. 2014. 9. 1. 02. About HDFS.. 목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!.. 2014. 8. 28. 01. 하둡 소개 목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결.. 2014. 8. 27. [하둡교육 3일차] Pig Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro.. 2013. 6. 5. [하둡교육 3일차] Zookeeper Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc.. 2013. 6. 5. [하둡교육 2일차] Hadoop 설치 하둡을 설치 하기 위해 교육은 오라클 버추얼 박스로 진행 하였다.아쉽게 전체적인 셋팅을 소개 할 수는 없을 것 같다. 강사님이 미리 준비해오고 셋팅 다해오셨다 ㅋㅋ;; 1. JDK 설치 OpenJdk는 하둡에서 오류가 난다고 한다. 오라클 sun jdk를 셋팅 하도록 하자. 2. JAVA_HOME 설정 보통 일반 계정이라면 .bash_profile에 셋팅을 해주지만 이번 교육에서는 root로 잡아줬기 때문에 /etc/profile에서 PATH를 잡아주었다. 3. 하둡 복사 및 설치 하둡..이것 또한 미리 가져와있다 ㅋㅋ; hadoop-1.0.4-bin.tar.gz이라는 파일!! tar xvf hadoop-1.0.4-bin.tar.gz 로 압축을 해제 해준다. 자주 쓰는 하둡 명령어 confirm daem.. 2013. 6. 4. 이전 1 다음 반응형