본문 바로가기

BigDATA49

ERROR SparkUncaughtExceptionHandler: Uncaught exception in thread Thread 아래와 같은 오류가 발생하였다.원인은 스파크 버전이 달라서였다! ERROR SparkUncaughtExceptionHandler: Uncaught exception in thread Thread[appclient-registration-retry-thread,5,main]java.util.concurrent.RejectedExecutionException: Task java.util.concurrent.FutureTask@4ce379d4 rejected from java.util.concurrent.ThreadPoolExecutor@60e14377[Running, pool size = 1, active threads = 0, queued tasks = 0, completed tasks = 1]at jav.. 2016. 5. 11.

문제해결) 로딩만 하다가 타임아웃 나는 현상.. couchbase + spring boot api 를 사용하였다.그런데..200만건 정도가 들어있는 상태에서 api로 조회를 하니..loading..만 하다가 timeout이 되면서 죽는 현상이 발생!! 1. spark(scala)로 데이터를 적재하는데 있어서 warning이 발생. 혹..이것 때문에? 라는 생각이 들었다. 왜냐하면 spark로 대량의 데이터를 적재한 뒤에 발생을 하였고 Flush를 한 뒤 1건을 넣고 조회를 하려고 해도 같은 현상이 발생 하였기 때문이다. 하지만 warning 때문은 아니고 추측하기에 Flush를 하여도 완전한 delete를 하는 것은 아니고 marking했다가 이녀석은 del 상태군..pass~! 하면서 전체를 풀 스캔을 하는것 같다. couchbase를 재부팅하고 다.. 2016. 4. 19.

spark와 친해지기! 아마 아래와 같은 형태가 될것 같다.sparkContext 클래스는 스파크클러스터의 연결과 스파크와 연동할 수 있는 엔트리 포인트를 제공. 인스턴스를 생성하여 다양한 일을할 수 있다.spark RDD : RDD(resilient distributed dataset)를 활용하면 데이터의 병렬처리를 쉽게할 수 있다.spark 참고 사이트!!http://spark.apache.org/docs/latest/programming-guide.html#overview 2016. 3. 22.

spark + scala + sbt 프로젝트!! 환경 : sbt : 0.13.11 - 참고 : https://twitter.github.io/scala_school/ko/sbt.htmlscala : 2.10.6spark : 1.5.2 음..환경설정이 조금 짜증이 났지만..아래와 같은 프로젝트 구조가 생겼다. 이제 한번 scala의 문법을 공부해보자. 그런 뒤 spark를 사용하여 지지고 볶고 해보자! 일단 여기까쥐~ - 끝 - 2016. 3. 22.

About MongoDB 이런..회사 github에서 적은 내용이 블로그로 포스팅하려는데..힘들군요 ㅠㅠ마크다운도 안먹히는군요 ㄲㄲ ## Mongo DB site https://www.mongodb.com/ ## Mongo DB란?MongoDB stores data는 JSON과 같은 동적스키마형태의 문서들인데 다양한 구조를 가질수 있다.MongoDB에서는 이러한 구조를 BSON이라고 부른다.이해를 더 돕기 위해 아래의 MySql과 Mongo DB의 비교한 그림을 보자. 또한 각각의 특징을 살펴보자. 몽고DB site에 있는 내용이라서 그런지..어마무시하다 ㅋㅋ 음..MongoDB를 살짝 맛보자! 위의 내용으로 보면 api는 select를 logstash에서는 insert와 update가 일어나야하는데 가능여부는 찾아보아야 한다... 2016. 3. 15.

org.springframework.dao.DataRetrievalFailureException: Query error: [{"msg":"No primary index on keyspace lineup-test. Use CREATE PRIMARY INDEX to create one.","code":4000}] Error Messageorg.springframework.dao.DataRetrievalFailureException: Query error: [{"msg":"No primary index on keyspace lineup-test. Use CREATE PRIMARY INDEX to create one.","code":4000}] QueryExecuting Query: SELECT v1 FROM `lineup-test` WHERE v2 = "12" Solution/opt/couchbase/bin/cbqcbq> CREATE PRIMARY INDEX ON `lineup-test` USING GSI;{ "requestID": "f75f9210-cf8d-4312-b469-d7dd28e866a1", "signa.. 2016. 3. 15.

(info) vagrant commands 내역1. 로컬에서 하둡을 간단히 돌려서 프로그래밍을할 수 있는 환경을 만들고 싶음.2. vagrant로 단일 하둡 셋팅 함.3. 우분투 관련 오류 발생 함. 오류recommended that you fix the library with 'execstack -c ', or link it with '-z noexecstack'. http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ vagrant 명령어Usage: vagrant [options] [] -v, --version Print the version and exit. -h, --help Print this help. Common commands:.. 2015. 2. 4.

[꿀팁] 하둡 inputPath로 다중 File 작업하기 [그림 - 1 : 안구정화용~~] // 참고 소스~~ // 아래처럼 path 들을 list에 넣어준다.List inputPath = new ArrayList(); inputPath.add(otherArgs[0]+"/01_acet.clicklog_mo"); inputPath.add(otherArgs[0]+"/02_acet.clicklog_mo"); // 입출력 데이터 경로 설정 //FileInputFormat.addInputPath(job, new Path(otherArgs[0]));for(String input : inputPath){ // list에 담겨져있는 path들을 하나씩 넣어준다. FileInputFormat.addInputPath(job, new Path(input)); } 나의 의문은 현재.. 2015. 2. 4.

[Hadoop] 하둡 맵-리듀스 따라잡기 맵-리듀스! 이녀석을 알아가기 위해 정리를 하나씩 해보려고 한다. 가장 쉬우면서도 어려운 맵-리듀스 소스 짜보기! 1. Maven 설정 org.apache.hadoop hadoop-core 1.2.1 junit junit 4.11 2. runner : runner는 우선 map, reduce, data format등 그리고 run을 통해 시작 시킬수 있는 친구라고 생각하고 넘어가자. 아래의 소스는 가장 단순한 형태 이다. 보통 책에 나오거나 튜토리얼에 나오는 소스 형태! 중요한 것은 runner보다 map과reduce!public class MoClickDistributionChartRunner extends Configured implements Tool { public MoClickDistributi.. 2015. 2. 2.

하둡 configuration으로 객체 넘기기! 음....하둡 MR작업 중...configuration에서 객체를 넘겨주고 싶어서 아래와 같이 인터페이스(QueryCodeList)와 구현체(QueryCodeListImpl)을 만든 뒤setClass를 해주었다..conf.setClass("queryCodeList", QueryCodeListImpl.class, QueryCodeList.class);아래처럼 setClass시에 잘 생성 된 것을 알수가 있다. 그런 뒤 getClass를 통해 해당 객체를 가져오려고 하는데...잘안된다 ㅋㅋㅋㅋㅋ 널포인트 예외..ㄷㄷㄷ new 연산자를 통해 생성한 뒤에는 getClass로 가져올 수가 있었지만 아무 의미 없다~ 내가 하고자하는 것은 객체에 이미 데이터가 들어가 있는 상태이기 때문이다.어떻게 해서 객체를 전달할.. 2015. 1. 12.

Hadoop runner수행시 lib 못찾는 현상(IntelliJ 12 사용!) 아...설상가상으로...인텔리제이를 사용하고 있는데...아래처럼 maven에 설정되어있는 녀석을 못찾아오는 현상이 있었다..ㅜ.ㅜ.. 환경 : 인텔리J 12 1) 로컬에서 runner를 수행 하였다. 그런데!!mapper쪽에서 오류가 났다.오류내용 : ERROR="Error: java\.lang\.ClassNotFoundException: org\.json\.simple\.JSONValue ~ 해결은...아래와 같이 빌드 > 빌드 아티팩트즈... 를 통해서 빌드를 한다. 아래와 같이 Artifacts에 json.simple이 있다는 것을 알수가 있다. Add lib 를 통해서 add시킨다. command + ; 를 통해 Project Settings를 open한 뒤 아래와 같이 Moudles에 Artif.. 2015. 1. 4.

사용자 정의 옵션(Tool, ToolRunner) 하둡은맵리듀스 프로그램 개발을 편리하게 할수 있도록 다양한 helper class를 제공.ex) org.apache.hadoop.util package에 구현돼 있음. import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; 맵-리듀스 잡을 실행하면 잡 객체는 사용자가 설정한 Configuration객체를 이용해 org.apache.hadoop.mapred.JobConf 객체를 생성. JobConf는 하둡의 환경설정 파일과 하둡 명령어에서 입력한 파라미터를 참조해 모든 태스크에 이 정보를 제공. 분석 데이터의 종류에 따라 하둡 환경설정 정보와 다른 값을 사용해야 하는 경우가 있을 것입니다. 이런 불편함을 줄이기 위해 Gen.. 2014. 12. 8.

What is MapReduce?? [wiki]맵리듀스(MapReduce)는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 제작하여 2004년 발표한 소프트웨어 프레임워크다.[1] 이 프레임워크는 페타바이트 이상의 대용량 데이터를 신뢰도가 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해서 개발되었다. 이 프레임워크는 함수형 프로그래밍에서 일반적으로 사용되는 Map과Reduce라는 함수 기반으로 주로 구성된다.[2]현재 MapReduce는 Java와 C++, 그리고 기타 언어에서 적용이 가능하도록 작성되었다. 대표적으로 아파치 하둡에서 오픈 소스 소프트웨어로 적용된다.출처 : http://ko.wikipedia.org/wiki/%EB%A7%B5%EB%A6%AC%EB%93%80%EC%8A%A4 [.. 2014. 12. 2.

층화추출법 층화추출법 통계학에서, 층화추출법(層化抽出法, Stratified sampling)은 모집단을 먼저 중복되지 않도록 층으로 나눈 다음 각 층에서 표본을 추출하는 방법이다. 참고 : http://ko.wikipedia.org/wiki/%EC%B8%B5%ED%99%94%EC%B6%94%EC%B6%9C%EB%B2%95 2014. 11. 26.

Redis 사용하기 Redis 자바 연동 ㄴ jedis라는 라이브러리가 있음. Maven을 사용한다면! 참고 redis.clients jedis 2.6.0 jar compile org.springframework.data spring-data-redis 1.4.0.RELEASE Jedis api : http://javadox.com/redis.clients/jedis/2.6.0/redis/clients/jedis/Jedis.html 몇몇을 살펴보자! ^-^selectpublic String select(int index)Select the DB with having the specified zero-based numeric index. For default every new client connection is automa.. 2014. 11. 10.

부록. 하둡설치(CDH)-클라우데라 배포판 목표 - 배포판인 클라우데라 매니저를 통해 하둡2.X 이상 버전 설치, HIVE, TAJO등 SQL ON HADOOP, JOOKEEPER 등 설치 1. 리눅스 설치 - 총 6대 설치 네임노드 1대, 보조네임노드 1대, 데이터노드 3대, etc 1대 ㅇㅅㅇ;;;; 회사에서 iaas가 지원이 되어서 로컬 pc가 아닌 iaas 로 갈아탔다!로컬셋팅에서의 조금 다른점은 proxy서버를 사용했다는 것이다. 1) ssh설정과 host설정! 참고 : 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 2) proxy설정!(/etc/wgetrc, /etc/yum.conf)vi /etc/wgetrchttp_proxy = http://ip address:portftp_proxy = http://ip.. 2014. 10. 7.

Tajo Setting(0.2.0-incubating) 동기 : SQL-on-Hadoop을 고민하던 차에 아래의 사이트에서 흥미를 얻었습니다.http://blrunner.com/71 환경 :OS : ubuntu서버 총 4대 ㄴ 네임노드 1대, 데이터 노드 3대 타조 0.2.0셋팅 시.. 아래처럼 먼저 제대로 파악하고 했어야했는데..덕분에 확실하게 삽질해버렸네요..ㅋㅜ.ㅜㅋHadoop 2.0.3-alpha or 2.0.5-alphaJava 1.6 or higherProtocol buffer 2.4.10.8.0은 아래와 같습니다~:DHadoop 2.2.0 or higherJava 1.6 or higherProtocol buffer 2.5.0 다운로드 :Tajo 0.2.0을 셋팅하기 위해서는...아래의 링크에서 다운을 받으시면 됩니다.http://archive.a.. 2014. 9. 22.

04. 하둡 예제 실행 및 코딩해보기! 1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -.. 2014. 9. 15.

부록. 하둡 설치 하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1... 2014. 9. 11.

03. 맵리듀스 시작하기 - 맵-리듀스 개념 회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작.. 2014. 9. 1.

02. About HDFS.. 목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!.. 2014. 8. 28.

이전 1 2 3 다음

티스토리툴바