본문 바로가기

hadoop11

2) Apache HBase® Architecture HBase의 전체적인 구성요소들이 뭐가 있는지 아키텍처를 살펴보고 세부적으로 가이드문서를 통해 알아보도록 하겠습니다1. HBase 아키텍처 (HBase Architecture)설계 개념 (Design Idea)HBase는 분산 데이터베이스(Distributed Database)이며,클러스터 관리를 위해 ZooKeeper를 사용하고, HDFS를 기본 스토리지로 활용함.HBase는 데이터를 어떻게 읽고, 쓰고, 정렬하고 조회할지를 관리HDFS는 분산 파일시스템으로 실제 데이터 파일을 저장하는 공간HBase 주요 구성 요소HMaster- Zookeeper에 의해 리더(Leader)로 선출됨(HMaster는 2대 이며, Active, Stand-By로 운영 함)- 클러스터 관리 및 메타데이터 관리 역할 수행HR.. 2025. 3. 13.

1) Apache HBase® Architecture : Overview Apache HBase란?Apache HBase®는 Hadoop 데이터베이스로, 분산형이며 확장 가능한 빅데이터 저장소입니다.Apache HBase는 빅데이터에 대한 랜덤(random)하고 실시간(real-time) 읽기/쓰기 접근이 필요할 때 사용됩니다.이 프로젝트의 목표는 수십억 개의 행(row)과 수백만 개의 열(column)로 이루어진 매우 큰 테이블을일반적인 하드웨어(cluster of commodity hardware) 위에서 호스팅하는 것입니다.Apache HBase는 오픈소스 분산 버전 관리 비관계형 데이터베이스로,Google의 Bigtable을 모델로 개발되었습니다.(Bigtable: A Distributed Storage System for Structured Data, Chang et.. 2025. 3. 6.

2주차) 백엔드 개발자의 데이터플랫폼 온보딩! 2주차에 한 일서비스 가이드 정리 및 사용해보기 진행생각보다 봐야할께 많았다...그리고 정리를 하면서 전체적으로 다 따라하지는 못했다.디테일한 서비스 사용은 나중에 소스를 보면서 좀 더 deep하게 보자!한번 보고 한번 정리했다고해서 내것이 아니다. 생각나지 않을때마다 자꾸 보자! 2월이 지나갔다.3월부터는 스터디를 통해 학습하자!물론 나는 더 학습해보고 스터디 이외에도 관심을 가져야 한다.데이터플랫폼 관련 책을 하나 샀다.내용이 괜찮아서 샀는데 조금씩 보자!온보딩 3주차부터는 이제 기술 도메인이다.Scala, Hadoop, HBase, Kafka등 굵직한것부터 보자!3월1일~3일까지 조금이라도 학습해보자! 2025. 3. 1.

Hadoop을 학습해보자 ㅋㅋ Hadoop은?Hadoop은 Big Data를 처리하고 분석하는데 사용되는 OpenSource Software Framework 입니다.저렴한 하드웨어로 구성된 분산 시스템에서 페타바이트 규모의 데이터를 처리 할 수 있도록 설계data를 분석 할 때 나눠서 분석하고 합치면 되므로 빠르다.저장된 데이터를 변경하는 것이 불가능하고, 실시간 데이터와 같은 신속한 작업에서는 부적합하다.Hadoop 구성요소HDFS(Hadoop Distributed File System)Hadoop 분산 파일 시스템데이터를 저장하는 분산형 file system으로 실시간처리보다는 배치처리 목적으로 설계 → 작업량이 작거나 빠른 데이터 응답이 필요한 작업에는 적합하지 않음데이터를 여러 노드에 분산저장하여 처리 속도를 높입니다.Nam.. 2024. 7. 9.

Hadoop이란? 구성요소? 용어? 요즘은 AI의 시대가 되었지만 10년전만 해도 빅데이터 열풍이 불었었다.당시 사내에서 해주는 하둡교육을 들었었는데 지금은 1도 기억이 나지 않는다 하하;;2013.06.04 - [BigDATA/Hadoop] - [하둡교육 2일차] Hadoop 설치2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Zookeeper2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Pig그나마 블로그에 끄적인 내용 덕분에 살포시 기억이 난다 ㅎㅎ여차저차해서 하둡을 다시 공부해보려고 한다.오늘은 용어를 익혀보자! 하둡(Hadoop) : hadoop은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다.HDFS(Hadoop Distributed Fil.. 2024. 7. 2.

hadoop distcp $ ./hadoop distcpusage: distcp OPTIONS [source_path...] OPTIONS -append Reuse existing data in target files and append new data to them if possible -async Should distcp execution be blocking -atomic Commit all changes or none -bandwidth Specify bandwidth per map in MB -delete Delete from target, files missing in source -diff Use snapshot diff report to identify the difference between source and .. 2016. 10. 28.

Tajo Setting(0.2.0-incubating) 동기 : SQL-on-Hadoop을 고민하던 차에 아래의 사이트에서 흥미를 얻었습니다.http://blrunner.com/71 환경 :OS : ubuntu서버 총 4대 ㄴ 네임노드 1대, 데이터 노드 3대 타조 0.2.0셋팅 시.. 아래처럼 먼저 제대로 파악하고 했어야했는데..덕분에 확실하게 삽질해버렸네요..ㅋㅜ.ㅜㅋHadoop 2.0.3-alpha or 2.0.5-alphaJava 1.6 or higherProtocol buffer 2.4.10.8.0은 아래와 같습니다~:DHadoop 2.2.0 or higherJava 1.6 or higherProtocol buffer 2.5.0 다운로드 :Tajo 0.2.0을 셋팅하기 위해서는...아래의 링크에서 다운을 받으시면 됩니다.http://archive.a.. 2014. 9. 22.

04. 하둡 예제 실행 및 코딩해보기! 1. 예제 실행 저번 시간에는 2014/09/11 - [BigDATA/Hadoop] - 부록. 하둡 설치 을 해보았습니다. 우선! 하둡에서 제공되어지는 예제코드와 예제 코드를 패키징한 jar를 수행 해보겠습니다. 1) 예제를 실행하기 전에 우선 다음과 같이 hadoop-env.sh 파일을 HDFS에 업로드 합니다. 그냥 따라해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -put conf/hadoop-env.sh conf/hadoop-env.sh fs 명령어를 아직은 잘은 모르지만 한번 해봅시다~ dakao@ubuntu:/home/hadoop/hadoop/hadoop-1.2.1$ ./bin/hadoop fs -lsr conf/ -.. 2014. 9. 15.

부록. 하둡 설치 하둡을 설치하기전에 해야할 일! 바로 리눅스 설치.... 사실 하둡보다 리눅스 설치가 더 힘들었다.. setting~~ result : 환 경 : 맥북 프로 - Parallels setting OS - Ubuntu 14.04.1-server-amd64.iso - 2014.09.04 최신버전! 목표 : 총 4대 : 네임노드 서버(Hadoop01) 1대, 데이터노드(Hadoop02, Hadoop03, Hadoop04) 3대 openssh setting(Server, Client) - sudo apt-get install openssh-client openssh-server mac에서 터미널로 접근(ssh hadoop01@xx.xx.xx.xx) hadoop 계정 생성(홈디렉토리 지정) Hadoop ver 1... 2014. 9. 11.

02. About HDFS.. 목차 HDFS 기초 HDFS 아키텍처 HDFS 명령어 사용 정리 HDFS 기초 HDFS는 수십 테라바이트 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템 입니다. HDFS과 기존 대용량 파일 시스템(DAS, NAS, SAN)의 가장 큰 차이점은 저사양 서버를 이용해 스토리지를 구성할 수 있다는 것 입니다. HDFS는 다음과 같이 네 가지 목표를 가지고 설계됐습니다. 1) 장애 복구 HDFS를 구성하는 분산 서버는 다양한 장애가 발생할 수 있습니다. 그러나 장애를 빠른 시간에 감지하고, 대처할 수 있게 설계돼 있습니다.(Really??) HDFS는 데이터를 저장하면, 복제 데이터도 함께 저장해서 데이터 유실을 방지!.. 2014. 8. 28.

01. 하둡 소개 목차 빅데이터 3대 요소 하둡이란? 하둡의 과제 하둡 배포판 살펴보기 정리 빅데이터 3대 요소 1) 크기(Volume) - 기존 파일 시스템에 저장하기 어려울뿐더러 데이터 분석을 위해 사용하는 기존 DW 같은 솔루션에서 소화하기 어려울 정도로 급격하게 데이터의 양이 증가 함. 2) 속도(Velocity) - 데이터가 매우 빠른 속도로 생성되기때문에 데이터의 생산, 저장, 유통, 수집, 분석이 실시간으로 처리돼야 함. 3) 다양성(Variety) - 다양한 종류의 데이터들이 빅 데이터를 구성하고 있음(정형, 반정형, 비정형 데이터) 하둡이란? 하둡은 2005년에 더그 커팅(Doug Cutting)이 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 구현한 결.. 2014. 8. 27.

이전 1 다음

티스토리툴바