본문 바로가기

빅데이터7

Hadoop이란? 구성요소? 용어? 요즘은 AI의 시대가 되었지만 10년전만 해도 빅데이터 열풍이 불었었다.당시 사내에서 해주는 하둡교육을 들었었는데 지금은 1도 기억이 나지 않는다 하하;;2013.06.04 - [BigDATA/Hadoop] - [하둡교육 2일차] Hadoop 설치2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Zookeeper2013.06.05 - [BigDATA/Hadoop] - [하둡교육 3일차] Pig그나마 블로그에 끄적인 내용 덕분에 살포시 기억이 난다 ㅎㅎ여차저차해서 하둡을 다시 공부해보려고 한다.오늘은 용어를 익혀보자! 하둡(Hadoop) : hadoop은 대용량 데이터를 분산처리 할 수 있는 자바 기반의 오픈소스 프레임워크 입니다.HDFS(Hadoop Distributed Fil.. 2024. 7. 2.

지식그래프(Knowledge Graph) 관련 정보 시맨틱 웹의 목표 웹에 있는 모든 자원에 대한 의미(meaning)를 기계가 읽고 처리하게 만드는 것. W3C 컨소시엄을 중심으로 RDF, OWL과 같은 웹 표준이 만들어지고 링크드 데이터 기술을 통해 시맨틱 데이터를 연계하는 시도가 활발하게 진행. 구글은 2010년 프리베이스(freebase)를 개발한 메타웹(metaweb)을 인수하며, 3년 후 자사의 검색방식을 문자열이 아닌 의미를 이해하는 방식(things, not strings)으로 전환해 지식그래프(Knowledge graph) 서비스를 시작 했습니다. 구글의 지식그래프는 검색 서비스뿐만 아니라 음성 비서를 포함한 자사의 지능형 서비스의 핵심 데이터로 자리매김하고 있습니다. 비슷한 시기에 구글, 마이크로소프트, 야후, 얀덱스는 웹 자원을 기술하.. 2022. 11. 2.

[Spark-Study] Day-5 인텔리제이에서 실습 2021.06.14 - [Study/Study group] - [Spark-Study] Day-1 2021.06.24 - [Study/Study group] - [Spark-Study] Day-2 2021.07.01 - [BigDATA/spark] - [Spark-Study] Day-3 2021.08.05 - [BigDATA/spark] - [Spark-Study] Day-4 관련 github : https://github.com/databricks/LearningSparkV2 챕터3의 소스를 동작하기 위해 다시 프로젝트를 생성해보았다. git clone https://github.com/databricks/LearningSparkV2.git 소스를 클론해 오고 IDE에서 오픈하였다. main소스에서는 .. 2021. 8. 12.

spark + scala + sbt 프로젝트!! 환경 : sbt : 0.13.11 - 참고 : https://twitter.github.io/scala_school/ko/sbt.htmlscala : 2.10.6spark : 1.5.2 음..환경설정이 조금 짜증이 났지만..아래와 같은 프로젝트 구조가 생겼다. 이제 한번 scala의 문법을 공부해보자. 그런 뒤 spark를 사용하여 지지고 볶고 해보자! 일단 여기까쥐~ - 끝 - 2016. 3. 22.

03. 맵리듀스 시작하기 - 맵-리듀스 개념 회사 위키에 정리해서 복사&붙여넣기를 하니..깨져서 나오는 현상이 있어서 하루패드의 마크다운 기능을 사용해보았습니다. 목 차 맵-리듀스 개념 맵-리듀스 아키텍처 1.맵-리듀스 개념 맵-리듀스 패턴(Scatter-Gather의 한 형태[Hohpe and Woolf])은 클러스터에서 많은 장비의 장점을 활용해 처리하며서 데이터가 위치한 노드에서 최대한 많은 처리가 실행되도록 작업을 조직하는 방법이다. 맵-리듀스는 구글의 맵-리듀스 프레임워크[Dean and Ghemawat]로 유명해졌다. 맵-리듀스란 이름은 함수형 프로그래밍 언어에서 컬렉션에 대해 맵과 리듀스 연산을 하는 데서 영감을 얻은 것이다. 맵리듀스 프로그래밍 모델은 단순하게 맵(map)과 리듀스(reduce)라는 두 개의 메소드로 다음과 같은 동작.. 2014. 9. 1.

[하둡교육 3일차] Pig Pig set up 1) [root@localhost root]# wget http://www.dazum.net/hadoop/pig-0.10.0.tar.gz : 소스를 가져온다 2) [root@localhost root]# tar xvf pig-0.10.0.tar.gz : 압축을 푼다3) [root@localhost root]# ln -s pig-0.10.0 pig : 심볼릭 링크 걸어준다 버전 관리를 위해)4) [root@localhost root]# vi /etc/profile : 환경 셋팅을 해준다. root 기준임. export PIG_HOME=/home/root/pig export PIG_CLASSPATH=$HADOOP_HOME/conf pathmunge /home/root/pig/bin [ro.. 2013. 6. 5.

[하둡교육 3일차] Zookeeper Zookeeper 필요성하둡 이전에 이미 있었던 녀석이다.특징 1) in-Memory DB(file DB) : 메모리상에 모든걸 다 가지고 있음.(전원이 나가도 무관 - 디스크에 백업은 함, 전원을 키면 디스크에서 읽어들여 다시 메모리에 올림.) 2) 분산 : 데이터 백업에 대해서 고민 하지 않아도 된다. 서버 3대에 Zookeeper가 있다면, 분산으로 같은 데이터를 메모리, disk에 가지고 있다. 하둡이 왜 Zookeeper가 필요로 했나?일반적인 분산 시스템 구조 : Master/SlaveMaster가 죽으면 다 죽음. HDFS에서 Master가 메타데이터를 가지고 있고, Slave가 데이터를 가지고 있음. 성능을 고려 했을 때, (출처 : http://zookeeper.apache.org/doc.. 2013. 6. 5.

이전 1 다음

티스토리툴바