본문 바로가기
반응형

apache spark7

Spark Study - 용어를 익히자! (feat. spark architecture) spark의 주요 컴포넌트는 드라이버와 익스큐터이며 모두 jvm 프로세스이다. 드라이버 : 애플리케이션, 메인 프로그램이 들어가있다. spark-shell을 사용하고 있다면 spark-shell은 드라이버 프로그램이 되고, 드라이버는 클러스터에 익스큐터를 시작 시키고 태스크 실행을 제어한다. 익스큐터 : 클러스터의 워커 노드에서 실행 중인 프로세스이다. 익스큐터 내부에서 개별 태스크나 계산이 실행된다. 클러스터 관리자 : 클러스터를 구성하는 계산 노드 전체에 대해 자원 예약과 자원 할당을 담당한다. 종류에는 독립형, 얀, 메소스, 쿠버네티스가 있다. 스파크 프로그램의 주요 진입점은 SparkContext이다. SparkContext는 드라이버 컴포넌트 내부에 있으며, 스케줄러, 태스크 배포, 오케스트레이.. 2021. 10. 28.
[Spark-Study] Day-9 스칼라? 빅데이터 분석을 위한 스칼라와 스파크 책을 구입! 107p 까지 읽음. 간략하게 요약해보면 1장 스칼라는 함수형 프로그래밍과 강력한 정적 타입 시스템을 지원하는 벙용 프로그래밍 언어. 정적타입? 프로그래밍언어에서 컴파일 시간에 변수의 타입을 알게 되면 정적타입 언어라고 함. (ex 자바 같은언어) 반대 개념은 인터프리터 언어(런타임시에 언어를 분석, 파이썬 같은 애들) 객체지향 프로그래밍과 함수형 프로그래밍의 개념을 지원. 여러 IDE를 지원(이클립스, 인텔리제이, VIM 등등) 스칼라는 JVM을 사용하기 때문에 자바가 설치 되어있어야 함. 스칼라는 확장 가능한(Scalable) 언어에서 유래 했다고 함. 스칼라 REPL(레플) 스칼라 shell에 스칼라 코드를 좀 더 쉽고 간결하게 작성할 수 있게 하는.. 2021. 9. 9.
[Spark-Study] Day-6 DataFrame Api The DataFrame API spark-shell을 실행 /usr/local/Cellar/apache-spark/3.1.2/bin/spark-shell Spark context available as 'sc' (master = local[*], app id = local-1629336161368). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 3.1.2 /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.10) Type in expres.. 2021. 8. 19.
[Spark-Study] Day-5 인텔리제이에서 실습 2021.06.14 - [Study/Study group] - [Spark-Study] Day-1 2021.06.24 - [Study/Study group] - [Spark-Study] Day-2 2021.07.01 - [BigDATA/spark] - [Spark-Study] Day-3 2021.08.05 - [BigDATA/spark] - [Spark-Study] Day-4 관련 github : https://github.com/databricks/LearningSparkV2 챕터3의 소스를 동작하기 위해 다시 프로젝트를 생성해보았다. git clone https://github.com/databricks/LearningSparkV2.git 소스를 클론해 오고 IDE에서 오픈하였다. main소스에서는 .. 2021. 8. 12.
[Spark-Study] Day-3 스파크 예제를 위한 셋팅 spark 예제 돌려보기 sbt로 build를 하기 위해 필요한 것은 아래와 같다. 1. 소스 2. build.sbt sbt clean 한뒤에 sbt package를 해보자! spark-submit 해보기! /usr/local/Cellar/apache-spark/3.1.1/bin/spark-submit --class MnMcount target/scala-2.12/main-scala-chapter2_2.12-1.0.jar mnm_dataset.csv 인텔리J에 셋팅 해보기! 인텔리J에서 프로젝트를 Open 해보자! 아래와 같이 인텔리J에 프로젝트를 잘 가져왔다. 프로젝트 구조는 위와 같다. MnMcount 소스 // scalastyle:off println import org.apache.spark.sq.. 2021. 7. 1.
[error] SERVER ERROR: Service Unavailable url=블라블라 Error.. not found 에러! 15:54:42.639 [warn] :::::::::::::::::::::::::::::::::::::::::::::: 15:54:42.640 [warn] :: UNRESOLVED DEPENDENCIES :: 15:54:42.640 [warn] :::::::::::::::::::::::::::::::::::::::::::::: 15:54:42.640 [warn] :: net.databinder.dispatch#dispatch-core_2.12;0.11.2: not found 15:54:42.640 [warn] :: org.scalatest#scalatest_2.12;2.2.4: not found 15:54:42.640 [warn] :: org.apache.spark.. 2021. 6. 14.
[Spark-Study] Day-1 스파크 셋팅 mac에 아파치 스파크 설치 - brew info apache-spark - brew install apache-spark 3.1.1 셋팅 완료! 스파크는 아래와 같이 다양하게 사용이 가능하다! Spark Job Spark Stages - Job -> stage 즉, 각 Job마다 Stage가 parallel 하게 또한 연속적인 형태로 붙을 수 있다. - 스터디 시 그림만 보고 Job은 parallel하게 되고 연속적인 Single Stage가 호출 되는줄 오해 했음. Spark Tasks 최종적으로 머릿속에 큰 그림이 그려지는가? Spark 아키텍처 콜? Transformations, Actions, and Lazy Evaluation 각각의 특징을 설명할 수 있는가? Transformations와 A.. 2021. 6. 14.
반응형