스파크(11)
-
Spark - 파티셔너(Partitioner)&셔플링(shuffling)
파티셔너에 의해 RDD 파티셔닝이 실행된다. 파티셔너는 파티션 인덱스를 RDD 엘리먼트에 할당한다. 동일 파티션에 존재하는 모든 엘리먼트는 동일한 파티션 인덱스를 가질 것이다. 스파크는 HashPartitioner와 RangePartitioner라는 두개의 파티션이 있다. (사용자 정의 파티셔너도 구현 가능!) HashPartitioner Spark의 기본 파티셔너이고, RDD 엘리먼트의 각 키에 대한 해시값을 계산한다. 동일한 해시 코드를 가진 모든 엘리먼트는 다음 코드처럼 동일 파티션을 얻는다. hashCode()를 사용해 3으로 설정된 파티션 개수를 기반으로 각 엘리먼트마다 partitionIndex를 얻을 수 있다. RangePartitioner RangePartitioner는 RDD를 거의 동일..
2022.03.10 -
Spark - RDD?
RDD(Resilient Distributed Dataset)는 불변이며, 분산 컬렉션 객체이다. 불변성 특성때문에 한번 생성된 RDD는 읽기 전용이다. 즉, 트랜스포메이션(Transformation)은 RDD에서 새로운 RDD로 생성할 수는 있지만, 원본 RDD는 생성된 후에는 결코 수정되지 않는다. 그러므로 RDD는 경쟁조건과 기타 동기화 문제에 영향을 받지 않는다! RDD는 데이터에 대한 참조만 포함하기 때문에(실제 데이터는 클러스터의 노드에 있는 파티션에 포함) RDD의 분산 특성이 동작할 수 있다. RDD는 실제로 클러스터에서 파티션으로 나워진 데이터셋이고, 파티션 데이터는 HDFS, HBase, Cassnadra, AWS S3에서 가져온 것일 수 있다. RDD는 다음과 같은 5가지 주요 속성을..
2022.03.03 -
Spark Study - 용어를 익히자! (feat. spark architecture)
spark의 주요 컴포넌트는 드라이버와 익스큐터이며 모두 jvm 프로세스이다. 드라이버 : 애플리케이션, 메인 프로그램이 들어가있다. spark-shell을 사용하고 있다면 spark-shell은 드라이버 프로그램이 되고, 드라이버는 클러스터에 익스큐터를 시작 시키고 태스크 실행을 제어한다. 익스큐터 : 클러스터의 워커 노드에서 실행 중인 프로세스이다. 익스큐터 내부에서 개별 태스크나 계산이 실행된다. 클러스터 관리자 : 클러스터를 구성하는 계산 노드 전체에 대해 자원 예약과 자원 할당을 담당한다. 종류에는 독립형, 얀, 메소스, 쿠버네티스가 있다. 스파크 프로그램의 주요 진입점은 SparkContext이다. SparkContext는 드라이버 컴포넌트 내부에 있으며, 스케줄러, 태스크 배포, 오케스트레이..
2021.10.28 -
[Spark-Study] Day-7 spark-shell을 통한 실습
2021.08.19 - [Study/Study group] - [Spark-Study] Day-6 저번 시간에 55p 실습하다 잘 안되는 부분 다시 츄라이~ spark-shell을 통해 코딩! terrypark ~ master spark-shell 21/08/26 10:19:58 WARN Utils: Your hostname, acetui-MacBookPro.local resolves to a loopback address: 127.0.0.1; using 172.27.114.231 instead (on interface en0) 21/08/26 10:19:58 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address WA..
2021.08.26 -
[Spark-Study] Day-4 스파크 로컬 디버깅
2021.06.14 - [Study/Study group] - [Spark-Study] Day-1 2021.06.24 - [Study/Study group] - [Spark-Study] Day-2 2021.07.01 - [BigDATA/spark] - [Spark-Study] Day-3 spark local debugging 해보기 코드상으로는 아래의 내용이 추가 된다. val conf = new SparkConf().setAppName("MnMCount") conf.setIfMissing("spark.master", "local[*]") val spark = SparkSession .builder .config(conf) .getOrCreate() // val spark = SparkSession //..
2021.08.05 -
[Spark-Study] Day-3 스파크 예제를 위한 셋팅
spark 예제 돌려보기 sbt로 build를 하기 위해 필요한 것은 아래와 같다. 1. 소스 2. build.sbt sbt clean 한뒤에 sbt package를 해보자! spark-submit 해보기! /usr/local/Cellar/apache-spark/3.1.1/bin/spark-submit --class MnMcount target/scala-2.12/main-scala-chapter2_2.12-1.0.jar mnm_dataset.csv 인텔리J에 셋팅 해보기! 인텔리J에서 프로젝트를 Open 해보자! 아래와 같이 인텔리J에 프로젝트를 잘 가져왔다. 프로젝트 구조는 위와 같다. MnMcount 소스 // scalastyle:off println import org.apache.spark.sq..
2021.07.01