DEV BLOG

스파크 완벽 가이드 - Chapter5. 구조적 API 기본 연산

스파크 완벽 가이드 - 구조적 API 기본 연산 이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. DataFrame은 Row 타입의 레코드와 각 레코드에 수행할 연산 표현식을 나타내는 여러 컬럼으로 구성된다. 스키마는 각 컬럼명과 데이터 타입을 정의한다. DataFrame의 파티셔닝은 DataFrame이나 Dataset이 클러스터에서 물리적으로 배치되는...

April 17, 2021

in Spark

러닝 스파크 - Chapter3. RDD로 프로그래밍 하기

RDD로 프로그래밍 하기 이 글은 “러닝 스파크” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. RDD 기초 RDD : 분산되어 존재하는 변경 불가능한 데이터 요소들의 모임 스파크에서의 모든 작업은 새로운 RDD를 만들거나, 존재하는 RDD를 변형하거나, 결과 계산을 위해 RDD에서 연산을 호출하는 것 중의 하나로 표현된다. 내부적으로 스파크는...

April 17, 2021

in Spark

스파크 완벽 가이드 - Chapter20. 스트림 처리의 기초

스파크 완벽 가이드 - Chapter20. 스트림 처리의 기초 구조적 스트리밍이란? DataFrame이나 Dataset 코드와 쉽게 통합할 수 있는 신규 스트리밍 API 구조적 스트리밍 API는 스트리밍 애플리케이션을 개발할 때 선택할 수 있는 프레임워크이다. 구조적 스트리밍은 DStream의 주요 기능에 대한 상위 기능을 제공한다. 1. 스트림 처리란? 스트림 처리는 신규 데이터를 끊임없이 처리해 결과를...

April 17, 2021

in Spark

Spark Configuration - Custom hadoop hive configuration

Spark Configuration - Custom Hadoop/Hive Configuration Custom Hadoop/Hive Configuration 스파크 애플리케이션에서 Hadoop 또는 Hive를 사용하는 경우 스파크의 클래스패스에 Hadoop/Hive 설정 파일이 있어야한다. 여러 스파크 애플리케이션이 서로 다른 Hadoop/Hive 설정이 필요할 수 있다. 이런 경우 각 애플리케이션의 스파크 클래스패스에 hdfs-site.xml, core-site.xml, yarn-site.xml, hive-site.xml 파일을 적절하게 설정하면 된다. spark.hadoop 속성을 통해 스파크...

November 29, 2020

in Spark

스파크 완벽 가이드 - 구조적 API 개요

이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 4. 구조적 API 개요 구조적 API에는 다음과 같은 세 가지 분산 컬렉션 API가 있다. Dataset DataFrame SQL 테이블과 뷰 스파크의 개본 개념과 정의 스파크는 트랜스포메이션의 처리 과정을 정의하는 분산 프로그래밍 모델이다. 트랜스포메이션은 DAG로 표현되는...

November 27, 2020

in Hadoop, Spark