• Spark Configuration - Custom hadoop hive configuration

    Spark Configuration - Custom Hadoop/Hive Configuration Custom Hadoop/Hive Configuration 스파크 애플리케이션에서 Hadoop 또는 Hive를 사용하는 경우 스파크의 클래스패스에 Hadoop/Hive 설정 파일이 있어야한다. 여러 스파크 애플리케이션이 서로 다른 Hadoop/Hive 설정이 필요할 수 있다. 이런 경우 각 애플리케이션의 스파크 클래스패스에 hdfs-site.xml, core-site.xml, yarn-site.xml, hive-site.xml 파일을 적절하게 설정하면 된다. spark.hadoop 속성을 통해 스파크...


  • 스파크 완벽 가이드 - 구조적 API 개요

    이 글은 “스파크 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 4. 구조적 API 개요 구조적 API에는 다음과 같은 세 가지 분산 컬렉션 API가 있다. Dataset DataFrame SQL 테이블과 뷰 스파크의 개본 개념과 정의 스파크는 트랜스포메이션의 처리 과정을 정의하는 분산 프로그래밍 모델이다. 트랜스포메이션은 DAG로 표현되는...


  • Understanding pagination : REST, GraphQL, Relay

    이 글은 Understanding-pagination-rest-graphql-and-relay 에 있는 글을 정리한 글입니다. Understanding pagination : REST, GraphQL, Relay Pagination : What is it for? 노출시킬 데이터가 너무 많은 경우엔 일부 데이터만 노출시키는게 사용자 입장에서 더 좋을 수 있다. 조회할 데이터가 너무 많은 경우엔 서버에 부담이 될 수 있다. 클라이언트 입장에서도 한번에 너무 많은 데이터를...


  • JPA 프로그래밍 입문 - AttributeConverter

    AttributeConverter 이 글은 “JPA 프로그래밍 입문 - 최범균저”에 있는 내용을 정리한 글 입니다. AttributeConverter는 주로 다음과 같은 상황에서 사용된다. JPA가 지원하지 않는 타입을 매핑 두 개 이상의 속성을 갖는 밸류 타입을 한 개 칼럼에 매핑 1. JPA가 지원하지 않는 타입을 매핑 public interface AttributeConverter<X,Y> { public Y convertToDatabaseColumn (X attribute);...


  • Handling data skew in apache spark

    Handling Data Skew in Apache Spark 이 글인 Handling Data Skew In Apache Spark 글을 정리한 글입니다. Introduction 병렬 시스템에서 가장 잘 알려진 문제 중 하나는 data skewness 이다. Apache Spark에선 join, groupBy, orderBy와 같은 데이터 파티션을 변경하는 트랜스포메이션에 의해 data skewness가 발생한다. data skewness를 해결하는 여러가지 방법이 존재한다. Broadcast...