• 하둡 완벽 가이드 - Chapter3 하둡 분산 파일시스템

    Chapter3 - 하둡 분산 파일시스템 이 글은 “하둡 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 하둡 분산 파일시스템 데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장할 필요가 있음 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템을 분산...


  • Graphql - Best practice for schema design

    이 글은 graphql best practice for design 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. Graphql best practice for Graphql Schema design 출처 https://graphqlmastery.com/blog/graphql-best-practices-for-graphql-schema-design 1. mutation에서는 input 오브젝트 타입을 사용해라 mutation에서는 하나의 변수만 사용하는게 좋다. type Planet implements Node { id: ID! createdAt: DateTime! updatedAt: DateTime name: String...


  • MapReduce Compression

    MapReduce Compression ##MapReduce intermediate compression 맵리듀스 중간 압축을 사용하면 애플리케이션 변경없이 작업을 빠르게 할 수 있다. 셔플 단계에서 생성되는 중간 임시 파일만 압축된다. 전체 클러스터에 적용하려면 mapred-site.xml 에 아래와 같은 속성을 추가하면 중간 단계 압축이 가능하다. For YARN <property> <name>mapreduce.map.output.compress</name> <value>true</value> </property> <property> <name>mapred.map.output.compress.codec</name> <value>org.apache.hadoop.io.compress.SnappyCodec</value> </property> 위 속성은 잡 별로...


  • 하둡 완벽 가이드 - Chapter2 맵리듀스

    Chapter2 - 맵리듀스 이 글은 “하둡 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. 1. 맵리듀스란? 데이터 처리를 위한 프로그래밍 모델 하둡은 다양한 언어로 작성된 맵리듀스 프로그램을 구동시킬 수 있음 병행성을 고려해서 설계되었음 하둡의 특성상 소수의 큰 파일이 처리하기 쉽고 효율적이다. 2. 병렬처리의 어려움 일을...


  • 하둡 완벽 가이드 - Chapter1 하둡과의 만남

    이 글은 “하둡 완벽 가이드” 책 내용을 정리한 글입니다. 저작권에 문제가 있는 경우 “gunjuko92@gmail.com”으로 연락주시면 감사하겠습니다. Chapter1 하둡과의 만남 1.1 데이터! 빅데이터를 저장하고 분석하는것은 매우 어려운일이다. 1.2 데이터 저장소와 분석 하드 디스크 용량은 수년간 엄청나게 증가했지만 데이터를 읽는 속도는 그에 미치지 못한다. 단일 디스크의 데이터를 읽는데 너무 많은 시간이 걸리고...