본문 바로가기

추천 검색어

실시간 인기 검색어

스파크 완벽 가이드

스파크를 활용한 빅데이터 처리와 분석의 모든 것
한빛미디어

2019년 01월 14일 출간

종이책 : 2018년 12월 10일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 pdf (6.49MB)
ISBN 9791162249222
쪽수 797쪽
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
  • '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3. 0.26, iOS v3.0.09,PC v1.2 버전 이상)

PDF 필기 Android 가능 (iOS예정)
소득공제
소장
정가 : 38,400원

쿠폰적용가 34,560

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 300원

작품소개

이 상품이 속한 분야

스파크 창시자가 알려주는 스파크 활용과 배포, 유지 보수의 모든 것
오픈소스 클러스터 컴퓨팅 프레임워크인 스파크의 창시자가 쓴 스파크에 대한 종합 안내서입니다. 스파크 사용법부터 배포, 유지 보수하는 방법까지 포괄적으로 익힐 수 있습니다. 스파크 2의 개선점과 새로운 기능을 자세히 설명합니다. 구조화된 스파크 API의 특징과 공통 기능은 물론이고, 엔드 투 엔드 스트리밍 애플리케이션을 구축하는 새로운 고수준 API인 구조적 스트리밍을 함께 살펴봅니다. 이 책을 읽으면 스파크를 모니터링, 튜닝, 디버깅하는 데 필요한 기본 지식을 습득할 수 있습니다. 나아가 스파크의 확장 머신러닝 라이브러리인 MLlib을 사용하는 방법과 시나리오를 익힐 수 있습니다.
Part 1 빅데이터와 스파크 간단히 살펴보기
CHAPTER 1 아파치 스파크란
1.1 아파치 스파크의 철학
1.2 스파크의 등장 배경
1.3 스파크의 역사
1.4 스파크의 현재와 미래
1.5 스파크 실행하기
1.6 정리

CHAPTER 2 스파크 간단히 살펴보기
2.1 스파크의 기본 아키텍처
2.2 스파크의 다양한 언어 API
2.3 스파크 API
2.4 스파크 시작하기
2.5 SparkSession
2.6 DataFrame
2.7 트랜스포메이션
2.8 액션
2.9 스파크 UI
2.10 종합 예제
2.11 정리

CHAPTER 3 스파크 기능 둘러보기
3.1 운영용 애플리케이션 실행하기
3.2 Dataset: 타입 안정성을 제공하는 구조적 API
3.3 구조적 스트리밍
3.4 머신러닝과 고급 분석
3.5 저수준 API
3.6 SparkR
3.7 스파크의 에코시스템과 패키지
3.8 정리

Part 2 구조적 API: DataFrame, SQL, Part 2Dataset
CHAPTER 4 구조적 API 개요
4.1 DataFrame과 Dataset
4.2 스키마
4.3 스파크의 구조적 데이터 타입 개요
4.4 구조적 API의 실행 과정
4.5 정리

CHAPTER 5 구조적 API 기본 연산
5.1 스키마
5.2 컬럼과 표현식
5.3 레코드와 로우
5.4 DataFrame의 트랜스포메이션
5.5 정리

CHAPTER 6 다양한 데이터 타입 다루기
6.1 API는 어디서 찾을까
6.2 스파크 데이터 타입으로 변환하기
6.3 불리언 데이터 타입 다루기
6.4 수치형 데이터 타입 다루기
6.5 문자열 데이터 타입 다루기
6.6 날짜와 타임스탬프 데이터 타입 다루기
6.7 null 값 다루기
6.8 정렬하기
6.9 복합 데이터 타입 다루기
6.10 JSON 다루기
6.11 사용자 정의 함수
6.12 Hive UDF
6.13 정리

CHAPTER 7 집계 연산
7.1 집계 함수
7.2 그룹화
7.3 윈도우 함수
7.4 그룹화 셋
7.5 사용자 정의 집계 함수
7.6 정리

CHAPTER 8 조인
8.1 조인 표현식
8.2 조인 타입
8.3 내부 조인
8.4 외부 조인
8.5 왼쪽 외부 조인
8.6 오른쪽 외부 조인
8.7 왼쪽 세미 조인
8.8 왼쪽 안티 조인
8.9 자연 조인
8.10 교차 조인(카테시안 조인)
8.11 조인 사용 시 문제점
8.12 스파크의 조인 수행 방식
8.13 정리

CHAPTER 9 데이터소스
9.1 데이터소스 API의 구조
9.2 CSV 파일
9.3 JSON 파일
9.4 파케이 파일
9.5 ORC 파일
9.6 SQL 데이터베이스
9.7 텍스트 파일
9.8 고급 I/O 개념
9.9 정리

CHAPTER 10 스파크 SQL
10.1 SQL이란
10.2 빅데이터와 SQL: 아파치 하이브
10.3 빅데이터와 SQL: 스파크 SQL
10.4 스파크 SQL 쿼리 실행 방법
10.5 카탈로그
10.6 테이블
10.7 뷰
10.8 데이터베이스
10.9 select 구문
10.10 고급 주제
10.11 다양한 기능
10.12 정리

CHAPTER 11 Dataset
11.1 Dataset을 사용할 시기
11.2 Dataset 생성
11.3 액션
11.4 트랜스포메이션
11.5 조인
11.6 그룹화와 집계
11.7 정리

Part 3 저수준 API
CHAPTER 12 RDD
12.1 저수준 API란
12.2 RDD 개요
12.3 RDD 생성하기
12.4 RDD 다루기
12.5 트랜스포메이션
12.6 액션
12.7 파일 저장하기
12.8 캐싱
12.9 체크포인팅
12.10 RDD를 시스템 명령으로 전송하기
12.11 정리

CHAPTER 13 RDD 고급 개념
13.1 키-값 형태의 기초(키-값 형태의 RDD)
13.2 집계
13.3 cogroup
13.4 조인
13.5 파티션 제어하기
13.6 사용자 정의 직렬화
13.7 정리

CHAPTER 14 분산형 공유 변수
14.1 브로드캐스트 변수
14.2 어큐뮬레이터
14.3 정리

Part 4 운영용 애플리케이션
CHAPTER 15 클러스터에서 스파크 실행하기
15.1 스파크 애플리케이션의 아키텍처
15.2 스파크 애플리케이션의 생애주기(스파크 외부)
15.3 스파크 애플리케이션의 생애주기(스파크 내부)
15.4 세부 실행 과정
15.5 정리

CHAPTER 16 스파크 애플리케이션 개발하기
16.1 스파크 애플리케이션 작성하기
16.2 스파크 애플리케이션 테스트
16.3 개발 프로세스
16.4 애플리케이션 시작하기
16.5 애플리케이션 환경 설정하기
16.6 정리

CHAPTER 17 스파크 배포 환경
17.1 스파크 애플리케이션 실행을 위한 클러스터 환경
17.2 클러스터 매니저
17.3 기타 고려사항
17.4 정리

CHAPTER 18 모니터링과 디버깅
18.1 모니터링 범위
18.2 모니터링 대상
18.3 스파크 로그
18.4 스파크 UI
18.5 디버깅 및 스파크 응급 처치
18.6 정리

CHAPTER 19 성능 튜닝
19.1 간접적인 성능 향상 기법
19.2 직접적인 성능 향상 기법
19.3 정리

Part 5 스트리밍
CHAPTER 20 스트림 처리의 기초
20.1 스트림 처리란
20.2 스트림 처리의 핵심 설계 개념
20.3 스파크의 스트리밍 API
20.4 정리

CHAPTER 21 구조적 스트리밍의 기초
21.1 구조적 스트리밍의 기초
21.2 핵심 개념
21.3 구조적 스트리밍 활용
21.4 스트림 트랜스포메이션
21.5 입력과 출력
21.6 스트리밍 Dataset API
21.7 정리

CHAPTER 22 이벤트 시

스파크 활용과 배포, 유지 보수까지 전체적 흐름을 포괄적으로 안내하는 바이블
이 책은 쉽게 실행할 수 있는 스파크 예제와 모든 유형의 기본 사용 사례를 다루는 스파크 종합 안내서입니다. 스파크의 기초적인 내용부터 처리, 운용, 관리, 모니터링 그리고 그래프와 머신러닝에 이르기까지 다양한 내용을 종합적으로 설명합니다. 특히 스파크 2.0 기반의 고수준 신규 API인 DataFrame, Dataset, 스파크 SQL, 구조적 스트리밍(Structured Streaming)을 집중적으로 소개합니다. 스파크를 사용하려는 데이터 과학자와 데이터 엔지니어에게 많은 도움이 될 내용으로 구성했습니다.

이 책의 번역 품질을 최고로 높이기 위해 동분서주했던 역자들의 뼈를 깎는 노고를 언급하지 않을 수 없습니다. 매일 밤을 새우다시피 하며 방대한 분량의 원서를 수십 차례에 걸쳐 다듬고 소스 코드를 수정했으며, 열 명도 넘는 업계 실무자들을 치킨으로 유혹(!)하여 수 차례에 걸친 가혹한 베타 리딩 과정을 거쳤습니다. 원서에는 없는 ‘실행 환경 구축’에 필요한 구체적인 내용과 ‘스파크 서밋 2017 더블린 참관기’도 따로 집필하여 부록으로 실었습니다. 한편으로는 독자가 조금이라도 더 친근하고 편안한 느낌으로 읽을 수 있는 문장을 만들고자 노력했습니다. 이러한 담금질을 거쳐 탄생한 이 번역서가 여러분을 경이로운 스파크의 세계로 편안하게 인도해줄 것입니다.

작가정보

저자(글) 빌 체임버스

2014년에 몇몇 연구 프로젝트에 스파크를 도입했습니다. 데이터브릭스에서 제품 관리를 맡고 있으며 사용자들이 다양한 아파치 스파크 애플리케이션을 개발할 수 있는 환경을 만들기 위해 노력하고 있습니다. 또한 정기적으로 스파크와 관련된 블로그를 작성하고 콘퍼런스 발표와 밋업에 참여하고 있습니다. UC버클리 대학교 정보대학원에서 정보 관리와 시스템 분야의 석사학위를 취득했습니다.

2009년에 아파치 스파크 프로젝트를 시작했고 UC버클리 대학교 박사 과정 동안 스파크와 함께 했습니다. 버클리의 여러 연구원 및 외부 공동 작업자와 함께 스파크의 핵심 API를 설계하고 스파크 커뮤니티를 성장시키고 있으며 구조적 API와 구조적 스트리밍 같은 새로운 개념을 만드는 데 참여하고 있습니다. 2013년 마테이와 버클리 스파크 팀은 오픈소스 프로젝트의 성장을 도우려 데이터브릭스를 설립하고 상업용 제품을 제공하기 시작했습니다. 현재 데이터브릭스의 최고 기술 전문가로 일하고 있으며 스탠퍼드 대학교의 컴퓨터 과학 분야 조교수를 맡아 대규모 시스템과 인공지능 분야를 연구하고 있습니다. 2013년에 UC버클리 대학교에서 컴퓨터 과학 박사학위를 취득했습니다. 마테이는 아파치 메소스 프로젝트의 초기 멤버이자 아파치 하둡의 커미터입니다. 마테이의 연구 내용은 2014 ACM Doctoral Dissertation Award 및 VMware Systems Research Award를 수상하며 인정받았습니다.

현재 빅데이터 솔루션 전문 업체인 kt NexR의 책임 연구원으로 재직 중입니다. 모바일 게임, SNS 서비스, 결제 시스템 등 다양한 SW 분야에서 개발한 경험이 있으며, 2011년 빅데이터의 매력에 빠져 이 분야의 오픈소스를 다루기 시작했습니다. kt NexR의 대표적인 빅데이터 분석 솔루션인 NDAP 개발에 참여했으며, 지금은 아키텍처 설계부터 프론트엔드/백엔드 개발까지 수행하는 풀 스택 엔지니어로서 실시간 빅데이터 처리/분석 솔루션을 개발하고 있습니다.

현재 kt NexR에서 R&D2 팀장을 맡고 있습니다. 시스템 통합과 빅데이터 솔루션 개발을 수행하던 멤브로스 대표를 역임했습니다. kt NexR에 빅데이터 엔지니어로 입사한 후 살아 있는 빅데이터를 경험했습니다. 다수의 배치/실시간 빅데이터 프로젝트에 참여했으며, 기술서적 번역과 빅데이터 강의를 즐깁니다. 현재 팀원들과 함께 아파치 스파크 기반의 빅데이터 처리 솔루션을 개발하고 있으며 빅데이터의 대중화에 큰 관심을 가지고 있습니다.

현재 kt NexR에서 Data Science 팀장을 맡고 있습니다. SPSS Korea에서 분석 솔루션을 기반으로 다양한 도메인에서 분석 컨설턴트로 활동했습니다. kt NexR에 데이터 사이언티스트로 합류한 후 국내 최초 금융권 빅데이터 분석 프로젝트를 성공적으로 수행하면서 지금까지 다양한 기업을 대상으로 데이터 분석의 가치와 최적 방법론을 전파하려 노력하고 있습니다. 최근에는 스파크를 기반으로 텐서플로 등과 같은 다양한 프레임워크를 활용한 분석 방법론을 연구하고 있습니다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    스파크 완벽 가이드 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    스파크 완벽 가이드 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    스파크 완벽 가이드
    스파크를 활용한 빅데이터 처리와 분석의 모든 것
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글북액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)