본문 바로가기

추천 검색어

실시간 인기 검색어

아파치 스파크 입문

따라 하며 쉽게 익히는 스파크 SQL, 스트림처리, 머신러닝
한빛미디어

2017년 09월 14일 출간

종이책 : 2017년 09월 01일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 pdf (4.33MB)
ISBN 9791162249994
쪽수 382쪽
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
  • '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3. 0.26, iOS v3.0.09,PC v1.2 버전 이상)

PDF 필기 Android 가능 (iOS예정)
소득공제
소장

판매가 판매금지

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 300원

작품소개

이 상품이 속한 분야

최고의 커미터와 컨트리뷰터가 안내하는 스파크 실전 입문서
최고의 커미터와 컨트리뷰터가 안내하는 스파크 실전 입문서

이 책은 스파크를 처음 접하거나 활용을 고민하는 엔지니어를 위한 입문서다. 스파크의 특성과 동작 원리부터 차근차근 이해하고, 데이터 처리를 위한 간단한 병렬분산처리 애플리케이션을 직접 작성해보는 것이 목표다. 일본 최초의 아파치 스파크 커미터와 실력 있는 컨트리뷰터들이 검증된 실전 경험을 바탕으로 여러분을 스파크의 세계로 차근차근 안내해줄 것이다.

1부 도입편에서는 스파크의 탄생 배경과 특징, 목적을 설명하고 PC에 스파크를 설치하는 방법을 소개한다. 이어서 애플리케이션 개발을 위한 환경 구축 방법과 실행, 종료 방법을 보여준다. 2부 실전편에서는 개발에 유용한 도구인 스파크 셸과 기본적인 API를 이용해 간단한 스파크 애플리케이션을 작성해 실행해보고 여러 용도로 활용할 수 있는 주요 라이브러리를 차례로 소개한다.
Part 1 도입편

Chapter 1 아파치 스파크란 무엇인가?
1.1 아파치 스파크 정의
1.2 스파크의 역사와 개발 커뮤니티
1.3 스파크 활용 사례
1.4 스파크의 특징

Chapter 2 스파크의 처리 모델
2.1 스파크의 기본적인 자료구조 RDD
2.2 스파크 분산처리 환경

Chapter 3 스파크 설치하기
3.1 이 책의 스파크 작동 환경
3.2 스파크 설치(단일 머신/클러스터 공통)
3.3 스파크 설치(클러스터용 추가 작업)

Chapter 4 스파크 애플리케이션 개발과 실행
4.1 스파크 제공 라이브러리
4.2 스파크 애플리케이션 개발 환경 구축
4.3 sbt로 스파크 애플리케이션 작성하기
4.4 스파크 애플리케이션 실행하기
4.5 대화형으로 실행하기
4.6 애플리케이션의 강제 종료

Part 2 실전편

Chapter 5 기본 API를 이용한 프로그래밍
5.1 기본 API 개요
5.2 스파크 애플리케이션과의 만남
5.3 데이터 순서를 바꾸어 처리하기
5.4 복수의 데이터를 결합해 처리하기
5.5 복잡한 처리를 효율적으로 처리하기

Chapter 6 구조화된 데이터셋 처리하기: 스파크 SQL
6.1 스파크 SQL이란?
6.2 스파크 SQL을 이용한 데이터처리 기술 방법
6.3 스파크 SQL 준비작업
6.4 DataFrame을 이용하여 데이터처리 기술하기
6.5 하이브와 스파크 SQL의 테이블에 대한 처리 기술하기
6.6 스파크 SQL 튜닝하기

Chapter 7 스트림 데이터 처리하기: 스파크 스트리밍
7.1 스트림처리란 무엇인가?
7.2 각종 이용 사례
7.3 스파크 스트리밍이란 무엇인가?
7.4 스파크 스트리밍이 제공하는 기능
7.5 동작 확인하기
7.6 클러스터 환경에 애플리케이션 배포하기
7.7 센서 데이터 스트림처리하기
7.8 아파치 카프카와 연동하기
7.9 샘플 프로젝트에서 다루지 못한 것

Chapter 8 머신러닝: MLlib
8.1 MLlib 개요
8.2 MLlib의 기초와 제공 알고리즘
8.3 MLlib 입문
8.4 Word2Vec으로 한국어 벡터화하기
8.5 응용편: 회귀에 의한 매출 분석
8.6 spark.ml 패키지의 ML 파이프라인

Part 3 부록

부록 A 그래프X를 이용한 그래프 처리
A.1 그래프X란 무엇인가?
A.2 그래프의 예
A.3 그래프X 기능의 개요
A.4 그래프X를 이용한 그래프 처리 예

부록 B 스파크 R 활용하기
B.1 스파크 R이란 무엇인가?
B.2 스파크 R의 작동 환경 구축
B.3 스파크 R의 작동 확인
B.4 스파크 R 셸을 이용한 데이터 처리

부록 C 머신러닝과 스트림처리 연동
C.1 센서 데이터를 이용한 행동 분석
C.2 회귀 모델 생성
C.3 평가용 스트림 데이터로 사용자 행동 판정
C.4 스파크 스트리밍의 결과 출력
C.5 JDBC 서버 기능으로 스트림처리 결과 참조
C.6 샘플 애플리케이션의 확장성

부록 D 웹 UI 활용
D.1 UI의 개요
D.2 웹 UI 접속 방법
D.3 처리 타임라인 시각화와 DAG 시각화
D.4 과거의 애플리케이션 실행 결과를 확인하는 방법

★ 처음 만나는 스파크, 따라 하며 쉽게 완성하는 실전 입문서로 익히기!

스파크는 하둡 이후 빅데이터 엔지니어링 부문에서 주목받는 기술이다. 빠르고 배우기 쉬울 뿐 아니라 다양한 언어를 SDK로 지원하는 등의 장점에 힘입어, 국내에서도 각종 서비스에 도입되었다. 이 책은 이러한 스파크를 처음 접하는 개발자용 입문서다. 스파크의 특성과 동작 원리 등 기초 이론을 먼저 설명하고, 실제 활용 측면에서 데이터를 다루는 병렬분산처리 애플리케이션을 작성해본다. 독자의 이해를 돕는 그림과 도표가 풍부하게 실려 있고, 책에서 예제로 사용하는 샘플 코드도 함께 제공한다(일부 챕터는 2.0 기반 코드를 함께 제공).

김진용 역자는 이 책의 품질을 높이는 과정에서 수차례 어려움을 겪었다. 원서 초벌 번역이 끝나자마자 버전 이슈가 발생해 처음부터 다시 뜯어봐야만 했고, 구문분석이나 지리, 날씨 등 일본어에 특화된 내용과 샘플을 한국 실정에 맞게 하나씩 지역화하여 새로 만드는 과정도 절대 순탄치 않았다. 어언 20년 차에 접어드는 일본 생활의 영향으로 입에 밴 일본식 번역 투 문장 역시 순조로운 작업을 방해하는 걸림돌이었고 수 차례에 걸쳐 교정을 봐야 했다. 그 모든 역경을 이겨내고 마침내 세상의 빛을 볼 수 있게 된 책인 만큼 독자 여러분에게 부디 도움이 되었으면 하는 바람이다.

_주요 내용
- 1장: 스파크 탄생 배경과 특징, 활용사례 소개
- 2장: 스파크 병렬분산처리의 핵심 자료구조인 ‘RDD’ 기반 모델 이해
- 3장: 스파크 작동을 위한 환경 구축(단일 머신(PC) 기반/ 클러스터 기반)
- 4장: 각종 라이브러리를 이용한 애플리케이션 빌드/ 실행 방법
- 5장: 3장에서 구축한 환경에서 실제 스파크를 돌려가며 기본적인 앱 작성
- 6장~8장: 스파크 병렬분산처리 엔진을 여러 용도에 응용하는 라이브러리 소개(스파크 SQL, 스파크 스트리밍, MLlib)

_대상 독자
- 스파크를 처음 배우는 데이터 엔지니어/데이터 과학자
- 자바, 파이썬, 스칼라 등 프로그래밍 언어 경험이 있는 개발자
- 하둡이나 기타 데이터베이스의 사용 경험이 있는 사람

작가정보

저자 : 사루타 고스케
저자 사루타 고스케는 (주)NTT데이터 기반시스템사업본부 주임. 2009년부터 하둡을 필두로 다양한 OSS 병렬분산기반의 시스템 도입 지원 작업을 담당했고, 관련 기술을 개발해왔다. 2014년부터 하둡을 보완하는 제품 후보로 스파크를 다루기 시작했다. 기술 조사와 프로젝트 등을 통해 확인된 스파크의 과제를 커뮤니티에 계속해서 피드백해왔고, 2015년 6월 일본인으로는 처음으로 아파치 스파크 커미터가 되었다.

저자 : 도바시 마사루
저자 도바시 마사루는 (주)NTT데이터 기반시스템사업본부 시니어 IT스페셜리스트. 입사 이래 시스템 개발과 운영에 오픈소스를 적극 활용하는 프로젝트를 담당해왔다. 하둡, 스파크, 스톰 기반의 소규모 시스템부터 수천 대에 이르는 대규모 시스템까지 담당하고 있다. Spark Summit 2014와 Hadoop Conference Japan, 그리고 Strata + Hadoop World Singapore에 연사로 등단한 적이 있다.

저자 : 요시다 고요
저자 요시다 고요는 (주)NTT데이터 기반시스템사업본부 주임. 하둡을 필두로 다양한 병렬분산처리 OSS의 실현 가능성을 검증해왔고 관련 시스템 개발과 지원을 담당했다. 특히 대규모 시스템의 운용과 구성관리 업무에 주력하고 있다. 가장 흥미 있는 OSS는 아파치 카프카와 퍼핏이고, 취미는 드럼이다.

저자 : 사사키 도루
저자 사사키 도루는 (주)NTT데이터 기반시스템사업본부 소속. 대규모 클러스터로 구성된 아파치 스파크의 성능검증 등을 담당했다. OSS 커뮤니티의 개발자로 특히 하둡과 스파크, 카프카의 컨트리뷰터로 활약해왔다.

저자 : 쓰즈키 마사요시
저자 쓰즈키 마사요시는 (주)NTT 데이터 기반시스템사업본부 주임. CRM/SaaS 서비스와 클라우드 서비스 등의 개발과 운용을 담당해왔다. 수년 전부터 OSS를 중심으로 한 병렬분산처리 시스템을 상용 시스템에 도입하는 업무를 담당하고 있다. 스파크 코어를 수정하는 패치를 커미터에게 제안하고 스파크의 윈도우 대응을 담당하는 세계에서 몇 안 되는 컨트리뷰터다.

역자 : 김진용
역자 김진용은 1998년 정보공학 석사학위를 마치고, IMF로 몸 둘 곳을 찾지 못해 일본으로 건너왔다. 일본 마이크로소프트에서 각종 미들웨어(Site Server, SQL Server 등)의 지역화 엔지니어로 커리어를 시작했고, 금융계 SI 벤처 회사에서 자바 기반으로 증권, 외환, 채권 거래 시스템 개발자로 일했다. 일본의 금융IT 버블이 꺼지면서 금융 쪽에 미련을 버리고 NEC로 전직하여 애플리케이션 서버 패키지 소프트웨어 개발자로 활약하다 갑이 되겠다는 일념으로 또 전직했다. NTT Communication에서 서비스 개발/운용 엔지니어로 활약하다 일본 후쿠시마 원자력발전소 사고로 잠시 한국에 귀국했으나 다시 일본으로 돌아왔다. 2012년에 현재 재직 중인 라쿠텐(Rakuten)에 입사하여 인터넷 광고 플랫폼을 개발/운용하는 부서의 아키텍트로 활약 중이다. 취미는 돈 될 만한 대박 서비스 구상하기, 인터넷 광고 관련 특허 출원하기, 개념 없는 엔지니어들 혼내주기 등이다.

감수 : 시모가키 도루
감수자 시모가키 도루는 (주)NTT데이터 기반시스템사업본부 과장. PostgreSQL을 중심으로 오픈소스 DBMS를 담당한다. 확장기능개발 담당을 거쳐, 오라클 데이터베이스에서 PostgreSQL로의 마이그레이션 프로젝트를 담당했으며 미션크리티컬한 상용 시스템에 적용해왔다. 최근 몇 년은 나날이 높아지는 대규모 데이터 처리 요구에 따라 DBMS와 하둡 양쪽의 특징을 살릴 효과적인 조합 방법을 모색 중이다.

저자(글) 요시다 고요

저자(글) 사사키 도루

감수자 시모가키 도루는 (주)NTT데이터 기반시스템사업본부 과장. PostgreSQL을 중심으로 오픈소스 DBMS를 담당한다. 확장기능개발 담당을 거쳐, 오라클 데이터베이스에서 PostgreSQL로의 마이그레이션 프로젝트를 담당했으며 미션크리티컬한 상용 시스템에 적용해왔다. 최근 몇 년은 나날이 높아지는 대규모 데이터 처리 요구에 따라 DBMS와 하둡 양쪽의 특징을 살릴 효과적인 조합 방법을 모색 중이다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    아파치 스파크 입문 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    아파치 스파크 입문 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    아파치 스파크 입문
    따라 하며 쉽게 익히는 스파크 SQL, 스트림처리, 머신러닝
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글북액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)