본문 바로가기

추천 검색어

실시간 인기 검색어

실무 예제로 배우는 데이터 공학

파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터공학환경과 파이프라인
폴 크리커드 지음 | 류광 옮김
제이펍

2021년 12월 16일 출간

종이책 : 2021년 07월 20일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 pdf (49.97MB)
ISBN 9791191600537
쪽수 338쪽
듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
  • '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3.0.26, iOS v3.0.09,PC v1.2 버전 이상)
소득공제
소장
정가 : 18,900원

쿠폰적용가 17,010

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 300원

작품소개

이 상품이 속한 분야

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해 낼 수 있는 자신감이 생길 것이다.
PART I 데이터 파이프라인 구축: 추출, 변환, 적재 1
CHAPTER 1 데이터 공학이란? 3
1.1 데이터 공학자가 하는 일 3
1.2 데이터 공학 대 데이터 과학 7
1.3 데이터 공학 도구들 7
1.4 요약 13

CHAPTER 2 데이터 공학 기반구조 구축 15
2.1 아파치 NiFi의 설치와 설정 16
2.2 아파치 에어플로의 설치와 설정 24
2.3 일래스틱서치의 설치와 설정 30
2.4 키바나의 설치와 설정 31
2.5 PostgreSQL의 설치와 설정 36
2.6 pgAdmin 4 설치 37
2.6.1 pgAdmin 4 둘러보기 38
2.7 요약

CHAPTER 3 파일 읽고 쓰기 41
3.1 파이썬으로 파일 쓰고 읽기 41
3.2 아파치 에어플로 데이터 파이프라인 구축 51
3.3 NiFi 처리기를 이용한 파일 다루기 57
3.4 요약 68

CHAPTER 4 데이터베이스 다루기 69
4.1 파이썬을 이용한 관계형 데이터 삽입 및 추출 70
4.2 파이썬을 이용한 NoSQL 데이터베이스 데이터 삽입 및 추출 79
4.3 데이터베이스를 위한 아파치 에어플로 데이터 파이프라인 구축 87
4.4 NiFi 처리기를 이용한 데이터베이스 처리 91
4.4.1 PostgreSQL에서 데이터 추출 92 / 4.4.2 데이터 파이프라인 실행 95
4.5 요약 96

CHAPTER 5 데이터의 정제, 변환, 증강 99
5.1 파이썬을 이용한 탐색적 데이터 분석 100
5.2 pandas를 이용한 공통적인 데이터 문제점 처리 109
5.3 에어플로를 이용한 데이터 정제 119
5.4 요약 122

CHAPTER 6 실습 프로젝트: 311 데이터 파이프라인 만들기 123
6.1 데이터 파이프라인 구축 123
6.2 키바나 대시보드 만들기 132
6.3 요약 142

PART II 실무 환경 데이터 파이프라인 배치 145
CHAPTER 7 실무용 데이터 파이프라인의 특징 147
7.1 데이터의 스테이징과 검증 148
7.2 멱등적 데이터 파이프라인 구축 168
7.3 원자적 데이터 파이프라인 구축 169
7.4 요약 171

CHAPTER 8 NiFi 레지스트리를 이용한 버전 관리 173
8.1 NiFi 레지스트리의 설치과 설정 173
8.2 NiFi에서 레지스트리 사용 176
8.3 데이터 파이프라인 버전 관리 178
8.4 NiFi 레지스트리에서 git-persistence 활용 184
8.5 요약 188

CHAPTER 9 데이터 파이프라인 모니터링 189
9.1 NiFi GUI를 이용한 데이터 파이프라인 모니터링 189
9.2 NiFi 처리기를 이용한 데이터 파이프라인 모니터링 198
9.3 파이썬과 REST API를 이용한 데이터 파이프라인 모니터링 201
9.4 요약 206

CHAPTER 10 데이터 파이프라인 배치 207
10.1 실무 배치를 위한 데이터 파이프라인 마무리 작업 207
10.2 NiFi 변수 레지스트리 활용 214
10.3 데이터 파이프라인 배치 217
10.4 요약 222

CHAPTER 11 실습 프로젝트: 실무용 데이터 파이프라인 구축 223
11.1 검사 환경과 실무 환경 구축 223
11.2 실무용 데이터 파이프라인 구축 227
11.3 데이터 파이프라인을 실무 환경에 배치 238
11.4 요약 238

PART III 일괄 처리를 넘어서: 실시간 데이터 파이프라인 구축 241
CHAPTER 12 아파치 카프카 클러스터 구축 243
12.1 주키퍼 및 카프카 클러스터 생성 243
12.2 카프카 클러스터 시험 운영 248
12.3 요약 250

CHAPTER 13 카프카를 이용한 데이터 스트리밍 251
13.1 로깅의 기초 251
13.2 카프카의 로그 활용 방식 253
13.3 카프카와 NiFi를 이용한 데이터 파이프라인 구축 257
13.4 스트림 처리와 일괄 처리의 차이 264
13.5 파이썬을 이용한 메시지 생산 및 소비 266
13.6 요약 270

CHAPTER 14 아파치 스파크를 이용한 데이터 처리 271
14.1 아파치 스파크의 설치와 설정 271
14.2

실시간 데이터 파이프라인을 구축, 모니터링 및 관리하고,
Apache 프로젝트를 사용하여 효율적인 데이터 엔지니어링 인프라를 생성한다!

이 책은 데이터 공학의 기초를 소개하고, 대형 데이터 집합을 다루는 데이터 파이프라인을 구축하는 데 필요한 다양한 기술과 프레임워크를 개괄한다. 여러 예제를 통해 데이터를 정제하고 변환하는 방법과 데이터를 분석해서 데이터에서 최대한 많은 것을 얻는 방법을 배우게 될 것이다. 또한, 이 책은 복잡하고 덩치 큰 데이터를 다루는 방법과 실무 환경에 적합한 데이터 파이프라인을 구축하고 관리하는 방법도 설명한다. 현실적인 예제를 통해서는 데이터 파이프라인을 위한 기반 구조를 구축하고 실무 환경에 데이터 파이프라인을 배치하는 방법을 배우게 될 것이다.

이 책을 다 읽고 나면 파이썬과 오픈소스 프로젝트들을 이용한 데이터 공학이 어떤 것인지 확실하게 이해하게 될 것이며, 데이터를 추출하고, 그 품질을 점검하고, 용도에 맞게 적절히 변환하는 데이터 파이프라인을 구축해낼 수 있는 자신감이 생길 것이다.

이 책의 특징 및 구성
■ 데이터 과학 및 분석 작업을 지원하는 데이터 공학자의 역할과 임무
■ 파일과 데이터베이스에서 데이터를 추출하는 방법과 데이터를 정제하고, 변환하고, 증강하는 방법
■ 다양한 형식의 파일을 읽고 쓰는 방법과 SQL 및 NoSQL 데이터베이스를 다루는 방법
■ 데이터 파이프라인을 구축하고 대시보드를 이용해서 데이터 흐름을 시각화하는 방법
■ 데이터를 웨어하우스에 적재하기 전에 스테이징과 검증 단계를 이용해서 데이터를 점검하는 방법
■ 데이터를 검증하고 장애를 처리하는 스테이징 단계를 가진 실시간 데이터 파이프라인 구축 방법
■ 데이터 파이프라인을 실무 환경에 배치하는 방법과 주의 사항

이 책의 대상 독자
■ 데이터 공학자나 IT 전문가가 되고자 하는 학생
■ 데이터 공학 분야에 진입하고자 하는 현업 개발자
■ 실무에서 데이터를 추출-변환-적재해야 하는 현업 개발자
■ 파이썬을 자신의 업무에 적용하고자 하는 기존 데이터 공학자 또는 데이터 분석가

작가정보

저자(글) 폴 크리커드

저자 : 폴 크리커드
Paul Crickard
폴 크리커드는 《Leaflet.js Essentials: Community Experience Distilled》(2014, Packt)의 저자이자 《Mastering Geospatial Analysis with Python》(2018, Packt)의 공동 저자이며, 미국 뉴멕시코 주 앨버커키에 소재한 제2지방검찰청의 최고 정보 책임자(CIO)로 있다.
정치학 석사 학위 소지자이면서 공동체 및 지역 개발 경력을 지닌 저자는 사회과학 이론과 기법을 기술 프로젝트와 접목하는 전문가이기도 하다. ‘New Mexico Big Data and Analytics Summit’과 ‘Experience IT NM Conference’에 참여했고, ‘New Mexico Big Data Working Group’, ‘Sandia National Labs’, ‘New Mexico Geographic Information Council’에서 강연자로 나서기도 했다.

역자 : 류광
류광은 《컴퓨터 프로그래밍의 예술》 시리즈와 《UNIX 고급 프로그래밍》 제2판ㆍ제3판, 《Game Programming Gems》 시리즈, 《인공지능: 현대적 접근방식 제3판》(제4판 출간 준비 중)을 비롯해 80여 종의 다양한 IT 전문서를 옮긴 전문 번역가이다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    실무 예제로 배우는 데이터 공학 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    실무 예제로 배우는 데이터 공학 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    실무 예제로 배우는 데이터 공학
    파이썬과 오픈소스 프로젝트로 만드는 나만의 데이터공학환경과 파이프라인
    저자 모두보기
    저자(글)
    번역
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글북액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)