본문 바로가기

추천 검색어

실시간 인기 검색어

데이터 파이프라인 핵심 가이드

성공적인 데이터 분석을 위한 인프라 설계와 구축
데이터베이스 & 빅데이터 시리즈 25
위키북스

2024년 09월 30일 출간

국내도서 : 2022년 02월 18일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 pdf (3.35MB)
ISBN 9791158395445
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 불가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.

PDF 필기가능 (Android, iOS)
소득공제
소장
정가 : 16,000원

쿠폰적용가 14,400

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 200원

작품소개

이 상품이 속한 분야

데이터 파이프라인은 데이터 분석의 성공을 위한 기반입니다. 수많은 다양한 소스에서 데이터를 이동하고 컨텍스트를 제공하기 위해 변환하는 것은 데이터를 그저 소유하는 것과 그로부터 실제 가치를 얻는 것만큼의 차이가 있습니다. 이 핵심 가이드 북은 데이터 파이프라인을 정의하고 최신 데이터 스택에서 작동하는 방식을 설명합니다.

일괄 처리 대 스트리밍 데이터 수집, 빌드 대 구매와 같은 파이프라인을 구현할 때 일반적인 고려사항과 주요 결정사항을 배웁니다. 이 책은 데이터 전문가가 내리는 가장 일반적인 결정을 다루고 오픈 소스 프레임워크와 상용 제품, 자체 개발 솔루션에 적용되는 기본 개념에 관해 설명합니다.

★ 이 책에서 다루는 내용 ★

◎ 데이터 파이프라인의 정의 및 작동 방식
◎ 클라우드 플랫폼을 포함한 최신 데이터 인프라에서 데이터를 이동하고 처리하는 방법
◎ 데이터 엔지니어가 파이프라인을 구축하는 데 사용하는 공통 도구 및 제품
◎ 파이프라인이 분석 및 보고 요구사항을 지원하는 방법
◎ 파이프라인 유지 관리, 테스트 및 경고에 대한 고려 사항
▣ 01장: 데이터 파이프라인 소개
데이터 파이프라인이란?
누가 파이프라인을 구축할까?
___SQL과 데이터 웨어하우징 기초
___파이썬 그리고/또는 자바
___분산 컴퓨팅
___기본 시스템 관리
___목표 지향적 사고방식
왜 데이터 파이프라인을 구축할까?
어떻게 데이터 파이프라인을 구축할까?

▣ 02장: 최신 데이터 인프라
데이터 소스의 다양성
___소스 시스템 소유권
___수집 인터페이스 및 데이터 구조
___데이터 사이즈
___데이터 클렌징 작업과 유효성 검사
___소스 시스템의 지연 시간 및 대역폭
클라우드 데이터 웨어하우스 및 데이터 레이크
데이터 수집 도구
데이터 변환 및 모델링 도구
워크플로 오케스트레이션 플랫폼
___방향성 비순환 그래프
데이터 인프라 커스터마이징

▣ 03장: 일반적인 데이터 파이프라인 패턴
ETL과 ELT
ETL을 넘어선 ELT의 등장
EtLT 하위 패턴
데이터 분석을 위한 ELT
데이터 과학을 위한 ELT
데이터 제품 및 머신러닝을 위한 ELT
___머신러닝 파이프라인의 단계
___파이프라인에 피드백 통합
___ML 파이프라인에 대한 추가 자료

▣ 04장: 데이터 수집: 데이터 추출
파이썬 환경 설정
클라우드 파일 스토리지 설정
MySQL 데이터베이스에서 데이터 추출
___전체 또는 증분 MySQL 테이블 추출
___MySQL 데이터의 이진 로그 복제
PostgreSQL 데이터베이스에서 데이터 추출
___전체 또는 증분 Postgres 테이블 추출
___Write-Ahead 로그를 사용한 데이터 복제
MongoDB에서 데이터 추출
REST API에서 데이터 추출
카프카 및 Debezium을 통한 스트리밍 데이터 수집

▣ 05장: 데이터 수집: 데이터 로드
Amazon Redshift 웨어하우스를 대상으로 구성
Redshift 웨어하우스에 데이터 로드
___증분 및 전체 로드
___CDC 로그에서 추출한 데이터 로드
Snowflake 웨어하우스를 대상으로 구성3
Snowflake 데이터 웨어하우스에 데이터 로드
파일 스토리지를 데이터 레이크로 사용
오픈 소스 프레임워크
상업적 대안

▣ 06장: 데이터 변환하기
비문맥적 변환
___테이블에서 레코드 중복 제거
___URL 파싱
언제 변환할 것인가, 수집 중 혹은 수집 후?
데이터 모델링 기초
___주요 데이터 모델링 용어
___완전히 새로 고침 된 데이터 모델링
___완전히 새로 고침 된 데이터의 차원을 천천히 변경
___증분 수집된 데이터 모델링
___추가 전용(Append-only) 데이터 모델링
___변경 캡처 데이터 모델링

▣ 07장: 파이프라인 오케스트레이션
___방향성 비순환 그래프
아파치 에어플로우 설정 및 개요
___설치 및 구성
___에어플로우 데이터베이스
___웹 서버 및 UI
___스케줄러
___실행기(Executors)
___연산자(Operators)
에어플로우 DAG 구축
___간단한 DAG
___ELT 파이프라인 DAG
추가 파이프라인 작업
___경고 및 알림
___데이터 유효성 검사
고급 오케스트레이션 구성
___결합된 파이프라인 작업 대 결합되지 않은 파이프라인 작업
___DAG를 분할해야 하는 경우
___센서로 여러 DAG 조정
관리형 에어플로우 옵션
기타 오케스트레이션 프레임워크
일찍 그리고 자주 검증할 것

▣ 08장: 파이프라인의 데이터 검증
___소스 시스템 데이터 품질
___데이터 수집 위험
___데이터 분석가 검증 활성화
간단한 검증 프레임워크
___유효성 검사기 프레임워크 코드
___검증 테스트의 구조
___검증 테스트 실행
___에어플로우 DAG에서의 사용
___파이프라인을 중단해야 할 때와 경고하고 계속해야 할 때
___프레임워크의 확장
검증 테스트 예제
___수집 후 중복된 레코드
___수집 후의 예기치 않은 행 개수
___지표 값 변동
상용 및 오픈 소스 데이터 검증 프레임워크
소스 시스템의 변경 사항 처리

▣ 09장: 파이프라인 유지 관리 모범 사례
___추상화 도입
___데이터 계약 유지 관리
___Schema-on-Read의 고려사항
확장 복잡성
___데이터 수집 표준화
___데이터 모델링 로직의 재사용
___종속성 무결성 보장
중요 파이프라인 지표

▣ 10장: 파이프라인 성능 측정 및 모니터링
데이터 웨어하우스 준비
___데이터 인프라 스키마
성능 데이터 로깅 및 수집
___에어플로우에서 DAG 실행 기록 수집
___데이터 유효성 검사기에 로깅 추가
성능 데이터 변환
___DAG 성공률
___시간 경과에 따른 DAG 런타임 변경
___검증 테스트 볼륨 및 성공률
성능 파이프라인 조정
___DAG의 성능
성능 투명성

작가정보

James Densmore
제임스 댄스모어는 Hub-Spot의 데이터 인프라 디렉터이며, Data Liftoff의 창립자이자 수석 컨설턴트다. Wayfair, O'Reilly Media, HubSpot 및 Degreed에서 데이터 팀을 이끌고 데이터 인프라를 구축한 10년 이상의 경험이 있다. 그는 노스이스트 대학에서 컴퓨터 공학 학사 학위를, 보스턴 칼리지에서 MBA를 취득했다.

데이터베이스 컨설턴트로 다양한 기업의 데이터베이스 구축과 운영을 지원하다가 현재는 클라우드 공급업체에서 솔루션즈 아키텍트로 근무하고 있다. 특히 데이터를 다루고 바라보는 작업에 흥미를 느끼며 어떻게 데이터를 쉽고 잘 분석할 수 있을지를 사람들과 함께 고민하는 것을 좋아한다. 그 외의 시간은 다양한 경험으로 채워나가며 다채로운 인생을 만들어가는 중이다.

리눅스 서버 어드민을 시작으로 오픈스택을 구축하고 관리하다가 클라우드 시대를 맞아 현재는 클라우드 공급업체에서 솔루션즈 아키텍트로 일을 하고 있다. 트렌드의 변화를 관찰하고 내 것으로 만드는 것을 좋아하며 제너럴리스트와 스페셜리스트 사이에서 늘 고민한다. 솔루션즈 아키텍트로서 대중에게 클라우드를 알리고 기존 환경을 클라우드로 이전하여 애플리케이션을 현대화할 수 있게 돕는 일에 관심이 많다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    데이터 파이프라인 핵심 가이드 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    데이터 파이프라인 핵심 가이드 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    데이터 파이프라인 핵심 가이드
    성공적인 데이터 분석을 위한 인프라 설계와 구축
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글바이액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)