본문 바로가기

추천 검색어

실시간 인기 검색어

데이터를 모으는 기술: 웹 크롤링 입문

원리부터 저장과 책임까지 한 번에 익히는 크롤링 기초 (스파이더, 정적 페이지 크롤링, 헤드리스 브라우저, 프록시)
지식이야기

2026년 02월 10일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
AI(생성형) 활용 제작 도서
파일 정보 ePUB (0.75MB)   |  약 23.4만 자
ISBN 9791176242561
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.

소득공제
소장
정가 : 16,800원

쿠폰적용가 15,120

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 200원

작품소개

이 상품이 속한 분야

데이터를 모으는 기술: 웹 크롤링 입문은 웹에서 정보를 가져오는 과정을 “어떻게 시작하고, 어떻게 안정적으로 진행하며, 어떻게 정리해 두는가”에 초점을 둔 기초 안내서입니다. 코드를 많이 아는 사람만을 위한 책이 아니라, 웹 페이지가 전달되는 방식과 문서 구조를 이해하고, 필요한 데이터를 정확히 골라 수집해 저장하는 전 과정을 차근차근 따라갈 수 있도록 구성했습니다.

이 책은 웹 크롤링을 복잡한 요령이나 고급 기술의 묶음으로 다루지 않습니다. 대신 요청과 응답의 기본 원리, HTML 문서에서 데이터를 찾는 방법, 목록과 상세 페이지를 연결해 수집 범위를 관리하는 방식, 저장 형식과 데이터 품질을 지키는 기준처럼 오래 변하지 않는 핵심을 중심으로 설명합니다. 수집 과정에서 흔히 마주치는 실패 유형과 예외 상황도 과장 없이 정리해, 초보자가 “무엇이 문제인지 모르는 상태”에서 벗어나게 돕습니다.

또한 책임 있는 수집을 위해 반드시 알아야 할 접근 정책, robots.txt, 개인정보 가능성, 이용 조건과 같은 기본 기준을 함께 다룹니다. 웹 크롤링은 기술이면서 동시에 태도이기도 하므로, 무리한 수집이 아니라 목적에 맞게 최소한으로, 안전하게, 재현 가능하게 수행하는 원칙을 책 전반에 녹였습니다.

처음 웹 크롤링을 접하는 학습자, 데이터 수집 작업을 맡게 된 실무 초입의 담당자, 웹 데이터의 구조와 수집 과정을 정확히 이해하고 싶은 독자라면 이 책을 통해 크롤링을 “할 줄 아는 것”을 넘어 “이해하고 설명할 수 있는 것”으로 만들 수 있을 것입니다.


*생성형 인공지능을 활용하여 제작하고 편집 과정을 거쳤습니다. 편집자의 최종 검토를 거쳐 제작되었습니다.
챕터 1 웹 크롤링의 목적과 범위
웹 크롤링이 다루는 대상
수집과 조회의 차이
크롤링 작업의 기본 흐름
데이터 단위와 품질 관점
요청과 응답의 기본 구조
크롤링에서 흔한 제약 조건

챕터 2 웹 페이지가 전달되는 방식 이해
URL의 구성 요소
쿼리 스트링과 경로의 역할
HTTP 메서드의 의미
상태 코드가 말해주는 것
헤더와 본문의 역할
인코딩과 문자셋의 영향

챕터 3 HTML 문서 구조 읽기
태그와 속성의 의미
DOM 트리 관점
텍스트 노드와 공백 처리
링크와 리소스 참조
테이블과 리스트 구조
폼 요소와 입력 값
의미 있는 구획을 찾는 기준

챕터 4 수집 대상 선택과 접근 원칙
수집 목표를 문장으로 정의하기
필수 필드와 선택 필드 정하기
페이지 유형 구분하기
중복 수집을 피하는 기준
변경 가능성이 큰 요소 다루기
데이터 누락을 인지하는 방식

챕터 5 요청 보내기와 응답 받기
요청 구성의 기본 요소
세션과 쿠키의 개념
리다이렉트 처리 방식
타임아웃과 재시도 개념
응답 본문 유형 구분하기
압축 전송과 해제 개념
요청 간격과 부하 고려

챕터 6 파싱과 추출의 기본 절차
선택자 기반 추출 이해
텍스트 정리와 공백 정규화
날짜와 숫자 형태 맞추기
링크 절대경로 변환
반복 구역에서 항목 추출
누락값 처리 기준 세우기
추출 규칙의 일관성 점검

챕터 7 페이지 이동과 목록 수집
목록과 상세 페이지 관계
페이지네이션의 기본 형태
다음 버튼과 페이지 번호 방식
정렬과 필터 파라미터 이해
중복 항목 판별 기준
수집 종료 조건 설정
예상 수집량과 제한 설정

챕터 8 저장과 파일 구성
행과 열로 저장하는 방식
파일 형식 선택 기준
문자 인코딩으로 생기는 문제
필드명 규칙과 스키마 고정
원본과 정제본 분리 저장
디렉터리 구조와 파일 명명
데이터 검증을 위한 최소 규칙

챕터 9 오류와 예외를 다루는 기본 태도
상태 코드별 대응 방향
빈 응답과 깨진 문서 처리
선택자 실패의 원인 유형
부분 실패를 기록하는 방식
로그에 남길 최소 정보
재시도와 중단의 기준
데이터 일관성 확인 방법

챕터 10 책임 있는 수집을 위한 기준
접근 정책 확인의 의미
robots.txt의 역할 이해
개인정보 가능성 점검
저작권과 이용 조건 관점
속도 제한과 서버 부담
수집 범위의 최소화 원칙
재현 가능성과 기록의 목적

인물정보

웹 크롤링에 대한 관심을 바탕으로 독자 니즈와 시장 흐름을 꾸준히 연구하며, 복잡한 내용을 핵심 개념 중심으로 쉽게 정리한 지식콘텐츠를 성실히 제작하고 있습니다.

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 5,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (2024년 9월 30일부터 적용)
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 5,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (2024년 9월 30일부터 적용)
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    데이터를 모으는 기술: 웹 크롤링 입문 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    데이터를 모으는 기술: 웹 크롤링 입문 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    데이터를 모으는 기술: 웹 크롤링 입문
    원리부터 저장과 책임까지 한 번에 익히는 크롤링 기초 (스파이더, 정적 페이지 크롤링, 헤드리스 브라우저, 프록시)
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글바이액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)