데이터를 모으는 기술: 웹 크롤링 입문
2026년 02월 10일 출간
- eBook 상품 정보
- AI(생성형) 활용 제작 도서
- 파일 정보 ePUB (0.75MB) | 약 23.4만 자
- ISBN 9791176242561
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
쿠폰적용가 15,120원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
이 책은 웹 크롤링을 복잡한 요령이나 고급 기술의 묶음으로 다루지 않습니다. 대신 요청과 응답의 기본 원리, HTML 문서에서 데이터를 찾는 방법, 목록과 상세 페이지를 연결해 수집 범위를 관리하는 방식, 저장 형식과 데이터 품질을 지키는 기준처럼 오래 변하지 않는 핵심을 중심으로 설명합니다. 수집 과정에서 흔히 마주치는 실패 유형과 예외 상황도 과장 없이 정리해, 초보자가 “무엇이 문제인지 모르는 상태”에서 벗어나게 돕습니다.
또한 책임 있는 수집을 위해 반드시 알아야 할 접근 정책, robots.txt, 개인정보 가능성, 이용 조건과 같은 기본 기준을 함께 다룹니다. 웹 크롤링은 기술이면서 동시에 태도이기도 하므로, 무리한 수집이 아니라 목적에 맞게 최소한으로, 안전하게, 재현 가능하게 수행하는 원칙을 책 전반에 녹였습니다.
처음 웹 크롤링을 접하는 학습자, 데이터 수집 작업을 맡게 된 실무 초입의 담당자, 웹 데이터의 구조와 수집 과정을 정확히 이해하고 싶은 독자라면 이 책을 통해 크롤링을 “할 줄 아는 것”을 넘어 “이해하고 설명할 수 있는 것”으로 만들 수 있을 것입니다.
*생성형 인공지능을 활용하여 제작하고 편집 과정을 거쳤습니다. 편집자의 최종 검토를 거쳐 제작되었습니다.
웹 크롤링이 다루는 대상
수집과 조회의 차이
크롤링 작업의 기본 흐름
데이터 단위와 품질 관점
요청과 응답의 기본 구조
크롤링에서 흔한 제약 조건
챕터 2 웹 페이지가 전달되는 방식 이해
URL의 구성 요소
쿼리 스트링과 경로의 역할
HTTP 메서드의 의미
상태 코드가 말해주는 것
헤더와 본문의 역할
인코딩과 문자셋의 영향
챕터 3 HTML 문서 구조 읽기
태그와 속성의 의미
DOM 트리 관점
텍스트 노드와 공백 처리
링크와 리소스 참조
테이블과 리스트 구조
폼 요소와 입력 값
의미 있는 구획을 찾는 기준
챕터 4 수집 대상 선택과 접근 원칙
수집 목표를 문장으로 정의하기
필수 필드와 선택 필드 정하기
페이지 유형 구분하기
중복 수집을 피하는 기준
변경 가능성이 큰 요소 다루기
데이터 누락을 인지하는 방식
챕터 5 요청 보내기와 응답 받기
요청 구성의 기본 요소
세션과 쿠키의 개념
리다이렉트 처리 방식
타임아웃과 재시도 개념
응답 본문 유형 구분하기
압축 전송과 해제 개념
요청 간격과 부하 고려
챕터 6 파싱과 추출의 기본 절차
선택자 기반 추출 이해
텍스트 정리와 공백 정규화
날짜와 숫자 형태 맞추기
링크 절대경로 변환
반복 구역에서 항목 추출
누락값 처리 기준 세우기
추출 규칙의 일관성 점검
챕터 7 페이지 이동과 목록 수집
목록과 상세 페이지 관계
페이지네이션의 기본 형태
다음 버튼과 페이지 번호 방식
정렬과 필터 파라미터 이해
중복 항목 판별 기준
수집 종료 조건 설정
예상 수집량과 제한 설정
챕터 8 저장과 파일 구성
행과 열로 저장하는 방식
파일 형식 선택 기준
문자 인코딩으로 생기는 문제
필드명 규칙과 스키마 고정
원본과 정제본 분리 저장
디렉터리 구조와 파일 명명
데이터 검증을 위한 최소 규칙
챕터 9 오류와 예외를 다루는 기본 태도
상태 코드별 대응 방향
빈 응답과 깨진 문서 처리
선택자 실패의 원인 유형
부분 실패를 기록하는 방식
로그에 남길 최소 정보
재시도와 중단의 기준
데이터 일관성 확인 방법
챕터 10 책임 있는 수집을 위한 기준
접근 정책 확인의 의미
robots.txt의 역할 이해
개인정보 가능성 점검
저작권과 이용 조건 관점
속도 제한과 서버 부담
수집 범위의 최소화 원칙
재현 가능성과 기록의 목적
인물정보
저자(글) 지식이야기 IT팀
웹 크롤링에 대한 관심을 바탕으로 독자 니즈와 시장 흐름을 꾸준히 연구하며, 복잡한 내용을 핵심 개념 중심으로 쉽게 정리한 지식콘텐츠를 성실히 제작하고 있습니다.
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 5,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 5,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!