파이썬으로 웹 크롤러 만들기
2025년 02월 03일 출간
국내도서 : 2025년 01월 31일 출간
- eBook 상품 정보
- 파일 정보 PDF (4.20MB) | 413 쪽
- ISBN 9791169218986
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 불가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

쿠폰적용가 20,160원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
CHAPTER 1 인터넷 작동 원리
_1.1 네트워킹
__1.1.1 물리 계층
__1.1.2 데이터 링크 계층
__1.1.3 네트워크 계층
__1.1.4 전송 계층
__1.1.5 세션 계층
__1.1.6 표현 계층
__1.1.7 응용 계층
_1.2 HTML
_1.3 CSS
_1.4 자바스크립트
_1.5 개발자 도구로 웹사이트 검사하기
CHAPTER 2 웹 스크레이핑의 합법성과 윤리
_2.1 상표? 저작권? 특허?
__2.1.1 저작권법
_2.2 동산 침해
_2.3 컴퓨터 사기와 악용에 관한 법률
_2.4 robots.txt와 이용 약관
_2.5 세 가지 웹 스크레이퍼 사례
__2.5.1 이베이 vs. 비더스 에지: 동산 침해
__2.5.2 미국 vs. 오언하이머: 컴퓨터 사기와 악용에 관한 법률
__2.5.3 필드 vs. 구글: 저작권과 robots.txt
CHAPTER 3 웹 스크레이핑 활용 분야
_3.1 프로젝트 분류하기
_3.2 이커머스
__3.2.1 마케팅
_3.3 학술 연구
_3.4 제품 개발
_3.5 여행
_3.6 영업
_3.7 SERP 스크레이핑
CHAPTER 4 첫 번째 웹 스크레이퍼
_4.1 주피터 노트북 설치 및 실행
_4.2 연결
_4.3 BeautifulSoup 소개
__4.3.1 BeautifulSoup 설치
__4.3.2 BeautifulSoup 실행
__4.3.3 신뢰할 수 있는 연결과 예외 처리
CHAPTER 5 고급 HTML 분석
_5.1 다시 BeautifulSoup
__5.1.1 find()와 find_all()
__5.1.2 기타 BeautifulSoup 객체
__5.1.3 트리 이동
_5.2 정규 표현식
_5.3 정규 표현식과 BeautifulSoup
_5.4 속성에 접근하기
_5.5 람다 표현식
_5.6 닭 잡는 데 소 잡는 칼을 쓸 필요는 없습니다
CHAPTER 6 크롤링 시작하기
_6.1 단일 도메인 내의 이동
_6.2 전체 사이트 크롤링
__6.2.1 전체 사이트에서 데이터 수집
_6.3 인터넷 크롤링
CHAPTER 7 웹 크롤링 모델
_7.1 객체 계획 및 정의
_7.2 다양한 웹사이트 레이아웃 다루기
_7.3 크롤러 구성
__7.3.1 검색을 통한 사이트 크롤링
__7.3.2 링크를 통한 사이트 크롤링
__7.3.3 여러 페이지 유형 크롤링
_7.4 웹 크롤러 모델에 대한 생각
CHAPTER 8 스크레이피
_8.1 스크레이피 설치
__8.1.1 새 스파이더 초기화
_8.2 간단한 스크레이퍼 작성하기
_8.3 규칙에 의한 스파이더링
_8.4 항목 만들기
_8.5 항목 출력하기
_8.6 파이프라인
_8.7 스크레이피 로깅
_8.8 마치며
CHAPTER 9 데이터 저장
_9.1 미디어 파일
_9.2 데이터를 CSV로 저장
_9.3 MySQL
__9.3.1 MySQL 설치
__9.3.2 기본 명령어
__9.3.3 파이썬과 통합
__9.3.4 데이터베이스 테크닉과 모범 사례
__9.3.5 여섯 다리와 MySQL
_9.4 이메일
[PART 2 고급 스크레이핑]
CHAPTER 10 문서 읽기
_10.1 문서 인코딩
_10.2 텍스트
__10.2.1 텍스트 인코딩과 인터넷
_10.3 CSV
__10.3.1 CSV 파일 읽기
_10.4 PDF
_10.5 마이크로소프트 워드와 .docx
CHAPTER 11 지저분한 데이터 다루기
_11.1 텍스트 정리하기
_11.2 정규화된 텍스트 다루기
_11.3 판다스로 데이터 정리하기
__11.3.1 정리
__11.3.2 인덱싱, 정렬, 필터링
__11.3.3 판다스에 대해 더 알아보기
CHAPTER 12 자연어 읽고 쓰기
_12.1 데이터 요약
_12.2 마르코프 모델
__12.2.1 케빈 베이컨의 여섯 다리: 결론
_12.3 자연어 툴킷
__12.3.1 설치
__12.3.2 NLTK를 사용한 통계적 분석
__12.3.3 NLTK를 사용한 사전적 분석
_12.4 마치며
CHAPTER 13 폼과 로그인 뚫기
_13.1 파이썬 requests 라이브러리
_13.2 기본적인 폼 전송
_13.3 라디오 버튼, 체크박스, 기타 필드
_13.4 파일과 이미지 전송
_13.5 로그인과 쿠키 처리
__13.5.1 HTTP 기본 접근 인증
_13.6 기타 폼 문제
CHAPTER 14 자바스크립트 스크레이핑
_14.1 자바스크립트에 관한 간단한 소개
__14.1.1 널리 쓰이는 자바스크립트 라이브러리
_14.2 Ajax와 DHTML
_14.3 셀레니움으로 파이썬에서 자바스크립트 실행
__14.3.1 셀레니움 설치 및 실행
__14.3.2 셀레니움 선택자
__14.3.3 페이지 로딩 대기
__14.3.4 XPath
_14.4 그 밖의 셀레니움 웹드라이버
_14.5 리다이렉트 처리
_14.6 자바스크립트에 대한 마지막 노트
CHAPTER 15 API를 통한 크롤링
_15.1 API에 대한 간단한 소개
__15.1.1 HTTP 메서드와 API
__15.1.2 API 응답에 대해
_15.2 JSON 파싱
_15.3 문서화되지 않은 API
__15.3.1 문서화되지 않은 API 찾기
__15.3.2 문서화되지 않은 API 문서화하기
_15.4 API와 다른 데이터 소스의 결합
_15.5 마치며
CHAPTER 16 이미지 처리와 텍스트 인식
_16.1 라이브러리 개관
__16.1.1 필로
__16.1.2 테서랙트
__16.1.3 넘파이
_16.2 형식이 일정한 텍스트 처리
__16.2.1 이미지 자동 조정
__16.2.2 웹사이트 이미지에서 텍스트 스크레이핑하기
_16.3 CAPTCHA 읽기와 테서랙트 훈련
__16.3.1 테서랙트 훈련
_16.4 CAPTCHA 가져오기와 답 보내기
CHAPTER 17 스크레이핑 함정 피하기
_17.1 스크레이핑의 윤리에 관해
_17.2 사람처럼 보이기
__17.2.1 헤더를 수정하십시오
__17.2.2 쿠키 처리
__17.2.3 TLS 핑거프린팅
__17.2.4 타이밍이 가장 중요합니다
_17.3 널리 쓰이는 폼 보안 기능
__17.3.1 숨긴 필드 값
__17.3.2 허니팟 피하기
_17.4 사람처럼 보이기 위한 체크리스트
CHAPTER 18 스크레이퍼로 웹사이트 테스트하기
_18.1 테스트 입문
__18.1.1 단위 테스트란?
_18.2 파이썬 unittest
__18.2.1 위키백과 테스트
_18.3 셀레니움을 사용한 테스트
__18.3.1 사이트 조작
CHAPTER 19 병렬 웹 스크레이핑
_19.1 프로세스 vs. 스레드
_19.2 멀티스레드 크롤링
__19.2.1 경쟁 상태와 큐
__19.2.2 threading 모듈
_19.3 멀티 프로세스
__19.3.1 멀티프로세스 크롤링
__19.3.2 프로세스 간 통신
_19.4 멀티프로세스 크롤링의 다른 접근법
CHAPTER 20 웹 스크레이핑 프록시
_20.1 원격 서버를 쓰는 이유
__20.1.1 IP 주소 차단 방지
__20.1.2 이동성과 확장성
_20.2 토르
__20.2.1 파이삭스
_20.3 원격 호스팅
__20.3.1 웹사이트 호스팅 계정에서 실행
__20.3.2 클라우드에서 실행
__20.3.3 미래를 향해
_20.4 웹 스크레이핑 프록시
__20.4.1 스크레이핑비
__20.4.2 스크레이퍼API
__20.4.3 옥시랩스
__20.4.4 자이트
_20.5 마치며
HTML 기본 개념부터 AI 기반 데이터 추출까지,
높아진 웹의 장벽을 뛰어넘을 수 있는 최신 웹 크롤링 가이드
점점 더 다양하고 복잡해지는 방대한 정보의 바다에서 원하는 데이터를 얻으려면 어떻게 해야 할까요?
흩어진 데이터를 의미 있는 정보로 만들 수 있는 효과적인 도구가 있을까요? 『파이썬으로 웹 크롤러 만들기(3판)』는 이러한 질문들에 완벽한 답을 제공합니다.
1부에서는 웹 크롤링에 대한 기본적인 개념과 함께 파이썬과 BeautifulSoup 및 스크레이피와 같은 인기 라이브러리를 사용하는 비교적 간단한 웹 크롤러를 소개합니다. 그 후 MySQL의 데이터 저장, API 처리, CSV, PDF, 워드와 같은 형식의 문서 분석과 같은 핵심 기술을 이해하며 웹을 탐색하는 기본기를 배우게 됩니다.
2부에서는 1부에서 배운 기본기를 토대로 보다 복잡한 웹 환경을 분석하고 처리하기 위한 고급 기술을 다룹니다. 셀레니움을 활용하여 동적 자바스크립트 기반 페이지를 스크랩하고, 판다스와 같은 도구를 사용하여 지저분한 데이터를 정리하는 방법을 알아봅니다. 또한, 텍스트 데이터에서 의미를 추출할 수 있는 NLTK를 활용한 자연어 처리를 설명하며, 이미지에서 텍스트를 추출하여 CAPTCHA를 우회할 수 있는 테서랙트와 필로 같은 도구들도 함께 소개합니다.
변화하는 최신 웹 환경에 적절히 대응할 수 있도록 개정된 3판에서는 2판보다 이해하기 편한 구성으로 내용을 재배치하였고, 전반적으로 코드를 업데이트했습니다. 웹 크롤링을 처음 시작하는 초급자는 물론, 기존에 웹 크롤링을 업무에 활용하고 있던 중급자 이상의 분들에게도 만족감을 드릴 수 있는 도서라 자부합니다.
대상 독자
● 웹 크롤링을 시작하고 싶은 모든 개발자
● 이미 업무에 웹 크롤링을 활용하고 있는 개발자
● 파이썬을 이용하여 웹 데이터를 모으고 싶은 개발자
주요 내용
● 복잡한 HTML 파싱
● 자연어 읽고 쓰기
● 폼 및 로그인 크롤링
● 스크레이피 프레임워크로 크롤러 만들기
● 수집한 데이터를 저장하는 다양한 방법
● 자바스크립트 수집 및 API 이용
● 문서에서 데이터를 읽고 추출하기
● 봇 차단을 피하는 법
● 지저분한 데이터 형식 정돈하기
● 크롤러를 이용한 웹사이트 테스팅
작가정보
(Ryan Mitchell)
웹 크롤링, 보안, 데이터 과학에 관심이 많은 개발자. 현재 거슨 레만 그룹에서 수석 소프트웨어 엔지니어로 근무하고 있습니다. 프랭클린 W. 올린 공과대학교를 졸업했고 하버드 대학교에서 소프트웨어 엔지니어링 석사 과정을 밟았습니다. 어바인에서 웹 크롤러와 봇을 만들었고, 링크 드라이브에서는 API 및 데이터 분석 도구를 만들었습니다. 금융업 및 유통업 분야에서 웹 크롤링 프로젝트 컨설팅을 하고 있고, 교육과 강연 활동도 활발하게 펼치고 있습니다. 본서 외 저서로 『Instant Web Scraping with Java』(Packt, 2013)가 있습니다.
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.

- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)