잡아라! 텍스트 마이닝 with 파이썬
2019년 04월 30일 출간
국내도서 : 2019년 04월 30일 출간
- eBook 상품 정보
- 파일 정보 PDF (11.72MB)
- ISBN 9791190014311
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

쿠폰적용가 12,240원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
‘아’ 다르고 ‘어’ 다른 한글 텍스트 분석하기
알고리즘에 대한 수학적인 이해가 없어도 개념 파악을 도와주며 독자들이 코드를 따라하면서 결과를 바로바로 확인할 수 있도록 구성했다. 또한 텍스트 데이터 추출을 위해 필수적인 웹 크롤링 기술도 익힌다. 따라서 독자들은 어떠한 웹페이지라도 이 책의 내용을 응용하여 스스로 데이터를 추출 할 수 있다. 이 책을 본 이후에는 데이터 수집부터 분석까지 전 과정을 스스로 할 수 있다.
텍스트 마이닝 분야는 공학자들 이외에 인문, 사회, 예체능 학생들 및 기업에서도 논문, 마케팅을위해 쓸 수 있다. 세상 속에 존재하는 전체 데이터의 90% 이상이 비정형 텍스트 데이터로 이루어져 있다. 특히 각종 웹 페이지, sns 등에서 엄청난 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터를 잘 활용한다면 연구, 기업 경영 전략에 매우 유익하게 활용될 수 있으며 이를 위해서는 텍스트 마이닝 기술이 필수적이다.
저자소개
1. 텍스트 마이닝이란?
1.1. 문서 수집
1.2. 문서 특징
2. 데이터 사전 처리를 위한 기초 파이썬 코딩
2.1. 아나콘다 설치
2.2. 주피터 노트북
2.3. pandas 라이브러리
2.4. numpy 라이브러리
3.텍스트 데이터
3.1. 정규 표현식
3.2. 사전 처리
3.3. 품사 분석
4. 텍스트 마이닝 기법
4.1. 단어 빈도분석 - 기본적인 통계정보를 알아보자!
4.2. 군집 분석 - 유사한 문서들을 모아보자!
4.3. 토픽 모델링 - 토픽 모델링을 이용하여 문서의 토픽을 추론하자!
4.4. 감성 분석 - 텍스트의 감성 정도를 지표로 나타내자!
4.5. 연관어 분석
5. 텍스트 크롤링
5.1. Beautifulsoup을 이용한 크롤링
5.2. 셀레니움을 이용한 크롤링
5.3. lxml을 이용한 크롤링
6. 실전: 트위터 메시지 분석
7. 실전: 소셜커머스 후기 분석
찾아보기
이 책의 특징
- 입문자를 위한 기초 수준의 파이썬 기본 문법들을 소개한다.
- 파이썬을 이용한 텍스트 마이닝 방법들의 예제를 소개한다.
- 텍스트 마이닝과 함께 사용할 웹 크롤링 기법을 소개한다.
이 책이 필요한 독자
- 텍스트 마이닝을 이용하여 논문을 쓰려는 분
- 웹에서 발생하는 텍스트 정보를 활용하여 기업 마케팅 및 인사이트 도출을 원하는 분
- 텍스트 마이닝을 공부하고 싶은 분
독자대상
초중급
소스코드 다운로드
https://github.com/bjpublic/tmwithpython
우리는 데이터의 홍수 속에서 살아가고 있지만 넘치는 데이터를 전부 받아들이고 분석을 할 수 없을 것이다. 데이터를 분석하기 위해서 그만큼 엄청난 인건비와 시간이 소요되기 때문이다. 데이터의 종류는 많지만, 우리가 가장 많이 보고 접하는 데이터는 역시 텍스트 데이터이다. 따라서 텍스트 데이터 분석이 가장 필요할 것이다..
이 책은 공학도가 아닌 독자에게도 유용할 것이다. 가장 인기 있는 프로그래밍 언어 중 하나인 파이썬을 이용해 텍스트 데이터 수집을 위한 크롤링을 넘어 분석까지 스스로 할 수 있도록 도와주면서 파이썬과 텍스트 마이닝의 기초를 배우게 될 것이다.
작가정보

저자 : 서대호
한양대학교 정보시스템학과를 전공하고 한양대학교 산업공학과에서 석사 학위를 받았으며 이후 한국과학기술원, 모비젠, 전자부품연구원에서 연구원으로 재직하며 빅데이터 분석을 연구하였다.
현재 연세대학교 정보대학원에서 박사과정 중에 있으며 다수 기업의 데이터 분석 컨설팅, 데이터 분석 솔루션 개발을 독자적으로 맡아서 하고 있다. 관심 연구분야는 텍스트 마이닝, 쇼핑몰 인사이트 분석 및 추천 알고리즘, 이상탐지, 프로세스 마이닝, 이미지 처리이다. 또한 빅데이터 분석 회사 대운(www.daewoonbigdata.com)을 창업하여 활동 중이다.
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 5,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 5,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.

- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)