본문 바로가기

추천 검색어

실시간 인기 검색어

[epub3.0] 실전 데이터 분석 with 파이썬

5개의 케이스 스터디로 데이터 분석 스킬업하기!
길벗

2024년 12월 31일 출간

국내도서 : 2024년 12월 17일 출간

(개의 리뷰)
( 0% 의 구매자)
eBook 상품 정보
파일 정보 ePUB (25.39MB)
ISBN 9791140712311
지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
교보eBook App 듣기(TTS) 가능
TTS 란?
텍스트를 음성으로 읽어주는 기술입니다.
  • 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를​ 읽을 수 있습니다.
  • 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.

소득공제
소장
정가 : 35,200원

쿠폰적용가 31,680

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

  • 5만원 이상 구매 시 추가 2,000P
  • 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
  • 리뷰 작성 시, e교환권 추가 최대 200원

작품소개

이 상품이 속한 분야

인공지능의 발전으로 데이터를 수집하고 분석하는 방법이 더욱 다양해진 지금, 이 기술들을 실무에서는 어떻게 활용하고 적용하고 있을까? 데이터 분석을 공부하고 기초를 다졌다면, 이제는 가치 있는 데이터를 가려내고 정보를 얻어낼 수 있는 실질적인 능력을 길러야 할 때이다. 이 책은 실제 데이터 분석가들이 자주 다루는 유형의 문제들을 가져와 문제를 파악하고 솔루션을 내는 과정까지 모두 살펴본다. 이러한 데이터 분석 프로젝트를 진행해보고 전체 흐름을 익힌다면 분명 앞으로 하게 될 실무에 도움이 될 것이다. 코드는 파이썬으로 이루어져 있으며, 여러 메서드를 사용하면서 결과 값이 어떻게 나오는지 직접 눈으로 확인할 수 있다. 또, 매 장마다 개념이 일목요연하게 정리되어 있어서 복습하기에도 용이하다. 깊이 있게 데이터 분석을 배우고 싶다면 당장 이 책으로 시작해 보자!
1부 첫 번째 사례 탐구: 카드 게임의 승리 전략 탐색
1장 파이썬으로 확률을 계산하는 방법
1.1 표본 공간 분석: 방정식 없이 결과의 불확실성을 측정하는 접근법
__1.2.1 문제 1: 네 자녀를 둔 가족 분석하기
__1.2.2 문제 2: 다면체 주사위를 굴렸을 때 분석하기
__1.2.3 문제 3: 가중된 표본 공간으로 주사위를 굴렸을 때 확률 계산하기
1.2 사소한 확률 계산 문제
1.3 구간에 대한 확률 계산
__1.3.1 구간 분석법으로 극단 평가
1.4 요약

2장 맷플롯립으로 확률 그래프 그리기
2.1 맷플롯립으로 그래프 그리기
2.2 동전 뒤집기 확률 그래프 그리기
__2.2.1 여러 동전 뒤집기 확률 분포도 비교하기
2.3 요약

3장 넘파이로 무작위 시뮬레이션 수행하기
3.1 넘파이로 무작위 동전 뒤집기와 주사위 던지기 시뮬레이션하기
__3.1.1 편향된 동전 뒤집기 분석
3.2 히스토그램과 넘파이 배열로 계산하는 신뢰 구간
__3.2.1 히스토그램 내 유사한 점들을 묶기
__3.2.2 히스토그램에서 확률 구하기
__3.2.3 고신뢰 구간의 범위 줄이기
__3.2.4 넘파이로 히스토그램 계산하기
3.3 신뢰 구간으로 편향된 카드 덱 분석하기
3.4 순열로 카드 뒤섞기
3.5 요약

4장 첫 번째 사례 탐구의 솔루션
4.1 뒤섞은 카드 덱에서 빨간색 카드 예측하기
__4.1.1 전략의 성공 확률 추정하기
4.2 열 장으로 구성된 카드 덱 하나에 대한 표본 공간으로 전략 최적화하기
4.3 요약

2부 두 번째 사례 탐구: 온라인 광고 클릭의 유의성 평가하기
5장 사이파이를 사용한 기본 확률 및 통계 분석
5.1 사이파이로 데이터와 확률 간 관계 탐색하기
5.2 중심성의 척도로서 평균
__5.2.1 확률 분포의 평균 구하기
5.3 흩어진 정도를 측정하는 분산
__5.3.1 확률 분포의 분산 구하기

6장 사이파이와 중심 극한 정리로 예측하기
6.1 사이파이로 정규 분포 다루기
__6.1.1 샘플링된 정규 분포 곡선 두 개 비교하기
6.2 무작위 샘플링으로 모집단의 평균 및 분산 결정하기
6.3 평균과 분산을 이용하여 예측하기
__6.3.1 정규 곡선 아래 면적 계산하기
__6.3.2 계산된 확률 해석하기
6.4 요약

7장 통계적 가설 검정
7.1 표본 평균과 모집단 평균 간 차이 평가하기
7.2 데이터 드레징: 오버샘플링을 이용한 잘못된 결론 도출하기
7.3 복원 추출을 이용한 부트스트랩: 모집단 분산을 알 수 없을 때 가설 테스트하기
7.4 순열 테스트: 모집단의 매개변수를 알 수 없는 경우 표본 수단 비교하기
7.5 요약

8장 판다스를 사용한 테이블 분석하기
8.1 기본 파이썬 기능으로 테이블 저장하기
8.2 판다스로 테이블 탐색하기
8.3 테이블의 열 가져오기
8.4 테이블의 행 가져오기
8.5 테이블의 행과 열 수정하기
8.6 테이블 데이터 저장 및 불러오기
8.7 시본으로 테이블 시각화하기
8.8 요약

9장 두 번째 사례 탐구의 솔루션
9.1 판다스로 광고 클릭 테이블 처리하기
9.2 평균의 차이로 p-값 계산하기
9.3 통계적 유의성 결정하기
9.4 41가지 파란색 색조: 실제 사례로 알아보는 주의 사항
9.5 요약

3부 세 번째 사례 탐구: 뉴스 헤드라인으로 질병 발생 추적하기
10장 데이터 그룹화하기
10.1 중심성으로 클러스터 발견하기
10.2 K-평균: 중심 그룹 K개로 데이터를 그룹화하는 클러스터링 알고리즘
__10.2.1 사이킷런을 사용한 K-평균 클러스터링
__10.2.2 엘보 방법으로 최적의 K 선택하기
10.3 밀도를 사용하여 클러스터 검색하기
10.4 DBSCAN: 공간 밀도에 따라 데이터를 그룹화하는 클러스터링 알고리즘
__10.4.1 DBSCAN과 K-평균 비교하기
__10.4.2 비유클리드 거리 기반 클러스터링
10.5 판다스로 클러스터 분석하기
10.6 요약

11장 지리적 위치의 시각화 및 분석
11.1 대원 거리: 지구상 두 점 사이의 거리를 계산하는 지표
11.2 카토피로 지도 시각화하기
__11.2.1 지오스 및 카토피 수동 설치하기
__11.2.2 콘다 패키지 관리자 활용
__11.2.3 지도 시각화
11.3 GeoNamesCache를 사용한 위치 추적
__11.3.1 국가 정보 접근
__11.3.2 도시 정보 접근
__11.3.3 GeoNamesCache 라이브러리의 제약
11.4 텍스트 내 지명 찾기
11.5 요약

12장 세 번째 사례 탐구의 솔루션
12.1 헤드라인 데이터에서 위치 추출하기
12.2 추출된 위치 데이터 시각화 및 클러스터링
12.3 위치 클러스터에서 인사이트 추출하기
12.4 요약

4부 네 번째 사례 탐구: 온라인 채용 공고로 데이터 과학자의 이력서 개선하기
13장 텍스트 유사성 측정
13.1 간단한 텍스트 비교
__13.1.1 자카드 유사도 탐색
__13.1.2 단어를 숫자 값으로 바꾸기
13.2 단어 수를 사용하여 텍스트 벡터화하기
__13.2.1 정규화로 TF 벡터 유사도 개선하기
__13.2.2 단위 벡터 내적으로 관련성 지표 간 변환하기
13.3 효율적인 유사도 계산을 위한 행렬 곱셈
__13.3.1 기본 행렬 연산
__13.3.2 전체 행렬에 대한 유사도 계산하기
13.4 행렬 곱셈의 계산 한계
13.5 요약

14장 행렬 데이터의 차원 감소
14.1 2D 데이터를 단일 차원으로 그룹화하기
__14.1.1 회전으로 차원 줄이기
14.2 PCA와 사이킷런으로 차원 감소시키기
14.3 4D 데이터를 2차원으로 그룹화하기
__14.3.1 PCA의 제한 사항
14.4 회전 없이 주성분 계산하기
14.5 SVD 및 사이킷런으로 효율적인 차원 축소하기
__14.4.1 거듭제곱 반복으로 고유 벡터 추출하기
14.6 요약

15장 대용량 텍스트에 대한 자연어 처리 분석
15.1 사이킷런으로 웹 토론 포럼 데이터셋 불러오기
15.2 사이킷런으로 문서 벡터화하기
15.3 게시글 빈도 및 개수로 단어의 순위 매기기
__15.3.1 사이킷런으로 TFIDF 벡터 계산하기
15.4 대규모 문서 데이터셋의 유사성 계산하기
15.5 주제별로 텍스트 그룹화하기
__15.5.1 단일 텍스트 클러스터 탐색하기
15.6 텍스트 클러스터 시각화하기
__15.6.1 하위 그래프로 여러 워드 클라우드 표시하기
15.7 요약

16장 웹 페이지의 텍스트 추출하기
16.1 HTML 문서 구조
16.2 BeautifulSoup으로 HTML 파싱하기
16.3 웹 데이터 내려받기 및 파싱하기
16.4 요약

17장 네 번째 사례 탐구의 솔루션
17.1 채용 공고 데이터에서 기술 요구 사항 추출하기
__17.1.1 기술을 설명하는 HTML 살펴보기
17.2 관련성별로 작업 필터링하기
17.3 관련 채용 공고에서 스킬 클러스터링
__17.3.1 직무 기술을 그룹 15개로 그룹화하기
__17.3.2 기술 클러스터 조사하기
__17.3.3 소프트 스킬 클러스터 조사하기
__17.3.4 다른 K 값으로 그룹 탐색하기
__17.3.5 가장 관련성이 높은 게시물 700개 분석하기
17.4 결론
17.5 요약

5부 다섯 번째 사례 탐구: 소셜 네트워크 데이터로 미래의 친구 관계 예측
18장 그래프 이론 및 네트워크 분석
__18.1.1 NetworkX로 웹 네트워크 분석하기
18.1 기본 그래프 이론으로 인기도별 웹 사이트 순위 지정하기
18.2 비방향성 그래프로 마을 간 이동 시간 최적화하기
__18.2.1 마을과 지역에 대한 복잡한 네트워크 모델링하기
__18.2.2 노드 간 가장 빠른 이동 시간 계산하기
18.3 요약

19장 노드 순위 매기기 및 소셜 네트워크 분석을 위한 동적 그래프 이론 기법
19.1 네트워크의 예상 트래픽을 기반으로 중앙 노드 발견하기
__19.1.1 교통 시뮬레이션으로 중심도 측정하기
19.2 행렬 곱셈으로 이동 확률 계산하기
__19.2.1 확률 이론으로 페이지랭크 중심성 도출하기
__19.2.2 NetworkX로 페이지랭크 중심성 계산하기
19.3 마르코프 그룹화로 커뮤니티 감지하기
19.4 소셜 네트워크에서 친구 그룹 찾기
19.5 요약

20장 네트워크 기반 지도 학습
20.1 지도 학습의 기본 사항
20.2 예측 레이블 정확도 측정하기
__20.2.1 사이킷런의 예측 측정 기능
20.3 KNN 성능 최적화
20.4 사이킷런으로 격자 탐색 수행하기
20.5 KNN 알고리즘의 한계
20.6 요약

21장 로지스틱 회귀로 선형 분류 모델 학습
21.1 규모별로 고객을 선형적으로 분리하기
21.2 선형 분류 모델 학습시키기
__21.2.1 표준화를 이용하여 퍼셉트론 성능 향상시키기
21.3 로지스틱 회귀를 이용한 선형 분류 개선하기
__21.3.1 특징 두 개 이상에서 로지스틱 회귀 수행하기
21.4 사이킷런을 사용하여 선형 분류 모델 학습시키기
__21.4.1 다중 클래스에 대한 선형 모델 학습시키기
21.5 계수로 특징 중요도 측정하기
21.6 선형 분류 모델의 제한 사항
21.7 요약

22장 의사 결정으로 비선형 분류 모델 학습
22.1 논리 규칙 자동 학습하기
__22.1.1 두 특징으로 중첩된 if/else 모델 학습시키기
__22.1.2 분할할 특징 결정하기
__22.1.3 특징 둘 이상을 다루는 if/else 모델 학습시키기
22.2 사이킷런으로 의사 결정 분류 모델 학습시키기
__22.2.1 특징 중요도를 이용한 암세포 연구하기
22.3 의사 결정 분류 모델의 제한 사항
22.4 랜덤포레스트 분류 모델로 성능 개선하기
22.5 사이킷런으로 랜덤포레스트 분류 모델 학습시키기
22.6 요약

23장 다섯 번째 사례 탐구의 솔루션
23.1 데이터 탐색하기
__23.1.1 프로필 살펴보기
__23.1.2 실험 관찰 결과 살펴보기
__23.1.3 친구 관계 연결 테이블 살펴보기
23.2 네트워크 특징을 사용하여 예측 모델 학습시키기
23.3 모델에 프로필 관련 특징 추가하기
23.4 안정적인 특징 집합에 대한 성능 최적화
23.5 학습된 모델 해석하기
__23.5.1 일반화 가능한 모델은 왜 중요할까요?
23.6 요약
찾아보기

작가정보

현재 Anomaly의 데이터 과학 책임자이다. Anomaly 이전에는 자연어 처리를 전문으로 하는 스타트업인 Primer AI에서 머신 러닝을 연구했고, 창립 멤버로서 Primer AI 팀을 4명에서 거의 100명의 직원으로 성장시키는 데 도움을 주었다. 스타트업에 진출하기 전에는 학계에서 일하면서 유전적으로 연관된 질병의 숨겨진 패턴을 발견했고, 그 내용이 사이언스 앤 네이처 저널의 자회사에 게재되었다. 카네기 멜론 대학교에서 생물학 및 컴퓨터 과학 학사 학위를, 샌프란시스코 캘리포니아 대학교에서 생물정보학 박사 학위를 취득했다. 인공지능과 머신러닝에 전문가인 엔지니어링 디렉터로, 코넬 대학교에서 컴퓨터 과학 학사, 카네기 멜런 대학교에서 로봇학 박사 학위를 받았다. 대학원 연구 시절 잠재적인 킬러 소행성을 감지하기 위한 알고리즘 개발에 참여했다. 『The CS Detective』(No Starch Press, 2016)를 저술했고, ‘Computational Fairy Tales‘ 블로그도 작성했다./지금까지 한한국전자통신 연구원에서 네트워크 제어/관리/지능화 시스템을 구축하는 일을 하며, 컴퓨터에서 일어나는 전반적인 일에 관심이 많다. 특히 최근 몇 년간은 머신러닝 모델의 라이프사이클을 관리하고 머신러닝 시스템을 운영하는 MLOps와 더불어, 생성형 AI 모델을 튜닝하고 모델링하는 방법과 이를 운영하는 LLMOps 분야에도 많은 관심을 가지고 허깅 페이스 펠로(Hugging Face Fellow), 구글 디벨로퍼스 엑스퍼트(Google Developers Expert) 등 다양한 커뮤니티 활동을 병행하고 있다.국전자통신 연구원에서 네트워크 제어

이 상품의 총서

Klover리뷰 (0)

Klover리뷰 안내
Klover(Kyobo-lover)는 교보를 애용해 주시는 고객님들이 남겨주신 평점과 감상을 바탕으로, 다양한 정보를 전달하는 교보문고의 리뷰 서비스입니다.
1. 리워드 안내
구매 후 90일 이내에 평점 작성 시 e교환권 100원을 적립해 드립니다.
  • - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
  • - 리워드는 한 상품에 최초 1회만 제공됩니다.
  • - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
2. 운영 원칙 안내
Klover리뷰를 통한 리뷰를 작성해 주셔서 감사합니다. 자유로운 의사 표현의 공간인 만큼 타인에 대한 배려를 부탁합니다. 일부 타인의 권리를 침해하거나 불편을 끼치는 것을 방지하기 위해 아래에 해당하는 Klover 리뷰는 별도의 통보 없이 삭제될 수 있습니다.
  • 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
  • 도서와 무관한 내용의 리뷰
  • 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
  • 의성어나 의태어 등 내용의 의미가 없는 리뷰

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

문장수집 안내
문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여 주는 교보문고의 새로운 서비스 입니다. 교보eBook 앱에서 도서 열람 후 문장 하이라이트 하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다. 마음을 두드린 문장들을 기록하고 좋은 글귀들은 ‘좋아요’ 하여 모아보세요. 도서 문장과 무관한 내용 등록 시 별도 통보없이 삭제될 수 있습니다.
리워드 안내
  • 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
  • e교환권은 적립일로부터 180일 동안 사용 가능합니다.
  • 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
  • 리워드는 한 상품에 최초 1회만 제공됩니다.
  • sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.

구매 후 문장수집 작성 시, e교환권 100원 적립

    교보eBook 첫 방문을 환영 합니다!

    신규가입 혜택 지급이 완료 되었습니다.

    바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
    지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

    교보e캐시 1,000원
    TOP
    신간 알림 안내
    [epub3.0] 실전 데이터 분석 with 파이썬 웹툰 신간 알림이 신청되었습니다.
    신간 알림 안내
    [epub3.0] 실전 데이터 분석 with 파이썬 웹툰 신간 알림이 취소되었습니다.
    리뷰작성
    • 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
    • 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
    • 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
    감성 태그

    가장 와 닿는 하나의 키워드를 선택해주세요.

    사진 첨부(선택) 0 / 5

    총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.

    신고/차단

    신고 사유를 선택해주세요.
    신고 내용은 이용약관 및 정책에 의해 처리됩니다.

    허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
    있으니 유의하시어 신중하게 신고해주세요.


    이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.

    문장수집 작성

    구매 후 90일 이내 작성 시, e교환권 100원 적립

    eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.

    P.
    [epub3.0] 실전 데이터 분석 with 파이썬
    5개의 케이스 스터디로 데이터 분석 스킬업하기!
    저자 모두보기
    낭독자 모두보기
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 이용권입니다.
    차감하실 sam이용권을 선택하세요.
    sam 이용권 선택
    님이 보유하신 프리미엄 이용권입니다.
    선물하실 sam이용권을 선택하세요.
    결제완료
    e캐시 원 결제 계속 하시겠습니까?
    교보 e캐시 간편 결제
    sam 열람권 선물하기
    • 보유 권수 / 선물할 권수
      0권 / 1
    • 받는사람 이름
      받는사람 휴대전화
    • 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
    • 열람권은 1인당 1권씩 선물 가능합니다.
    • 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
    • 선물한 열람권의 등록유효기간은 14일 입니다.
      (상대방이 기한내에 등록하지 않을 경우 소멸됩니다.)
    • 무제한 이용권일 경우 열람권 선물이 불가합니다.
    이 상품의 총서 전체보기
    네이버 책을 통해서 교보eBook 첫 구매 시
    교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 네이버 책을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)
    구글바이액션을 통해서 교보eBook
    첫 구매 시 교보e캐시 지급해 드립니다.
    교보e캐시 1,000원
    • 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
    • 한 ID당 최초 1회 지급 / sam 이용권 제외
    • 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
    • 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)