2024년 10월 16일 출간
국내도서 : 2023년 01월 31일 출간
- eBook 상품 정보
- 파일 정보 PDF (11.32MB)
- ISBN 9791161759005
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 불가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
작품소개
이 상품이 속한 분야
작가정보
David Mertz
머신러닝과 과학 컴퓨팅 분야에서 개발자와 데이터 과학자를 교육하는 데 전념하는 KDM 트레이닝의 설립자다. 아나콘다 사(Anaconda Inc.)의 선임 트레이너였으며 데이터 과학 훈련 프로그램을 만들었다. 심층 신경망의 등장으로 로봇 오버로드를 훈련시키는 쪽으로 방향을 틀었다. 이전에 D.E. 쇼 리서치에서 8년 동안 일했으며 파이썬 소프트웨어 재단의 이사이기도 했다. 상표 위원회와 Scientific Python Working Group의 공동 의장직을 유지하고 있다. 칼럼인 「Charming Python」과 「XML Matters」는 한때 파이썬 분야에서 가장 널리 읽히는 기사였다.
디지털 분석 기업 넷스루에서 전략 기획을 담당하며, Google Analytics 공식 인증 파트너가 되도록 기여했다. 서울 과학종합대학원(aSSIST)과 한국외국어대학교 경영대학원에서 웹 마이닝 과목을 가르쳤다. 그 외에도 네이버 사내 강의와 검색 광고주 대상으로 웹 분석과 관련된 강의를 했으며, 대학에서 인터넷 마케팅을 강의했다. 국내외 게임 회사와 인터넷 쇼핑몰, 금융권, 공공기관 등의 웹 분석 프로젝트를 수행했다. 월간지에 데이터 마이닝과 웹 마이닝 주제로 강좌를 연재했고 인터넷 광고 측정에 관한 칼럼을 쓰기도 했다. 번역서로는 에이콘출판사에서 출간한 『데이터 과학자가 되는 핵심 기술』(2017)이 있다.
작가의 말
데이터 과학, 데이터 분석, 머신러닝에서 실제 목적을 달성하고자 필요한 대부분의 노력은 데이터를 클리닝하는 데 있다. 이 책의 부제는 데이터 클리닝에 할당된 일반적인 비율을 암시한다. 몇 년 전에 데이터 과학 콘퍼런스에서 기조 연설자는 동료와 함께 이와 관련된 농담을 했는데, 아마 널리 되풀이된 농담일 것이다. 동료는 데이터 클리닝이 작업 시간의 절반을 차지한다고 불평했고 기조 연설자는 단지 절반만 차지한다는 사실에 놀랐다.
정확한 비율을 할당하는 것을 크게 걱정할 필요는 없다. 기술자 및 데이터 과학자로 일해보니 내 일의 대부분은 통계 분석, 머신러닝 모델 또는 미묘한 차이가 있는 시각화를 위해 데이터를 준비하는 것임을 깨달았다. 성공을 바라는 임원들이나 기술 관리자들은 실무와 다소 떨어져 있기 때문에 조직이 획득하는 데이터 세트가 깨끗하고 작업하기 쉬울 것이라는 낙관적 생각을 가지곤 한다. 하지만 나의 경험상 그런 적은 없었다.
물론 어떤 데이터는 더 좋고 어떤 데이터는 더 나쁘다. 그러나 통계의 매우 작은 오차 범위 내에서 모든 데이터는 오염돼 있다. 통계 교과서나 소프트웨어 라이브러리의 표준 예제로서 널리 배포되고 출판돼 주의 깊게 연구된 데이터 세트도 데이터 무결성 문제가 있다. 최선의 전처리 후에도 데이터를 덜 오염시키는 것이 더 달성해야 할 목표가 된다. 데이터를 깨끗하게 만드는 것은 지나치게 이상적인 목표로 남아 있다.
데이터 품질과 데이터 효용성을 구별해야 하는데, 이 말은 크게 보면 서로 상충된다. 데이터가 오염돼 있을 수 있지만 때로는 매우 유용하다. 클리닝된 데이터라고 하더라도 거의 목적이 없거나 목적에 적합하지 않을 수 있다. 수집할 측정값의 선택, 가능한 선택 편향(Selection Bias) 또는 기타 방법론적 및 과학적 질문에 대한 우려는 대부분 이 책의 범위를 벗어난다. 내가 제시하는 많은 기술은 데이터의 효용성을 평가하는 데 도움이 될 수 있지만 시스템 문제를 해결하는 기계적 메서드는 없는 경우가 많다. 예를 들어 통계 및 기타 분석에서 특정 데이터 필드가 신뢰할 수 없음을 드러내거나 최소한 강하게 암시할 수는 있다. 그러나 일반적으로 이 책에서 소개하는 기술은 신뢰할 수 없는 데이터를 자동으로 수정하거나 더 나은 데이터를 수집할 수는 없다.
이 책의 목적은 특정 도구의 사용법을 배우는 것이 아니라 데이터 품질의 근본적인 목적을 이해하는 것이다. 제시된 개념은 데이터 처리와 머신러닝에 사용되는 모든 프로그래밍 언어에 적용할 수 있어야 한다. 내가 보여준 기술을 여러분이 선호하는 도구와 프로그래밍 언어에 쉽게 적용할 수 있기를 바란다.
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립