HOME
eBook
- eBook
- 오디오(북)
- 동영상
경제경영
- 경제경영
- 자기계발
- 시/에세이
- 인문
- 종교
- 소설
- 국어/외국어
- 정치/사회
- 역사/문화
- 과학/공학
- IT/프로그래밍
- 건강/의학
- 가정/생활/요리
- 여행/취미
- 예술/대중문화
- 유아
- 아동
- 청소년
- 교재/수험서
- 외국도서
- 매거진
- 대학교재
- 로맨스
- 로맨스판타지
- BL
- GL
- 판타지
- 무협
- 라이트노벨
- 추리
- 미스터리
- 스릴러
- 섹슈얼로맨스
- 단행본만화
- 웹툰
- 웹소설
경영전략
- 경제일반
- 세계경제
- 무역
- 교통/관광
- 재테크/금융
- 경영일반
- 경영관리
- 경영전략
- 기업실무관리
- 마케팅/세일즈
- 창업
- 기타

데이터는 예측하지 않는다

데이터에 관한 꼭 알아야 할 오해와 진실

좋은 습관 시리즈 36

김송규 지음

좋은습관연구소

2024년 01월 23일 출간

국내도서 : 2024년 01월 08일 출간

(개의 리뷰)

( 0% 의 구매자)

eBook 상품 정보

파일 정보 ePUB (8.20MB)

ISBN 9791193639023

지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어

교보eBook App 듣기(TTS) 가능

TTS 란?

텍스트를 음성으로 읽어주는 기술입니다.

전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.

이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.

소득공제

소장

정가 : 15,750원

쿠폰적용가 14,180원

10% 할인 | 5%P 적립

이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.

카드&결제 혜택

5만원 이상 구매 시 추가 2,000P
3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
리뷰 작성 시, e교환권 추가 최대 200원

상품정보
리뷰 (0)
이용안내

작품소개

이 상품이 속한 분야

데이터로 의사결정을 해야 하는 사람들 그리고 데이터로 의사결정 하는 것이 필요하다고 주장하는 사람들을 위한 책이 나왔다. 이 책은 우리가 알고 있던 데이터에 대한 지식이 얼마나 잘못된 것이 많으며, 이를 제대로 알지 못하면 어떤 실수를 범하게 되는지 여러 사례를 통해 밝히고 있다. 그리고 이런 실수에서 벗어나기 위해서는 인문학적 통찰이 중요하다는 것도 잊지 않고 강조한다.

1부 - 데이터 분석을 제대로 하려면

1. 분석의 목적 정의 - 나는 어떤 필요 때문에 데이터를 활용하는지 알아야 한다

2. 가장 좋은 분석이란 - 문제를 정의하고 상황에 맞는 분석 기술을 아는 것이 중요하다

3. 데이터 분석, 꼭 알아야 할 15가지 - 측정, 분석, 수집에 대해 꼭 알아야 하는 15가지를 기억하자

4. 진짜 좋은 데이터란? - 나의 데이터와 남의 데이터를 구별할 줄 알아야 한다

5. 분석 결과의 진실성 - 데이터 분석의 결과는 완벽하게 실제를 대변할 수 없다

6. 데이터의 상관관계, 인과관계 - 데이터 변수들 사이의 관계를 파악하는 인사이트가 중요하다

7. 데이터 사이언스의 한계 - 데이터 사이언스는 통계학의 한계를 벗어날 수 없다

2부 - 데이터 사이언스의 오해와 진실

8. 언제까지 빅데이터? - 지금의 빅데이터가 미래에는 스몰데이터가 될 수 있다

9. 데이터 지상주의 - 데이터를 이용한 주장에는 신뢰성 이슈에서 자유로울 수 없다

10. 데이터는 잘못이 없다 - 똑같은 데이터라도 보는 관점에 따라 해석은 달라진다

11. 데이터로 미래 예측이 가능? - 데이터는 예측이 아니라 패턴을 알려준다

12. 데이터 없이 문제 해결하기 - 가장 최고의 해결책은 데이터 없이 해결하는 것이다

13. 데이터 사이언스는 과학이 아니다 - 데이터의 대표성이라는 한계를 명확히 알아야 한다

14. 도박과 확률이 다른 점 - 도박은 예측이지만 확률의 본질은 관리(매지니먼트)이다

15. 실패한 기업에 다시 투자하는 이유 - 성공 가능성이라는 확률에 투자하는 것이다

3부 - 데이터 사이언스 더 잘하기

16. 효용성 높이기 - 문제의 본질에 맞는 적절한 자원과 분석 도구가 중요하다

17. 수학적 사고의 중요성 - 잘못된 의사결정을 피하기 위해 데이터 리터러시가 필요하다

18. 나의 데이터 리터러시 - 나의 데이터 리터러시 수준을 측정해보자

19. 인지적 편향 깨기 - 인지적 편향을 깨는 데 필요한 것이 데이터 리터러시이다

20. 생활 속 게임이론 - 화려한 알고리즘이 허상일 때가 있다

21. 데이터 사이언스 설계 - 분석 설계를 잘하기 위해서는 실무를 꼭 알아야 한다

22. 데이터 사이언스 설계, 원포인트 레슨 - 시간, 비용, 품질을 개선하는 설계가 핵심이다

23. 문제의 본질 읽기 - 문제 해결의 기본 소양은 인문학에서 나온다

4부 - 데이터 사이언스와 인문학

24. 데이터 사이언스와 챗GPT - 모두가 챗GPT를 쓴다고 해서 안달복달할 이유는 없다

25. 인공지능의 비합리성 - 머신 러닝을 통해 나온 답이 진실이 될 수는 없다.

26. 인문학적 소양 - 문제의 본질에 접근하려는 습관만큼 중요한 것이 없다

데이터 사이언스를 다루는 이들 사이에서 자주 회자되는 속담(?)이 “Garbage In, Garbage Out” 이다. 아무리 분석 방법을 잘 알고 분석 실력도 출중하더라도 분석 데이터의 질이 좋지 않으면, 좋은 분석이 나올 수 없다는 뜻이다. 그래서 분석 실력만큼 중요한 것이 데이터의 가치를 판단하는 능력이다. 이를 위해서는 분석하려는 분야에 대한 전문성이 필요하고 기초적인 통계 지식을 갖추는 것이 중요하다. (27쪽)

정확한 측정이 있어야 풀려는 문제에 대해서도 정확한 해석(혹은 해결)이 가능하다고 하지만 측정은 늘, 언제나, 항상 오차를 갖기 마련이다. 그러면 이렇게 한 번 생각해 보는 건 어떨까? “문제 해결을 위해 정확한 측정값을 얻는 것보다 측정 과정 없이 문제를 해결하는 것이 더 낫다.” 이렇게 생각한다는 것은 데이터 없이 문제 해결을 하는 것이 더 나은 판단이 될 수 있다는 것을 뜻한다. (37쪽)

세상의 많은 문제들이 우리가 생각하는 것 이상으로 데이터 분석 없이도 해결이 가능하다는 것이다. 그래서 데이터에 경도 되어 모든 것을 그렇게 판단할 필요도 없고, 그렇게 해서도 안 된다. 우리는 빅데크 기업들의 성공을 보면서, 그들이 말하는 공식(데이터 기반의 의사결정)이 마치 전부이고 성공의 핵심 역량으로 생각하지만 그들은 고객이 아쉬워 하고 어려워하는 문제를 잘 해결해준 것 뿐이었다. 시작은 거기서 출발해야 한다. 이 사실을 절대 잊어서는 안 된다. (38쪽)

정제되지 않은 100만 개 보다는 정제된 100개가 훨씬 유효하다. 왜냐하면, 빅데이터라고 해서 온갖 쓰레기가 포함된 데이터 대신 좋은 데이터만 모여있는 것은 아니기 때문이다. 좋은 데이터가 늘어나는 만큼, 쓰레기 데이터도 늘어난다. 아무리 좋은 데이터가 많아도 쓰레기도 그만큼 많다면 분석을 방해한다. 그래서 빅데이터를 다룬다 하더라도 데이터를 정제하는 전처리의 과정은 반드시 필요하다. (40쪽)

데이터 사이언스가 세상의 다양한 문제를 해결하는 강력한 도구인 것은 맞지만, 상황에 따라 그리고 여건에 따라 쓸 수 있는 다른 도구는 상상 이상으로 차고 넘친다는 사실이다. (42쪽)

기계학습Machine Learning이 비약적으로 발전하면서 데이터 분석에 쓸 수 있는 도구들이 많아졌다. 이런 도구들 덕분에 분석 자체는 과거보다 훨씬 쉬워졌다. 그래서 지금은 어떤 식으로 데이터를 가져오고 어떤 전처리를 거쳤으며 어떤 분석 도구를 사용했는지, 이러한 과정 전체인 분석 시스템 설계가 훨씬 더 중요해졌다(데이터 사이언티스트의 일이다. 데이터 마이너와 는 구별된다.). (44쪽)

빅데이터 시대라고 하니, 무조건 데이터가 많은 것이 좋은 것인 양 생각되기도 하지만 될 수 있으면 적은 데이터로 간단한 분석 도구를 써서 문제를 해결하는 것이 좋다. 실제로 빅데이터와 현란한 인공지능 도구를 써서 얻은 결과와 PC에서 엑셀로 돌린 분석 결과가 대동소이한 경우가 있다. 정작 중요한 것은 많은 양의 데이터보다 분석 시스템의 설계이다. (52쪽)

데이터 사이언스를 좀 안다고 모든 문제를 데이터 분석으로 해결하고자 애쓴다면 자칫 함정에 빠질 수 있다. 데이터 사이언스를 업으로 하는 이들 중에는 측정이 불가능한 대상을 갖고서 데이터 사이언스를 무리하게 적용하려는 시도를 하는 경우가 많다. (54쪽)

데이터 사이언스, 비지니스 애널리틱스, 빅데이터 등 많은 데이터 분석 기법과 도구들이 난무하지만 데이터 분석보다 더 중요한 것은 데이터 자체이고, 데이터 자체보다 더 중요한 것은 바로 데이터가 내 것인지 남의 것인지를 아는 것이다. (64쪽)

데이터 사이언스를 제대로 하고자 할 때 수학이 중요하고, 과학이 중요하고, 철학이 중요한 이유도 데이터 분석 자체보다 데이터(혹은 데이터 분석한 값)가 내 것인지, 남의 것인지를 파악하는 데 도움이 되기 때문이다. (64쪽)

데이터 분석을 통해서 나오는 결과는 변수들 사이에 상관관계Correlation를 알려주는 것이지, 인과관계Causality를 알려주는 것은 아니라는 사실을 놓쳤기 때문이다. 다시 한 번 말하지만, 데이터만으로는 변수들 사이의 인과관계를 분석할 수 없다. (77쪽)

올바른 데이터 분석을 위해서는 변수 사이의 관계를 분석하지 않고서도 상식처럼 알 수 있는 포인트는 놓쳐서 안 된다. 모기약을 많이 산다고 모기가 늘고, 치킨 판매량이 는다고 야구 경기력이 향상된다는 것이 틀렸다는 것 쯤은 누구나 알만한 상식 수준의 판단이다. 이를 좀 더 고급스럽게 표현하면, 변수들 사이의 관계를 파악하는 인사이트는 데이터 분석 능력이 아닌 다른 영역에서 우선하여 나온다는 것이다. (78쪽)

다시 한번 말하지만, 빅데이터는 현재의 컴퓨터 성능으로 다루기에 까다로운 큰 데이터일 뿐이다. 그리고 그 기준 또한 세월에 따라 변한다. 지금의 빅데이터가 불과 몇 년 뒤에는 그냥 개인 PC에서 처리 가능한 수준의 그렇고 그런 데이터가 될수도 있다. (96쪽)

내가 얻은 데이터가 아무리 높은 신뢰성을 가진다고 해서, 모든 데이터가 진실을 의미하지는 않는다는 것이다. 수집된 모든 데이터가 의미가 있는 것이 아닐뿐더러 수집된 데이터가 진실을 밝히는데 충분하다고 장담할 수도 없다. 그래서 데이터에 근거한 어떤 주장(논쟁)을 할 때는 어느 누구라도(어떤 경우에서도) 데이터의 신빙성에 대한 문제에서 자유로울 수 없다. 이는 나 뿐만 아니라 제 3자(경쟁사든)의 누구에게라도 동일하게 적용된다. 데이터 지상주의나 데이터만이 모든 것을 다 말해줄 거라는 환상에 빠져서는 안 되는 이유이다(특히 내가 수집한 데이터에 있어서는 더더욱). (99쪽)

데이터가 거짓 없이 사실을 기반으로 객관적으로 수집되었다 하더라도 말하는 사람에 따라 혹은 듣는 사람의 타성(이라 쓰고 “느낌”이라 읽는다)에 따라 그 해석은 얼마든지 달라질 수 있다. 이는 데이터 자체의 문제라기보다는 데이터를 사용하고 받아들이는 사람의 감성의 문제이다. (106쪽)

수집된 데이터는 “과거”의 데이터이다. 그럼에도 불구하고 많은 통계학자들과 데이터 과학자들은 과거 데이터를 통해 미래를 예측할 수 있다고 믿는다(수학자가 보기에는 이는 틀린 사실이다). 빅데이터라는 용어가 다소 마케팅적인 요소가 강한 단어임에도 데이터 과학자나 통계학자들로부터 지지를 받고 있는 데에는 이 같은 믿음(통계적 기법이 미래를 예측할 수 있다)이 작용하기 때문이다. (110쪽)

데이터는 “과거”에 대한 산물일 뿐, 데이터가 아무리 많다 하더라도 미래를 직접 대변해 줄 수는 없다. 그럼에도 이러한 분석이 가능하다고 믿는 이유는 한 가지 큰 가정Assumption을 전제로 하는데, 그 가정은 바로 “과거의 사건이 현재나 미래에도 재현Recursive된다”라는 생각 때문이다. 통계학의 모든 예측 모델은 이 “재현성”을 기반으로 한다. 즉, 과거의 사건이 미래에도 재현된다는 가정하에서 예측이 의미가 있어진다는 뜻이다. 하지만 안타깝게도 통계학자들의 이러한 믿음은 틀린 사실이다. 근본적으로 미래는 재현이 되지 않으며, 어제가 오늘과 다르고 오늘은 내일과 다르다. 단지 비슷하게 보일 뿐이지 절대로 같지 않다. (111쪽)

스포츠 경기의 결과 예측이나 대통령 선거의 결과 예측, 내년 경제 전망 등은 도박에 가까운 단순한 예측에 가깝다. 구글이나 아마존 사례처럼 이용자들이 구매할 물품을 미리 제안하거나, 사용자가 어떤 단어를 검색했을 때 그다음 검색할 단어를 미리 제안하거나, 콜센터에서 고객이 할 것 같은 추가 질문을 미리 예상하는 것은 예측이라기보다는 ‘패턴’Pattern에 가깝다. 여기서 “가깝다”고 표현한 이유는 미래에 대한 측정 값이 단순 예측이건 패턴이건 간에 과거에 기인한 것으로 완벽하게 미래를 알려주는 패턴이라고 하기에는 한계가 있기 때문이다. (112쪽)

예측과 패턴은 둘 다 앞으로 일어날 일에 대한 결과 추측이라는 점에서는 닮았다. 그래서 사람들은 예측과 패턴을 같은 의미로 사용하기도 한다. 하지만 예측과 패턴은 엄연히 다르다. 이 둘을 구분하는 기준은 바로 ‘시간의 영향력’(혹은 재현성)이다. 시간의 영향력이 크면(즉, 시간에 따라 결과가 달라지거나 바뀌게 된다면) 예측의 문제가 되고, 시간의 영향력이 없거나 작으면 패턴의 문제가 된다. 시간의 영향력이 크다는 의미는 시간에 따라 그때그때 데이터가 변한다는 것을 말한다. 예를 들자면 주식이라든지, 환율이라든지, 원유가처럼 시시때때로 변하는 것을 말한다. 이러한 시간 영향력이 큰 데이터에 대해서 어떠한 주기성을 찾고자 하는 연구 또한 존재하는데, 이렇게 주기성이 찾아진다면, 이 또한 패턴의 문제로 볼 수 있다. (113쪽)

패턴도 데이터와 마찬가지로 ‘과거의 산물’이다. 시간의 영향력이 적다는 의미는 바로 시간과는 관계없이 특정 조건(혹은 상황)만 되면 결과 값(혹은 추측값)이 같다는 것을 의미한다. 바꿔 이야기하면 재현성이 높아진다는 의미이다. 즉, 시간과 관계없이 조건만 맞으면 동일한 결과가 재현된다는 의미이다. (113쪽)

데이터의 품질이 보증되지 않은 빅데이터는 데이터 분석이 요구되는 문제를 해결하는데 오히려 방해가 된다. 만약, 이러한 문제 해결을 위해서 데이터가 필요하긴 한데 측정하기 어려운 상황이라면 대체 데이터를 생각해볼 수도 있고, 이때 대체 데이터를 고민하다 오히려 문제 해결에 보다 적합한 데이터를 찾을 수도 있다. 그리고 반드시 데이터 측정이 필요한 경우라면, 측정되는 데이터는 이왕이면 측정하기 쉬운 것이 좋다. (123쪽)

데이터 기반의 의사결정의 가장 큰 맹점은 데이터 이외의 것을 보지 않는 데 있다. 데이터 사이언스를 한답시고 이 한계를 모르고 있어서는 안 된다. (131쪽)

확률은 어떤 의사결정을 하는 데 필요한 지표를 수학적으로 계산한 것이지, 확률(값)이 미래의 특정 결과를 미리 보여주는 것은 아니다. 다음 판에 이길 확률 90%라고 해서 반드시 이기는 것이 아닌 것처럼, 확률 자체가 어떤 미래를 결정짓는 표식은 될 수 없다. (138쪽)

확률이 도박과 가장 다른 점은 목적이 “예측”에 있는 것이 아니라 “관리”에 있다는 것이다. 이는 게임에서 단순히 이기거나 지거나, 승부 예측을 통해서 돈을 버느냐 마느냐 같은 것이 아니라, 확률에 따라 자원을 어떻게 효율적으로 운영하느냐에 중점을 둬야 한다는 것을 말한다. 그리고 이 같은 확률의 목적성은 확률을 기반으로 하는 통계, 통계를 기반으로 하는 데이터 과학(혹은 빅데이터) 모두 동일하다. (138쪽)

예측은 “맞는 경우”에만 관심이 있지만, 관리는 “맞는 경우”와 “맞지 않은 경우” 모두에 관심을 갖는다. 그렇기에 확률을 잘한다는 의미는 (특히, 위험성에 대한)관리를 잘한다는 의미이다. 예측을 잘한다는 의미로 생각해서는 안된다(보통은 확률을 잘한다고 하면 예측을 잘한다는 의미로 많이들 생각한다). 그리고 이렇게 한 예측은 확률의 본질을 한참 벗어난다. 다시 한번 말하지만, 확률의 본질은 관리Management이다. (138쪽)

확률이 중요한 이유는 미래에 대한 예측이 아니라 관리에 있다고 했다. 이러한 관리 과정을 거친 투자는 결코 도박이 아니다. 현명한 판단을 거친 투자이며, 혹은 재투자이다. 실리콘벨리에서 실패한 기업에게 또다시 투자하는 것은 이러한 확률에 근거한 판단이다. 이러한 확률값은 데이터 사이언스를 포함한 여타 과학적 근거를 기반으로 해서 나왔다. 그래서 도박이 아니다. (147쪽)

데이터 사이언스를 적용하는 영역이 마케팅이라면, 데이터 사이언스에 관련된 기술이나 지식보다 중요한 것이 실전에서 쌓인 마케팅 경험이고, 데이터 사이언스를 적용하는 영역이 자동차 설계의 유체역학(자동차 광고에서 공기 역학적 설계라는 이야기를 들어본 적이 있을 것이다. 공기 역학에서는 공기 흐름에 대한 데이터를 이용한다.)이라면, 유체역학Fluid Mechanics적 지식과 유체역학 실험에 대한 경험이 데이터 사이언스 기술보다 일억 오천만 배 중요하다. (153쪽)

데이터 사이언스를 하고자 다양한 도구들을 사용할 줄 아는 것도 중요하지만, 효율적으로 하기 위해서는 최신 데이터 분석 도구 대신 문제의 본질에 따라 그에 맞는 적절한 자원과 도구를 분배할 수 있어야 한다. 이것이 데이터 사이언스의 효용성을 높이는 가장 확실한 방법이다. (155쪽)

왜곡된 위험에 대해서 합리적인 의심을 하도록 도와주는 것은 감성적인 사고가 아니라 수학적인 사고이다(이것이 필자가 얘기하는 데이터 리터러시다). (161쪽)

세상은 크게 인지적 편향을 인식하는 자와 인식하지 못하는 자로 나뉘며, 이러한 편향을 인식한 자들 가운데서는, 이러한 편향을 이용하려는 자와 이용당하지 않으려는 자로 나뉜다고 봐도 된다. 그러면 인지적 편향을 이용하려는 자들은 누구인가? 이러한 부류의 대표 주자들은 정치인과 언론인이다. 그리고 정보를 독식하고 있는 부동산 중개인이나, 자동차 딜러, 자칭 전문가라는 가면을 쓰고 있는 펀드매니저, 미래를 내다볼 줄 안다는 예언가, 자기네 가게 물건이 싸다고 호객을 하는 점원 언니까지도 모두 이런 인지적 편향을 이용한다. (171쪽)

데이터 리터러시를 갖고 있다는 것은 어떤 의사결정이 필요한 문제를 과학적으로 접근해 모델링을 하고, 감정이나 감성이 아닌 합리적인 판단을 하도록 돕는 능력을 의미한다. 행동경제학은 바로 이러한 인지적 편향 문제를 해결해 나가는 학문이다. 행동경제학은 인간들이 이성적이고 합리적인 판단을 한다는 전제를 부수고 들여다보는 학문이기에, 개인이나 집단에서 표출되는 인간 습성의 데이터를 다루는 사회과학분야에서는 꼭 필요한 학문적 도구이다. 이러한 인지적 편향을 깨는 것들(행동경제학, 게임이론 등)을 잘 이용해야 데이터 리터러시를 갖게 된다. (173쪽)

요즘 경영이나 경제에 관련된 문제를 해결하는 데 있어서 데이터 기반 시스템을 구축하거나, 데이터 사이언스 기법을 이용하는 것이 추세이긴 하지만 이외에도 사용할 수 있는 수학적 기법은 많다. 게임 이론도 그러한 기법 중 하나이다. 데이터 사이언스를 이용해야 된다고 생각되는 많은 전략적 이슈나 경제학 관련 문제들도 생각보다 비교적 간단한 게임 모델로 해석 가능한 것이 많다. (181쪽)

어떤 문제에 대한 최적화된 문제 꼴을 찾고, 해당 문제 꼴을 쉽게 풀 수 있는 기법을 선정하는 것이 바로 시스템 및 프로세스 설계이다. 즉, 데이터 분석을 하기에 앞서 이 같은 프로세스 설계가 문제의 현상과 본질을 이해하고 적용하는 것이 더 중요하다. 데이터 분석보다 훨씬 더 말이다. (182쪽)

문제의 본질을 정확히 이해하고 파악하는 데 필요한 것이 리버럴 아트Liberal Arts(인문학)이다. 인문학 공부를 아주 간단하게 요약하면 미래에 발생할 문제를 해결하는 데 있어서 필요한 바탕과 기본을 공부하는 학문이라고 할 수 있다. 즉, 무엇이 문제이고 그 문제가 왜 일어났는지를 정확히 파악할 수 있어야 문제 정의를 할 수 있고 필요에 따라서는 데이터 사이언스를 이용해 문제 해결을 할 수 있다. 문제가 제대로 정의되지 못하면 아무리 뛰어난 분석을 한다고 해도 다 헛일이다. (197쪽)

리터러시는 정보를 읽고 이해하는 능력이다. 그 정보가 어떤 경로(책인지, 모니터인지, 킨들인지, 휴대폰인지 나아가 빅데이터인지, AI인지, 챗GPT인지)를 통해서 만들어지는지는 중요한 요소가 아니다. 리터러시를 향상하기 위해서는 주어진 문제의 문맥(상황)이나 인과관계를 논리적으로 추론할 수 있는 기본적인 소양을 갖추는 것이 중요하다. 이때 필요한 것이 수학적 사고력을 포함한 리버럴 아트, 인문학이다. (199쪽)

당신이 최신형 컴퓨터를 사려고 한다고 가정 해보자. 언제 사는 것이 좋을까? 컴퓨터가 필요한 바로 그 순간이다. 하지만 아무리 최신 컴퓨터라도 2~3년이 지나면 구닥다리가 된다. 그러니 필요하지도 않는데 지금 당장 컴퓨터를 구매하는 건 어리석은 짓이다. 기술이란 그런 것이다. 특히, 발전 속도가 빠른 기술은 더더욱 그렇다. 지금 내가 쓰고 있는 기술이 아무리 최신이어도, 1~2년이 지나면 구닥다리가 된다. 그리고 그 기술이 정말 혁신적인 기술이라면, 시간이 지날수록 점점 더 사용하기 편리해지고, 머지 않은 미래에 누구나 사용할 수 있도록 개선된다. 그리고 그때가 되면 지금의 잡지식들은 깡그리 쓸모없는 구닥다리가 된다. (208쪽)

챗GPT가 16세기에 나타나 그 당시의 지식을 학습했다고 가정해보자. 천동설이 주류였

좋은습관연구소의 36번째 습관은 “데이터를 읽는 습관”입니다. 작가는 데이터 읽는 습관으로 인문학적 소양 쌓기를 주장합니다. 그리고 수학자 출신답게 이를 뒷받침 하는 증명(?)으로 데이터에 관한 오해와 진실이 무엇인지 하나씩 소개합니다.

그 중 몇 가지를 소개하면 다음과 같습니다.

1. 양질의 데이터 100개가 이것저것 섞인 데이터 100만 개보다 낫다.

2. 데이터 분석은 어쨌든 모집단의 일부를 갖고서 분석하는 것으로 아무리 양질의 데이터이고, 많은 양이 있다 하더라도 결국은 진실에 가까운 추정치일 뿐이다.

3. 데이터 없이 분석결과를 얻을 수 있다면 그것이 최선이다.

4. 데이터 분석을 할 때 자주 하는 실수 중 하나가 ‘나의 데이터’ ‘남의 데이터’를 구분하지 못하는 것이다.

5. ‘당선 확률’은 당선의 미래를 예측하는 것이 아니라 미래의 오차 범위를 말하는 것이다. 그래서 “미래를 정확히 예측한다”는 말을 해서는 안 된다.

6. 데이터는 과거의 발자취일 뿐이다. 예측할 수 없다. 빅데이터를 분석한다는 것은 예측을 하기 위한 것이 아니라 패턴을 찾기 위한 것이다.

7. 분석에만 치중하다 보면 상식적인 판단이 헷갈려 엉뚱한 진단을 하는 수가 있다. 그래서 풀고자 하는 문제에 대한 통찰을 선행하는 것이 중요하다. 통찰은 결국 해당 문제 영역의 경험에서 나온다.

8. 데이터 리터러시 역량을 키운다는 것은 해결하려는 문제의 주어진 상황이나 인과관계를 논리적으로 추론할 수 있는 소양을 갖추는 것을 말한다.

9. 지금의 빅데이터가 몇 년 뒤에는 일반 데이터가 될 수도 있다. 그러니 빅데이터가 뭔가 대단한 것이라고 착각해서는 안 된다.

10. 인공지능이 표본화된 데이터를 학습한 만큼, 인공지능이 생성한 답이 반드시 진리일 수는 없다. 갈릴레오 시대의 인공지능이라면 “지구는 돈다”라고 말할 것이다.

11. 데이터 분석이 보장하는 것은 답의 진실성이 아니라, 데이터의 대표성임을 잊지 말자.

12. 문제의 본질을 읽는 것, 그래서 문제를 풀기 위해 어떤 도구를 쓸지 결정하는 능력, 그것이 곧 인문학적 능력이다.

아시다시피 데이터는 거짓말을 하지 않습니다. 거짓말을 하는 것은 데이터를 활용해 자신의 주장을 펼치는 사람입니다. 이책에서 강조하는 인문학적 소양은 바로 이러한 왜곡을 밝히고 잘못 이해하고 있는 오해를 진실과 구분짓는 데 필요한 능력입니다.

인문학적 소양이 부족하면 최신 기술을 빨리 익히는 힘은 물론이고, 기술에 앞서 풀고자 하는 문제의 본질을 보는 힘 또한 놓치게 됩니다. 이 책을 통해서 응용 수학자는 주장하는 데이터 사이언스과 인문학(고등학교 수준의 과학적 소양까지 포함한)의 중요성을 함께 고민해보았으면 합니다.

* 이런 분들에게 추천합니다.

1. 데이터 전문가로 현재 활동하고 있거나, 향후 전문가로 성장을 꿈꾸고 있는 입문자들

2. 데이터 전문가가 아닌 분 중에서는 데이터에 대한 특징을 이해해서 업무적으로 도움을 얻고자 하는 기획자, 마케터분들

인물정보

저자(글) 김송규

인물정보

대학/대학원 교수 컴퓨터공학자

Dr. Amang Kim

마카오 폴리텍 대학교 컴퓨팅 전공 교수로 데이터 사이언스, 소프트웨어 공학, 정보 보안 등을 가르치고 있다. 미국 플로리다 공대에서 컴퓨터 공학 석사와 경영 과학/오퍼레이션 리서치 박사 학위를 취득했다. 이후 삼성전자 무선사업부에서 일했으며, 필리핀 아시아 경영대학원, 아랍에미레이트 아부다비 경영대학원에서도 가르쳤다.

다양한 문화권에서의 경험과 자연, 공학, 경영을 넘나드는 넓은 스펙트럼으로 게임이론, 확률 모델과 같은 응용 수학 분야의 연구는 물론이고 머신 러닝을 이용한 생체 보안 시스템, 블록체인 기반의 네트워크 설계 및 데이터 기반의 경영 전략 모델 설계까지 여러 분야의 연구를 동시 다발적으로 하고 있다.

타국에서 한국의 뉴스를 접하며 정치, 경제, 교육, 문화에 대한 다양한 관점의 글을 소셜미디어에 쓰기도 한다.

현재 국제 전문가 조직인 IEEE(전자전기공학회) 시니어 회원이기도 하다.

brunch.co.kr/@amangkim

현) 마카오 폴리텍 대학교 컴퓨팅 전공 부교수
현) IEEE(전자공학회) 시니어 회원
전) UAE 칼리파 대학교 연구원
전) UAE 아부다비 경영대학원(ADSM) 부교수
전) 필리핀 아시아 경영대학원(AIM) 부교수
전) 삼성전자 무선사업부 책임연구원

인공지능은 생각하지 않는다
데이터는 예측하지 않는다

이 상품의 총서

전체선택

Klover리뷰 (0)

구매 후 리뷰 작성 시, e교환권 100원 적립

문장수집

구매 후 문장수집 작성 시, e교환권 100원 적립

소장 15,750 원