통계 파이썬
2025년 06월 26일 출간
- eBook 상품 정보
- 파일 정보 PDF (22.04MB) | 530 쪽
- ISBN 9791198949950
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

쿠폰적용가 11,250원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
제1장에서 통계학 학습과 파이썬 사용의 필요성과 예상 성과를 소개하고, 제2장은 파이썬의 특징 및 이용 방법과 파이썬 사용 기본 연산을 설명한다.
제3장 기술통계량과 제4장 중심경향 측정값과 분산, 제5장 확률 계산과 분할표 및 베이즈정리에서는 기술통계학과 진단통계학 수행의 방법론 및 관련 기법과 그 적용 방식을 파이썬 예제 풀이를 통해 학습한다.
제6장 확률변수와 확률분포, 제7장 표본조사 및 표본추출과 표본분포, 제8장은 추정과 신뢰구간, 제9장은 가설검정, 제10장은 ANOVA, 제11장은 상관분석과 산점도, 제12장은 회귀분석, 제13장은 시계열분석, 제14장은 카이제곱 검정과 비모수검정으로 구성하여 추론통계학과 예측 및 의사결정을 위한 규범통계학 관련 방법론과 수행기법에 대한 솔루션들을 파이썬 예제로 도출하였다.
파이썬 예제 풀이에서 통계학 원리에 따른 구체적 코딩, 반환 결과, 결과의 해석을 제공하여, 원리 적용을 위한 단순한 문제 풀이가 아니라 높은 확장성의 일반화 성과를 달성할 수 있도록 체계적 설명을 제공한다.
Section 1. 통계학과 데이터 2
1. 통계학의 개념과 기본 요소 2
1.1 통계적 사고의 필요성 2
1.2 통계학의 기본 요소 3
1.3 통계학 적용의 과제 4
2. 데이터 5
2.1 데이터의 개념과 종류 5
2.2 빅데이터의 개념과 특징 7
2.3 데이터 활용 방안 8
Section 2. 파이썬 10
1. 파이썬의 강점과 전문 라이브러리 10
1.1 파이썬의 강점과 전문 모듈 10
1.2 파이썬의 통계 전문 라이브러리 10
2. 파이썬과 관련 패키지 설치 11
2.1 파이썬 설치 11
2.2 PIP 인스톨 12
2.3 ANACONDA 인스톨 12
2.4 Jupyter Notebook 인스톨 13
2.5 데이터 처리 모듈 설치하기 14
Chapter 2. 파이썬 언어 및 테이터프레임과 기본 연산 15
Section 1. 파이썬 언어와 기초 연산자 16
1. 파이썬 언어 입력과 데이터 저장 16
1.1 파이썬 언어 16
1.2 데이터 저장과 파일 읽기 16
2. 파이썬의 기초 연산자 18
2.1 파이썬 이용 산술 연산 18
2.2 파이썬의 할당연산자 19
2.3 비교연산자 20
Section 2. 숫자 및 통계 기본 함수 21
1. 숫자 및 날짜 관련 파이썬 기본 함수 21
1.1 숫자 관련 파이썬 기본 함수 21
1.2 날짜 관련 파이썬 기본 함수 22
2. 통계 관련 기본 함수와 데이터프레임 구조 22
2.1 통계 관련 파이썬 기본 함수 22
2.2 데이터프레임의 구조 23
Chapter 3. 기술통계량 및 데이터 시각화와 도수분포 작성 24
Section 1. 기술통계량과 데이터 시각화 25
1. 기술통계량의 성분과 특성 25
1.1 기술통계량의 성분 25
1.2 기술통계량의 특성 25
2. 탐색적 데이터분석과 데이터 시각화 26
2.1 탐색적 데이터분석과 주요 도구 26
2.2 시각화의 목적 27
2.3 차트의 역할 및 유형과 적용 방식 27
3. 도수분포의 원리와 교차표 28
3.1 도수분포의 원리 28
3.2 교차표 30
Section 2. 정성데이터와 정량데이터 도수분포 작성 33
1. 정성데이터 도수분포 작성과 차트 작성 33
1.1 정성데이터의 도수분포 작성 33
1.2 정성데이터의 도수분포 차트 작성 35
1.2.1 히스토그램 작성 36
1.2.2 누적상대도수분포곡선 작성 37
1.2.3 파레토차트 작성 38
2. 정량데이터 도수분포 작성과 차트 작성 40
2.1 정량데이터의 도수분포 작성 40
2.2 정량데이터의 도수분포 차트 작성 45
2.2.1 정량데이터의 히스토그램 작성 45
2.2.2 정량데이터의 누적(상대)도수분포곡선 작성 47
2.2.3 정량데이터의 점도표와 상자-스웜 통합플롯 작성 48
2.2.4 정량데이터의 줄기-잎 도표 작성 49
2.2.5 파이차트 작성 50
Chapter 4. 중심경향 측정값과 분산 및 모양 52
Section 1. 중심경향 측정값 및 위치 측정값 53
1. 중심경향 측정값의 개념 53
1.1 평균의 개념 53
1.2 최빈값, 중앙값, 중점치 55
2. 상대적 위치 측정값의 개념 56
2.1 표준점수 56
2.2 백분위수 56
2.3 사분위수 및 십분위수 57
3. 중심경향 측정값과 위치 측정값의 파이썬 계산 58
3.1 산술평균, 중앙값, 중점치의 NumPy 계산 59
3.2 산술평균, 중앙값, 분위수의 Pandas 계산 60
3.3 기하평균, 조화평균, 절사평균, 이차평균, 최빈값의 Scipy 계산 60
3.4 가중평균의 Pandas 계산 61
Section 2. 변동성 측정과 분포 모양 분석 63
1. 변동성 측정값의 개념과 종류 63
1.1 변동성 측정값의 개념 63
1.2 범위 63
1.2.1 데이터 범위 63
1.2.2 사분위수 범위와 준사분위수 범위 64
1.2.3 10-90 백분위수 범위 65
1.2.4 특이값의 계산 65
1.3 평균편차 66
1.4 분산과 표준편차 66
1.5 표준편차 활용 68
1.5.1 체비셰프 정리 68
1.5.2 정규법칙 68
1.5.3 변동계수 69
2. 변동성 측정값의 파이썬 계산 69
2.1 범위의 NumPy 및 Pandas 계산 70
2.2 분산 및 표준편차의 계산 71
2.3 평균절대편차의 NumPy 및 Pandas 계산 72
2.4 사분위수 범위와 10-90 백분위수 범위의 계산 73
3. 분포 모양 측정값의 개념 73
3.1 왜도의 개념 74
3.2 첨도의 개념과 분포의 형태 75
4. 분포 모양 측정값의 파이썬 계산 76
4.1 왜도의 Pandas 및 Scipy 계산 76
4.2 첨도의 Pandas 및 Scipy 계산 77
4.3 도수분포곡선 작성을 통한 분포 모양 확인 77
Chapter 5. 확률 계산과 분할표 및 베이즈정리 82
Section 1. 사상과 확률 계산 83
1. 사상과 집합 83
1.1 확률실험 83
1.2 집합과 표본공간 83
1.3 사상의 개념과 종류 85
2. 확률의 개념과 계산 85
2.1 확률의 개념 85
2.2 확률 계산의 접근법 86
3. 카운팅 법칙과 확률 계산법칙 88
3.1 카운팅 법칙 88
3.2 확률 계산법칙 89
4. 파이썬 사용 확률 계산 92
4.1 무작위 동전 던지기 앞면 확률 계산 92
4.2 무작위 동전 던지기 시뮬레이션과 앞면 확률 계산 93
4.3 시뮬레이션의 점도표 작성 94
4.4 계승 및 순열과 조합 계산 95
Section 2. 조건부확률 및 분할표와 베이즈정리 96
1. 조건부확률과 결합확률 96
1.1 조건부확률과 결합확률 96
1.2 독립사상의 조건부확률과 결합확률 97
2. 분할표와 베이즈법칙 98
2.1 분할표와 결합확률 및 주변확률 98
2.2 베이즈법칙과 통시적 해석 99
3. 파이썬 사용 분할표 작성과 베이즈법칙 풀이 101
3.1 파이썬 사용 분할표 작성 101
3.1.1 교차표 작성 101
3.1.2 결합확률 및 주변확률 분포표 작성 102
3.1.3 행 차원 기반 조건부확률 분포표 작성 103
3.1.4 열 차원 기반 조건부확률 분포표 작성 104
3.1.5 교차표의 막대그래프 작성 104
3.1.6 교차표의 상자도표 작성 105
3.1.7 교차표의 스웜플롯 통합 바이올린플롯 작성 106
3.1.8 범주별 도수 막대그래프 비교 107
3.1.9 범주별 도수 커널밀도플롯 비교 107
3.2 파이썬 사용 베이즈법칙 풀이 108
Chapter 6. 확률변수와 확률분포 112
Section 1. 확률변수와 확률분포 및 기대치 113
1. 확률변수 개념과 파이썬 난수 생성 113
1.1 확률변수의 개념과 종류 113
1.2 파이썬의 난수 생성 114
1.2.1 random 모듈 사용 난수 생성 114
1.2.2 numpy.random 함수 사용 난수 생성 117
2. 확률변수의 확률분포와 기대치 119
2.1 확률분포의 개념 119
2.2 확률변수의 기대치와 분산 119
Section 2. 이산확률분포와 연속확률분포 122
1. 이산확률분포 122
1.1 이산확률분포의 개념 122
1.2 파이썬의 확률 계산과 확률변수 생성 함수 124
1.3 이산균일분포 125
1.4 베르누이 시행과 이항분포 129
1.4.1 베르누이 확률시행 129
1.4.2 이항분포 130
1.5 포아송분포 133
1.6 초기하분포 136
2. 연속확률분포 139
2.1 연속확률분포의 개념 139
2.2 균일분포 141
2.2.1 균일분포의 개념 141
2.3 지수분포 143
2.4 정규분포 147
2.4.1 정규분포와 표준정규분포 147
2.4.2 정규분포의 특징과 경험법칙 148
2.4.3 파이썬을 통한 정규확률변수 특징 분석 150
2.5 중심극한정리와 몬테카를로 시뮬레이션 152
2.5.1 중심극한정리의 개념 152
2.5.2 시뮬레이션기법과 몬테카를로방법 152
Chapter 7. 표본조사 및 표본추출과 표본분포 161
Section 1. 표본조사와 표본추출 162
1. 지식탐구와 표본조사 162
1.1 과학적 방법 162
1.2 조사의 접근법과 요건 164
1.3 표본조사의 장점과 수행절차 165
2. 표본추출 166
2.1 표본추출의 개념 166
2.2 표본추출 편향과 표본오차 168
2.3 확률표본추출 170
2.3.1 확률표본추출의 개념 170
2.3.2 확률표본추출의 방법 170
2.3.3 파이썬의 random 함수 사용 단순무작위표본추출 173
2.4 비확률표본추출 174
2.4.1 비확률표본추출의 개념 174
2.4.2 비확률표본추출의 방법 175
Section 2. 통계적 추론과 표본분포 178
1. 통계적 추론과 표본통계량 178
1.1 통계적 추론과 추정량 및 추정치 178
1.2 표본통계량 179
2. 표본분포 181
2.1 표본분포의 개념 181
2.2 평균의 표본분포 182
2.3 평균 표본분포의 기대치와 표준편차 183
2.4 표본 수와 표본크기의 결정방법 189
2.5 이항분포의 정규근사치와 연속성 수정 191
3. 기타 표본분포 196
3.1 기타 표본 통계량 표본분포 196
3.2 t분포 196
3.2.1 t분포의 개념과 특성 196
3.2.2 파이썬 사용 t분포 통계량과 확률 계산 197
3.3 카이제곱분포 202
3.3.1 카이제곱분포의 개념과 특성 202
3.3.2 파이썬 사용 카이제곱분포 통계량과 확률 계산 204
3.4 F분포 209
3.4.1 F분포의 개념과 특성 209
3.4.2 파이썬 사용 F분포 통계량과 확률 계산 211
Chapter 8. 추정과 신뢰구간 216
Section 1. 점 추정과 구간추정 217
1. 점 추정과 점 추정량 217
1.1 점 추정과 점 추정량 및 점 추정치 217
1.2 추정량의 요건 218
1.3 점 추정 사용의 문제점 219
2. 구간추정 220
2.1 구간추정의 개념과 성분 220
2.2 신뢰구간의 개념과 추정 절차 221
Section 2. 평균과 점 추정과 구간추정 223
1. 파이썬 사용 모집단 평균의 구간추정과 표본크기 결정 223
1.1 모집단 평균의 구간추정 : 모집단 분산을 아는 경우 223
1.2 모집단 평균의 구간추정 : 모집단 분산을 모르는 경우 227
1.3 모집단 평균 추정 최소 표본크기 결정 228
1.4 부트스트랩 230
2. 모집단 비율 및 분산의 구간추정 232
2.1 모집단 비율의 구간추정과 표본크기 결정 232
2.2 모집단 분산의 구간추정 236
Chapter 9. 가설검정 240
Section 1. 가설검정 원리 241
1. 가설검정 원리 241
1.1 가설검정의 개념 241
1.2 가설의 분류 242
2. 가설검정 의사결정과 수행 절차 243
2.1 가설검정의 의사결정 243
2.2 가설검정 의사결정의 오류와 기각역 구분 244
2.3 가설검정의 절차 246
Section 2. 표본 검정 248
1. 단일표본 검정 248
1.1 일 표본 t-검정 248
1.2 비율 z-검정 251
1.3 분산 및 표준편차의 가설검정 252
2. 두 표본 가설검정의 원리와 절차 256
2.1 두 표본 가설검정의 원리 256
2.2 독립표본들의 평균 차이 검정 257
2.2.1 독립표본들의 평균 차이 검정 절차 257
2.2.2 두 독립표본평균 차이 검정 원리 259
2.3 두 종속표본평균 차이 검정 260
2.4 두 독립표본비율 차이 검정 261
2.5 두 표본분산 차이 검정 263
3. 두 표본 가설검정의 파이썬 예제 풀이 264
3.1 두 독립표본 t-검정 : 동일 모집단 분산 양측검정 264
3.2 두 독립표본 t-검정 : 다른 모집단 분산 양측검정 265
3.3 두 독립표본 t-검정 : 동일 모집단 분산 우측 단측검정 267
3.4 두 독립표본 t-검정 : 동일 모집단 분산 좌측 단측검정 268
3.5 두 독립표본평균 차이 z-검정 269
3.6 파이썬 ztest 사용 두 독립표본평균 차이 z-검정 270
3.7 파이썬 rp.ttest 사용 두 독립표본평균 차이 t-검정 271
3.8 파이썬 rp.ttest 사용 두 쌍체표본 t-검정 274
3.9 파이썬 proportions_ztest 사용 두 표본비율 z-검정 278
3.10 파이썬 사용 두 표본분산 차이 F-검정 279
Chapter 10. ANOVA 282
Section 1. 실험디자인과 ANOVA 원리 283
1. 통계적 실험과 실험 디자인 283
1.1 통계적 실험 283
1.2 실험 디자인 283
2. ANOVA 원리 및 종류 284
2.1 ANOVA의 원리 284
2.2 ANOVA의 종류 286
Section 2. 일원 ANOVA 289
1. 일원 ANOVA의 개념과 수행절차 289
1.1 일원 ANOVA의 개념과 특징 289
1.2 일원 분산분석의 수행절차 291
2. 일원 분산분석 파이썬 풀이 294
2.1 일원 분산분석 파이썬 풀이 방법 294
2.2 표본크기가 다른 데이터들의 평균 비교 295
2.3 표본크기가 같은 데이터들의 평균 비교 299
2.4 범주별 데이터 분할과 평균 비교 304
Section 3. 이원 ANOVA 311
1. 비반복 이원 분산분석 원리와 수행 방식 311
1.1 이원 분산분석의 원리 311
1.2 비반복 이원 분산분석의 수행 방식 311
2. 비반복 이원 분산분석 파이썬 풀이 314
Section 4. 반복 이원 ANOVA 324
1. 반복 이원 ANOVA의 원리와 수행 방식 324
1.1 반복 이원 ANOVA의 원리 324
1.2 반복 이원 ANOVA의 수행 방식 325
2. 반복 이원 ANOVA의 파이썬 풀이 327
Chapter 11. 상관분석과 산점도 336
Section 1. 상관분석과 공분산 337
1. 상관분석과 공분산 개념 337
1.1 상관관계와 선형관계 337
1.2 공분산 338
2. 상관계수와 상관관계 검정 341
2.1 상관계수의 계산 원리 341
2.2 상관계수의 해석 342
2.3 상관관계 검정 343
Section 2. 산점도 348
1. 산점도 개념과 해석 348
1.1 산점도의 개념과 작성절차 348
1.2 산점도 모양과 상관계수의 방향 및 강도 348
2. 파이썬 사용 산점도 작성 350
2.1 두 상관계수 비교 산점도 작성 350
2.2 특이값 제외 산점도 작성 353
Chapter 12. 회귀분석 356
Section 1. 회귀분석 원리와 단순회귀분석 357
1. 회귀분석 원리 357
1.1 회귀의 개념과 목적 357
1.2 회귀분석의 본질 358
1.3 회귀분석의 종류 360
2. 단순회귀분석 360
2.1 단순선형회귀 360
2.2 회귀 적합도와 특이값 영향력 탐색 362
2.2.1 스튜던트화 제거된 잔차 362
2.2.2 레버리지 363
2.2.3 Mahalanobis D 363
2.2.4 dfbeta와 dfbetas 364
2.2.5 Cook D 364
2.3 적합도 진단 플롯 365
2.4 파이썬 사용 단순선형회귀 수행 366
2.5 회귀분석의 신뢰구간과 예측구간 372
Section 2. 다중회귀 374
1. 다중회귀분석 원리 374
1.1 다중회귀분석의 본질 374
1.2 다중회귀분석 모델 설정 375
1.3 다중회귀분석의 검정통계량 376
2. 파이썬 사용 다중회귀분석 378
Chapter 13. 시계열분석 393
Section 1. 시계열분석 원리와 시계열 분해 394
1. 시계열 데이터 본질과 플롯 작성 394
1.1 시계열 데이터의 본질 394
1.2 파이썬 시리즈 플롯 작성 395
2. 시계열 데이터의 분해 398
2.1 시계열의 4대 결정요인 398
2.2 파이썬 날짜 표시 399
2.3 추세분석 파이썬 풀이 400
2.4 순환변동분석의 파이썬 풀이 403
2.5 계절변동분석 405
2.5.1 계절변동분석 원리 405
2.5.2 계절변동 분해의 파이썬 풀이 406
Section 2. 시계열 예측 413
1. 시계열 예측의 본질과 수행 413
1.1 시계열 예측의 개념과 종류 413
1.2 시계열 예측의 수행과 요건 414
1.3 일변량 시계열 예측의 특징 416
2. 지수평활 예측 418
2.1 평활과 Pandas rolling & mean 방법 418
2.2 지수평활과 파이썬 활용 422
3. 시계열 데이터의 정상성과 ARIMA 모델 426
3.1 시계열 데이터의 정상성 426
3.1.1 정상성과 백색잡음 및 랜덤워크 426
3.1.2 시계열 정상성 규명 427
3.2 시계열의 자기상관 검정 429
3.2.1 더빈-왓슨 통계량 429
3.2.2 ADF 검정과 가성회귀문제 430
3.3 ARIMA 모델과 SARIMAX 431
3.3.1 ARIMA 모델 431
3.3.2 SARIMAX 모델 433
3.4 시계열 예측의 정확성 평가 434
3.5 ARIMA 모델과 SARIMA 모델의 파이썬 풀이 435
Chapter 14. 카이제곱 검정과 비모수검정 439
Section 1. 카이제곱 검정 440
1. 적합성 검정 440
1.1 적합성 검정 원리 440
1.2 적합도 카이제곱 검정법의 특징 440
1.3 적합도 카이제곱 검정방법의 수행절차 441
1.4 적합도 카이제곱 검정방법의 파이썬 풀이 442
2. 독립성 검정 445
2.1 독립성 검정의 개념 445
2.2 독립성 카이제곱 검정의 수행 절차 446
2.3 독립성 카이제곱 검정의 파이썬 풀이 447
Section 2. 비모수검정 452
1. 비모수검정의 개념과 수행 원리 452
1.1 비모수검정의 개념과 장점 452
1.2 비모수검정의 단점 454
1.3 비모수검정의 수행 원리와 가정 454
2. 비모수검정의 파이썬 풀이 455
2.1 연 검정 455
2.1.1 연 검정의 원리 455
2.1.2 연 검정의 파이썬 풀이 457
2.2 부호검정 458
2.2.1 부호검정의 수행 원리 458
2.2.2 일표본 부호검정 파이썬 풀이 459
2.2.3 쌍체표본 부호검정 파이썬 풀이 460
2.3 윌콕슨 순위합 검정 462
2.3.1 윌콕슨 순위합 검정의 개념과 수행 원리 462
2.3.2 윌콕슨 순위합 검정 파이썬 풀이 464
2.4 윌콕슨 부호순위검정 466
2.4.1 윌콕슨 부호순위검정의 원리 466
2.4.2 윌콕슨 부호순위검정 파이썬 풀이 467
2.5 크러스칼-왈리스 검정 468
2.5.1 크러스칼-왈리스 검정의 원리 468
2.5.2 크러스칼-왈리스 검정 파이썬 풀이 470
2.6 스피어먼 순위상관 검정 472
2.6.1 스피어먼 순위상관 검정의 원리 472
2.6.2 스피어먼 순위상관 검정 파이썬 풀이 474
<참고 문헌> 477
[한글 색인] 485
[숫자 및 영문 색인] 495
1. 통계학의 개념과 기본 요소
1.1 통계적 사고의 필요성
통계학(Statistics)은 의사결정을 하기 위해 데이터를 수집, 정리, 요약, 분석, 해석하고, 데이터에서 결론을 도출하는 방법을 연구하는 학문이다.
통계학의 과제
● 분석 집단의 데이터 및 숫자 표시 사실을 수집․요약․정리하여 정보를 구성
● 수집 정보를 분석․해석하여 결론이나 일반성을 도출
● 정보 수집, 분석·해석, 결론 도출, 일반화에 관한 제반 원칙과 방법론 규명
의사결정(decision making)은 우리 생활의 중요한 측면이며, 우리는 보유한 정보, 태도, 가치관에 따라 결정을 한다. 그리고 통계적 사고(Statistical thinking)는 통계학을 통해 복잡한 세계를 쉽게 이해하는 방법이다.
● 통계적 의사결정을 위해서는 데이터 수집과 수집한 데이터를 해석하여 정보에 입각한 결정을 해야 한다.
● 통계적 사고는 복잡한 현상이라도 간단하게 가려운 곳(scratch)을 설명하여 그 구조나 기능의 본질적인 측면을 포착하게 하고, 그러한 정보나 지식에 관련된 불확실성 정도를 어느 정도 이해할 수 있게 해준다.
● 통계적 사고는 수학과 통계학뿐만 아니라 컴퓨터 과학, 심리학 및 기타 학문 분야에 적용되는 전방위적 방법이다.
● 통계적 사고는 세상을 정확하게 설명할 가능성이 낮은 다른 형태의 사고와는 구별되는 최적의 성과를 제공한다.
● 자신의 감으로 파악하여 행동을 결정하는 인간의 직관(human intuition)에 의한 신중한 생각 없는 판단을 휴리스틱(heuristics)이라고 한다.
● 직관은 기껏 추측(best guesses)에 의존하므로 틀리는 경우가 더 많기 때문에, 아무런 결정 없이 현상을 그대로 방치하는 무대책보다 못할 수 있다.
● 사람들은 폭력 범죄 등의 어떤 사건에 대한 유병률(prevalence)을 판단하는 데 통계적 사고가 아니라 쉽게 사례를 얻을 수 있는 가용성 휴리스틱(availability heuristic)에 의존한다.
● 실제 범죄율이 감소하는 상황에서도 범죄율 뉴스 보도 증가에 따라 유병률이 더 증가한다고 판단하는 편견에 빠진다.
● 통계적 사고는 세상을 더 정확하게 이해하고 인간 판단의 편견(biases)을 극복할 수 있는 도구를 제공한다[Poldrack(2023), 1].
1.2 통계학의 기본 요소
통계 연구는 실험연구와 관찰연구로 구분한다. 따라서 통계적 방법은 실험단위 또는 관측단위의 모집단에 관한 연구, 분석, 학습을 목적으로 적용한다.
● 실험단위(experimental unit) 또는 관측단위(observational unit)는 데이터를 수집하는 대상인 객체(object)이며, 사람, 사물, 거래 또는 사건 등이 있다.
● 실험은 어떤 변수의 값이 여타 변수들을 일정하게 한 상황에서 다른 변수나 다른 변수들의 변화에 따라 영향을 받아 변동하는 효과를 검토하는 연구이다.
● 연구에 포함되는 사람이나 객체는 연구하는 처리(처치)를 받는 처치그룹과 비교를 위한 관련 처치를 받지 않는 대조그룹으로 구성한다.
● 설문조사(surveys)는 직접 관찰이 어려운 경우에 설문지나 기타 유사한 수단으로 참가자들의 응답에서 데이터를 수집하는 프로세스이다.
● 설문조사는 참가 대상에 제한을 두지 않는 비공식적으로 참가를 희망자에게 개방되거나, 특정 그룹이나 개인들을 대상으로 하거나 무작위로 선정한 사람들을 대상으로 한다.
● 모집단(population)은 연구하려는 단위들의 집합이며, 보통 사람, 객체, 거래, 사건들을 연구한다.
● 모집단은 관찰대상의 전체 값들로 구성되어 있으면서, 숫자 표시 가능 데이터 집합(set of quantifiable data)의 전체집단(universe)이다.
● 모집단 모수(population parameters)는 모집단의 한 측면을 설명하는 숫자 측정치이며, 모집단을 요약하여 하나의 값으로 표시한 척도인 모집단의 특성 표시 숫자(numerical characteristics)이다.
● 표본(sample)은 관찰 대상의 측정과 평가를 위해 모집단에서 가려 뽑은(추출한) 일부로서 모집단 단위들의 부분집합이다.
● 표본 통계량(sample statistics)은 표본의 한 측면을 설명하는 숫자 측정치이며, 가설검정 수행을 위해 표본을 요약하여 하나의 값으로 표시한 표본 특성의 숫자 표시 측정값이다.
● 변수(variables)는 어떤 사상, 행동, 특징, 특성, 속성 등을 측정하기 위해 사용하는 부호이며, 다른 값들을 가질 수 있다. 예를 들어 특정 지역의 청년 실업자에 대해 연령, 성별, 소득, 교육수준 등의 변수를 조사할 수 있다.
● 변수는 분석할 대상에 대해 대문자 X, Y, Z 등으로 표시하며, 개체인 변수 X가 갖는 특성치인 측정치(관찰치)를 ,.., 등으로 표시한다.
● 측정(Measurement)은 개별 모집단 단위의 변수들에 숫자를 할당하는 프로세스이다.
● 변수는 비숫자 데이터를 포함하는 범주변수(categorical variables)와 집계되거나 측정된 양을 표시하는 수치변수(numerical variables)로 구분한다. 그리고 수치변수의 값들이 우연에 의해 결정되는 변수를 확률변수(random variables)라고 하며, 확률에 따라 값을 다르게 갖는다.
● 변수는 떨어진 점들에서 관찰값을 가져 집계하여 데이터를 작성할 수 있는 이산변수(discrete variable)와 지정된 값들 구간에서 어떤 점에 있는 값을 갖는 연속변수(continuous variable)로 구분한다.
1.3 통계학 적용의 과제
통계학은 보통 각종 데이터를 이용하는 숫자 표시 설명(numerical descriptions)을 의미하지만, 통계학의 과학적 탐구(scientific inquiry)는 체계적 학습과정(systematic process of learning)을 수행하는 것이다.
● 과학적 탐구는 조사 목표 설정 및 연구 수행 계획의 설계(design), 관련 사실 정보나 데이터의 수집, 데이터분석, 결론 도출, 추가 행동방침(courses of action) 결정, 피드백 계획과 성과개선 시나리오 작성으로 수행된다.
● 다음의 3대 과학적 탐구 과제에 따라 통계학을 효과적이며 적용할 수 있다.
① 설명(Describe) : 세상은 복잡하므로, 쉽게 파악하도록 간단하게 설명해야 한다.
● 실험 디자인(experimental design)으로 사실 정보(Factual information)의 데이터 수집 방식 및 범위를 계획한다.
● 수집한 데이터를 탐색하여 데이터에 숨겨진 패턴을 찾고, 데이터 집합에서 나타나는 정보 및 현저한 특징을 요약하고, 편리한 형태로 정보를 제시하여 설명하는 기술통계학(descriptive statistics)의 방법들을 적용한다.
● 기술통계학은 데이터의 수집, 정리, 요약, 표시 및 제시 방법들로 구성된다.
② 결정(Decide) : 불확실성에 직면하여 데이터를 기초로 결정을 내리기 위해 추론통계학(Inferential statistics)의 방법들을 적용한다.
● 추론통계학은 현상의 적합한 설명으로 인과관계(causality)를 규명하도록 표본(sample)을 사용하여 모집단에 대한 결론을 도출한다.
● 추론통계학은 통계적 추론(statistical inference) 방법을 사용하여 표본에서 추정치를 계산하여 모집단으로 일반화하고, 추정 및 가설검정으로 변수들의 관계를 파악하여 결정하고, 예측하며, 여타 일반화를 수행한다.
● 추정(estimation)은 입력 데이터를 사용하여 어떤 목적에 사용할 수 있는 값을 구하도록 추정치나 근사치를 찾는 프로세스이다.
● 통계적 가설검정(statistical hypothesis test)은 데이터가 특정 가설을 충분히 지지하는 여부를 결정하기 위해 사용하는 통계적 추론방법이다.
● 통계적 가설검정은 검정통계량(test statistic)을 계산하여, 주어진 유의수준에 대한 임계값이나 검정통계량의 P-값을 비교하여 통계가설이라고 하는 귀무가설의 채택 여부를 결정한다.
● 추론통계학의 어떤 사상의 발생 가능성인 확률(probability)을 도구로 사용하는 추정(estimation)으로 모집단 매개변수(모수)의 근사치(approximate value)를 결정하고, 제시된 모집단에 관한 주장(claims)을 평가하는 모집단들의 차이분석과 연관분석에 대한 가설검정(hypothesis testing)을 수행한다.
③ 예측(Predict) : 과거 상황에 대한 지식을 기초로 새로운 상황에 대한 예측과 대응 의사결정(decision making)을 수행한다[Poldrack(2023), 2].
2. 데이터
2.1 데이터의 개념과 종류
데이터(data)는 변수들이 가질 수 있는 값이며, 측정이나 관측의 결과물인 사실이나 아이디어의 집합이다.
● 데이터는 관측, 셈, 측정 또는 응답에서 얻은 정보로 구성되며, 숫자, 단어, 기호 등으로 표시되는 데이터값들의 모음은 데이터 집합(data set)을 형성한다.
● 데이터값(data value)은 데이터 집합의 각 값 또는 변수의 각 값이며, 데이터(datum)라고도 한다.
● 데이터는 표시형태에 따라 정량데이터(quantitative data)와 정성데이터(qualitative data)로 구분한다.
● 정량데이터는 측정값 또는 개수(counts)인 숫자들로 표시된 값들을 갖는 데이터이다.
● 정성데이터는 속성, 레이블 또는 비숫자 항목으로 구성되며, 일람표(list)로 만들 소비자 선호 등과 같이 범주별 특징들로 구분되는 데이터이다.
● 데이터는 수집원천에 따라 1차 자료(primary data)와 2차 자료(secondary data)로 구분한다.
● 1차 자료는 개인 면담이나 설문지 등으로 특정 대상에서 수집한 조사자료이다.
● 2차 자료는 해당 조사가 아니라 다른 연구 목적을 위해 수집된 자료이며, 보고서, 출판물, 인터넷 등을 통해 획득할 수 있는 자료이다.
● 데이터는 수집 대상에 따라 모집단 데이터(population data)와 표본 데이터(sample data)로 구분한다.
● 모집단 데이터는 관측 대상의 모든 개인의 데이터이다.
● 표본 데이터는 관측 대상 중 일부 개인의 데이터이다.
● 표본 데이터는 모집단에 대한 결론 도출에 사용할 수 있도록 무작위 표본추출과 같은 적절한 방법을 사용하여 수집해야 한다.
● 데이터 집합이 모집단 또는 표본의 여부는 실제 상황의 맥락에 의해 좌우된다. 통계량은 표본 특성을 설명하는 숫자이다.
● 데이터는 측정 수준에 따라 명목(nominal), 서열(ordinal), 등간(interval), 비율(ratio)데이터로 구분한다.
● 명목 수준의 데이터는 정성데이터만을 포함한다. 이름, 레이블 또는 특성을 사용하여 분류한다.
● 명목 수준 측정은 상호 배타적이어서 중복되지 않는 범주로 구분하며, 어떤 순서나 순위를 부과할 수 없다.
● 서열 수준의 데이터는 정성변수나 정량변수일 수 있다. 순서에 따라 배열할 수 있지만, 데이터 항목 간의 차이는 의미가 없다.
● 서열 수준 측정은 순위를 매길 수 있는 범주로 분류하지만, 순위 간의 정확한 차이는 존재하지 않는다.
● 등간 수준의 데이터는 정렬할 수 있고, 데이터 항목 간의 의미 있는 차이를 계산할 수 있다[Brase et al.(2023), 4-5; Larson(2023), 3-4, 9-11].
● 등간 수준에서 0(zero) 항목은 단순히 척도에서의 위치와 관련 순위를 나타내지만, 그러한 0항목은 고유한 0(inherent zero)이 아니다.
● 비율 수준의 데이터는 등간 수준의 데이터와 유사하지만, “없음”을 의미하는 고유한 0의 특성을 갖는 0항목이 있는 추가 속성을 갖는다.
● 두 데이터 항목의 비율을 형성하여 하나의 데이터 항목이 다른 데이터 항목의 배수로 표시할 수 있다.
● 비율 수준의 측정은 등간 측정의 모든 특성을 갖고, 또한 진정한 0항목으로 동일한 변수를 모집단의 다른 두 원소로 측정할 수 있다.
역시 파이썬은 훌륭하다. 통계학 원리의 학습과 상황 파악 및 데이터 수집, 분석, 진단, 추정, 예측, 의사결정을 수행하는 데 어떤 패키지보다도 포괄적이며, 간단하고 일관적인 방법과 명확한 적용 방식을 파이썬은 제공한다.
파이썬과 함께하는 통계학 학습과 관련 데이터 처리는 Excel 스프레드시트, Excel VBA, R뿐만 아니라, SAS, SPSS, Minitab, Stata, Eviews 등의 통계패키지 외에도 Oracle Crystal Ball, Palisade @RISK 등의 위험관리 및 의사결정 패키지를 사용하는 것에 비해 비용이 들지 않고, 많은 노력을 요구하지도 않으면서 아주 큰 성과를 달성한다.
그동안 Excel 스프레드시트를 이용하여 통계학 원리 및 각종 분야의 데이터 처리 방법론의 예제를 통해 분석하고, 적용하며, 활용 방안을 도출하면서 아주 편리하고 다채로운 기능들과 그 확장성에 큰 감명을 받았다.
Excel의 활용도를 높일 수 있도록 다양한 분야의 데이터와 관련 문제의 처리에 많이 사용되는 Excel VBA와 R을 배워서 고가의 통계 패키지를 대체하려고 많은 시도를 하였다. 그렇지만 Excel의 매크로 기능과 복잡한 VBA 창에 시작부터 주눅 들었고, R의 코딩방식은 프로그래밍의 기초가 없이 배우기에는 장벽들이 너무 많았다.
특히 빅데이터의 발달과 함께 부상되는 파이썬의 인기를 보았지만, Excel VBA나 R처럼 복잡한 입력창과 난해한 코딩을 하는 것인 줄 미리 겁을 먹고 Excel 스프레드시트에 치중하면서 엄청난 부족감을 느꼈다.
그러나 실제로 파이썬에 대하여 문제를 하나씩 풀면서 간단한 수식, 명확하면서 일관적 방식의 함수 구성, 다양한 분야에 대해 개발된 각종 패키지와 실용적 함수들을 경험하였다. 그리고 함수들을 적용하고, 익히는데 노력보다는 성과와 만족도가 너무나 크게 달성되었다. 파이썬의 발달한 패키지와 각종 함수의 경험은 엄청나게 진한 감동이며, 이 책을 작성하면서 함수를 적용하고 차트를 작성하는 순간마다 감동들이 더해지는 것을 체험하고 있다.
중요한 것은 파이썬이 공개 패키지이며, 매일 계속 개선되어 발달한 함수들이 제공된다는 것이다. 파이썬에는 재사용이 가능한 많은 함수를 포함하는 코드 모음인 라이브러리가 수십만 개 이상이 제공되며, 데이터의 시각화 및 처리에 Matplotlib, Seaborn, Pandas, NumPy, Scikit-learn, Pingouin, Statmodels 등의 모듈을 사용할 수 있다.
이제 파이썬은 계속 개선된 함수들로 개발되어 제공된다는 점에서 데이터 처리와 통계적 사고의 수행을 통한 효과적인 의사결정의 선도적 역할을 수행할 것이다. 이러한 파이썬 학습의 시대적 과제에 부응하여, 이 책으로 실생활에 필요한 통계학의 주요 원리에 대한 학습과 함께 파이썬 역량 확보에 도움을 받길 바란다.
작가정보
저자(글) 문창권
배재대학교 무역물류경영학과 명예교수, 건국대학교 대학원 경제학박사/경영지도사
엑셀로 풀자! 회귀분석(2006), 통계학 기초 : 알기 쉬운 엑셀풀이(2008),
통계․엑셀 2013 : 쉬운 실무분석(2015), 엑셀 2016 단계별 분석(2019),
One-Stop 비모수 데이터분석(2023), One-Stop 데이터분석 실무(2023),
회귀분석실무 : Excel사용 단계별 접근(2024), Excel차트 시각화 실무(2024),
머신러닝·딥러닝 실무 예제풀이(2024), 상관관계와 신뢰도검정 실무(2024),
요인분석 실무 가이드(2024), 조사방법 패러다임과 기법(2024)
저자(글) 문영필
로지스경영전략연구소 연구위원
컨설팅학 석사/경영지도사
SPSS 첫걸음 단계별 분석(2019), 엑셀 2016 단계별 분석((2019)
One-Stop 비모수 데이터분석 : Excel 하나로(2023)
One-Stop 데이터분석 실무 : Excel 하나로(2023)
회귀분석실무 : Excel사용 단계별 접근(2024), Excel차트 시각화 실무(2024)
조사방법 : 패러다임과 기법(2024), 요인분석 실무 가이드(2024)
저자(글) 안명훈
배재대학교 대학원 컨설팅학 박사
저자(글) 양갑규
배재대학교 대학원 컨설팅학 박사
우석대학교 외래강사(보건의료정보화와인공지능)
저자(글) 윤일식
배재대학교 대학원 컨설팅학 박사/행정사
감성전이(2021), 논문쓰니(2022)
회귀분석실무 : Excel사용 단계별 접근(2024)
Excel차트 시각화 실무: 대시보드 필수도구(2024)
조사방법 : 패러다임과 기법(2024), 요인분석 실무 가이드(2024)
50에 논문 쓰고, 박사로 살아가기(2025)
저자(글) 정명수
배재대학교 대학원 컨설팅학 박사
사단법인퍼스트경영기술연구원 원장/배재대학교 컨설팅학과 겸임교수 역임
충청북도 도정 정책자문위원, 한국여성경제인협회 전문위원
장애인기업종합지원센터 전문위원/기술거래사 창업지도사 특허경영지도사
마케팅조사론(2017), 컨설팅이해(2014), 엑셀 2016 단계별 분석 (2018)
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 5,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 5,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.

- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)