728x90

13 통계 분석 기법을 이용한 가설 검정

13-1 통계적 가설 검정이란?

  • 기술 통계(Descriptive statistics)
    • 데이터를 요약해 설명하는 통계 기법
    • 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다면 이는 기술 통계 분석
  • 추론 통계(Inferential statistics)
    • 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법
    • 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산
      이런 차이가 우연히 나타날 확률이 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically significant)고 결론
      이런 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다(not statistically significant)고 결론
  • 일반적으로 통계 분석을 수행했다는 것은 추론 통계를 이용해 가설 검정을 했다는 의미
  • 통계적 가설 검정(Statistical hypothesis test)
    • 유의 확률을 이용해 가설을 검정하는 방법
    • 유의 확률(Significance probability, p-value)
      • 실제로 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미
    • 통계 분석을 실시한 결과 유의 확률이 크게 나타났다면 '집단 간 차이가 통계적으로 유의하지 않다'라고 해석
      • 실제로 차이가 없더라도 우연에 의해 이 정도의 차이가 관찰될 가능성이 크다는 의미
    • 반대로 유의 확률이 작다면 '집단 간 차이가 통계적으로 유의하다'라고 해석
      • 실제로 차이가 없는데 우연히 이 정도의 차이가 관찰될 가능성이 적다, 우연이라고 보기 힘들다는 의미

13-2 t 검정 - 두 집단의 평균 비교

  • t 검정(t-test)
    • 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법
    mpg <- as.data.frame(ggplot2::mpg)
    
    library(dplyr)
    mpg_diff <- mpg %>%
        select(class, cty) %>%
        filter(class %in% c("compact", "suv"))
    
    head(mpg_diff)
    
    ##     class cty
    ## 1 compact  18
    ## 2 compact  21
    ## 3 compact  20
    ## 4 compact  21
    ## 5 compact  16
    ## 6 compact  18
    
    table(mpg_diff$class)
    
    ## compact     suv
    ##      47      62
    
    t.test(data = mpg_diff, cty ~ class, var.equal = T)
    
    ##         Two Sample t-test
    ##
    ### data:  cty by class
    ## t = 11.917, df = 107, p-value < 2.2e-16
    ## alternative hypothesis: true difference in means is not equal to 0
    ## 95 percent confidence interval:
    ##  5.525180 7.730139
    ## sample estimates:
    ## mean in group compact     mean in group suv
    ##              20.12766              13.50000
    
    
    ## p-value < 2.2e-16
    
    ## 유의확률을 의미, 판단 기준 : 5%
    ## p-value가 0.05 미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석
    ## 따라서 'compact 와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다'고 해석할 수 있음
    
    
    ## sample estimates:
    ## mean in group compact     mean in group suv
    ##              20.12766              13.50000
    
    ## 각 집단의 cty 평균
    ## "compact"는 20인 반면, "suv"는 13이므로, "suv"보다 "compact"의 도시 연비가 더 높다고 할 수 있음

13-3 상관분석 - 두 변수의 관계성 분석

  • 상관분석(Correlation Analysis)
    • 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법
    • 상관분석을 통해 도출한 상관계수(Correlation Coefficient)로 두 변수가 얼마나 관련되어 있는지, 관련성 정도를 파악할 수 있음
    • 상관계수는 0~1 사이의 값을 지니고 1에 가까울수록 관련성이 크다는 것을 의미
    • 상관계수가 양수면 정비례, 음수면 반비례 관계임을 의미
    economics <- as.data.frame(ggplot2::economics)
    cor.test(economics$unemploy, economics$pce)
    
    ##         Pearson's product-moment correlation
    ##
    ## data:  economics$unemploy and economics$pce
    ## t = 18.63, df = 572, p-value < 2.2e-16
    ## alternative hypothesis: true correlation is not equal to 0
    ## 95 percent confidence interval:
    ##  0.5608868 0.6630124
    ## sample estimates:
    ##       cor
    ## 0.6145176
    
    
    ## p-value가 0.05 미만이므로, 실업자 수와 개인 소비 지출의 상관이 통계적으로 유의하다고 해석
    
    
    ##       cor
    ## 0.6145176
    
    ## 상관계수를 의미, 상관계수가 양수 0.61이므로,
    ## 실업자 수와 개인 소비 지출은 한 변수가 증가하면 다른 변수가 증가하는 정비례 관계
    head(mtcars)
    
    ##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
    ## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
    ## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
    ## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
    ## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
    ## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
    ## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
    
    car_cor <- cor(mtcars)  # 상관행렬 생성
    round(car_cor, 2)       # 소수점 셋째 자리에서 반올림해 출력
    
    ##        mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
    ## mpg   1.00 -0.85 -0.85 -0.78  0.68 -0.87  0.42  0.66  0.60  0.48 -0.55
    ## cyl  -0.85  1.00  0.90  0.83 -0.70  0.78 -0.59 -0.81 -0.52 -0.49  0.53
    ## disp -0.85  0.90  1.00  0.79 -0.71  0.89 -0.43 -0.71 -0.59 -0.56  0.39
    ## hp   -0.78  0.83  0.79  1.00 -0.45  0.66 -0.71 -0.72 -0.24 -0.13  0.75
    ## drat  0.68 -0.70 -0.71 -0.45  1.00 -0.71  0.09  0.44  0.71  0.70 -0.09
    ## wt   -0.87  0.78  0.89  0.66 -0.71  1.00 -0.17 -0.55 -0.69 -0.58  0.43
    ## qsec  0.42 -0.59 -0.43 -0.71  0.09 -0.17  1.00  0.74 -0.23 -0.21 -0.66
    ## vs    0.66 -0.81 -0.71 -0.72  0.44 -0.55  0.74  1.00  0.17  0.21 -0.57
    ## am    0.60 -0.52 -0.59 -0.24  0.71 -0.69 -0.23  0.17  1.00  0.79  0.06
    ## gear  0.48 -0.49 -0.56 -0.13  0.70 -0.58 -0.21  0.21  0.79  1.00  0.27
    ## carb -0.55  0.53  0.39  0.75 -0.09  0.43 -0.66 -0.57  0.06  0.27  1.00
    
    ## mpg(연비) 행과 cyl(실린더 수) 열이 교차되는 부분: -0.85
    ## 연비가 높을수록 실린더 수가 적은 경향이 있다는 것을 알 수 있음
    
    ## cyl(실린더 수) 행과 wt(무게) 열이 교차되는 부분: 0.78
    ## 실린더 수가 많을수록 자동차가 무거운 경향이 있다는 것을 알 수 있음
    
    library(corrplot)
    
    corrplot(car_cor)
    
    ## 상관계수가 클수록 원의 크기가 크고 색깔이 진함
    ## 상관계수가 양수면 파란색, 음수면 빨간색 계열로 표현
출처 : Do it! 쉽게 배우는 R 데이터 분석
 

Do it! 쉽게 배우는 R 데이터 분석

통계, 프로그래밍을 1도 몰라도 데이터를 혼자서 다룰 수 있다!데이터 분석 프로젝트 전 과정 수록!데이터 분석을 처음 시작한 초보자도 어깨춤을 추며 데이터를 혼자 다룰 수 있게 한다는 강의

book.naver.com

728x90