728x90
13 통계 분석 기법을 이용한 가설 검정
13-1 통계적 가설 검정이란?
- 기술 통계(Descriptive statistics)
- 데이터를 요약해 설명하는 통계 기법
- 사람들이 받는 월급을 집계해 전체 월급 평균을 구한다면 이는 기술 통계 분석
- 추론 통계(Inferential statistics)
- 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법
- 수집된 데이터에서 성별에 따라 월급에 차이가 있는 것으로 나타났을 때, 이런 차이가 우연히 발생할 확률을 계산
이런 차이가 우연히 나타날 확률이 작다면 성별에 따른 월급 차이가 통계적으로 유의하다(statistically significant)고 결론
이런 차이가 우연히 나타날 확률이 크다면 성별에 따른 월급 차이가 통계적으로 유의하지 않다(not statistically significant)고 결론
- 일반적으로 통계 분석을 수행했다는 것은 추론 통계를 이용해 가설 검정을 했다는 의미
- 통계적 가설 검정(Statistical hypothesis test)
- 유의 확률을 이용해 가설을 검정하는 방법
- 유의 확률(Significance probability, p-value)
- 실제로 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률을 의미
- 통계 분석을 실시한 결과 유의 확률이 크게 나타났다면 '집단 간 차이가 통계적으로 유의하지 않다'라고 해석
- 실제로 차이가 없더라도 우연에 의해 이 정도의 차이가 관찰될 가능성이 크다는 의미
- 반대로 유의 확률이 작다면 '집단 간 차이가 통계적으로 유의하다'라고 해석
- 실제로 차이가 없는데 우연히 이 정도의 차이가 관찰될 가능성이 적다, 우연이라고 보기 힘들다는 의미
13-2 t 검정 - 두 집단의 평균 비교
- t 검정(t-test)
- 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법
mpg <- as.data.frame(ggplot2::mpg) library(dplyr) mpg_diff <- mpg %>% select(class, cty) %>% filter(class %in% c("compact", "suv")) head(mpg_diff) ## class cty ## 1 compact 18 ## 2 compact 21 ## 3 compact 20 ## 4 compact 21 ## 5 compact 16 ## 6 compact 18 table(mpg_diff$class) ## compact suv ## 47 62 t.test(data = mpg_diff, cty ~ class, var.equal = T) ## Two Sample t-test ## ### data: cty by class ## t = 11.917, df = 107, p-value < 2.2e-16 ## alternative hypothesis: true difference in means is not equal to 0 ## 95 percent confidence interval: ## 5.525180 7.730139 ## sample estimates: ## mean in group compact mean in group suv ## 20.12766 13.50000 ## p-value < 2.2e-16 ## 유의확률을 의미, 판단 기준 : 5% ## p-value가 0.05 미만이면 '집단 간 차이가 통계적으로 유의하다'고 해석 ## 따라서 'compact 와 suv 간 평균 도시 연비 차이가 통계적으로 유의하다'고 해석할 수 있음 ## sample estimates: ## mean in group compact mean in group suv ## 20.12766 13.50000 ## 각 집단의 cty 평균 ## "compact"는 20인 반면, "suv"는 13이므로, "suv"보다 "compact"의 도시 연비가 더 높다고 할 수 있음
13-3 상관분석 - 두 변수의 관계성 분석
- 상관분석(Correlation Analysis)
- 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법
- 상관분석을 통해 도출한 상관계수(Correlation Coefficient)로 두 변수가 얼마나 관련되어 있는지, 관련성 정도를 파악할 수 있음
- 상관계수는 0~1 사이의 값을 지니고 1에 가까울수록 관련성이 크다는 것을 의미
- 상관계수가 양수면 정비례, 음수면 반비례 관계임을 의미
economics <- as.data.frame(ggplot2::economics) cor.test(economics$unemploy, economics$pce) ## Pearson's product-moment correlation ## ## data: economics$unemploy and economics$pce ## t = 18.63, df = 572, p-value < 2.2e-16 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.5608868 0.6630124 ## sample estimates: ## cor ## 0.6145176 ## p-value가 0.05 미만이므로, 실업자 수와 개인 소비 지출의 상관이 통계적으로 유의하다고 해석 ## cor ## 0.6145176 ## 상관계수를 의미, 상관계수가 양수 0.61이므로, ## 실업자 수와 개인 소비 지출은 한 변수가 증가하면 다른 변수가 증가하는 정비례 관계
head(mtcars) ## mpg cyl disp hp drat wt qsec vs am gear carb ## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 ## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 ## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 ## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 ## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 ## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1 car_cor <- cor(mtcars) # 상관행렬 생성 round(car_cor, 2) # 소수점 셋째 자리에서 반올림해 출력 ## mpg cyl disp hp drat wt qsec vs am gear carb ## mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 ## cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 0.53 ## disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 0.39 ## hp -0.78 0.83 0.79 1.00 -0.45 0.66 -0.71 -0.72 -0.24 -0.13 0.75 ## drat 0.68 -0.70 -0.71 -0.45 1.00 -0.71 0.09 0.44 0.71 0.70 -0.09 ## wt -0.87 0.78 0.89 0.66 -0.71 1.00 -0.17 -0.55 -0.69 -0.58 0.43 ## qsec 0.42 -0.59 -0.43 -0.71 0.09 -0.17 1.00 0.74 -0.23 -0.21 -0.66 ## vs 0.66 -0.81 -0.71 -0.72 0.44 -0.55 0.74 1.00 0.17 0.21 -0.57 ## am 0.60 -0.52 -0.59 -0.24 0.71 -0.69 -0.23 0.17 1.00 0.79 0.06 ## gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 0.27 ## carb -0.55 0.53 0.39 0.75 -0.09 0.43 -0.66 -0.57 0.06 0.27 1.00 ## mpg(연비) 행과 cyl(실린더 수) 열이 교차되는 부분: -0.85 ## 연비가 높을수록 실린더 수가 적은 경향이 있다는 것을 알 수 있음 ## cyl(실린더 수) 행과 wt(무게) 열이 교차되는 부분: 0.78 ## 실린더 수가 많을수록 자동차가 무거운 경향이 있다는 것을 알 수 있음 library(corrplot) corrplot(car_cor) ## 상관계수가 클수록 원의 크기가 크고 색깔이 진함 ## 상관계수가 양수면 파란색, 음수면 빨간색 계열로 표현
출처 : Do it! 쉽게 배우는 R 데이터 분석
728x90
'Do it! > R' 카테고리의 다른 글
Do it! 쉽게 배우는 R 데이터 분석 - R Markdown (0) | 2021.03.08 |
---|---|
Do it! 쉽게 배우는 R 데이터 분석 - 인터랙티브 그래프 (0) | 2021.03.06 |
Do it! 쉽게 배우는 R 데이터 분석 - 지도 시각화 (0) | 2021.03.05 |