728x90
08 그래프 만들기
08-1 R로 만들 수 있는 그래프 살펴보기
- 그래프(Graph) : 데이터를 보기 쉽게 그림으로 표현한 것
08-2 산점도 - 변수 간 관계 표현하기
- 산점도(Scater Plot)
- 데이터를 x축과 y축에 점으로 표현한 그래프
- 나이와 소득처럼 연속 값으로 된 두 변수의 관계를 표현할 때 사용
# x축 범위 3~6, y축 범위 10~30으로 지정 ggplot(data = mpg, aes(x = displ, y = hwy)) + geom_point() + xlim(3, 6) + ylim(10, 30)
08-3 막대 그래프 - 집단 간 차이 표현하기
- 막대 그래프(Bar Chart)
- 데이터의 크기를 막대의 길이로 표현한 그래프
- 성별 소득 차이처럼 집단 간 차이를 표현할 때 주로 사용
library(dplyr) df_mpg <- mpg %>% group_by(drv) %>% summarise(mean_hwy = mean(hwy)) df_mpg ## # A tibble: 3 x 2 ## drv mean_hwy ## * <chr> <dbl> ## 1 4 19.2 ## 2 f 28.2 ## 3 r 21 # 크기 순으로 정렬하기 ggplot(data = df_mpg, aes(x = reorder(drv, -mean_hwy), y = mean_hwy)) + geom_col()
08-4 선 그래프 - 시간에 따라 달라지는 데이터 표현하기
- 선 그래프(Line Chart)
- 데이터를 선으로 표현한 그래프
- 시간에 따라 달라지는 데이터를 표현할 때 주로 선 그래프를 이용
- 환율, 주가지수 등 경제 지표가 시간에 따라 어떻게 변하는지를 선 그래프로 표현
- 시계열 데이터(Time Series Data)
- 일별 환율처럼, 일정 시간 간격을 두고 나열된 데이터
- 시계열 데이터를 선으로 표현한 그래프를 '시계열 그래프(Time Series Chart)'라고 함
ggplot(data = economics, aes(x = date, y = unemploy)) + geom_line()
08-5 상자 그림 - 집단 간 분포 차이 표현하기
- 상자 그림(Box Plot)
- 데이터의 분포(퍼져 있는 형태)를 직사각형 상자 모양으로 표현한 그래프
- 상자 그림을 보면 분포를 알 수 있기 때문에 평균만 볼 때보다 데이터의 특징을 더 자세히 이해할 수 있음
ggplot(data = mpg, aes(x = drv, y = hwy)) + geom_boxplot()
- 상자 그림은 값을 크기 순으로 나열해 4등분 했을 때 위치하는 값인 '사분위수'를 이용해 그려짐
- 상자 아래 세로선
- 아랫수염
- 하위 0~25% 내에 해당하는 값
- 상자 밑면
- 1사분위수(Q1)
- 하위 25% 위치 값
- 상자 내 굵은 선
- 2사분위수(Q2)
- 하위 50% 위치 값(중앙값)
- 상자 윗면
- 3사분위수(Q3)
- 하위 75% 위치 값
- 상자 위 세로선
- 윗수염
- 하위 75~100% 내에 해당하는 값
- 상자 밖 점 표식
- 극단치
- Q1, Q3 밖, 1.5 IQR을 벗어난 값
- 1.5 IQR : 사분위 범위(Q1~Q3 간 거리)의 1.5배
- 상자 아래 세로선
출처 : Do it! 쉽게 배우는 R 데이터 분석
Do it! 쉽게 배우는 R 데이터 분석
통계, 프로그래밍을 1도 몰라도 데이터를 혼자서 다룰 수 있다!데이터 분석 프로젝트 전 과정 수록!데이터 분석을 처음 시작한 초보자도 어깨춤을 추며 데이터를 혼자 다룰 수 있게 한다는 강의
book.naver.com
728x90
'Do it! > R' 카테고리의 다른 글
Do it! 쉽게 배우는 R 데이터 분석 - 텍스트 마이닝 (0) | 2021.03.05 |
---|---|
Do it! 쉽게 배우는 R 데이터 분석 - 데이터 정제 (0) | 2021.02.25 |
Do it! 쉽게 배우는 R 데이터 분석 - 데이터 가공 (0) | 2021.02.24 |