728x90
01 안녕, R?
01-1 R이 뭔가요? - R 이해하기
- R은 데이터를 분석하는 데 사용되는 소프트웨어
- 범용 분석 툴이기 때문에 R 하나만 잘 다루면 어떤 형태의 데이터든 자유롭게 분석할 수 있음
- 통계 분석
- 머신러닝(Machine Learning) 모델링
- 텍스트 마이닝
- 소셜 네트워크 분석
- 지도 시각화
- 주식 분석
- 이미지 분석
- 사운드 분석
- 웹 애플리케이션 개발
01-2 R이 강력한 이유
- 무료로 사용할 수 있는 오픈 소스
- 오픈 소스 생태계
- 새로운 분석 기법이 등장하면 며칠 내로 패키지가 업로드되기 때문에 바로 다운로드해 사용할 수 있음
- CRAN에는 1만 개가 넘는 패키지가 공개되어 있음
- 새로운 분석 기법이 등장하면 며칠 내로 패키지가 업로드되기 때문에 바로 다운로드해 사용할 수 있음
- 다양한 교육 재료
- 사용자가 많은 만큼 R을 다루는 다양한 교육 콘텐츠가 개발되어 있음
- 다양한 그래프를 구현
- 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식
- 재현성(Reproducibility) 확보
- 오류 감소
- 모든 작업 과정이 코드에 나타나 있기 때문에 분석 결과에 이상이 발견되더라도 오류를 쉽게 파악하여 수정할 수 있음
- 다른 사람에게 소스 검토를 요청할 수 있음
- 공동 작업 가능
- 모든 분석 과정이 코드로 남기 때문에 코드를 공유하면서 공동 작업을 할 수 있음
- 분석 과정을 데이터 정리, 통계 분석, 시각화 등 몇 단계로 나눠 여러 사람이 동시에 작업하면 데이터를 효율적으로 분석할 수 있음
02 R 데이터 분석 환경 만들기
02-1 R과 R 스튜디오 설치하기
- R 설치 파일은 R 프로젝트 공식 사이트의 CRAN 미러 페이지에서 다운로드할 수 있음
- CRAN 미러 페이지 : https://cran.r-project.org/mirrors.html
- R 스튜디오 설치
- R 스튜디오 다운로드 페이지 : https://www.rstudio.com/products/rstudio/download
- VS Code 사용 시 VS Code에서도 R 사용 가능 - 추후 글 작성 예정
02-2 R 스튜디오와 친숙해지기
02-3 프로젝트 만들기
02-4 유용한 환경 설정
03 데이터 분석을 위한 연장 챙기기
03-1 변하는 수, '변수' 이해하기
- 변수(Variable) : 다양한 값을 지니고 있는 하나의 속성
- 변수는 데이터 분석의 대상
- 데이터 분석은 변수 간에 어떤 관계가 있는지 파악하는 작업
- 상수(Constant): 하나의 값으로만 되어 있는 속성
- 상수는 변수와 달리 분석 대상이 될 수 없음
a <- 1 # a에 1 할당 a # a 출력 ## [1] 1
- 변수를 이용해 연산할 수 있음
- 변수끼리 연산할 수도 있고, 변수와 숫자를 조합해 연산할 수도 있음
a + b ## [1] 3 a + b + c ## [1] 6 4 / b ## [1] 2 5 * b ## [1] 10
- 변수에는 여러 개의 값을 넣을 수 있음
var1 <- c(1, 2, 5, 7, 8) # 숫자 5개로 구성된 var1 생성 var1 ## [1] 1 2 5 7 8 var2 <- c(1:5) # 1~5까지 연속 값으로 var2 생성 var2 ## [1] 1 2 3 4 5 var3 <- seq(1, 5) # 1~5까지 연속 값으로 var3 생성 var3 ## [1] 1 2 3 4 5 var4 <- seq(1, 10, by = 2) # 1~10까지 2 간격 연속 값으로 var4 생성 var4 ## [1] 1 3 5 7 9 var5 <- seq(1, 10, by = 3) # 1~10까지 3 간격 연속 값으로 var5 생성 var5 ## [1] 1 4 7 10
03-2 마술 상자 같은 '함수' 이해하기
- 데이터 분석은 '함수를 이용해서 변수를 조작하는 일'
- 데이터 분석 공부는 함수들의 기능과 조작 방법을 익히는 과정
- c()
- mean()
- max()
- min()
# 변수 만들기 x <- c(1, 2, 3) x ## [1] 1 2 3 # 함수 적용하기 mean(x) # 평균을 구하는 함수 ## [1] 2 max(x) # 최댓값을 구하는 함수 ## [1] 3 min(x) # 최솟값을 구하는 함수 ## [1] 1
- paste()
str5 <-c("Hello!", "World", "is", "good!") str5 ## [1] "Hello!" "World" "is" "good!" paste(str5, collapse=",") # 쉼표(,)를 구분자로 str5의 단어를 하나로 합치기 ## [1] "Hello!,World,is,good!" paste(str5, collapse=" ") ## [1] "Hello! World is good!" x_mean <- mean(x) x_mean ## [1] 2 str5_paste <- paste(str5, collapse=" ") str5_paste ## [1] "Hello! World is good!"
03-3 함수 꾸러미, '패키지' 이해하기
- 하나의 패키지 안에는 다양한 함수가 들어 있음
- 다양한 기능을 하는 함수를 이용하려면 먼저 함수가 들어 있는 패키지를 설치하고 불러들여야 함
- 패키지 설치하기 → 패키지 로드하기 → 함수 사용하기
- 패키지는 한 번만 설치하면 되지만 패키지를 로드하는 작업은 R 스튜디오를 새로 시작할 때마다 반복해야 함
# ggplot2 패키지 설치 install.packages("ggplot2") # ggplot2 패키지 로드 library(ggplot2) # 여러 문자로 구성된 변수 생성 x <- c("a", "a", "b", "c") x ## [1] "a" "a" "b" "c" # 빈도 막대 그래프 출력 qplot(x)
출처 : Do it! 쉽게 배우는 R 데이터 분석
728x90
'Do it! > R' 카테고리의 다른 글
Do it! 쉽게 배우는 R 데이터 분석 - 데이터 정제 (0) | 2021.02.25 |
---|---|
Do it! 쉽게 배우는 R 데이터 분석 - 데이터 가공 (0) | 2021.02.24 |
Do it! 쉽게 배우는 R 데이터 분석 - 데이터 프레임, 데이터 파악 (0) | 2021.02.23 |