728x90
728x90

01 안녕, R?

01-1 R이 뭔가요? - R 이해하기

  • R은 데이터를 분석하는 데 사용되는 소프트웨어
  • 범용 분석 툴이기 때문에 R 하나만 잘 다루면 어떤 형태의 데이터든 자유롭게 분석할 수 있음
    • 통계 분석
    • 머신러닝(Machine Learning) 모델링
    • 텍스트 마이닝
    • 소셜 네트워크 분석
    • 지도 시각화
    • 주식 분석
    • 이미지 분석
    • 사운드 분석
    • 웹 애플리케이션 개발

01-2 R이 강력한 이유

  • 무료로 사용할 수 있는 오픈 소스
  • 오픈 소스 생태계
    • 새로운 분석 기법이 등장하면 며칠 내로 패키지가 업로드되기 때문에 바로 다운로드해 사용할 수 있음
      • CRAN에는 1만 개가 넘는 패키지가 공개되어 있음
  • 다양한 교육 재료
    • 사용자가 많은 만큼 R을 다루는 다양한 교육 콘텐츠가 개발되어 있음
  • 다양한 그래프를 구현
  • 전문적인 데이터 분석까지 할 수 있는 프로그래밍 방식
  • 재현성(Reproducibility) 확보
  • 오류 감소
    • 모든 작업 과정이 코드에 나타나 있기 때문에 분석 결과에 이상이 발견되더라도 오류를 쉽게 파악하여 수정할 수 있음
    • 다른 사람에게 소스 검토를 요청할 수 있음
  • 공동 작업 가능
    • 모든 분석 과정이 코드로 남기 때문에 코드를 공유하면서 공동 작업을 할 수 있음
    • 분석 과정을 데이터 정리, 통계 분석, 시각화 등 몇 단계로 나눠 여러 사람이 동시에 작업하면 데이터를 효율적으로 분석할 수 있음

 

02 R 데이터 분석 환경 만들기

02-1 R과 R 스튜디오 설치하기

02-2 R 스튜디오와 친숙해지기

02-3 프로젝트 만들기

02-4 유용한 환경 설정

03 데이터 분석을 위한 연장 챙기기

03-1 변하는 수, '변수' 이해하기

  • 변수(Variable) : 다양한 값을 지니고 있는 하나의 속성
    • 변수는 데이터 분석의 대상
    • 데이터 분석은 변수 간에 어떤 관계가 있는지 파악하는 작업
  • 상수(Constant): 하나의 값으로만 되어 있는 속성
    • 상수는 변수와 달리 분석 대상이 될 수 없음
    a <- 1  # a에 1 할당
    a       # a 출력
    
    ## [1] 1
  • 변수를 이용해 연산할 수 있음
    • 변수끼리 연산할 수도 있고, 변수와 숫자를 조합해 연산할 수도 있음
    a + b
    
    ## [1] 3
    
    a + b + c
    
    ## [1] 6
    
    4 / b
    
    ## [1] 2
    
    5 * b
    
    ## [1] 10
  • 변수에는 여러 개의 값을 넣을 수 있음
    var1 <- c(1, 2, 5, 7, 8)    # 숫자 5개로 구성된 var1 생성
    var1
    
    ## [1] 1 2 5 7 8
    
    var2 <- c(1:5)              # 1~5까지 연속 값으로 var2 생성
    var2
    
    ## [1] 1 2 3 4 5
    
    var3 <- seq(1, 5)           # 1~5까지 연속 값으로 var3 생성
    var3
    
    ## [1] 1 2 3 4 5
    
    var4 <- seq(1, 10, by = 2)  # 1~10까지 2 간격 연속 값으로 var4 생성
    var4
    
    ## [1] 1 3 5 7 9
    
    var5 <- seq(1, 10, by = 3)  # 1~10까지 3 간격 연속 값으로 var5 생성
    var5
    
    ## [1]  1  4  7 10

03-2 마술 상자 같은 '함수' 이해하기

  • 데이터 분석은 '함수를 이용해서 변수를 조작하는 일'
    • 데이터 분석 공부는 함수들의 기능과 조작 방법을 익히는 과정
  • c()
  • mean()
  • max()
  • min()
    # 변수 만들기
    x <- c(1, 2, 3)
    x
    
    ## [1] 1 2 3
    
    # 함수 적용하기
    mean(x)  # 평균을 구하는 함수
    
    ## [1] 2
    
    max(x)  # 최댓값을 구하는 함수
    
    ## [1] 3
    
    min(x)  # 최솟값을 구하는 함수
    
    ## [1] 1
  • paste()
    str5 <-c("Hello!", "World", "is", "good!")
    str5
    
    ## [1] "Hello!" "World"  "is"     "good!"
    
    paste(str5, collapse=",")  # 쉼표(,)를 구분자로 str5의 단어를 하나로 합치기
    
    ## [1] "Hello!,World,is,good!"
    
    paste(str5, collapse=" ")
    
    ## [1] "Hello! World is good!"
    
    x_mean <- mean(x)
    x_mean
    
    ## [1] 2
    
    str5_paste <- paste(str5, collapse=" ")
    str5_paste
    
    ## [1] "Hello! World is good!"

03-3 함수 꾸러미, '패키지' 이해하기

  • 하나의 패키지 안에는 다양한 함수가 들어 있음
    • 다양한 기능을 하는 함수를 이용하려면 먼저 함수가 들어 있는 패키지를 설치하고 불러들여야 함
  • 패키지 설치하기 → 패키지 로드하기 → 함수 사용하기
  • 패키지는 한 번만 설치하면 되지만 패키지를 로드하는 작업은 R 스튜디오를 새로 시작할 때마다 반복해야 함
    # ggplot2 패키지 설치
    install.packages("ggplot2")
    
    # ggplot2 패키지 로드
    library(ggplot2)
    
    # 여러 문자로 구성된 변수 생성
    x <- c("a", "a", "b", "c")
    x
    
    ## [1] "a" "a" "b" "c"
    
    # 빈도 막대 그래프 출력
    qplot(x)
출처 : Do it! 쉽게 배우는 R 데이터 분석
 

Do it! 쉽게 배우는 R 데이터 분석

통계, 프로그래밍을 1도 몰라도 데이터를 혼자서 다룰 수 있다!데이터 분석 프로젝트 전 과정 수록!데이터 분석을 처음 시작한 초보자도 어깨춤을 추며 데이터를 혼자 다룰 수 있게 한다는 강의

book.naver.com

728x90
728x90