시작하세요! 데이터 분석 with R

R로 배우는 기초 통계와 데이터 분석 기법

단 한 권으로 R을 활용해 기초 통계부터 데이터 분석까지 배운다!

최근 기술의 발전으로 데이터는 더 정교해지고 커지고 있으며, 이를 바탕으로 특정 분야가 아닌 업무 전반에 걸쳐 데이터를 분석해야 할 필요성과 기회가 늘어나고 있다. 이제 데이터 분석은 단지 전문가의 것이 아닌 현대인으로서 알아야 할 기본 소양으로 자리 잡을 것이다. 《시작하세요! 데이터 분석 with R》은 데이터에 관심 있는 분들에게 데이터 분석 분야에 쉽게 접근할 수 있게 하며, 더 나아가 더욱 깊은 데이터의 세계로 이끌어 줄 기반이 되어 줄 것이다.

★ 이 책에서 다루는 내용 ★

  • 다양한 예제를 통한 R 필수 문법 학습
  • 기본 차트부터 트리맵, OpenAPI를 활용한 워드클라우드까지 효과적인 데이터 시각화
  • 정규분포, 중심극한정리, p-value 등의 기본 통계 개념 이해
  • t-test, 회귀분석, 분류분석, 군집분석, 연관성 분석 외 결측값 대체, 샘플링 기법의 다양한 분석 기법 활용
  • Shiny, R 마크다운을 이용해서 분석 결과를 앱으로 만들고 문서화

 

도서 상세 이미지

박훈

데이터를 다루는 프로그래머.

‘크게 생각하되 작은 기쁨을 즐기자’를 나침반 삼아 좋은 인연들과 행복한 인생을 만들어 나가고 있다. 성균관대 컴퓨터공학부를 졸업하고 2002년 삼성SDS에 입사해 Senior Engineer로 근무 중이다. 8개 금융 시스템 구축 프로젝트에 참여했으며, 현재는 국내 보험사 정보계 시스템 운영을 통해 매출/조직생산성/부실계약 등 통계지표 관리를 지원하고 있다. 자격으로는 정보시스템 감리사와 데이터 분석 전문가(ADP)가 있다.

  • ▣ 1장: 친하게 지내자! R
    • 1.1 R
      • 1.1.1 R 소개
      • 1.1.2 R 설치
        • 1.1.2.1 설치 파일 다운로드
        • 1.1.2.2 R 설치
        • 1.1.2.3 R 실행
    • 1.2 R스튜디오(RStudio)
      • 1.2.1 R스튜디오 소개
      • 1.2.2 R스튜디오 설치
        • 1.2.2.1 설치 파일 다운로드
        • 1.2.2.2 R스튜디오 설치
        • 1.2.2.3 R스튜디오 실행
      • 1.2.3 R스튜디오 화면 구성 및 기능
        • 1.2.3.1 R 콘솔(R Console)
        • 1.2.3.2 R 소스 편집기(R source editor)
        • 1.2.3.3 기타 창
    •  
  • ▣ 2장: R 언어
    • 2.1 학습하기 전에 알아두면 좋은 내용
    • 2.2 너는 내가 정의한다 - “<-”
    • 2.3 데이터 구조의 기본 - 벡터
      • 2.3.1 벡터 생성
      • 2.3.2 벡터에 무엇을 담을까? - 데이터 타입
        • 2.3.2.1 숫자
        • 2.3.2.2 논리
        • 2.3.2.3 문자열
        • 2.3.2.4 팩터
      • 2.3.3 벡터 내 특정 요소 선택하기
        • 2.3.3.1 위치를 직접 지정해 선택하기
        • 2.3.3.2 조건식으로 선택하기
      • 2.3.4 벡터 요소 수정/추가/삭제
        • 2.3.4.1 수정
        • 2.3.4.2 추가
        • 2.3.4.3 삭제
      • 2.3.5 벡터의 연산
    • 2.4 여러 데이터 유형을 한 번에 담는다! 데이터프레임
      • 2.4.1 데이터프레임 생성
      • 2.4.2 데이터 접근
      • 2.4.3 데이터 개요 보기
      • 2.4.4 데이터 탐색
        • 2.4.4.1 View 함수 활용
        • 2.4.4.2 subset 함수로 조건 검색
        • 2.4.4.3 [ ]를 활용한 조건 검색
        • 2.4.4.4 정렬
        • 2.4.4.5 그룹 지어 보기
      • 2.4.5 데이터 변경
        • 2.4.5.1 edit 함수 활용
        • 2.4.5.2 직접 변경하기
      • 2.4.6 구조 변경
        • 2.4.6.1 열 추가 및 삭제
        • 2.4.6.2 열 이름과 데이터 타입 변경
      • 2.4.7 데이터프레임 간의 결합
        • 2.4.7.1 열 기준 결합
        • 2.4.7.2 행 기준 결합
    • 2.5 무엇이든 묶는다! 리스트
      • 2.5.1 리스트 생성
      • 2.5.2 요소 접근
      • 2.5.3 요소의 수정/삭제/추가
      • 2.5.4 모든 요소에 일괄 반영하기(lapply, sapply)
    • 2.6 나만의 함수 만들기
      • 2.6.1 함수 생성 및 함수의 특징
      • 2.6.2 제어문
      • 2.6.2.1 if/else
      • 2.6.2.2 for
    • 2.7 객체 조회/삭제/저장/불러오기
    • 2.8 데이터를 R 품에
      • 2.8.1 작업 폴더
      • 2.8.2 파일 불러오기
      • 2.8.3 클립보드 불러오기
      • 2.8.4 웹 상의 파일 불러오기
      • 2.8.5 Open API로 데이터 불러오기
      • 2.8.6 데이터 파일 저장
    • 2.9 든든한 패키지 친구들
      • 2.9.1 패키지 설치 및 로드
      • 2.9.2 여러분의 도우미 ‘?’
        • 2.9.2.1 help 함수 또는 “?”
        • 2.9.2.2 help.search 함수 또는 “??”
        • 2.9.2.3 도움말 살펴보기
    •  
  • ▣ 3장: 데이터 관찰하기
    • 3.1 평균
    • 3.2 중간값
    • 3.3 사분위수
    • 3.4 상자그림
    • 3.5 히스토그램
    • 3.6 분산과 표준편차
    • 3.7 범주형 데이터 보기
      • 3.7.1 파이차트
      • 3.7.2 막대차트
    • 3.8 강력한 시각화 패키지 ggplot2
      • 3.8.1 패키지 설치 및 로드
      • 3.8.2 그래프 그릴 공간 만들기
      • 3.8.3 표현할 그래프 종류 선택하기
      • 3.8.4 부가 정보 추가하기
      • 3.8.5 테마 지정하기
    • 3.9 시간의 흐름에 따라 보기
    • 3.10 상관관계 보기
    • 3.11 트리맵
    • 3.12 워드 클라우드
      • 3.11.1 네이버 검색 결과 가져오기(Open API)
      • 3.11.2 문장 정제하기
      • 3.11.3 단어 추출하기(KoNLP)
      • 3.11.4 워드 클라우드 표현하기(wordcloud2)
    •  
  • ▣ 4장: 데이터를 분석하기 전에 알아두면 좋은 것들
    • 4.1 세상의 거의 모든 분포(정규분포)
      • 4.1.1 정규분포
      • 4.1.2 확률밀도함수
      • 4.1.3 표준정규분포
      • 4.1.4 중심극한정리
    • 4.2 내가 확인하고 싶은 것(가설)
    • 4.3 그래도 믿을 만한 심판(p-value)
    •  
  • ▣ 5장: 데이터 분석하기
    • 5.1 A학원은 성적 향상에 도움이 됐을까?
      • 5.1.1 t-검정
      • 5.1.2 t.test 함수
      • 5.1.3 학원수업 수강 후 성적은 향상됐는가?
    • 5.2 정수기 AS기사는 몇 명 정도가 적당할까?
      • 5.2.1 회귀분석
        • 5.2.1.1 회귀분석이란?
        • 5.2.1.2 모델 평가하기
      • 5.2.2 lm 함수
        • 5.2.2.1 실행해 보기
        • 5.2.2.2 결괏값 이해하기
      • 5.2.3 안양시의 정수기 AS기사는 몇 명이 적당할까?
    • 5.3 이 사과는 품종이 뭐지?
      • 5.3.1 분류분석
        • 5.3.1.1 분류분석이란?
        • 5.3.1.2 훈련 시키기
        • 5.3.1.3 모델 평가하기
      • 5.3.2 rpart 함수
        • 5.3.2.1 데이터 나누기
        • 5.3.2.2 실행해 보기
        • 5.3.2.3 의사결정 트리와 가지치기
        • 5.3.2.4 예측하기
      • 5.3.3 사과의 품종을 구별해 보자
    • 5.4 사과 품종을 직접 정해 본다면?
      • 5.4.1 군집분석
        • 5.4.1.1 군집분석이란?
        • 5.4.1.2 항목 간 거리 구하기와 표준화
        • 5.4.1.3 이상적인 군집 수
      • 5.4.2 R의 군집분석 함수
        • 5.4.2.1 scale 함수
        • 5.4.2.2 hclust 함수
        • 5.4.2.3 pam 함수
        • 5.4.2.4 fviz_nbclust 함수
        • 5.4.2.5 kproto 함수
      • 5.4.3 사과 품종을 정해보자
    • 5.5 배낭여행과 연관된 검색어는 뭘까?
      • 5.5.1 연관성 분석
        • 5.5.1.1 연관성 분석이란?
        • 5.5.1.2 연관성 관련 지표와 Apriori 알고리즘
      • 5.5.2 apriori 함수
        • 5.5.2.1 실행해 보기
        • 5.5.2.2 결과 살펴보기
        • 5.5.2.3 결과 시각화
      • 5.5.3 배낭여행과 관련된 검색어를 찾아보자
    • 5.6 좀 더 나은 분석을 위해
      • 5.6.1 분석 대상 항목 선정
        • 5.6.1.1 변하지 않는 값 제거(nearZeroVar)
        • 5.6.1.2 연관된 항목 도출하기(FSelector)
      • 5.6.2 샘플링
        • 5.6.2.1 특정 간격으로 추출(seq)
        • 5.6.2.2 무작위로 추출(sample)
        • 5.6.2.3 항목 기준으로 추출
      • 5.6.3 결측값 대체하기
        • 5.6.3.1 결측값 확인하기(aggr)
        • 5.6.3.2 결측값 대체하기
    •  
  • ▣ 6장: R을 더욱 풍성하게
    • 6.1 Shiny를 활용한 동적 시각화
      • 6.1.1 Shiny 살펴보기
      • 6.1.2 Shiny 앱 만들기
        • 6.1.2.1 app.R 생성과 실행
        • 6.1.2.2 app.R 구조 살펴보기
        • 6.1.2.3 앱 화면 구성
        • 6.1.2.4 화면에 데이터 반영하기
      • 6.1.3 Shiny 앱을 웹으로 배포하기
        • 6.1.3.1 Shinyapps.io 회원가입
        • 6.1.3.2 Shinyapps.io 웹 배포
    • 6.2 R 마크다운을 이용한 분석 결과 문서 만들기
      • 6.2.1 R 마크다운 살펴보기
      • 6.2.2 R 마크다운 문서 만들기
        • 6.2.2.1 문서 생성 및 변환
        • 6.2.2.2 편집 관련 인터페이스
        • 6.2.2.3 R 마크다운 문법
        • 6.2.2.4 R 스크립트 반영하기
      • 6.2.3 R 마크다운 문서를 웹으로 배포하기
  • 191쪽, 3.8.1절의 ggplot2 패키지 설치 구문

    >
    > # ggplot2 패키지 설치
    > library("ggplot2")
    >
    

    ==>

    >
    > # ggplot2 패키지 설치
    > install.packages("ggplot2")
    >