실무 프로젝트로 배우는 데이터 분석 with R

업무에 곧바로 써먹는 R 실전 활용법

데이터 분석 프로젝트를 수행할 때 필요한 핵심 역량이 궁금하다면?

4차 산업혁명이 도래한 이후 많은 사람들이 데이터 분석을 공부하고 있습니다. 하지만 실제로 분석 프로젝트에 투입되어 업무를 수행할 때는 이론과 현실의 차이에서 발생하는 문제 때문에 많은 분들이 어려움을 겪고 있습니다. 이 책은 실제 분석 프로젝트를 수행할 때 발생할 수 있는 문제와 이를 해결하는 데 필요한 내용을 다룹니다.

★ 이 책에서 다루는 내용 ★

  • 데이터 분석 과정의 이해
  • R을 활용한 데이터 전처리 기술과 시각화 기법
  • 데이터 분석에 필요한 통계 및 기계학습 기초 이론
  • 예측을 위한 예측 모형 구성
  • 마케팅을 위한 RFM 분석
  • 감성분석을 위한 텍스트 분석
  • 고객 취향분석을 위한 연관 분석 및 추천시스템 분석

 

도서 상세 이미지

박기군

통계학을 전공한 후 IT 솔루션 회사의 SI 프로젝트에 참여했다. 학부 재학 중에 한국문화관광 연구원이 주관하는 문화관광 빅데이터 분석 대회에서 총 2번 수상했으며, 학부 졸업 후에는 크몽(Kmong), 탈잉(Taling) 등의 플랫폼을 통해 수많은 분석 프로젝트 및 레슨을 진행했다. 위키독스 ‘Must Learning with R’의 저자이며, 현재는 부산대학교 산업공학과 박사과정으로 스마트 항만 물류 시스템에 대한 연구를 진행하고 있다.

  • ▣ 01장: 데이터 분석 과정의 이해
    • 1.1 데이터 분석에 필요한 요소
      • 1.1.1 실무에서 마주치는 데이터 분석
      • 1.1.2 데이터 분석의 목적 설정과 진행 과정
      • 1.1.3 데이터 분석 방법론
      • 1.1.4 데이터 분석 결과의 검증 방법
      • 1.1.5 분석 결과를 표현하는 능력
    • 1.2 데이터 분석의 유형
      • 1.2.1 요리할 것인가? 건물을 지을 것인가?
      • 1.2.2 보고서 작성을 위한 데이터 분석
      • 1.2.3 주기적으로 진행해야 하는 데이터 분석
    • 1.3 데이터 분석에서 주의할 점
      • 1.3.1 데이터 분석과 도메인 지식
      • 1.3.2 데이터 분석 결과의 가시성
    • 1.4 정리
    •  
  • ▣ 02장: 실무 데이터 분석을 위한 R 기본 문법과 통계 지식
    • 2.1 R 분석 환경 구성
      • 2.1.1 R, RStudio 설치 방법
      • 2.1.2 R 설치 후 환경 설정
    • 2.2 데이터 타입 소개
      • 2.2.1 데이터 특성에 대한 이해
      • 2.2.2 수집된 데이터의 기본 가정
      • 2.2.3 비정형 데이터
    • 2.3 R 1차원 데이터 다루기
      • 2.3.1 1차원 벡터 변수 다루기
      • 2.3.2 1차원 벡터 변수 특성 다루기
      • 2.3.3 문자열 다루기
      • 2.3.4 1차원 벡터 인덱싱
      • 2.3.5 1차원 벡터의 연산
      • 2.3.6 1차원 벡터 샘플링
    • 2.4 R 행렬, 데이터프레임 다루기
      • 2.4.1 행렬 생성
      • 2.4.2 행렬 인덱싱
      • 2.4.3 행렬의 연산
      • 2.4.4 데이터프레임 생성
      • 2.4.5 데이터 행/열의 이름 변경, 인덱싱
      • 2.4.6 데이터프레임 변수 추가 및 변경
      • 2.4.7 데이터프레임 병합
    • 2.5 R 리스트 데이터 다루기
      • 2.5.1 리스트 데이터 생성 및 인덱싱 – list()
    • 2.6 R 데이터 불러오기 및 저장
      • 2.6.1 데이터 불러오기
      • 2.6.2 데이터 저장하기
    • 2.7 반복문과 조건문
      • 2.7.1 for 문을 활용한 반복문 작성
      • 2.7.2 assign을 활용한 할당문 작성
      • 2.7.3 if, ifelse를 활용한 조건문 적용
    • 2.8 결측치 처리
      • 2.8.1 결측치 데이터 탐색 – is.na()
      • 2.8.2 결측치 제거
      • 2.8.3 결측치 데이터 대체
    • 2.9 사용자 함수 정의
      • 2.9.1 function() 소개
      • 2.9.2 function() 응용
    • 2.10 R 패키지
      • 2.10.1 R 패키지 설치
    • 2.11 중고차 데이터를 활용한 데이터 전처리 1
      • 2.11.1 데이터 연산 동시 처리
    • 2.12 중고차 데이터를 활용한 데이터 전처리 2
      • 2.12.1 체인 연산자
      • 2.12.2 데이터셋에 새로운 변수 추가
      • 2.12.3 데이터 집계
      • 2.12.4 데이터 정렬
      • 2.12.5 조건에 따른 데이터 추출
      • 2.12.6 데이터 병합
      • 2.12.7 데이터 샘플링
      • 2.12.8 중복 데이터 처리
    • 2.13 dplyr 활용 응용
      • 2.13.1 데이터 전처리 응용 1
      • 2.13.2 데이터 전처리 응용 2
      • 2.13.3 데이터 전처리 응용 3
    • 2.14 중고차 데이터를 활용한 데이터 시각화 기초
      • 2.14.1 ggplot2의 기본 문법
      • 2.14.2 ggplot2 활용
    • 2.15 데이터 구조 변환
      • 2.15.1 reshape 패키지 활용
    • 2.16 정리
    •  
  • ▣ 3장: 중고차 판매 데이터를 활용한 데이터 분석 기초
    • 3.1 데이터 분석을 위한 확률과 평균 기초
      • 3.1.1 확률변수
      • 3.1.2 확률
      • 3.1.3 모수와 통계량
    • 3.2 데이터 분석을 위한 확률분포
      • 3.2.1 이산형 확률분포
      • 3.2.2 중심극한정리
      • 3.2.3 연속형 확률분포
    • 3.3 확률분포 함수
      • 3.3.1 난수 생성
      • 3.3.2 확률밀도, 누적분포, 분위수
    • 3.4 중고차 가격 분포 확인을 위한 데이터 분포 탐색
      • 3.4.1 왜도와 첨도
      • 3.4.2 데이터 변환을 통한 분포 탐색
    • 3.5 중고차 가격 분석을 위한 통계적 가설 검정
      • 3.5.1 귀무가설과 대립가설
      • 3.5.2 검정통계량과 임곗값
    • 3.6 중고차 특성 분석을 위한 평균 분석
      • 3.6.1 일표본 t 검정
      • 3.6.2 독립표본 t 검정
      • 3.6.3 분산분석
    • 3.7 중고차 가격에 미치는 영향 파악을 위한 관계 분석
      • 3.7.1 상관분석
      • 3.7.2 회귀분석
      • 3.7.3 회귀분석 성능 개선 방법
      • 3.7.4 회귀분석을 활용한 예측
      • 3.7.5 예측 성능 개선을 위한 비선형 모형
    • 3.8 중고차 판매 가격 예측을 위한 분석
      • 3.8.1 범주형 변수를 활용한 예측 분석
      • 3.8.2 다중 회귀분석을 활용한 예측 분석
      • 3.8.3 예측 모형의 성능 평가
    • 3.9 중고차 등급 분석을 위한 분류 모형
      • 3.9.1 로지스틱 회귀분석
      • 3.9.2 로지스틱 회귀분석의 평가 방법
      • 3.9.3 다중 로지스틱 회귀분석
    • 3.10 중고차 등급 분석을 위한 머신러닝 기초
      • 3.10.1 의사결정나무
      • 3.10.2 랜덤 포레스트
    • 3.11 정리
    •  
  • ▣ 4장: 중고차 판매 데이터를 활용한 데이터 분석 심화
    • 4.1 중고차 데이터 분할을 위한 데이터 분석 기법
      • 4.1.1 비슷한 유형의 중고차 탐색 – 유사도 분석
      • 4.1.2 계층적 군집분석
      • 4.1.3 비계층적 군집분석
    • 4.2 중고차 특성의 차원 축소를 위한 데이터 분석 기법
    • 4.3 정리
    •  
  • ▣ 5장: 내 중고차 시세 확인 서비스 예측 분석
    • 5.1 분석 개요
    • 5.2 데이터 전처리
      • 5.2.1 데이터 및 패키지 불러오기
      • 5.2.2 데이터 전처리
    • 5.3 현재 시세 정보 서비스 구현
      • 5.3.1 서비스 구현을 위한 함수 정의
    • 5.4 신규 서비스 구현
      • 5.4.1 신규 서비스 구현을 위한 함수 정의
    • 5.5 신규 서비스 테스트
    • 5.6 정리
    •  
  • ▣ 6장: 마케팅의 핵심 RFM 분석
    • 6.1 분석 개요
    • 6.2 데이터 전처리
      • 6.2.1 데이터 및 패키지 불러오기
      • 6.2.2 이벤트 로그 데이터
    • 6.3 고객 구매 데이터 분석
      • 6.3.1 데이터 전처리
      • 6.3.2 데이터 시각화
    • 6.4 대시보드 설계
      • 6.4.1 대시보드를 위한 통계치 표현
      • 6.4.2 대시보드 예시
    • 6.5 고객 분류를 위한 RFM 분석
      • 6.5.1 RFM 분석 접근 방식
      • 6.5.2 RFM 분석
      • 6.5.3 코호트 분석
    • 6.6 정리
    •  
  • ▣ 7장: 리뷰 데이터 분석을 통한 감성사전 만들기
    • 7.1 분석 개요
    • 7.2 데이터 전처리
      • 7.2.1 데이터 및 패키지 불러오기
    • 7.3 리뷰 데이터 기본 분석
      • 7.3.1 데이터 전처리
      • 7.3.2 데이터 기본 분석
    • 7.4 감성사전 생성을 위한 모델링
      • 7.4.1 키워드 점수 계산을 위한 데이터셋 생성
      • 7.4.2 고차원 분류 모형
    • 7.5 고객 리뷰 감성분석
      • 7.5.1 감성분석 진행
    • 7.6 정리
    •  
  • ▣ 8장: 마켓 데이터 분석
    • 8.1 분석 개요
    • 8.2 데이터 전처리
      • 8.2.1 데이터 및 패키지 불러오기
    • 8.3 상위 판매 상품 분석
      • 8.3.1 판매 상품 분석
    • 8.4 고객 구매 패턴 분석
      • 8.4.1 고객 재방문 시기 분석
      • 8.4.2 고객 구매 물품 분석
      • 8.4.3 고객의 구매 패턴에 따른 군집 생성
    • 8.5 추천 시스템
      • 8.5.1 추천 시스템의 개념
      • 8.5.2 추천 시스템 구현
    • 8.6 정리
  • 143쪽, 본문 밑에서 2번째 줄

    첫 번째 정규분포는 평균을 0, 분산을 3으로 설정하고, 두 번째 정규분포는 평균을 0, 분산을 5로 설정했습니다.

    ==>

    첫 번째 정규분포는 평균을 0, 표준편차를 3으로 설정하고, 두 번째 정규분포는 평균을 0, 표준편차를 5로 설정했습니다.

  • 180쪽, 본문 4번째 줄

    SSW는 1.5입니다.

    ==>

    SSB는 1.5입니다.

  • 307쪽, 본문 5번째 줄

    brand와 price는 각각 제품의 브랜드와 고객 id입니다.

    ==>

    brand와 price는 각각 제품의 브랜드와 가격입니다.

  • 348쪽, 3번째 줄

    10대와 90대는 고객 수가 별로 없기 때문에 분석에서 제외합니다.

    ==>

    10대, 80대 그리고 90대는 고객 수가 별로 없기 때문에 분석에서 제외합니다.