데이터 해석학 입문

올바른 데이터 분석을 위한 의사결정 성공 방정식

데이터 취득·분석·해석·활용의 각 단계에서 알아야 할 기술을 포괄적으로 설명합니다!

《데이터 해석학 입문》은 데이터를 분석해 배후에 있는 메커니즘을 해석하거나 데이터에 근거한 의사결정이나 문제 해결을 할 때 분석자가 알아둬야 할 지식을 알기 쉽게 설명한 책입니다. 데이터 분석이 잘 되는지는 분석 기술뿐 아니라 데이터의 질이나 취급방법, 해석방법에도 크게 영향을 받습니다. 그러나 실무에서 데이터나 분석의 질을 높게 유지하고 잘못된 해석을 하지 않기 위한 지식을 알기 쉽게 정리된 입문서는 아직 많지 않습니다.

이 책에서는 각종 분석기법뿐만 아니라 데이터의 편차나 편향에 관한 기초지식, 데이터에 다양한 편중을 발생시키는 행동심리학, 샘플링의 방법과 이론, 데이터 핸들링의 노하우, 각종 분석의 사고방식, 데이터 해석에서의 인지 편향이나 수리 모델링의 포인트, 시스템 운용 시 발생하는 문제 등 매우 폭넓은 시각에서 데이터 분석자가 꼭 알아둬야 할 지식을 정리해서 설명합니다.

기술에 대해서는 본질적인 생각의 부분에 특히 중점을 두어, 수학에 자신이 없는 독자분이라도 읽어 나갈 수 있도록 구성했습니다. 또 흥미로운 사례도 충분히 소개해 읽을거리로서의 재미도 추구했습니다. 데이터 사이언티스트를 목표로 하는 분은 물론, 연구로 데이터를 분석하고 싶은 학생, 데이터 분석에 대해 깊게 알고 싶은 비즈니스맨에게도 유용할 것입니다.

★ 이런 분께 추천합니다 ★

  • 분석 결과에 자신이 없는 분
  • 통계 분석이 무엇인지 알고 싶은 분
  • 분석의 수학적 모델의 역할을 알고 싶은 분

 

도서 상세 이미지

에자키 타카히로

동경대학첨단과학기술연구센터 특임강사. 2011년 동경대학 공학부 항공우주학과 졸업. 2015년 동 대학원 박사과정 수료(특례적용으로 1년 단축), 공학박사. 일본학술진흥회 특별연구원, 국립정보학연구소 특임연구원, JST선행연구원, 스탠포드대학 객원연구원을 거쳐 2020년부터 현직에 있음. 동경대학총장상, 이노우에 연구장려상 등 수상, 수리적인 해석기술을 무기로 통계물리학, 뇌과학, 행동경제학, 생화학, 교통공학, 물류과학 등 폭넓은 분야의 문제를 다루고 있다. 저서로 《데이터 분석을 위한 수리 모델 입문 - 데이터 뒤에 숨겨진 본질 파악하기(2020, 위키북스)》가 있다.

손민규

소니 반도체에서 데이터 분석업무와 알고리즘 및 시스템 개발 업무와 사원 대상 통계 알고리즘 강의를 진행했으며, 현재 삼성전자에서 데이터 분석 업무를 하고 있다. 일본 큐슈대학교에서 인공지능의 한 분야인 강화학습(Reinforcement Learning) 알고리즘 개발로 박사학위를 받았으며, 관심분야는 강화학습, 인공신경망(Neural Network), 유전 알고리즘(Genetic Algorithm) 등 머신러닝(Machine Learning) 알고리즘을 활용한 시스템 개발이다.

  • 저서: 《데이터 분석을 떠받치는 수학(2018)》 《기초부터 시작하는 강화학습/신경망 알고리즘(2019)》
  • 번역: 《가장 쉬운 딥러닝 입문 교실(2018)》 《실전! 딥러닝(2019)》 《파이썬 데이터 분석 실무 테크닉 100(2010)》
  • 감수: 《정석으로 배우는 딥러닝(2017)》
  • [1부] 데이터의 성질에 관한 기초지식
    • ▣ 1장: 관측은 간단하지 않다
      • 1.1 데이터 관측
        • 대상에서 정보 추출
        • 쓰레기를 넣으면 쓰레기가 나온다
        • 데이터의 제약과 표본추출
      • 1.2 측정의 어려움
        • 필요한 데이터가 전부 수집되는 것은 당연하지 않다
        • ‘측정할 수 없는 것’을 측정할 때
        • 측정에 따른 정보의 누락
        • 관계가 있는 것처럼 보이는 지표를 혼용하지 않는다
        • ‘표준화’에 따른 정보의 누락
    •  
    • ▣ 2장: 오차와 변동
      • 2.1 오차의 분해
        • ‘오차’란
        • 오차가 크면 정보가 사라진다
        • 우연오차와 편향
      • 2.2 오차와 확률분포
        • 데이터의 변동 파악
        • 배후에 있는 참 분포를 생각하자
        • 평균과 분산
      • 2.3 ‘확률분포’ 정리
        • 수학적 확률과 통계적 확률
        • 확률분포와 확률밀도
        • 가장 중요한 확률분포 ‘정규분포’
        • 확률변수를 서로 더하면 나타나는 정규분포
        • 경험분포와 이론분포
        • 오차의 분포와 데이터의 분포
      • 2.4 우연 오차의 변동 처리
        • 관측값의 평균값을 이용한 변동 억제
        • 통계적으로 평가한다
        • 관측수를 늘리는 효과
        • 편차가 작은 지표에 주목한다
    •  
    • ▣ 3장: 데이터에 포함된 편향
      • 3.1 측정기준에 관한 편향
        • 일관된 측정기준
        • 일정한 기준의 어려움
        • 시간적으로 변하는 기준
      • 3.2 선택편향
        • ‘데이터가 수집되고 있다’라는 의미
        • 여러가지 선택편향
        • 우연
      • 3.3 관측 개입에 의한 편향
        • ‘질문’은 어렵다
        • 신뢰할 수 없는 대답
        • 나중에 이유 붙이기
        • 관측에 따른 개입의 영향
      • 3.4 데이터 취급에 따른 편향
        • 데이터를 왜곡시키는 동기
        • 유리한 데이터만 수집
        • 인위적인 실수
    •  
    • ▣ 4장: 중첩요인과 인과관계
      • 4.1 두 변수 간의 관계
        • 변수의 상관관계
        • 변수 간의 인과관계란
        • 상관관계와 인과관계
        • 변수간의 관계성 정리
      • 4.2 중첩을 처리한다
        • 변수의 얽힘
        • 개입과 그 한계
        • 무작위 배정 임상시험(RCT)
        • 관찰 데이터와 실험 데이터
      • 4.3 무작위 배정 임상시험을 할 수 없을 때
        • 다중회귀분석
        • 로지스틱 회귀
        • 회귀불연속설계
        • 성향점수 매칭
        • 상황에 따른 방법의 선택
    •  
    • ▣ 5장: 데이터 표본추출 방법론
      • 5.1 표본추출 개념
        • 표본조사란
        • 일부 데이터로 전체를 안다
        • 표본크기 결정방법
      • 5.2 여러 가지 표본추출법
        • 무작위추출
        • 집락추출로 표본추출 비용을 낮춘다
        • 무작위가 아닌 추출법
        • 결과를 일반화할 수 있는가
      • 5.3 표본추출과 편향
        • 범위오차
        • 응답에 발생하는 편향
        • 대상 집단에 의한 선택편향
    •  
  • [2부] 데이터의 분석에 관한 기초지식
    • ▣ 6장: 데이터 가공
      • 6.1 수집한 데이터 확인
        • 잘못된 데이터에 주의
        • 단위와 자릿수
        • 이상치 확인
        • 제거해도 괜찮은 이상치인가
      • 6.2 데이터의 분석·조작
        • 데이터 해석까지의 흐름
        • 각 처리에서 에러를 체크
        • 처리 코드를 통일한다
        • 분석 코드 관리
        • 소프트웨어 이용
      • 6.3 데이터의 보관·관리
        • 데이터의 보관
        • 보안관리
        • 개인정보 취급
        • 가명정보 활용
    •  
    • ▣ 7장: 일변수 데이터
      • 7.1 기술통계량
        • 양적 변수와 범주형 변수
        • 대표적인 값을 계산한다
        • 산포를 표현하는 기술통계량
        • 기술통계량만으로 파악할 수 없다
      • 7.2 데이터의 분포를 생각하자
        • 분포를 보자
        • 목적에 맞는 가시화
        • 히스토그램의 함정
      • 7.3 이론분포와 연결짓는다
        • 이론분포를 생각하자
        • 꼬리가 두꺼운 분포
        • 누적분포함수로 경험분포와 이론분포를 비교
      • 7.4 시계열 데이터란
        • 동일한 양을 계속 관측한다
        • 주기성분 분리
        • 과거의 영향을 자기상관으로 본다
    •  
    • ▣ 8장: 변수 간의 관계를 조사한다
      • 8.1 두 개의 양을 비교한다
        • 어느쪽이 큰가
        • 편차와 결과의 중요성
        • 가설검정의 개념
        • 가설검정 사용법
        • t 검정을 이용한 두 그룹 비교
        • 대응 비교
      • 8.2 두 개의 양의 상관관계를 조사한다
        • 상관관계의 유무
        • 상관계수의 함정
        • 상관관계와 가설검정
        • 효과크기와 p 값의 해석
    •  
    • ▣ 9장: 다변량 데이터 해석
      • 9.1 탐색적 분석과 다중검정
        • 쌍으로 놓고 생각하자
        • 다중 검정이란
        • 다중성을 보정하자
        • 새로운 데이터를 수집한다
      • 9.2 분산분석과 다중비교
        • 3개 이상의 비교
        • 여러개의 요인을 조사한다
        • 어디에 차이가 있는지 알고 싶은 경우
        • 분산분석과 다중비교
      • 9.3 상관관계 구조를 파헤친다
        • 편상관관계를 본다
        • 요인분석
        • 좀 더 복잡한 관계성
        • 주성분분석
        • 군집화
        • 계층적 군집화
      • 9.4 여러 가지 방법 정리
        • 설명하는 변수·설명되는 변수
        • 탐색적 분석을 하고 싶은 경우
        • 설명변수로서 영향을 보고 싶은 경우
    •  
    • ▣ 10장: 수리 모델링
      • 10.1 수리 모델링은 무엇을 하고 있는가
        • 수리 모델이란
        • 가정에서 도출된 이론
        • 수리 모델의 타당성
      • 10.2 목적에 맞는 모델링
        • 이해지향적 모델링과 응용지향적 모델링
        • 이해지향형 모델링의 포인트
        • 응용지향형 모델링의 포인트
      • 10.3 모델을 이용한 ‘예측’
        • ‘예측’이란
        • 예측하기 쉬운 문제, 어려운 문제
        • 데이터에서 크게 동떨어진 상황은 예측하기 어렵다
        • 선형과 비선형
        • 메커니즘의 이해와 예측
        • 데이터 부족과 이해지향형 모델링
        • 이해지향형 모델링과 설명력
    •  
  • [3부] 데이터의 해석과 활용에 관한 기초지식
    • ▣ 11장: 데이터 분석의 함정
      • 11.1 데이터 가공의 함정
        • 실수와 비율
        • 심슨의 역설
        • 평균값의 동작
        • 극단적인 값이 섞여있는 데이터
        • 불필요한 제거
        • 그래프를 왜곡하지 않는다
      • 11.2 확보한 데이터에 의한 함정
        • 다른 시점에서 데이터를 수집한다
        • 질적 데이터가 중요한 경우도
      • 11.3 분석 목적에 관련된 함정
        • 결론이 없는 결론
        • 목적에 따른 결과의 영향력
        • 오류의 허용도
        • 모델을 지나치게 신뢰한다
        • 목적에 맞는 분석 디자인
    •  
    • ▣ 12장: 데이터 해석의 함정
      • 12.1 분석결과의 신뢰성
        • 재현성의 문제
        • 같은 데이터에서 같은 결론이 나온다고 할 수 없다
        • 데이터의 재현성
        • HARKing과 p-hacking
        • 힐의 기준
      • 12.2 해석할 때 생기는 인지편향
        • 인간은 마음대로 패턴을 만든다
        • 시간과 인과의 함정
        • 확률을 파악하는 것은 어렵다
        • 실제 확률과 가용성 편향
        • 확증편향
        • 문맥의 효과
        • 잘못된 데이터 해석의 예
    •  
    • ▣ 13장: 데이터 활용의 함정
      • 13.1 목적에 근거한 평가·의사결정
        • 상황이나 목적에 따라 기본적인 방침이 다르다
        • 언제나 예측을 할 수 있는것은 아니다
        • 수리 모델은 블랙박스인가
      • 13.2 데이터의 수집과 활용
        • 전처리 비용을 낮춘다
        • 데이터 수집계획
        • 데이터를 수집하는 부담을 생각하자
      • 13.3 실제 세계와 데이터 분석
        • 데이터에 의한 관리주의
        • 조작된 평가 지표
        • AI에 의한 차별 조장
        • 피드백이 있는 시스템 구축