직장인을 위한 데이터 분석 실무 with 파이썬 (개정판)

마케팅, 영업, 기획 실무 담당자를 위한 데이터 분석의 기술

‘데이터 분석은 좋은 질문에서 시작합니다’

이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 봅니다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 활용한 데이터 분석에 재미있게 빠져들 수 있도록 실제 업무에 활용할 수 있거나 흥미로운 예제로 구성돼 있습니다. 이 책을 마치고 나면 데이터를 기반으로 좋은 질문에 답할 수 있는 실력을 키울 수 있을 것입니다.

 

★ 이 책에서 다루는 예제 ★

  • 코로나(COVID-19) 영향으로 해외 관광객수 얼마나 줄었을까?

    • 사회 이슈에 따른 외국인 관광객수 변화 분석
  • 가장 뜨는 제주도 핫플레이스는 어디일까?

    • 인스타그램으로 살펴보는 트렌드 분석
  • 왜 우리동네에는 스타벅스가 없을까?

    • 스타벅스 입지전략 분석
  • 어떤 무선청소기가 인기가 좋을까?

    • 다나와(가격비교 사이트)를 통한 무선청소기 브랜드별 제품 비교 분석

 

도서 상세 이미지

이형석

주로 안드로이드 앱 개발자로 활동하다가 현재 회사인 '망고플레이트'에 입사하면서 본격적으로 안드로이드, 백엔드, 프런트엔드 업무까지 담당하는 등 다양한 개발 경험을 쌓고 있다. 맛집 데이터 정보를 효율적으로 수집 및 관리하기 위해 파이썬을 이용하면서 우연히 데이터 분석 스터디 모임인 Play with Data를 알게 됐고 모임을 준비하고 진행하면서 많은 것을 배우고 있다.

장남수

뷰티/소비재 회사, 금융 스타트업을 거쳐 현재 '마이온'에서 데이터 분석가로 일하고 있으며, 모두가 "잘하는 것을 직업으로" 가질 수 있도록 초개인화 분석/진로 서비스를 개발하고 있다. 다양한 사람들과 함께 이야기하고 고민하는 것을 좋아하며 '데이터공방' 블로그에 글을 쓰거나 강의, 세미나 등의 활동을 하고 있다.

전상환

부산대학교 공간정보협동과정 공간분석 연구실에서 박사과정을 수료했고 첫 회사에서 GIS 관련 공 공 SI 프로젝트를 수행했다. 현재 헬스케어 스타트업 LVIS에서 대용량 데이터 시각화 서비스를 개발하고 있다. 오픈소스 GIS 기술에 관심이 많아 OSGeo Korea에서 활동하면서 개인적으로 NLP와 공간 데이터 시각화 연구를 진행 중이다. 공간 데이터 수집, 분석, 시각화 웹 플랫폼 서비스를 구축하는 것이 목표다.

정상욱

통신사에서 빅데이터 분석을 통해 유동인구/상권분석 등 사람들의 움직임에서 인사이트를 찾아내는 일을 하다가 현재는 증권사에서 경제의 움직임을 분석하는 데이터 사이언티스트로 활동 중이다. 의미 있는 데이터 분석은 좋은 질문에서 나온다는 것을 몸소 체험하고, 좋은 질문들을 찾아 헤매는 중이다. 세상을 데이터로 바라보는 일에 관심이 많고, 지도 보는 것을 좋아한다.

  • ▣ 01. 준비하기
    • 1.1 실습 자료 내려받기
    • 1.2 파이썬 준비
      • 1.2.1 아나콘다 내려받기
      • 1.2.2 아나콘다 설치
      • 1.2.3 주피터 노트북 준비
      • 1.2.4 주피터 노트북 시작하기
      • 1.2.5 주피터 노트북 사용하기
    • 1.3 파이썬 맛보기
      • 1.3.1 파이썬 코드 입력 및 실행
      • 1.3.2 값 입력 및 출력
      • 1.3.3 리스트
      • 1.3.4 반복문
      • 1.3.5 문자열
      • 1.3.6 조건문
      • 1.3.7 함수
    •  
  • ▣ 02. 데이터 분석 기초
    • 2.1 pandas 기초
      • 2.1.1 pandas란?
      • 2.1.2 데이터 불러오기(read_excel)
      • 2.1.3 데이터 선택 ① - 칼럼 기준
      • 2.1.4 데이터 선택 ② - 로우 기준
      • 2.1.5 데이터 통합 ① - 옆으로 통합(merge)
      • 2.1.6 데이터 통합 ② - 아래로 통합(append)
      • 2.1.7 데이터 저장(to_excel)
      • 2.1.8 데이터 집계(pivot_table)
    • 2.2 웹 크롤링 기초
      • 2.2.1 selenium과 크롬드라이버 설치
      • 2.2.2 크롬드라이버 활용하기
      • 2.2.3 웹 페이지 접속
      • 2.2.4 웹 페이지(HTML) 다운로드
      • 2.2.5 HTML 구조 살펴보기
      • 2.2.6 크롬 브라우저에서 웹 페이지의 HTML 살펴보기
      • 2.2.7 BeautifulSoup을 이용한 정보 찾기
      • 2.2.8 HTML 정보 찾기 ① - 태그 속성 활용
      • 2.2.9 HTML 정보 찾기 ② - 상위 구조 활용
      • 2.2.10 정보 가져오기 ① - 태그 그룹에서 하나의 태그 선택하기
      • 2.2.11 정보 가져오기 ② - 선택한 태그에서 정보 가져오기
      • 2.2.12 멜론 노래 순위 정보 크롤링
      • 2.2.13 selenium을 활용한 크롤링
    •  
  • ▣ 03. 데이터 분석 맛보기
    • 3.1 여러 음원 서비스의 순위 수집/정리하기
      • 3.1.1 멜론 크롤링 결과를 엑셀로 저장하기
      • 3.1.2 벅스 크롤링 결과를 엑셀 파일로 저장하기
      • 3.1.3 지니 크롤링 결과를 엑셀 파일로 저장하기
      • 3.1.4 멜론, 벅스, 지니 크롤링 엑셀 파일 통합하기
    • 3.2 유튜브 랭킹 데이터 수집과 시각화
      • 3.2.1 유튜브 랭킹 데이터 수집하기
      • 3.2.2 유튜브 랭킹 데이터 시각화하기
      • 3.2.3 결론
    •  
  • ▣ 04. 코로나 바이러스(COVID19)의 영향으로 중국인 관광객이 얼마나 줄었을까
    • 4.1 외국인 출입국 통계 데이터 구하기
    • 4.2 데이터 불러오기 및 전처리
      • 4.2.1 불러올 데이터의 형태 파악
      • 4.2.2 파이썬에서 엑셀 데이터 불러오기
      • 4.2.3 데이터 전처리
      • 4.2.4 데이터 전처리 과정을 함수로 만들기
      • 4.2.5 반복문을 통해 다수의 엑셀 데이터를 불러와서 합치기
      • 4.2.6 통합 데이터를 엑셀 파일로 저장하기
      • 4.2.7 국적별 필터링된 데이터를 엑셀 파일로 저장하기
    • 4.3 데이터 시각화
      • 4.3.1 데이터 시각화의 중요성
      • 4.3.2 시계열 그래프 그리기
      • 4.3.3 히트맵 그래프 그리기
    • 4.4 시각화 해석하기
    • 4.5 정리
    •  
  • ▣ 05. 가장 뜨는 제주도 핫플레이스는 어디일까?
    • 5.1 인스타그램 크롤링
      • 5.1.1 크롤링 과정
      • 5.1.2 인스타그램 접속 후 로그인하기
      • 5.1.3 인스타그램 검색 결과 URL을 만들어 접속하기
      • 5.1.4 첫 번째 게시글 열기
      • 5.1.5 게시글 정보 가져오기
      • 5.1.6 다음 게시글 열기
      • 5.1.7 여러 게시글 정보 수집하기
      • 5.1.8 수집 데이터 저장
      • 5.1.9 여러 엑셀 파일의 중복을 제거한 후 통합 저장
    • 5.2 워드 클라우드
      • 5.2.1 워드 클라우드를 만드는 과정
      • 5.2.2 해시태그 데이터 불러오기
      • 5.2.3 해시태그 출현 빈도 집계
      • 5.2.4 막대차트로 해시태그 살펴보기
      • 5.2.5 워드 클라우드 그리기
    • 5.3 지도 시각화
      • 5.3.1 지도 시각화 과정
      • 5.3.2 데이터 준비
      • 5.3.3 카카오 검색 API 가입
      • 5.3.4 카카오 로컬 API를 활용한 장소 검색
      • 5.3.5 위치 정보별 인스타 게시량 정리
      • 5.3.6 folium을 이용한 지도 시각화 ① - 개별 표시
      • 5.3.7 folium을 이용한 지도 시각화 ② - 그룹으로 표시
    • 5.4 특정 단어를 포함한 게시글 찾기
      • 5.4.1 원하는 게시글 찾기
      • 5.4.2 데이터 준비하기
      • 5.4.3 단어 선택하기
    • 5.5 정리
    •  
  • ▣ 06. 왜 우리 동네에는 스타벅스가 없을까?
    • 6.1 데이터 수집
      • 6.1.1 크롤링을 이용한 서울시 스타벅스 매장 목록 데이터 생성
      • 6.1.2 서울열린데이터광장의 OPEN API를 활용한 공공데이터 수집
    • 6.2 데이터 전처리
      • 6.2.1 서울시 스타벅스 매장 목록, 인구, 사업체 데이터에 시군구명, 시군구코드 추가
      • 6.2.2 스타벅스 분석 데이터 만들기
    • 6.3 데이터 시각화
      • 6.3.1 스타벅스 매장분포 시각화
      • 6.3.2 시군구별 스타벅스 매장 수 시각화
      • 6.3.3 스타벅스 매장 수와 인구수 비교
      • 6.3.4 스타벅스 매장 수와 사업체 수 비교
    • 6.4 정리
    •  
  • ▣ 07. 어떤 무선청소기가 인기가 좋을까?
    • 7.1 데이터 수집 1 – 한 페이지 크롤링
      • 7.1.1 다나와 소개
      • 7.1.2 다나와 검색 페이지 접속
      • 7.1.3 다나와 검색 웹 페이지에서 상품 정보 가져오기
    • 7.2 데이터 수집 2 - 여러 페이지에 걸친 다나와 검색 페이지 크롤링
      • 7.2.1 다나와 검색 결과 페이지 URL 분석
      • 7.2.2 주피터 노트북의 진행표시줄 처리
      • 7.2.3 여러 페이지에 걸친 상품 정보 수집
      • 7.2.4 수집 데이터 저장
    • 7.3 다나와 크롤링 데이터 전처리
      • 7.3.1 다나와 크롤링 데이터 불러오기
      • 7.3.2 회사명, 모델명 정리
      • 7.3.3 스펙 목록 데이터 살펴보기
      • 7.3.4 스펙 목록에서 카테고리, 사용시간, 흡입력을 추출해서 정리
      • 7.3.5 무선청소기 사용시간 단위 통일시키기
      • 7.3.6 무선 청소기 흡입력 단위 통일시키기
      • 7.3.7 다나와 전처리 결과를 엑셀로 저장
    • 7.4 무선청소기 모델별 비교 분석
      • 7.4.1 데이터 살펴보기
      • 7.4.2 가성비 좋은 제품 살펴보기
      • 7.4.3 데이터 시각화
      • 7.4.4 인기 제품의 데이터 시각화
    • 7.5 정리