스마트카 프로젝트로 배워보는 빅데이터 프로젝트의 AtoZ

스마트카 빅데이터 파일럿 프로젝트를 단계별로 진행하면서 빅데이터의 수집/적재, 처리/탐색, 분석/응용 영역의 아키텍처와 활용 기술들을 다루고 있다. 전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의 A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다.

빅데이터 시스템 구축에 필요한 실무 요건들을 도출하고 이를 해결하기 위한 빅데이터의 수집, 적재, 처리, 분석 아키텍처와 10여 개의 핵심 기술 요소들을 설명하는 방식으로 독자들이 빅데이터를 더욱 쉽게 이해할 수 있게 돕는다.

★ 이 책에서 다루는 내용 ★

  • 플럼, 카프카를 이용한 스마트카 상태 정보와 운행정보 수집
  • 스톰, 에스퍼, 하둡, HBase, 레디스로 대용량 파일과 실시간 데이터 적재
  • 하이브, 스파크 애드혹 쿼리로 데이터를 선택, 변환, 통합, 축소
  • 휴, 우지를 통한 빅데이타 마트 구축
  • 임팔라, 제플린으로 고성능 인메모리 분석을 수행하고 결과를 시각화
  • 머하웃으로 추천, 분류, 군집 등의 고급 분석
  • 스쿱을 빅데이터 분석 결과를 다른 응용 시스템의 RDBMS에 익스포트

 

<추천사>

"지금까지 많은 빅데이터 책들이 개념과 이론에 치중해서 출간됐는데, 이 책은 실무 빅데이터 프로젝트를 기반으로 기술에 접근하면서 활용법까지 알려준다." -- KT DS 데이터컨설팅, 김태연

"이 책에서는 빅데이터가 어떠한 과정을 통해 인사이트와 가치를 만들어 내는지를 빅데이터 가상 프로젝트를 통해 하나부터 열까지 낱낱이 알려준다." -- Dell EMC Global Service Group, 예상우

"수집/적재된 데이터가 5가지 탐색 과정을 거쳐 머하웃을 통해 고급 분석 영역으로 이어지는 것은 지금까지 어떠한 빅데이터 서적에서도 다루지 못했던 내용이다." -- 삼성 SDS CI-TEC, 이범

"빅데이터 경쟁력을 키우기 위해서는 개발자, 설계자, 분석가, 데이터 과학자, 도메인 전문가 등 다양한 관점에서 빅데이터를 바라보고 이해할 수 있어야 하는데, 그때 필요한 책이 바로 이 책이다." -- SK 플래닛 서비스엔지니어링, 김기홍

"책에서 다루는 7개의 목차가 하나의 빅데이터 구축 스토리로 연결됐고, 마지막 7장이 끝날 무렵 내 노트북에는 나만의 빅데이터 도구가 하나 만들어져 있었다." -- 쿠팡 Shipment Authrority Technology Tribe, 김성희

김강원

2017년 현재 KT DS의 금융사업TF 소속으로, 대한민국의 1호 인터넷전문은행인 K뱅크에서 빅데이터 프로젝트 총괄 리더로 참여하고 있다. 2000년 중반부터 대용량 데이터 인터페이스 프로젝트를 수행하면서 클라우드 컴퓨팅과 빅데이터 기술에 관심을 갖게 됐고, 삼성 S-클라우드와 KT 오픈플랫폼, KT 빅데이터 분석 플랫폼 등의 프로젝트에 참여했다. 2013년부터는 KT DS의 소프트웨어 기술연구소에서 다양한 오픈소스와 하둡 에코시스템을 연구하기 시작했고, 2014년엔 전사 빅데이터 TF를 리딩하며 빅데이터 버티컬 솔루션인 빅펜스를 만들었다.

  • ▣ 01장: 빅데이터 이해하기
    • 1.1 빅데이터의 개념
    • 1.2 빅데이터 시장
    • 1.3 빅데이터 기술의 변화
    • 1.4 빅데이터 구현 기술
      • 수집 기술
      • 적재 기술
      • 처리/탐색 기술
      • 분석/응용 기술
    • 1.5 마치며
    •  
  • ▣ 02장: 빅데이터 파일럿 프로젝트
    • 2.1 파일럿 프로젝트 도메인의 이해
      • 요구사항 파악
      • 데이터셋 살펴보기
    • 2.2 빅데이터 파일럿 아키텍처 이해
      • 소프트웨어 아키텍처
      • 하드웨어 아키텍처
      • 구축 환경 이해
    • 2.3 빅데이터 파일럿 프로젝트용 PC 환경 구성
      • 자바 설치
      • 이클립스 설치
      • 오라클 버추얼 박스 설치
      • 기타 개발환경 구성
      • 리눅스 가상 머신 환경 구성
    • 2.4 빅데이터 파일럿 서버 구성
      • CentOS 설치
      • CentOS 환경 구성
      • 가상 머신 복제
    • 2.5 클라우데라 매니저 설치
      • 빅데이터 기본 소프트웨어 설치 - 하둡, 주키퍼 등 기본 구성
      • DataNode 추가 및 환경 설정
      • HDFS 명령을 이용한 설치 확인
      • 주키퍼 클라이언트 명령을 이용한 설치 확인
    • 2.6 스마트카 로그 시뮬레이터 설치
    • 2.7 파일럿 환경 관리
    • 2.8 마치며
    •  
  • ▣ 03장: 빅데이터 수집
    • 3.1 빅데이터 수집 개요
    • 3.2 빅데이터 수집에 활용할 기술
      • 플럼
      • 카프카
    • 3.3 수집 파일럿 실행 1단계 - 수집 아키텍처
      • 수집 아키텍처
    • 3.4 수집 파일럿 실행 2단계 - 수집 환경 구성
      • 플럼 설치
      • 카프카 설치
    • 3.5 수집 파일럿 실행 3단계- 플럼 수집 기능 구현
      • SmartCar 에이전트 생성
      • SmartCar 에이전트에 Interceptor 추가
      • DriverCarInfo 에이전트 생성
    • 3.6 수집 파일럿 실행 4단계 - 카프카 기능 구현
      • 카프카 Topic 생성
      • 카프카 Producer 사용
      • 카프카 Consumer 사용
    • 3.7 수집 파일럿 실행 5단계 - 수집 기능 테스트
      • SmartCar 로그 시뮬레이터 작동
      • 플럼 에이전트 작동
      • 카프카 Consumer 작동
      • 수집 기능 점검
    • 3.8 마치며
    •  
  • ▣ 04장: 빅데이터 적재 I - 대용량 로그 파일 적재
    • 4.1 빅데이터 적재 개요
    • 4.2 빅데이터 적재에 활용하는 기술
      • 하둡
      • 하둡 아키텍처
      • 하둡 활용 방안
      • 주키퍼
      • 주키퍼 아키텍처
      • 주키퍼 활용 방안
    • 4.3 적재 파일럿 실행 1단계 - 적재 아키텍처
      • 적재 요구사항
      • 적재 아키텍처
    • 4.4 적재 파일럿 실행 2단계 - 적재 환경 구성
      • 하둡 설치
    • 4.5 적재 파일럿 실행 3단계 - 적재 기능 구현
      • SmartCar 에이전트 수정
    • 4.6 적재 파일럿 실행 4단계 - 적재 기능 테스트
      • 플럼의 사용자 정의 Interceptor 추가
      • 플럼의 Conf 파일 수정
      • SmartCar 로그 시뮬레이터 작동
      • 플럼 이벤트 작동
      • HDFS 명령어 확인
    • 4.7 마치며
    •  
  • ▣ 05장: 빅데이터 적재 II - 실시간 로그/분석 적재
    • 5.1 빅데이터 실시간 적재 개요
    • 5.2 빅데이터 실시간 적재에 활용하는 기술
      • HBase
      • 레디스
      • 스톰
      • 에스퍼
    • 5.3 실시간 적재 파일럿 실행 1단계 - 실시간 적재 아키텍처
      • 실시간 적재 요구사항
      • 실시간 적재 아키텍처
    • 5.4 실시간 적재 파일럿 실행 2단계 - 실시간 적재 환경 구성
      • HBase 설치
      • 레디스 설치
      • 스톰 설치
    • 5.5 실시간 적재 파일럿 실행 3단계 - 실시간 적재 기능 구현
      • 카프카 Spout 기능 구현
      • Split Bolt 기능 구현
      • HBase Bolt 기능 구현
      • 에스퍼 Bolt 기능 구현
      • 레디스 Bolt 기능 구현
      • 레디스 클라이언트 애플리케이션 구현
      • HBase 테이블 생성
      • 스톰 Topology 배포
    • 5.6 실시간 적재 파일럿 실행 4단계 - 실시간 적재 기능 테스트
      • 로그 시뮬레이터 작동
      • HBase에 적재 데이터 확인
      • 레디스에 적재된 데이터 확인
      • 레디스 클라이언트 애플리케이션 작동
      • 실시간 개발 환경 구성
    • 5.7 마치며
    •  
  • ▣ 06장: 빅데이터 탐색
    • 6.1 빅데이터 탐색 개요
    • 6.2 빅데이터 탐색에 활용되는 기술
      • 하이브
      • 스파크
      • 우지
      • 휴(Hue)
    • 6.3 탐색 파일럿 실행 1단계 - 탐색 아키텍처
      • 탐색 요구사항
      • 탐색 아키텍처
    • 6.4 탐색 파일럿 실행 2단계 - 탐색 환경 구성
      • 하이브 설치
      • 우지 설치
      • 휴 설치
      • 스파크 설치
      • 탐색 환경의 구성 및 설치 완료
    • 6.5 탐색 파일럿 실행 3단계 - 휴를 이용한 데이터 탐색
      • HDFS에 적재된 데이터 확인
      • HBase에 적재된 데이터 확인
      • 하이브를 이용한 External 데이터 탐색
      • 하이브를 이용한 HBase 데이터 탐색
      • 데이터셋 추가
      • 스파크를 이용한 추가 데이터셋 탐색
    • 6.6 탐색 파일럿 실행 4단계 - 데이터 탐색 기능 구현 및 테스트
      • 주제 영역 1. 스마트카 상태 정보 모니터링 - 워크플로 작성
      • 주제 영역 2. 스마트카 운전자 운행 기록 정보 - 워크플로 작성
      • 주제 영역 3. 이상 운전 패턴 스마트카 정보 - 워크플로 작성
      • 주제 영역 4. 긴급 점검이 필요한 스마트카 정보 - 워크플로 작성
      • 주제 영역 5. 스마트카 운전자 차량용품 구매 이력 정보 - 워크플로 작성
    • 6.7 마치며
    •  
  • ▣ 07장: 빅데이터 분석
    • 7.1 빅데이터 분석 개요
    • 7.2 빅데이터 분석에 활용 기술
      • 임팔라
      • 제플린
      • 머하웃
      • 머하웃 아키텍처
      • 스쿱
    • 7.3 분석 파일럿 실행 1단계 - 분석 아키텍처
      • 분석 요구사항
      • 분석 아키텍처
    • 7.4 분석 파일럿 실행 2단계 - 분석 환경 구성
      • 임팔라 설치
      • 스쿱 설치
      • 제플린 설치
      • 머하웃 설치
    • 7.5 분석 파일럿 실행 3단계 - 임팔라를 이용한 데이터 실시간 분석
      • 하이브 QL를 임팔라에서 실행하기
      • 임팔라를 이용한 운행 지역 분석
    • 7.6 분석 파일럿 실행 4단계 - 제플린을 이용한 실시간 분석
      • 제플린을 이용한 운행 지역 분석
    • 7.7 분석 파일럿 실행 5단계 - 머하웃을 이용한 데이터 마이닝
      • 머하웃 추천 - 스마트카 차량용품 추천
      • 머하웃 분류 - 스마트카 상태 정보 예측
      • 머하웃 군집 - 스마트카 고객 정보 분석
    • 7.8 분석 파일럿 실행 6단계 - 스쿱을 이용한 분석 결과 외부 제공
      • 스쿱의 내보내기 기능 - 이상 운전 차량 정보
    • 7.9 마치며
  • 108쪽, 3번째 줄

    CM 홈 → [Hue] ==> CM 홈 → [Flume]

  • 109쪽, 밑에서 첫 번째 줄

    카프카가 Server01에 ==> 카프카가 Server02

  • 111쪽, 첫 번째 줄

    먼전 ==> 먼저

  • 117쪽, 본문 9번째 줄

    마지막으로 -topic 옵션으로 ==> 마지막으로 --topic 옵션으로

  • 127쪽, 10번째 줄

    SP을F ==> SPOF

  • 205쪽, 2번째 줄

    UC 버클리의 AMPLAP에서 ==> UC 버클리의 AMPLab에서

예제코드 관련 GitHub 페이지

관련 글


엮인 글

엮인 글 주소: http://wikibook.co.kr/bigdata/trackback/