실전! 프로젝트로 배우는 딥러닝 컴퓨터비전 (ebook)
28,000원
중급
도서 소개
데이터 사이언스 전문가로 도약하기 위한 모든 지식과 실무 노하우를 한 권에 담았습니다!
많은 조직이 서비스에 데이터와 AI 기술을 도입하고자 하지만, 이를 실제 운영 환경에 구현하고 안정적으로 운영하는 과정은 결코 간단하지 않다. 데이터 수집, 저장, 처리부터 모델 배포 및 관리에 이르기까지 전반적인 과정을 유기적으로 다룰 수 있는 역량이 필요하며, 다양한 기술을 체계적으로 통합해 일관되게 운영할 수 있어야 한다.
실무자들은 '데이터와 AI를 활용하고 싶지만, 어디서부터 어떻게 설계하고 구성해야 할지 모르겠다'라는 문제에 종종 직면한다. 개별 기술에는 능숙하더라도, 전체 시스템 관점에서 이를 연계하고 운영하는 데 어려움을 겪는 경우가 많다. 이로 인해 프로젝트의 초기 설계부터 운영에 이르기까지 여러 단계에서 시행착오를 반복하곤 한다.
이 책은 데이터 사이언스의 기초 이론을 시작으로 데이터 엔지니어링, 모델 운영, 시스템 아키텍처 설계, 운영 전략에 이르는 흐름을 폭넓게 다룬다. 로그 설계, 마이크로서비스 전환, 성능 최적화, 보안, 비용 관리 등 실무에서 자주 접하는 주제를 포함하여, 다양한 직무의 실무자가 참고할 수 있는 아키텍처 중심의 실전 해법을 제시한다.
★ 이 책에서 다루는 내용 ★
- 데이터 분석, 시각화, 탐색적 분석 등 데이터 사이언스의 핵심 이론
- 머신러닝과 딥러닝 모델 설계 개요 및 주요 응용 분야 소개
- 데이터 수집, 전처리, 통합, 거버넌스 등 데이터 엔지니어링 실무
- 데이터 저장 설계, 아키텍처 패턴, 데이터 파이프라인 구축
- 워크플로 설계, 배치 처리 및 실시간 처리 시스템 설계와 비교
- API 설계, 모델 배포, CI/CD, 성능 모니터링 및 MLOps 개념
- 로그 아키텍처 설계, Elastic Stack, 실험 설계(A/B 테스트) 원칙
- 마이크로서비스, 분산 시스템, 병목 분석 및 개선 등 시스템 설계 전략
- 캐싱, 로드밸런싱, 오토스케일링 등 시스템 최적화 및 운영 기술
- LLM 및 RAG 시스템 구성 전략 등 최신 AI 아키텍처 적용 사례
- 데이터 보안, 개인정보 보호, 장애 대응, 백업/복원, 고가용성 설계 가이드
- 클라우드 비용 최적화, SLA 설정, 운영 비용 관리 전략
도서 소개

저자 소개
윤대희
카카오스타일의 데이터사이언스 팀 리더로, 자연어처리, 컴퓨터비전, 추천시스템 등 다양한 AI 기반 프로젝트를 이끌고 있다. 데이터 리터러시, 데이터 패브릭, MLOps 등 데이터 활용 체계를 다뤘왔으며, 데이터 품질 관리와 통합, 비즈니스 인텔리전스 분야에도 폭넓게 관여해 왔다. 기술 공유와 확장 가능한 플러그인 개발 등 다양한 개인 프로젝트를 통해 조직과 개인이 데이터를 보다 효과적으로 활용하도록 돕고 있다.
목차
- [PART 01] 데이터 사이언스 기초편
- ▣ 1장: 데이터의 이해
- 1.1 데이터의 정의와 종류
- ___1.1.1 데이터 유형
- ___1.1.2 데이터 속성
- 1.2 데이터 분석
- ___1.2.1 통계적 모델링
- ___1.2.2 데이터 분석 프로세스
- ___1.2.3 데이터 분석 예시
- 1.3 데이터 시각화
- ___1.3.1 시각화의 종류
- ___1.3.2 시각화 원칙
- 1.4 탐색적 데이터 분석
- ___1.4.1 탐색적 데이터 분석 체크리스트
- ___1.4.2 탐색적 데이터 분석 예시
- ▣ 2장: 머신러닝의 기초
- 2.1 머신러닝 개념
- ___2.1.1 머신러닝의 비즈니스 목표 및 도입 고려사항
- ___2.1.2 머신러닝으로 해결 가능한 문제 정의 및 고려사항
- 2.1 머신러닝의 학습 원리
- ___2.1.1 순전파
- ___2.2.2 활성화 함수
- ___2.2.3 손실 함수
- ___2.2.4 최적화 알고리즘
- ___2.2.5 역전파
- 2.3 모델 성능 개선 및 평가
- ___2.3.1 과대적합과 과소적합
- ___2.3.2 정규화 기법
- ___2.3.4 모델 평가 지표
- ___2.3.5 모델 선택과 하이퍼파라미터 튜닝
- 2.4 머신러닝 모델 적용 예시
- ___2.4.1 머신러닝의 주요 접근 방식
- ___2.4.2 머신러닝 적용 사례
- ___2.4.3 모델 적용 시 고려사항
- ▣ 3장: 딥러닝의 핵심
- 3.1 기초 신경망 모델
- ___3.1.1 다층 퍼셉트론
- ___3.1.2 합성곱 신경망
- ___3.1.3 순환 신경망
- 3.2 생성 및 표현 학습 모델
- ___3.2.1 오토인코더
- ___3.2.2 생성적 적대 신경망
- 3.3 도메인 특화 신경망 모델
- ___3.3.1 그래프 신경망
- ___3.3.2 심층 Q-네트워크
- 3.4 최신 딥러닝 모델
- ___3.4.1 트랜스포머
- ___3.4.2 디퓨전 모델
- ___3.4.3 대규모 언어 모델
- ___3.4.4 MoE 모델
- ▣ 4장: 딥러닝 응용 분야
- 4.1 자연어 처리
- ___4.1.1 데이터 전처리
- ___4.1.2 모델 아키텍처
- ___4.1.3 모델 학습 및 평가
- ___4.1.4 핵심 모델
- ___4.1.5 필수 논문
- ___4.1.6 주요 라이브러리 및 도구
- 4.2 오디오 처리
- ___4.2.1 데이터 전처리
- ___4.2.2 모델 아키텍처
- ___4.2.3 모델 학습 및 평가
- ___4.2.4 핵심 모델
- ___4.2.5 필수 논문
- ___4.2.6 주요 라이브러리 및 도구
- 4.3 컴퓨터 비전
- ___4.3.1 데이터 전처리
- ___4.3.2 모델 아키텍처
- ___4.3.3 모델 학습 및 평가
- ___4.3.4 핵심 모델
- ___4.3.5 필수 논문
- ___4.3.6 주요 라이브러리 및 도구
- 4.4 강화 학습
- ___4.4.1 데이터 전처리
- ___4.4.2 모델 아키텍처
- ___4.4.3 모델 학습 및 평가
- ___4.4.4 핵심 모델
- ___4.4.5 필수 논문
- ___4.4.6 주요 라이브러리 및 도구
- 4.5 추천 시스템
- ___4.5.1 데이터 전처리
- ___4.5.2 모델 아키텍처
- ___4.5.3 모델 학습 및 평가
- ___4.5.4 핵심 모델
- ___4.5.5 필수 논문
- ___4.5.6 주요 라이브러리 및 도구
- 4.6 데이터 사이언스 로드맵
- ___4.6.1 자연어 처리
- ___4.6.2 오디오 처리
- ___4.6.3 컴퓨터 비전
- ___4.6.4 강화 학습
- ___4.6.5 추천 시스템
- ___4.6.6 확장 기술 스택
- [PART 02] 데이터 사이언스 실전편
- ▣ 5장: 데이터 엔지니어링
- 5.1 데이터 수집
- ___5.1.1 데이터 수집 방식
- ___5.1.2 데이터 수집 파이프라인
- ___5.1.3 파이프라인 설계 시 고려사항
- 5.2 데이터 전처리
- ___5.2.3 데이터 정제
- ___5.2.2 데이터 변환
- ___5.2.3 특징 공학
- ___5.2.4 데이터 불균형 처리
- ___5.2.5 데이터 전처리 예시
- 5.3 데이터 거버넌스
- ___5.3.1 데이터 거버넌스 구성 요소
- ___5.3.2 데이터 거버넌스 도구
- ___5.3.3 데이터 거버넌스 도구 도입 시기
- ▣ 6장: 데이터 저장 및 설계
- 6.1 데이터 저장 및 관리
- ___6.1.1 관계형 데이터베이스 관리 시스템
- ___6.1.2 NoSQL
- ___6.1.3 벡터 데이터베이스
- ___6.1.4 데이터 일관성 및 무결성 유지 전략
- 6.2 데이터 아키텍처 패턴
- ___6.2.1 데이터 저장 및 관리 아키텍처
- ___6.2.2 데이터 모델링 기법
- ___6.2.3 OLAP과 OLTP 시스템
- ___6.2.4 클라우드 기반 데이터 웨어하우스
- 6.3 데이터 파이프라인 설계
- ___6.3.1 ETL과 ELT
- ___6.3.2 데이터 수집, 변환, 저장 단계별 설계 원칙
- ___6.3.3 데이터 파이프라인 설계 고려 사항
- ___6.3.4 분산 데이터 환경에서의 데이터 파이프라인 최적화
- ▣ 7장: 모델 운영 및 관리
- 7.1 API 설계 원칙
- ___7.1.1 RESTful API
- ___7.1.2 RESTful API 디자인 및 구현
- ___7.1.3 GraphQL 소개
- ___7.1.4 API 게이트웨이 역할 및 기능
- 7.2 모델 배포
- ___7.2.1 모델 배포 환경 선택 기준
- ___7.2.2 모델 배포 방식 및 시나리오
- ___7.2.3 모델 버전 관리 및 롤백 전략
- 7.3 모델 성능 모니터링
- ___7.3.1 모델 모니터링과 성능 분석
- ___7.3.2 모델 드리프트 감지 방법
- ___7.3.3 모델 재학습 전략
- 7.4 CI/CD와 MLOps
- ___7.4.1 CI/CD 파이프라인
- ___7.4.2 MLOps
- ___7.4.3 MLOps 플랫폼
- ___7.4.4 MLOps 파이프라인 설계 및 구축 전략
- ▣ 8장: 데이터 처리 파이프라인
- 8.1 워크플로 설계
- ___8.1.1 요구사항 정의 및 목표 설정
- ___8.1.2 워크플로 단계별 설계
- ___8.1.3 기술 스택 선정
- ___8.1.4 워크플로 모니터링 및 개선
- 8.2 배치 처리
- ___8.2.1 배치 처리 개념 및 특징
- ___8.2.2 배치 스케줄러 소개 및 비교
- ___8.2.3 배치 워크플로 설계 및 구현
- ___8.2.4 배치 처리 최적화
- 8.3 실시간 처리
- ___8.3.1 실시간 처리 개념 및 특징
- ___8.3.2 스트리밍 플랫폼 소개 및 비교
- ___8.3.3 실시간 데이터 파이프라인 설계 및 구축
- ___8.3.4 실시간 처리 최적화
- 8.4 배치 처리 vs 실시간 처리
- ___8.4.1 배치 처리와 실시간 처리의 핵심 차이점
- ___8.4.2 시스템 요구사항 기반 처리 방식 선택 가이드
- ___8.4.3 하이브리드 아키텍처
- [PART 03] 시스템 아키텍처 설계
- ▣ 9장: 로그 설계와 운영
- 9.1 로그 수집, 저장, 분석 및 시각화
- ___9.1.1 로그의 역할
- ___9.1.2 로그 유형
- ___9.1.3 로그 수집 방법 및 도구
- ___9.1.4 효율적인 로그 저장 전략
- 9.2 로그 형식 및 관리 전략
- ___9.2.1 로그 형식 표준화의 중요성
- ___9.2.2 로그 형식 종류 및 선택 기준
- ___9.2.3 로그 레벨 정의 및 활용
- ___9.2.4 로그 메시지 작성 가이드라인
- 9.3 Elastic Stack
- ___9.3.1 Elastic Stack이란?
- ___9.3.2 Elasticsearch
- ___9.3.3 Logstash
- ___9.3.4 Kibana
- ___9.3.5 Beats
- 9.4 A/B 테스트 및 실험 디자인
- ___9.4.1 A/B 테스트란?
- ___9.4.2 실험 설계 원칙
- ___9.4.3 통계적 유의성 검증 및 결과 해석
- ___9.4.4 A/B 테스트 수행 절차 및 도구
- ▣ 10장: 시스템 아키텍처
- 10.1 시스템 아키텍처 설계 시 고려사항
- ___10.1.1 비기능적 요구사항 분석 방법
- ___10.1.2 설계 제약 조건 식별 및 관리
- ___10.1.3 아키텍처 패턴 소개
- 10.2 모놀리식 vs 마이크로서비스
- ___10.2.1 모놀리식 아키텍처
- ___10.2.2 마이크로서비스 아키텍처
- ___10.2.3 모놀리식과 마이크로서비스 아키텍처 비교 분석
- ___10.2.4 마이크로서비스로의 전환 전략
- 10.3 분산 시스템 설계 원칙
- ___10.3.1 분산 시스템 트레이드오프 이해
- ___10.3.2 분산 시스템 설계 시 고려 사항
- ___10.3.3 분산 시스템 장애 허용 설계
- 10.4 병목 현상 식별 및 해결 전략
- ___10.4.1 성능 병목 지점 식별 방법론
- ___10.4.2 병목 현상 유형
- ___10.4.3 시스템 성능 측정 및 분석 도구
- ___10.4.4 병목 현상 해결 전략
- ▣ 11장: 시스템 최적화 및 확장
- 11.1 로드 밸런싱
- ___11.1.1 로드 밸런싱의 필요성과 종류
- ___11.1.2 로드 밸런싱 알고리즘
- ___11.1.3 로드 밸런서 도입 시 고려사항
- ___11.1.4 클라우드 환경에서의 로드 밸런서
- 11.2 캐싱
- ___11.2.1 캐싱의 기본 원리 및 효과
- ___11.2.2 캐싱 전략
- ___11.2.3 캐시 데이터 일관성 유지 방법
- 11.3 컨테이너 오케스트레이션
- ___11.3.1 Docker 컨테이너 개념
- ___11.3.2 컨테이너 이미지 빌드 및 관리
- ___11.3.3 Kubernetes를 이용한 컨테이너 오케스트레이션
- ___11.3.4 클라우드 기반 컨테이너 서비스 소개
- 11.4 오토 스케일링
- ___11.4.1 수평적 확장 vs 수직적 확장
- ___11.4.2 오토 스케일링 정책 및 규칙 설정
- ___11.4.3 오토 스케일링 시 고려 사항
- 11.5 성능 측정 및 분석 방법
- ___11.5.1 성능 측정 지표 선택
- ___11.5.2 성능 분석 도구 활용
- ___11.5.3 병목 지점 식별 및 개선 전략
- ___11.5.4 성능 테스트 환경 구축 및 시나리오 설계
- ▣ 12장: 대규모 언어 모델 시스템 구성
- 12.1 검색 컴포넌트 선정 및 구성
- ___12.1.1 검색 기반 LLM 개요
- ___12.1.2 벡터 검색과 키워드 검색 비교
- ___12.1.3 검색 도구 비교
- ___12.1.4 검색 성능 최적화 및 확장 전략
- 12.2 생성 컴포넌트 선정 및 구성
- ___12.2.1 생성 모델의 종류 및 특성 비교
- ___12.2.2 GPT, LLaMA, Claude 등 주요 LLM 비교
- ___12.2.3 생성 모델 선택 기준
- ___12.2.4 LLM 최적화 전략
- 12.3 LLM 시스템 아키텍처 구성 전략
- ___12.3.1 프롬프트ㆍ컨텍스트ㆍ미세 조정 비교
- ___12.3.2 단일 모델 vs 다중 모델 조합 설계
- ___12.3.3 LLM 기반 애플리케이션의 API 설계 원칙
- ___12.3.4 모델 컨텍스트 프로토콜(MCP)
- ___12.3.5 비용 절감을 위한 효율 극대화 전략
- 12.4 RAG 시스템 아키텍처 구성 전략
- ___12.4.1 RAG 시스템 개요
- ___12.4.2 RAG 아키텍처 구축 프로세스
- ___12.4.3 RAG 시스템 성능 평가 및 개선 전략
- [PART 04] 서비스 운영 가이드라인
- ▣ 13장: 보안 및 보호
- 13.1 AI 법률 및 규제
- ___13.1.1 AI 관련 주요 법률 및 규제 개요
- ___13.1.2 AI 시스템의 책임성과 법적 리스크
- ___13.1.3 개인정보 보호 가이드
- ___13.1.4 AI 규제 준수를 위한 운영 절차
- 13.2 데이터 보안 전략
- ___13.2.1 데이터 보호 원칙 및 보안 모델
- ___13.2.2 데이터 암호화 및 접근 제어
- ___13.2.3 데이터 공유 및 전송 방법
- ___13.2.4 데이터 보안 모니터링 및 감사
- 13.3 데이터 보안 사고 대응 및 복구 프로세스
- ___13.3.1 데이터 침해 사고 유형 및 사례 분석
- ___13.3.2 데이터 보안 사고 대응 프레임워크
- ___13.3.3 침해 탐지 및 대응 자동화
- ___13.3.4 데이터 복구 및 재발 방지 전략
- 13.4 개인정보 보호 가이드라인
- ___13.4.1 데이터 익명화 및 가명화 기법
- ___13.4.2 데이터 수집 및 활용 정책 수립
- ___13.4.3 개인정보 보호를 위한 기술적 조치
- ▣ 14장: 비용 관리
- 14.1 클라우드 비용 최적화
- ___14.1.1 클라우드 서비스 비용 구조
- ___14.1.2 모델 학습 비용 절감 전략
- ___14.1.3 장기적인 비용 절감
- ___14.1.4 비용 추적 및 알림
- 14.2 서비스 수준 계약 설정
- ___14.2.1 SLA란?
- ___14.2.2 SLA 설계 및 운영 방안
- ___14.2.3 SLA 위반 시 패널티 및 보상 정책
- 14.3 비용 관리 및 최적화 전략
- ___14.3.1 비용 데이터 수집 및 통합
- ___14.3.2 클라우드 비용 분석 및 예측
- ___14.3.3 리소스 최적화 및 활용률 향상
- ▣ 15장: 장애 복구와 고가용성 설계
- 15.1 장애 발생 시나리오 및 복구 전략
- ___15.1.1 데이터 파이프라인 장애 식별 및 대응
- ___15.1.2 모델 서빙 중단 복구 프로세스
- ___15.1.3 배치 처리 시스템 복구 전략
- ___15.1.4 실시간 처리 시스템 복구 전략
- ___15.1.5 분산 컴퓨팅 환경에서의 장애 격리
- 15.2 데이터 백업 및 복원 전략
- ___15.2.1 대용량 데이터세트 백업 아키텍처
- ___15.2.2 모델 체크포인트 관리 및 복원
- ___15.2.3 증분 백업과 전체 백업의 최적화
- ___15.2.4 메타데이터 및 피처 스토어 복구 방안
- 15.3 고가용성 설계 패턴
- ___15.3.1 멀티 클러스터 ML 인프라 구성
- ___15.3.2 데이터 레이크/웨어하우스 가용성 확보
- ___15.3.3 모델 서빙 계층 중복성 설계
- ___15.3.4 실시간 분석 시스템의 장애 복구 메커니즘
- ▣ 부록A
- A.1 RESTful API 실무 가이드
- A.2 Redis 실무 가이드
- A.3 RDBMS 실무 가이드
- A.4 OpenSearch 실무 가이드
- A.5 Elastic Stack 실무 가이드
- A.6 Grafana + Loki + Promtail/Agent 실무 가이드
- A.7 Docker 실무 가이드
- A.8 Kubernetes 실무 가이드
- A.9 Apache Kafka 실무 가이드
- A.10 Apache Flink 실무 가이드
- A.11 Apache Airflow 실무 가이드
- A.12 Apache Spark(PySpark) 실무 가이드
- ▣ 부록B
- B.1 실시간 처리 아키텍처
- B.2 배치 처리 아키텍처
- B.3 RAG 아키텍처
- B.4 Lambda 아키텍처
- B.5 데이터 레이크하우스 아키텍처
- ▣ 부록C
- C.1 데이터 사이언스 프로젝트의 특성
- C.2 프로젝트 단계별 관리 전략
- C.3 애자일 방법론 적용
- C.4 산출물 및 관리 문서
- C.5_ 데이터 사이언스 프로젝트 리스크 관리
예제 코드
- GitHub 저장소: https://github.com/wikibook/data-ai-system
- ZIP 형식으로 다운로드: https://github.com/wikibook/data-ai-system/archive/refs/heads/main.zip