NEW
AI 에이전트 개발 완벽 입문 (ebook)
33,600원
초급
도서 소개
실무 현장에서 바로 쓰는 파인튜닝ㆍPEFTㆍvLLM 서빙, 텍스트를 넘어 멀티모달까지!
이 책은 AI 기술의 최전선에서 필요한 LLM 파인튜닝의 모든 과정을 이론부터 실습까지 단계별로 안내합니다. Llama 3.1과 Gemma 2 모델을 기반으로 파인튜닝의 핵심 기술을 익히고, 이번 개정판에서 새롭게 추가된 음성 인식(Whisper)과 시각-언어 모델(VLM) 실습을 통해 멀티모달 AI 개발 역량까지 확장할 수 있습니다.
- NLP의 역사적 발전과 역전파의 핵심 원리 마스터
- GPT 모델의 심층 이해: 셀프 어텐션, 토크나이저 구현부터 실전 응용까지
- Gemma 2와 Llama 3.1 모델 분석과 GPU 병렬화 학습
- LoRA, QLoRA를 활용한 파인튜닝 기법 실습
- vLLM으로 실제 서비스에 적용 가능한 모델 서빙
- Whisper 모델을 활용한 한국어 음성 인식(STT) 파인튜닝
- Qwen2-VL 모델을 활용한 시각-언어 모델(VLM) 학습 및 실습
Runpod 환경의 실습 프로젝트를 통해 이론과 실무를 동시에 학습할 수 있으며, 단일 GPU부터 다중 GPU 환경까지 실전에서 바로 활용 가능한 노하우를 제공합니다.
책을 읽다가 궁금한 점이 생기면, 저자가 직접 운영하는 커뮤니티에서 질문하고 답변을 받을 수 있습니다.
- 저자 운영 오픈 채팅방: 카카오톡 오픈채팅에서 ‘NLP & RAG’ 검색
도서 소개

출판사 리뷰
추천사
“AI와 NLP의 이론부터 실전 구현까지, Runpod 등 실무 플랫폼을 활용한 실습으로 비즈니스와 연구 현장에서 바로 적용 가능한 실전 지침서입니다.” — 강진범(브릭메이트 CTO)
“AI의 역사부터 최신 언어 모델까지, 딥러닝과 PyTorch를 처음 접하는 독자도 쉽게 이해하고 실습할 수 있는 한국어 중심의 종합 입문서입니다.” — 이준범(AI/ML GDE)
“AI가 필수가 된 시대에, 초보자도 이론부터 실무까지 쉽게 따라할 수 있는 실용적인 NLP와 클라우드 환경의 AI 모델 구축 안내서입니다.” — 염경현(Amazon Web Services CSE)
“파인튜닝의 기초 개념부터 다중 GPU 활용과 vLLM 서빙까지, 한국어로 쉽게 풀어쓴 체계적인 LLM 파인튜닝 가이드북입니다.” — 이경록(YouTube 테디노트 Creator)
“LLaMA3까지 다루는 깊이 있는 이론과 Runpod 환경의 실습을 통해 파인튜닝, PEFT, vLLM 서빙 등 실무에서 즉시 활용 가능한 기술을 체계적으로 배울 수 있는 실무 안내서입니다.” — 유원준(네이버클라우드 NLP 엔지니어)
저자 소개
강다솔
GoodGang Labs의 AI 엔지니어 겸 연구자로서 AI 아바타 음성 대화 기술을 개발하고 있습니다. 다국어 STT/TTS 모델 연구와 RAG 기반 상용 챗봇 시스템 구축을 주도하며 폭넓은 기술적 경험을 축적해 왔습니다.
목차
- ▣ 01장: NLP의 과거와 오늘
- 1.1 자연어 처리 발전의 주요 이정표
- 1.2 초기 기계 번역의 역사와 전환점
- __1.2.1 아르츠루니와 트로얀스키의 연구
- __1.2.2 위버의 제안과 조지타운-IBM 실험
- __1.2.3 초기 기계 번역의 한계와 새로운 전환
- 1.3 인공지능의 시작
- __1.3.1 튜링의 질문: 기계는 생각할 수 있는가?
- __1.3.2 튜링 테스트의 한계
- 1.4 인공지능은 어떻게 학습하는가?
- __1.4.1 인공지능의 학습 메커니즘 발전 과정
- __1.4.2 퍼셉트론: 인공지능 학습의 첫걸음
- 1.5 역전파 알고리즘: 학습의 혁명
- __1.5.1 비선형성: 더 똑똑한 인공지능을 만드는 열쇠
- __1.5.2 역전파 알고리즘
- 1.6 트랜스포머의 등장: NLP의 새로운 시대
- ▣ 02장: GPT
- 2.1 런팟 소개와 사용법
- __2.1.1 런팟 회원 가입
- __2.1.2 크레딧 구매
- __2.1.3 포드 구성
- __2.1.4 주피터 랩
- 2.2 데이터 준비와 모델 구성
- 2.3 언어 모델 만들기
- __2.3.1 라이브러리 설명
- 2.3.2 init__ 함수
- __2.3.3 forward 메서드
- __2.3.4 generate 메서드
- 2.4 Optimizer 추가하기
- __2.4.1 데이터를 GPU로 전달하기
- __2.4.2 Loss 함수 만들기
- __2.4.3 전체 코드 복습
- 2.5 셀프 어텐션 추가하기
- __2.5.1 문자들 간에 정보를 주고받는 방식(평균 방식)
- __2.5.2 행렬곱 연산으로 더 빠르게 정보를 주고받기
- __2.5.3 셀프 어텐션이란?
- __2.5.4 왜 dk 로 나눠야 하는가?
- __2.5.5 셀프 어텐션 적용하기
- 2.6 멀티헤드 어텐션과 피드포워드
- __2.6.1 멀티헤드 어텐션 만들기
- __2.6.2 피드포워드 만들기
- 2.7 Blocks 만들기
- 2.8 토크나이저 만들기
- __2.8.1 vocab_size 변화에 따른 토큰화 비교
- __2.8.2 토크나이저 만들기
- ▣ 03장: 전체 파인튜닝
- 3.1 전체 파인튜닝 데이터 준비
- __3.1.1 전체 파인튜닝의 원리와 종류
- __3.1.2 다양한 태스크와 데이터셋
- __3.1.3 데이터 전처리
- 3.2 Gemma와 Llama 3 모델 구조 분석
- __3.2.1 Gemma 모델 구조 분석
- __3.2.2 Gemma와 Gemma 2 모델 비교
- __3.2.3 Llama 3 모델 구조 분석
- __3.2.4 GPT, Gemma, Llama 비교
- 3.3 GPU 병렬화 기법
- __3.3.1 데이터 병렬 처리
- __3.3.2 모델 병렬화
- __3.3.3 파이프라인 병렬화
- __3.3.4 텐서 병렬 처리
- __3.3.5 FSDP
- 3.4 단일 GPU를 활용한 Gemma-2B-it 파인튜닝
- __3.4.1 런팟 환경 설정
- __3.4.2 Gemma 모델 준비
- __3.4.3 데이터셋 준비
- __3.4.4 Gemma 모델의 기능 확인하기
- __3.4.5 키워드 데이터 생성
- __3.4.6 데이터 전처리
- __3.4.7 데이터셋 분리 및 콜레이터 설정
- __3.4.8 학습 파라미터 설정
- __3.4.9 평가 메트릭 정의
- __3.4.10 모델 학습 및 평가
- __3.4.11 파인튜닝한 모델 테스트
- 3.5 다중 GPU를 활용한 Llama3.1-8B-instruct 파인튜닝
- __3.5.1 런팟 환경 설정
- __3.5.2 Llama 3.1 학습 파라미터 설정
- __3.5.3 데이터셋 준비
- __3.5.4 Llama 3.1 모델 파라미터 설정
- __3.5.5 Llama 3.1 모델 학습 코드 살펴보기
- __3.5.6 Llama 3.1 모델 학습 실행
- __3.5.7 Wandb 설정과 사용
- __3.5.8 학습한 Llama 3.1 모델 테스트
- __3.5.9 생성된 텍스트 데이터 OpenAI로 평가하기
- __3.5.10 채점 점수 구하기
- ▣ 04장: 효율적인 파라미터 튜닝 기법 (PEFT)
- 4.1 LoRA 이론 및 실습
- __4.1.1 LoRA 개념
- __4.1.2 런팟 환경 설정
- __4.1.3 Gemma-2-9B-it 모델 준비
- __4.1.4 데이터 전처리
- __4.1.5 LoRA 파라미터 설정
- __4.1.6 모델 학습
- __4.1.7 학습한 모델 테스트하기
- __4.1.8 모델 성능을 OpenAI로 평가하기
- 4.2 QLoRA 이론 및 실습
- __4.2.1 양자화의 이해
- __4.2.2 런팟 환경 설정
- __4.2.3 데이터셋 준비
- __4.2.4 양자화 파라미터 설정
- __4.2.5 모델 준비
- __4.2.6 파라미터 설정
- __4.2.7 모델 학습
- __4.2.8 허깅페이스 허브에 모델 업로드
- __4.2.9 학습한 모델 테스트
- __4.2.10 Exact Match를 활용한 평가
- __4.2.11 OpenAI API로 평가하기
- ▣ 05장: vLLM을 활용한 서빙
- 5.1 페이지드 어텐션 원리
- 5.2 vLLM 사용 방법
- 5.3 LLaMA 3 생성 속도 가속화
- 5.4 vLLM을 활용한 Multi-LoRA
- __5.4.1 Multi-LoRA 실습
- __5.4.2 노트북 환경에서 실습
- 5.5 Multi-LoRA를 사용할 때 주의할 점
- ▣ 06장: Whisper 파인튜닝
- 6.1 음성인식 기술의 역사적 발전 과정
- __6.1.1 OpenAI Whisper의 등장 배경
- 6.2 Whisper large-v1, v2, v3 버전별 기술적 개선
- __6.2.1 Whisper 아키텍처
- __6.2.2 멀티태스크 학습 메커니즘
- __6.2.3 멜 스펙트로그램 기술적 세부 사항
- 6.3 한국어 파인튜닝의 필요성
- __6.3.1 한국어 음성인식의 현실과 과제
- __6.3.2 한국어 특유의 언어적 도전 과제
- __6.3.3 파인튜닝을 통한 성능 개선 가능성
- 6.4 Whisper3 파인튜닝
- __6.4.1 음성 데이터 생성
- __6.4.2 Whisper 모델 학습
- __6.4.3 파인튜닝된 Whisper 모델로 추론하기
- ▣ 07장: Vision-Language Model 파인튜닝
- 7.1 멀티모달의 이해
- 7.2 Qwen2-VL 소개
- __7.2.1 Naive Dynamic Resolution
- __7.2.2 M-RoPE(Multimodal Rotary Position Embedding)
- __7.2.3 모델 구조와 학습 과정
- __7.2.4 모델 라인업
- 7.3 Qwen2-VL-Fine-Tuning
- __7.3.1 데이터
- __7.3.2 학습하기
- __7.3.3 LoRA 어댑터 병합
- __7.3.4 vLLM 소개
- __7.3.5 마치며
- ▣ 부록A: 역전파 수학적 리뷰 및 코드 리뷰
- 역전파 수학적 리뷰
- 역전파 코드 리뷰
- Google Cloud SDK 설치
- ▣ 부록B: RunPod에서 Google Cloud SDK 설정
- Google Cloud 인증 및 서비스 활성화
- __두 가지 인증의 차이
- __기존 인증 정보 초기화 (선택사항)
- __초기 설정
- __CLI 계정 로그인
- __애플리케이션 기본 인증(ADC) 설정
- __API 서비스 활성화
- 필수 라이브러리 설치
- Hugging Face CLI 로그인
- 설정 확인
예제 코드
- GitHub 저장소: https://github.com/daje0601/AllinOne_LLM
- ZIP 형식으로 다운로드: https://github.com/daje0601/AllinOne_LLM/archive/refs/heads/main.zip