허깅페이스 트랜스포머 하드 트레이닝
2025년 01월 13일 출간
국내도서 : 2025년 01월 13일 출간
- eBook 상품 정보
- 파일 정보 PDF (11.86MB)
- ISBN 9791165923174
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 불가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

쿠폰적용가 19,800원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
Transformers 라이브러리를 기준으로 토크나이저 및 모델 준비, 한국어 자연어 이해 평가(KLUE) 데이터셋 전처리, 학습 파라미터 선정 및 학습 진행과 성능 평가를 실습해봅니다. 이후 사전학습 단계부터 직접 진행해야 하는 경우를 대비하여 Tokenizers 라이브러리에 대해 살펴보고 정확도, f1 스코어, 정밀도, 재현율을 기준으로 모델을 평가하는 Evaluate 라이브러리에 대해서 알아봅니다. PEFT, 양자화, QLoRA 미세조정과 같이 모델의 메모리 사용량은 줄이고 추론 속도는 높이는 경량화 기법에 대해 코드와 결과물로 꼼꼼하게 확인해본 후 RLHF, SFT, PPO, Best-of-N 샘플링 등 정렬 조정에 해당하는 다양한 방법론과 이를 강화학습을 위한 트랜스포머(TRL)를 통해 활용하는 방식까지 차근차근 학습합니다.
_1.1 허깅페이스 소개
__1.1.1 Datasets
__1.1.2 Models
__1.1.3 Spaces
__1.1.4 Docs
_1.2 자연어 처리와 허깅페이스의 관계
2 환경 구축
_2.1 구글 코랩 환경 구축
__2.1.1 계정 생성
__2.1.2 새 노트북 만들기
__2.1.3 코드 실행
__2.1.4 파일 저장
__2.1.5 깃 코드 열기
_2.2 구글 드라이브 마운트
3 허깅페이스 주요 라이브러리
_3.1 Datasets 라이브러리
__3.1.1 Datasets 설치
__3.1.2 Datasets 실습
_3.2 Transformers 라이브러리
__3.2.1 Transformers 설치
__3.2.2 Tokenizer
__3.2.3 DataCollator
__3.2.4 Model
__3.2.5 AutoClass
__3.2.6 Trainer, TrainingArguments
__3.2.7 Pipeline
_3.3 미세조정
__3.3.1 토크나이저와 모델 준비
__3.3.2 데이터 준비 및 전처리
__3.3.3 학습 파라미터 선정
__3.3.4 학습 진행
__3.3.5 성능 평가
__3.3.6 모델 저장
_3.4 허깅페이스 허브 등록
__3.4.1 push_to_hub()
__3.4.2 CLI
__3.4.3 huggingface-hub
4 보조 라이브러리
_4.1 Tokenizers 라이브러리
__4.1.1 Tokenizer 학습
__4.1.2 모델 초기화 후 학습
_4.2 Evaluate 라이브러리
__4.2.1 Evaluate 평가
__4.2.2 커스텀 메트릭 만들기
__4.2.3 Trainer 적용
5 언어 모델 구조 및 학습
_5.1 트랜스포머 모델
_5.2 인코더 기반 모델
__5.2.1 기본 구조
__5.2.2 Sequence Classification
__5.2.3 Multiple Choice
__5.2.4 Token Classification
__5.2.5 Question Answering
_5.3 디코더 기반 모델
__5.3.1 기본 구조
__5.3.2 Causal LM
__5.3.3 Question Answering
__5.3.4 Sequence Classification
_5.4 인코더-디코더 기반 모델
__5.4.1 기본 구조
__5.4.2 Conditional Generation
__5.4.3 Sequence Classification
__5.4.4 Question Answering
6 모델 활용
_6.1 모델 미세조정
__6.1.1 인코더 - Sequence Classification
__6.1.2 디코더 - Causal LM
__6.1.3 인코더-디코더 - Conditional Generation
__6.1.4 언어 모델 문장 생성
_6.2 모델 서빙
7 모델 경량화
_7.1 모델 경량화 개요
_7.2 PEFT
_7.3 양자화
_7.4 QLoRA 미세조정
8 TRL
_8.1 TRL 라이브러리 개요
_8.2 RLHF
_8.3 보상 모델 트레이닝
_8.4 SFT
_8.5 PPO
_8.6 Best-of-N 샘플링
_8.7 DPO
_8.8 KTO
_8.9 CPO
_8.10 ORPO
추론 속도를 높이고 성능을 발전시키는
허깅페이스 라이브러리 하드 트레이닝
1장에서는 허깅페이스 허브에 등록된 모델 및 데이터셋을 확인해보고 자연어 처리와 허깅페이스의 관계에 대해 알아봅니다.
2장에서는 허깅페이스를 하드 트레이닝해보기에 앞서 구글 코랩 환경을 구축하고 구글 드라이브를 마운트합니다.
3장에서는 Datasets 라이브러리와 Transformers 라이브러리를 활용하여 토크나이저 및 모델 준비, KLUE 데이터셋 전처리, 학습 파라미터 선정 및 학습 진행과 성능 평가를 실습해봅니다.
4장에서는 사전학습 단계부터 직접 진행해야 하는 경우를 대비하여 Tokenizers 라이브러리에 대해 살펴봅니다. 그리고 정확도, f1 스코어, 정밀도, 재현율을 기준으로 모델을 평가하는 Evaluate 라이브러리에 대해 알아봅니다.
5장에서는 트랜스포머 모델, 인코더 기반 모델, 디코더 기반 모델, 인코더-디코더 기반 모델의 기본 구조를 살펴보고 문장 분류, 다중 선택, 토큰 분류, 질의 응답, 조건부 생성, 인과적 언어 모델(Causal LM) 태스크의 코드와 결과를 확인해봅니다.
6장에서는 모델 구조별 대표 태스크에 대해 미세조정(파인튜닝, fine-tuning)을 진행합니다. 확률적 특징의 이해를 돕는 수식과 꼭 필요한 메서드의 파라미터까지 함께 살펴볼 수 있습니다.
7장에서는 PEFT, 양자화, QLoRA 미세조정과 같이 모델의 메모리 사용량은 줄이고 추론 속도는 높이는 경량화 기법에 대해 알아봅니다.
8장에서는 RLHF, SFT, PPO, DPO, KTO, CPO, ORPO, Best-of-N 샘플링, 보상 모델 트레이닝 등 정렬 조정에 해당하는 최신 방법론과 이를 강화학습을 위한 트랜스포머(TRL)를 통해 활용하는 방식에 대해 알아봅니다.
이 책이 필요한 독자
- 자연어 처리 분야에서의 인공지능에 대해 알고 싶은 분
- 언어 모델을 처음 접하는 대학생 또는 대학원생
- 허깅페이스 코드를 실습해보고 싶은 자연어 처리 초보자
- 언어 모델의 구조와 다양한 태스크를 샅샅이 살펴보고 싶은 분
- 허깅페이스에 대한 이해도는 있지만, 직접 부딪혀가며 코드로 기술을 레벨업하고 싶은 분
- 경량화 기법과 강화학습을 위한 트랜스포머에 대해 궁금한 분
작가정보
통계학을 전공하였으며 DB 관리 및 솔루션 개발 3년 9개월, 스타트업 자연어 처리(Natural Language Processing, NLP) 개발 2년 8개월 경력을 쌓은 후 현재는 국내 식품 관련 기업 풀무원의 Data&AI 팀에서 대규모 언어 모델(Large Language Model, LLM)을 활용한 HR 어시스턴트, AICC 콜봇 개발을 하고 있습니다.
최근에는 자연어 처리 관련 모델과 LLM에 관해 주로 공부 중이며 항상 아는 지식을 공유하고 모르는 지식은 배우려는 자세로 임하고 있습니다.
現) 풀무원 Data&AI 팀 NLP 개발
前) AI 관련 스타트업 NLP 개발
前) 퓨쳐누리 DB 관리 및 솔루션 개발
- 깃허브 github.com/hipster4020
- 블로그 hipster4020.tistory.com
- 링크드인 linkedin.com/in/sunghwanpark4020
소프트웨어마이스터고등학교 소프트웨어개발과를 졸업했습니다. 2020년도에 디스코드 챗봇 개발 팀 ‘팀 크레센도’에서 활동하며 여러 챗봇 개발에 기여했고, 졸업 직후 취업해 5년 차 NLP 엔지니어로 재직 중이며 한국방송통신대학교 통계ㆍ데이터과학과 이수를 병행하고 있습니다.
현재는 sLM 사전학습, 프롬프트 엔지니어링 등의 자연어 처리 기술과 더불어 음성 인식 및 음성 합성에도 많은 관심을 가지고 공부하고 있습니다.
現) AI 관련 스타트업 NLP 개발
前) 디스코드 챗봇 개발팀 ‘팀 크레센도’ 활동
- 깃허브 github.com/Nam-SW
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.

- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)