파이토치와 유니티 ML-Agents로 배우는 강화학습(응용편)
2025년 06월 30일 출간
국내도서 : 2025년 01월 10일 출간
- eBook 상품 정보
- 파일 정보 PDF (54.93MB) | 556 쪽
- ISBN 9791158396237
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)

쿠폰적용가 27,360원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
이 책은 2022년에 출간된 《파이토치와 유니티 ML-Agents로 배우는 강화학습》의 후속편으로 더욱 깊이 있는 강화학습에 대한 이론과 코드, 이를 위한 환경 제작 방법 등을 다루고 있다.
★ 이 책에서 다루는 내용 ★
◎ 응용 강화학습 환경 제작: 닷지, 퐁, 방탈출, 메이즈, 투 미션
◎ 응용 강화학습 알고리즘과 이를 응용하기 위한 기법들의 이론 및 학습 코드 구현: PPO, Attention,RND, MA-POCA, HyperNetworks
◎ 분산 학습, 커리큘럼 학습, 가변 입력 환경, 자가 학습, 멀티에이전트, 어려운 탐험 환경, 다중 골 환경 등 ML-Agents를 이용한 다양한 학습 방법 제공
◎ Python API와 mlagents-learn을 통한 응용 강화학습 알고리즘 설정 및 학습 방법
유니티와 ML-Agents 설치하기
__유니티 허브 다운로드 및 설치
__유니티 라이선스 활성화
__유니티 에디터 설치
ML-Agents 설치
__ML-Agents 파일 내려받기
__유니티에 ML-Agents 설치하기
__ML-Agents 파이썬 패키지 설치하기
▣ 01장: 유니티와 ML-Agents 설치하기
1.1 프로젝트 시작하기
1.2 닷지 환경 구성하기
1.3 스크립트 작성하기
__1.3.1 스크립트 파일 생성 및 설정
__1.3.2 DodgeScene 스크립트
__1.3.3 BallScript 스크립트
__1.3.4 Area 스크립트
__1.3.5 DodgeAgent 스크립트
1.4 닷지 환경 설정 및 환경 빌드
▣ 02장: Proximal Policy Optimization (PPO)
2.1 PPO 알고리즘의 개요
2.2 PPO 알고리즘의 이론
__2.2.1 PPO 알고리즘의 목적함수
__2.2.2 PPO의 분산학습
__2.2.3 PPO의 네트워크 구조
__2.2.4 PPO 알고리즘의 학습
__2.2.5 PPO 알고리즘의 성능
2.3 PPO 코드
__2.3.1 라이브러리 불러오기
__2.3.2 파라미터 값 설정
__2.3.3 Model 클래스
__2.3.4 Agent 클래스
__2.3.5 Main 함수
__2.3.6 학습 결과
2.4 mlagents-learn (파라미터 랜덤화)
2.5 커리큘럼 학습
__2.5.1 mlagents-learn을 이용한 커리큘럼 학습
__2.5.2 Python-API를 이용한 커리큘럼 학습
▣ 03장: 가변적인 입력 환경과 어텐션
3.1 가변적인 입력 환경의 개요
3.2 닷지 환경 수정(가변적인 입력 환경)
3.3 어텐션 기법의 이론
__3.3.1 멀티 헤드 어텐션
__3.3.2 강화학습에서 어텐션의 적용
3.4 어텐션 PPO 코드
__3.4.1 라이브러리 불러오기
__3.4.2 파라미터 값 설정
__3.4.3 Model 클래스
__3.4.4 Agent 클래스
__3.4.5 Main 함수
__3.4.6 학습 결과
▣ 04장: 퐁 환경 만들기
4.1 프로젝트 시작하기
4.2 퐁 환경 구성하기
4.3 스크립트 작성하기
__4.3.1 스크립트 파일 생성
__4.3.2 PongAgent 스크립트
__4.3.3 EnvController 스크립트
4.4 퐁 환경 설정 및 환경 빌드
▣ 05장: 적대적 강화학습
5.1 적대적 강화학습 개요
5.2 적대적 PPO 코드
__5.2.1 라이브러리 불러오기
__5.2.2 파라미터 값 설정
__5.2.3 Model 클래스
__5.2.4 Agent 클래스
__5.2.5 Main 함수
__5.2.6 학습 결과
5.3 mlagents-learn(적대적 강화학습)
▣ 06장: 방탈출 환경 만들기
6.1 프로젝트 시작하기
6.2 방탈출 환경 구성하기
6.3 스크립트 작성하기
__6.3.1 스크립트 파일 생성
__6.3.2 EnvController 스크립트
__6.3.3 BlockAgent 스크립트
6.4 방탈출 환경 설정 및 환경 빌드
▣ 07장: MA-POCA
7.1 COMA 알고리즘의 이론
__7.1.1 COMA 알고리즘 개요
__7.1.2 중앙화 크리틱, 탈중앙화 액터
__7.1.3 반사실적 베이스라인
__7.1.4 COMA 논문의 결과
7.2 MA-POCA 알고리즘의 이론
__7.2.1 MA-POCA 알고리즘 개요
__7.2.2 MA-POCA의 가치함수
__7.2.3 MA-POCA의 반사실적 베이스라인
__7.2.4 MA-POCA 논문의 결과
7.3 MA-POCA 코드
__7.4.1 라이브러리 불러오기
__7.4.2 파라미터 값 설정
__7.4.3 Model 클래스
__7.4.4 Agent 클래스
__7.4.5 Main 함수
__7.4.6 학습 결과
7.4 mlagents-learn(MA-POCA)
▣ 08장: 메이즈 환경 만들기
8.1 프로젝트 시작하기
8.2 메이즈 환경 구성하기
8.3 스크립트 작성하기
__8.3.1. 스크립트 파일 생성
__8.3.2. HardExplorationAgent 스크립트
8.4 메이즈 환경 설정 및 빌드하기
▣ 09장: Random Network Distillation
9.1 RND 알고리즘의 개요
9.2 RND 알고리즘의 기법
9.3 RND 알고리즘 구현
9.4 RND 코드
__9.4.1 라이브러리 불러오기 및 파라미터 값 설정하기
__9.4.2 Model 클래스
__9.4.3 RMS 클래스
__9.4.4 Agent 클래스
__9.4.5 Main 함수
__9.4.6 학습 결과
9.5 mlagents-learn(RND)
▣ 10장: 투 미션 환경 만들기
10.1 프로젝트 시작하기
10.2 투 미션 환경 구성하기
10.3 스크립트 작성하기
__10.3.1 스크립트 파일 생성
__10.3.2 TwoMissionAgent 스크립트
__10.3.3 TwoMissionEnvController 스크립트
__10.3.4 TwoMissionGoalDetect 스크립트
10.4 투 미션 환경 설정 및 빌드하기
▣ 11장: Hypernetworks
11.1 Hypernetworks 알고리즘의 개요
11.2 Hypernetworks 알고리즘의 기법
11.3 Hypernetworks 코드
__11.3.1 라이브러리 불러오기 및 파라미터 값 설정
__11.3.2 Model 클래스
__11.3.3 Agent 클래스
__11.3.4 Main 함수
__11.3.5 학습 결과
11.4 mlagents-learn(HyperNetworks)
▣ 12장: 마무리
12.1 응용편 내용 정리
12.2 책에서 다루지 않은 내용
__12.2.1 순환 신경망
__12.2.2 Soft Actor Critic
12.3 유니티 머신러닝 에이전트 적용 사례
__12.3.1 자율주행 연구 환경 구축 사례
__12.3.2 머신러닝 에이전트를 이용한 유튜브 사례
__12.3.3 산업 문제에 머신러닝 에이전트를 적용한 사례
__12.3.4 상용 게임에 머신러닝 에이전트를 적용한 사례
작가정보
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 5,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 5,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!

- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.

- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)