강화학습 기본과 PyTorch
- eBook 상품 정보
- 파일 정보 pdf (9.12MB)
- ISBN 9791158085834
- 지원기기 교보eBook App, PC e서재, 리더기
-
교보eBook App
듣기(TTS) 가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
PDF 필기가능 (Android, iOS)
쿠폰적용가 19,800원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 200원
작품소개
이 상품이 속한 분야
PART I 강화학습 구성 요소
PART II 환경(env) 예제
PART III 에이전트(agent) 예제
제2장 벨만 방정식(Bellman equation)
PART I 보상과 평균 보상
PART II 할인율(discount rate)
PART III 정책 π
PART IV 정책 π로 행동할 때, 상태 s에서 평균 보상
PART V 정책 π로 행동할 때, 상태 가치(state value)
PART VI 정책 π로 행동을 선택할 때, 상태-행동 가치
PART VII 벨만 기대 방정식(Bellman expectation equation)
PART VIII 벨만 최적 방정식(Bellman optimality equation)
제3장 강화학습에 사용하는 기본 코드
PART I 환경 코드
PART II 정책 코드
PART III 환경-정책 상호작용 코드
제4장 동적 계획법(Dynamic programming)
PART I 벨만 기대 방정식의 해를 코딩으로 구하기
PART II 최적의 정책을 코딩으로 구하기: 정책 반복(policy iteration)
PART III 최적의 정책을 코딩으로 구하기: 가치 반복(value iteration)
제5장 몬테카를로(Monte Carlo, MC)
PART I 에피소드(episode)
PART II 처음 방문(first-visit) MC와 모든 방문(every-visit) MC
PART III 중요도 표본추출 MC(importance sampling MC)
부록 125
제6장 SARSA와 Q-learning
PART I SARSA 개요
PART II Q-learning 개요
PART III SARSA 업데이트 그림부터 코딩까지의 과정
PART IV Q-learning 업데이트 그림부터 코딩까지의 과정
제7장 깊은 Q-네트워크(Deep Q-Network, DQN)
PART I 환경 CartPole-v0 소개
PART II 학습데이터, 신경망 구조와 손실함수 소개
PART III 그림으로 이해하는 DQN(Deep Q-Network, DQN)
PART IV DQN 의사 코드
PART V DQN 코드 설명
PART VI DQN 전체 코드
제8장 Double DQN
제9장 Dueling DQN
PART I Advantage A(s,a)의 평균을 빼는 이유
제10장 Max-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(Max-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(Max-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(Max-PER-DQN)
PART IV Max-PER-DQN 전체 코드
PART V Max-PER-DoubleDQN 전체 코드
PART VI Max-PER-DuelingDQN 전체 코드
제11장 SumTree-PER(Prioritized Experience Replay)
PART I 정책 신경망의 첫 번째 업데이트(SumTree-PER-DQN)
PART II 정책 신경망의 두 번째 업데이트(SumTree-PER-DQN)
PART III 정책 신경망의 세 번째 업데이트(SumTree-PER-DQN)
PART IV SumTree-PER-DQN 전체 코드
PART V SumTree-PER-DoubleDQN 전체 코드
PART VI SumTree-PER-DuelingDQN 전체 코드
작가정보
저자(글) 추상목 저자
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다. (5,000원 이상 상품으로 변경 예정, 2024년 9월 30일부터 적용)
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다. (5,000원 이상 eBook으로 변경 예정, 2024년 9월 30일부터 적용)
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품 / 선물받은 eBook / 오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.
- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글바이액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)