강화학습 이론&실습
2023년 10월 04일 출간
종이책 : 2023년 10월 04일 출간
- eBook 상품 정보
- 파일 정보 pdf (12.77MB)
- ISBN 9791165922481
- 지원기기 교보eBook App, PC e서재, 리더기, 웹뷰어
-
교보eBook App
듣기(TTS) 불가능
TTS 란?텍스트를 음성으로 읽어주는 기술입니다.
- 전자책의 편집 상태에 따라 본문의 흐름과 다르게 텍스트를 읽을 수 있습니다.
- 전자책 화면에 표기된 주석 등을 모두 읽어 줍니다.
- 이미지 형태로 제작된 전자책 (예 : ZIP 파일)은 TTS 기능을 지원하지 않습니다.
- '교보 ebook' 앱을 최신 버전으로 설치해야 이용 가능합니다. (Android v3. 0.26, iOS v3.0.09,PC v1.2 버전 이상)
PDF 필기 Android 가능 (iOS예정)
쿠폰적용가 21,600원
10% 할인 | 5%P 적립이 상품은 배송되지 않는 디지털 상품이며,
교보eBook앱이나 웹뷰어에서 바로 이용가능합니다.
카드&결제 혜택
- 5만원 이상 구매 시 추가 2,000P
- 3만원 이상 구매 시, 등급별 2~4% 추가 최대 416P
- 리뷰 작성 시, e교환권 추가 최대 300원
작품소개
이 상품이 속한 분야
1. 환경 설정
1.1 윈도우 버전
1.2 리눅스 버전
2. 강화 학습을 위한 사전 지식
2.1 머신 러닝과 강화 학습
2.1.1 머신 러닝
2.1.2 강화 학습
2.2 기초 수학
2.2.1 기초 선형 대수
2.2.2 기초 미분과 적분
2.2.3 기초 확률 통계
2.3 최적화
2.3.1 뉴턴-랩슨법(Newton-Raphson method)
2.3.2 경사 하강법(Gradient descent method)
2.4 목적 함수
2.4.1 최소 제곱
2.4.2 확률 엔트로피와 쿨백-라이블러 발산
2.5 인공 신경망
2.5.1 신호 전·후 처리
2.5.2 순방향 전파
2.5.3 역방향 전파
2.6 초간단 파이토치 튜토리얼
2.6.1 MNIST
2.6.2 회귀 분석
2.7 매개 변수 탐색법
2.7.1 격자 탐색법(Grid search)
2.7.2 베이지안 탐색법(Bayesian optimization)
3. 마르코프 의사 결정과 동적 계획법 풀이 전략
3.1 마르코프 의사 결정
3.2 동적 계획법
3.3 [실습] 잭의 렌터카 업체 운영 전략 - 동적 계획법을 이용한 마르코프 의사 결정
4. 밸만 방정식부터 강화 학습까지
4.1 몬테-카를로 추정법
4.2 시간차 학습
4.2.1 TD(0)
4.2.2 TD(λ)
4.3 Monte-Carlo vs Temporal Difference
4.4 에이전트 학습
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 실습
5. Q-함수는 신경망에 맡긴다 - DQN
5.1 DQN 208
5.1.1 이론 209
5.1.2 실습 219
5.2 파생 알고리즘 256
5.2.1 DDQN 256
5.2.2 PER 260
6. 즉각적인 학습이 필요할 때 - Policy gradient
6.1 Actor-Critic
6.1.1 이론
6.1.2 실습
6.2 파생 알고리즘
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [고급] Trust Region Policy Optimization
6.2.4 [고급] Proximal Policy Optimization
7. 탐험의 전략 - Model based learning
7.1 사전 지식 - 밴딧 모델
7.2 이론 - Monte-Carlo Tree Search
7.3 실습
7.3.1 CartPole
7.3.2 Tic-Tac-Toe
찾아보기
“데이터 분석에 의존한 머신러닝은 이제 그만!”
『강화학습 이론&실습』이 책은 아직도 인공지능이 적용되지 못 한 산업에서 기술을 적용할 가능성을 제안하는 도서이다. 이 책이면 인간보다 주어진 환경에 더 잘 적응하는 인공지능의 개념을 공부하여 나만의 인공지능을 만드는 기술에 대해서 배울 수 있다.
작가정보
부산대학교에서 자연과학을 공부하고 서울대학교에서 계산과학 분야로 전공을 바꾸어 공학석사 학위를 취득했다. 공식 교과과정에서 편미분 방정식을 푸는 방식을 배울 때 대학원 시절 동안 옆자리에 앉았던 동기가 인공지능을 공부하는 것을 보고 따라서 머신러닝을 조금씩 독학하기 시작했다. 머신러닝 분야 중 게임을 스스로 플레이 하는 인공지능을 보고 강화학습에 가장 큰 흥미를 느낀 뒤 취미 삼아 이론을 공부하고 개념을 구현하는 데 시간을 많이 보냈다. 어쩌다 보니 현재 인공지능 알고리즘을 적용하는 반도체 모델링을 타겟으로 하는 회사에서 인공지능을 전자회로 시뮬레이터에 접목하는 업무를 맡고 있다.
이 상품의 총서
Klover리뷰 (0)
- - e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- - 리워드는 1,000원 이상 eBook, 오디오북, 동영상에 한해 다운로드 완료 후 리뷰 작성 시 익일 제공됩니다.
- - 리워드는 한 상품에 최초 1회만 제공됩니다.
- - sam 이용권 구매 상품 / 선물받은 eBook은 리워드 대상에서 제외됩니다.
- 도서나 타인에 대해 근거 없이 비방을 하거나 타인의 명예를 훼손할 수 있는 리뷰
- 도서와 무관한 내용의 리뷰
- 인신공격이나 욕설, 비속어, 혐오 발언이 개재된 리뷰
- 의성어나 의태어 등 내용의 의미가 없는 리뷰
구매 후 리뷰 작성 시, e교환권 100원 적립
문장수집
- 구매 후 90일 이내에 문장 수집 등록 시 e교환권 100원을 적립해 드립니다.
- e교환권은 적립일로부터 180일 동안 사용 가능합니다.
- 리워드는 1,000원 이상 eBook에 한해 다운로드 완료 후 문장수집 등록 시 제공됩니다.
- 리워드는 한 상품에 최초 1회만 제공됩니다.
- sam 이용권 구매 상품/오디오북·동영상 상품/주문취소/환불 시 리워드 대상에서 제외됩니다.
구매 후 문장수집 작성 시, e교환권 100원 적립
신규가입 혜택 지급이 완료 되었습니다.
바로 사용 가능한 교보e캐시 1,000원 (유효기간 7일)
지금 바로 교보eBook의 다양한 콘텐츠를 이용해 보세요!
- 구매 후 90일 이내 작성 시, e교환권 100원 (최초1회)
- 리워드 제외 상품 : 마이 > 라이브러리 > Klover리뷰 > 리워드 안내 참고
- 콘텐츠 다운로드 또는 바로보기 완료 후 리뷰 작성 시 익일 제공
가장 와 닿는 하나의 키워드를 선택해주세요.
총 5MB 이하로 jpg,jpeg,png 파일만 업로드 가능합니다.
신고 사유를 선택해주세요.
신고 내용은 이용약관 및 정책에 의해 처리됩니다.
허위 신고일 경우, 신고자의 서비스 활동이 제한될 수
있으니 유의하시어 신중하게 신고해주세요.
이 글을 작성한 작성자의 모든 글은 블라인드 처리 됩니다.
구매 후 90일 이내 작성 시, e교환권 100원 적립
eBook 문장수집은 웹에서 직접 타이핑 가능하나, 모바일 앱에서 도서를 열람하여 문장을 드래그하시면 직접 타이핑 하실 필요 없이 보다 편하게 남길 수 있습니다.
차감하실 sam이용권을 선택하세요.
차감하실 sam이용권을 선택하세요.
선물하실 sam이용권을 선택하세요.
-
보유 권수 / 선물할 권수0권 / 1권
-
받는사람 이름받는사람 휴대전화
- 구매한 이용권의 대한 잔여권수를 선물할 수 있습니다.
- 열람권은 1인당 1권씩 선물 가능합니다.
- 선물한 열람권이 ‘미등록’ 상태일 경우에만 ‘열람권 선물내역’화면에서 선물취소 가능합니다.
- 선물한 열람권의 등록유효기간은 14일 입니다.
(상대방이 기한내에 등록하지 않을 경우 소멸됩니다.) - 무제한 이용권일 경우 열람권 선물이 불가합니다.
첫 구매 시 교보e캐시 지급해 드립니다.
- 첫 구매 후 3일 이내 다운로드 시 익일 자동 지급
- 한 ID당 최초 1회 지급 / sam 이용권 제외
- 구글북액션을 통해 교보eBook 구매 이력이 없는 회원 대상
- 교보e캐시 1,000원 지급 (유효기간 지급일로부터 7일)