그로킹 심층 강화학습 - https://www.hanbit.co.kr/media/books/book_view.html?p_code=B8984169041
대상 독자
신경망과 역전파 방식에 대한 기본적인 설명이 있어 기본적인 딥러닝 지식부터 궁금한 분들에게 좋은 책입니다. 강화학습의 수학적 기초와 강화학습의 기본적인 정의와 특징에 대해서 설명해주기 때문에 강화학습을 처음 접하는 분들이나 관련해서 면접을 준비하고 있는 취업 준비생분들에게도 좋은 책입니다.
좋았던 점
책을 읽기 전 지식 수준은 딥러닝 중에서도 비전이나 자연어처리에 대한 모델들에 대해 정도 알고 있는 정도였습니다. 강화학습은 처음 접하는 분야였지만, 책의 설명에서 처음에는 기본적인 강화학습 방법에 대해 설명해주고 조금씩 개선된 강화학습 방법에 대해 이어서 설명해주다보니 응용 개념에 대한 이해가 편했습니다.
정리해보기
책에서 설명하는 심층 강화학습의 특징들은 아래와 같습니다.
- 관련 용어
- 에이전트: 컴퓨터 프로그램, 의사를 결정하는 객체 자체 <=> 환경
- 상태: 상태 영역에 대한 순간적 표현, 변수가 가질 수 있는 모든 값들의 집합
- 관찰: 에이전트가 관찰할 수 있는 상태의 일부
- 전이함수: 에이전트와 환경 사이의 관계
- 보상함수: 보상 신호와 관련된, 행동에 대반 반응과 관련된 함수
- 정책: 관찰과 행동사이의 관계를 표현한 것
- 가치 함수: 보상과 행동 사이의 관계를 평가한 함수
- 장점
- 지도학습과 다르게 일반화가 아닌 정확하고 잘 정의된 동작에 대해 뛰어난 학습 성능을 보입니다.
- 단점
- 샘플에 대한 효용성이 낮습니다.
- 보상 함수에서 보상의 의미를 이해하려할 때 명확하게 정의된 보상으로 표현하려하기 때문에 여전히 표현할 수 없는 메커니즘이 많습니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."