앱실론-탐욕 알고리즘
-
[Do it! 강화 학습 입문]1장. 강화 학습이란?(2)도서 정리/Do it! 강화 학습 입문 2023. 6. 23. 15:53
본문의 모든 내용과 이미지의 저작권은 이지스퍼블리싱의 Do it! 강화 학습 입문 도서에 있습니다. 1-3. 모델 프리 강화 학습 가치 반복법은 에이전트가 환경 안에서 가질 수 있는 모든 상태와 각 상태 간의 전이 확률을 미리 안다는 전제가 필요 즉, MDP를 이루는 구성 요소 중 모델에 대한 모든 지식을 알고 있다는 것 종단 상태로부터 에이전트의 상태를 역추적해 모든 상태와 행동의 가치를 계산하는 완전 탐색이라는 특정도 존재 현실 세계는 복잡하고 탐색 공간도 매우 방대하므로 가치 반복법을 적용하기 어려움 복잡한 환경에는 에이전트가 모든 상태를 몰라도 환경 탐색 과정을 거치는 상태에 대해서만 가치 함수를 업데이트 할 수 있는 방법을 적용 초기 상태로부터 탐색을 진행하며 경험을 누적하는 좀 더 현실적인 방..