도서 정리/Do it! 강화 학습 입문
-
[Do it! 강화 학습 입문]4장. 딥레이서로 구현하는 자율 주행도서 정리/Do it! 강화 학습 입문 2023. 8. 9. 09:29
본문의 모든 내용과 이미지의 저작권은 이지스퍼블리싱의 Do it! 강화 학습 입문 도서에 있습니다. 4-1. PPO 알고리즘 알아보기 1. PPO 알고리즘이란? PPO(Proximal Policy Optimization) 알고리즘은 2017년 OpenAI 팀이 발표한 논문 에서 소개된 비교적 최신 기법 로봇 제어, 게임 등 다양한 강화 학습 과제에서 우수성을 입증했으며, 복잡한 난이도로 유명한 DOTA2라는 게임도 우수하게 플레이했음 PPO 알고리즘이 발표된 이후 OpenAI는 대부분의 과제에 이 알고리즘을 사용했고, Unity ML과 딥레이서 등의 환경에서도 기본 알고리즘으로 사용 PPO 알고리즘은 정책 경사(Policy Gradient) 방법에 해당, 정책 경사에 대한 공부가 필요 2. 정책 경사부터..
-
[Do it! 강화 학습 입문]3장. 알파고 도전을 위한 첫걸음도서 정리/Do it! 강화 학습 입문 2023. 7. 6. 11:36
본문의 모든 내용과 이미지의 저작권은 이지스퍼블리싱의 Do it! 강화 학습 입문 도서에 있습니다. 3-1. 게임을 스스로 플레이하는 에이전트 만들기 강화 학습을 게임 환경에서 공부하는 이유 현실에서는 환경 통제가 거의 불가능하기 때문 현실에서 사용하기 위해선, 강화 학습 에이전트과의 상호 작용을 위해 로봇 같은 새로운 분야도 공부해야 함 에이전트, 환경, 보상을 통제하기 쉽고 실습할 때 입력해야 하는 코드의 양도 적음 게임 환경은 강화 학습 공부에 있어 최고의 환경인 셈 1. OpenAI Gym 레트로를 위한 환경 준비하기 OpenAI Gym 레트로 환경 준비하기 지원하는 OS 목록 윈도우 7, 8, 10 macOS 10.12(시에라), 10.13(하이 시에라), 10.14(모하비) Linux(many..
-
[Do it! 강화 학습 입문]2장. 강화 학습에 딥러닝 조합하기도서 정리/Do it! 강화 학습 입문 2023. 6. 26. 15:37
본문의 모든 내용과 이미지의 저작권은 이지스퍼블리싱의 Do it! 강화 학습 입문 도서에 있습니다. 2-1. 딥러닝 쾌속 복습 강화 학습에 딥러닝을 조합하는 방법을 공부하기 전에 딥러닝을 복습 1. 딥러닝의 기원 알아보기 딥러닝은 뇌 과학에서 파생한 학문이기 때문에 딥러닝을 설명하려면 사람의 뇌의 구성과 동작 방식을 알아야 함 뇌의 구조 뇌는 신경 세포로 이루어져 있음 100억 개가 넘는 신경 세포가 서로 연결되어 전기 신호를 주고받으며 상호 작용 수많은 신경 세포가 서로 연결되어 정보를 처리하는 단위를 ‘신경망(neural network)’이라고 함 각 신경 세포에는 신호를 입력받는 부분과 출력하는 부분이 있음 신호를 입력받는 부분을 ‘수상 돌기(dendrite)', 출력하는 부분을 ‘축삭 돌기(axo..
-
[Do it! 강화 학습 입문]1장. 강화 학습이란?(2)도서 정리/Do it! 강화 학습 입문 2023. 6. 23. 15:53
본문의 모든 내용과 이미지의 저작권은 이지스퍼블리싱의 Do it! 강화 학습 입문 도서에 있습니다. 1-3. 모델 프리 강화 학습 가치 반복법은 에이전트가 환경 안에서 가질 수 있는 모든 상태와 각 상태 간의 전이 확률을 미리 안다는 전제가 필요 즉, MDP를 이루는 구성 요소 중 모델에 대한 모든 지식을 알고 있다는 것 종단 상태로부터 에이전트의 상태를 역추적해 모든 상태와 행동의 가치를 계산하는 완전 탐색이라는 특정도 존재 현실 세계는 복잡하고 탐색 공간도 매우 방대하므로 가치 반복법을 적용하기 어려움 복잡한 환경에는 에이전트가 모든 상태를 몰라도 환경 탐색 과정을 거치는 상태에 대해서만 가치 함수를 업데이트 할 수 있는 방법을 적용 초기 상태로부터 탐색을 진행하며 경험을 누적하는 좀 더 현실적인 방..