정보공유/인공지능
Multi-armed Bandit Problem
David.Cheon
2017. 10. 29. 20:17
반응형
강화학습 알고리즘의 큰 줄기를 차지하고 있는 Multi-armed bandit problem에 대한 내용입니다.
동영상에서는 Multi-armed bandit problem이 어떤 목적을 지니는지, 그 알고리즘은 어떻게 생긴건지에 대한 개념을 정리한 영상입니다.
영상 목차
- Multi-armed bandit problem (MABP)이란 무엇인가?
- Stochastic, Non-stochastic, Markovian MABP 모델 설명
- MABP 알고리즘인 Exp3
반응형