Multi-armed Bandit Problem

강화학습 알고리즘의 큰 줄기를 차지하고 있는 Multi-armed bandit problem에 대한 내용입니다.

동영상에서는 Multi-armed bandit problem이 어떤 목적을 지니는지, 그 알고리즘은 어떻게 생긴건지에 대한 개념을 정리한 영상입니다.

영상 목차

- Multi-armed bandit problem (MABP)이란 무엇인가?

- Stochastic, Non-stochastic, Markovian MABP 모델 설명

- MABP 알고리즘인 Exp3

티스토리툴바