%e8%a1%a8%e6%a0%bc123

人工智慧與增強學習-2:多臂吃角子老虎機理論

「多臂式拉吃角子老虎機」是一個 MDP,而我們將動作集合簡化成 $latex \mathcal{A}(s) = \{1,2,\cdots,K\},~\forall s\in\mathcal{S}$,且假設執行動作得到的報酬僅跟執行的動作有關,也就是我們可以將狀態空間寫為$latex \mathcal{S}=\{S_1,\cdots,S_K\}$。