%e8%a1%a8%e6%a0%bc123

人工智慧與增強學習-2:多臂吃角子老虎機理論

「多臂式拉吃角子老虎機」是一個 MDP,而我們將動作集合簡化成 $latex \mathcal{A}(s) = \{1,2,\cdots,K\},~\forall s\in\mathcal{S}$,且假設執行動作得到的報酬僅跟執行的動作有關,也就是我們可以將狀態空間寫為$latex \mathcal{S}=\{S_1,\cdots,S_K\}$。

%e8%a1%a8%e6%a0%bc123

讀者提問:什麼是支持向量機 (SVM)

幾乎所有的機器學習課程,都會談到一個很經典的演算法,叫做支持向量機 (support vector machine) 。最近有個朋友在粉絲專頁上問到,「支持向量機到底是什麼?」所以我想要(嘗試) 用比較好理解的方法簡單介紹什麼是 SVM。

%e8%a1%a8%e6%a0%bc123

人工智慧與增強學習 1:什麼是增強學習?

人類在進行決策時,常常會根據目前「環境」(environment) 的「狀態」 (state) 執行「動作」 (action),執行動作會造成兩個結果:一是人們會得到「環境」給我們的回饋,也就是人類會得到「報酬」 (reward) ,接著我們所執行的動作也會去改變「環境」,使得「環境」進入到一個新的「狀態」。