
用Python進行深度強化學習培訓
介紹
強化學習基礎
強化學習基本技術
BURLAP簡介
值迭代和策略迭代的收斂
獎賞塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可觀察的馬爾可夫決策過程(POMDP)
選擇(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q學習
博弈論(Game Theory)專題
用Python進行深度強化學習培訓
介紹
強化學習基礎
強化學習基本技術
BURLAP簡介
值迭代和策略迭代的收斂
獎賞塑形(Reward Shaping)
探索(Exploration)
泛化(Generalization)
部分可觀察的馬爾可夫決策過程(POMDP)
選擇(Options)
Logistics
TD Lambda
策略梯度(Policy Gradient)
深度Q學習
博弈論(Game Theory)專題