課程目錄:用Python進行深度強化學習培訓
        4401 人關注
        (78637/99817)
        課程大綱:

            用Python進行深度強化學習培訓

         

         

         

        介紹

        強化學習基礎

        強化學習基本技術

        BURLAP簡介

        值迭代和策略迭代的收斂

        獎賞塑形(Reward Shaping)

        探索(Exploration)

        泛化(Generalization)

        部分可觀察的馬爾可夫決策過程(POMDP)

        選擇(Options)

        Logistics

        TD Lambda

        策略梯度(Policy Gradient)

        深度Q學習

        博弈論(Game Theory)專題