在過去的幾年里,強化學習(RL,Reinforcement Learning)在很多方面取得了突破。DeepMind公司將深度學習與增強學習結合在一起,在眾多的Atari游戲中來取得超越人類的表現,基于深度學習和強化學習訓練得到的AlphaGo Zero更是完全從零開始,僅通過自我對弈就能天下無敵。雖然RL目前在許多游戲環境中都表現很出色,但它對解決需要優決策和效率的問題而言是種全新方法,而且肯定會在機器智能中發揮作用。
? ?? ?
Gym是為測試和開發RL算法而設計的環境/任務的集合。它讓用戶不必再創建復雜的環境。Gym用Python編寫,它有很多的環境,比如機器人模擬或Atari 游戲。它還提供了一個在線排行榜,供人們比較結果和代碼。
第1部份 強化學習與常用的仿真環境平臺介紹(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2等)
第2部份 OpenAI gym中的常用仿真環境介紹,包括Atari 2600 游戲系列、MuJoCo 物理模擬器、Toy text 文本環境、Robotics機械手與機械臂模擬器等
第3部份 馬爾科夫決策過程MDP
第4部份 基于gym的MDP實例講解,基于OpenAI Gym構建股票市場交易環境
第5部份 基于gym的強化學習實踐:基于值函數的強化學習方法實現;基于策略梯度的強化學習方法實現
第6部份 虛擬環境Universe: 一個用于訓練解決通用問題 AI 的基礎架構
第7部份 基于Universe的強化學習實踐:用OpenAI公司的Gym工具庫和Universe平臺為游戲創建人工智能機器人
|