SARSAによる学習の様子と,学習されたエージェントの挙動を可視化し,考察を行いました.
実験: experiment.py
可視化: results/
各実験の結果は日付から始まる各ディレクトリに格納されています. 各ディレクトリのファイルについて
conditions.txt
: 実験の条件を記録しています.maze.png
: 用いた迷路を示します.黒い箇所が通行不可なセル(壁)です.num_steps.png
: エピソードごとの探索ステップ数です.オレンジの線で最短経路を通った際のステップ数を示しています.path_found.png
: エージェントが発見した経路を可視化しています.ゴールまでの経路を発見できなかった場合,タイトル末尾に(not found)が追加されています.reward_in_episode{num}.png
: そのエピソードでの獲得報酬の遷移を示します.value-table_in_episode{num}.png
: そのエピソードが終了した時点での状態価値関数を可視化したものです.
本リポジトリはセミナー1, 2の夏季課題のために作成されました.