Python(強化学習の試し11_迷路06_強化学習)

■複雑なサンプルで強化学習を試した結果。
前回の迷路のサンプル(下のもの)で何度か強化学習を試した。通ることができるマスは報酬1、黄色マスは報酬10、右下のゴールは報酬20にしている。


100回学習したときの最後の結果が下。
左が通ったマスの回数。右がそれを視覚的にしたもの(白いほど多く通っている)。
その1(40点)。


その2(70点)。


その3(130点)。
学習率αを0.01にしてみたもので、50000 stepほどかかっている。


今回の迷路は一見最適なルートが分からなかったけど、やはり学習後のルートもいくつかに分かれるよう。その2のルートは前回最適なものとして考えたものの1つ。ただ、黄色マス付近で行ったり来たりしており歩数は予想より多い。
今回、1つのマスに対して迂回して辿りつくことができる場合がある。そのため、Qテーブルでは、さまざまなルートから黄色マスに行くように学習し、その付近のマスは黄色マスに行く(戻る)ような結果になっているのではと思う。
この無駄に歩数を増やす問題を改善したいけど、今のサンプルではやたら時間がかかる。もう少し小さなサイズで検討したい。


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です