Python(強化学習の試し10_迷路05_迷路サンプル2)

■少し複雑な迷路のサンプルで試す。
前回の迷路のサンプルでは、最適化したルートが明らかだったので、今回は下のようなサンプルで強化学習を試す。黄色マスは全部で13で、一見してどういったルートが最適か分からない。


このサンプルを使って、強化学習の条件を変えながら、どういったルートが最適と判断されるか見ていきたい。
サッと見て、歩数と得点がバランスよく取れてそうなルートは下のような感じかな。黄色マスは10点。

これは歩数51、得点70。もう一つ考えてみると、

こちらは歩数78、得点100。

まずは、前回の迷路サンプルと同様に、通ることができるマスは報酬1、黄色マスは報酬10、右下のゴールは報酬20として100回実行してみる。

学習後の100回目の結果は、Result: 30 Step: 820で、通ったルートを分析してみると下の結果になった。白に近いほど、そのマスを多く通っている。

黄色マスを通った前後で行ったり来たりしているのか、やけに数が多くなっている。試行回数を増やせばさらにQテーブルが更新されて改善されるかな。

試行回数を増やすか学習の条件を変えて、もう少し結果を見てみたい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です