Tensorflowのサンプル試し(倒立振子問題04)

■条件を変えての続き。
前回に続いてパラメータを変えて試す。
前回良好な結果として500回まで振子を倒さずに操作ができた。隠れ層、学習率、バッチをそれぞれ3つずつ変えて、リプレイバッファの最大長(2000)、初期データ収集ステップ数(3000)、トレーニングステップ数(10000)は固定で実施した。

結果が下。

隠れ層学習率バッチ10000回目の損失結果(20回のうちの最大、最小)
(64,)0.0001643.42938 - 11
128212.05158 - 10
256118.087877 - 102
0.000564115836.72668 - 10
1284.1954500 - 500
25685160.01568 - 10
0.001644085628.50008 - 11
128546834.562546 - 306
2561095267.75008 - 10
(64, 32)0.00016419549.1608 - 10
12835462.71099 - 11
256966809.75008 - 10
0.00056473563280.00008 - 11
1284.232937 - 83
25623370452992.00008 - 10
0.001645262137344.00008 - 11
1281203421839360.00008 - 10
2561376359022592.00008 - 11
(128, 64)0.000164246.00288 - 11
12826258248.00008 - 10
256250688.96888 - 11
0.000564101696032.00008 - 10
128115622133760.00008 - 10
256120.212639 - 210
0.00164233870544.00008 - 10
12814918946390016.00008 - 10
2562407737589760.00008 - 11

最も良い結果となったのは隠れ層(64,)、学習率0.0005、バッチ128のときであったが、それ以外にもいくつか良い結果はでている。前回は隠れ層(100,)、学習率0.001、バッチ128だったが、今回の隠れ層(64,)、学習率0.001、バッチ128でもなかなか良い結果が出ており、隠れ層(64~100,)、学習率0.0005~0.001、バッチ128辺りの設定が適当そう。
同じ設定でも繰り返し試すと結果が変わるので、たまたま良い結果が出たのか、それともいくつか行っても安定して良い結果が出るのか、この辺りの設定の検証をしてみる。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です