Python
Tensorflowのサンプル試し(倒立振子問題07)新着!!
■途中の学習の追加と探索法の変更。今まで倒立振子問題のパラメータを変えて動かしてきたけど、今回は学習途中でサンプルを追加することとε-greedy法以外の探索法の試し。隠れ層(64,)、学習率0.0005、バッチ128、 […]
Tensorflowのサンプル試し(倒立振子問題06)
■リプレイバッファを変えての試し。前回までは、隠れ層、学習率、バッチ、トレーニング数を変え、リプレイバッファの最大長、初期データ数を固定して動かしてきた。今回はリプレイバッファを変えての試し。隠れ層(64,)、学習率0. […]
Tensorflowのサンプル試し(倒立振子問題05)
■条件を変えての続き2。前回のある程度あたりを付けた条件から、もう少し条件を絞って試す。今回は、隠れ層(64,)、(80,)、(96,)、学習率0.0005、0.0008、0.001で、バッチ128、リプレイバッファの最 […]
Tensorflowのサンプル試し(倒立振子問題04)
■条件を変えての続き。前回に続いてパラメータを変えて試す。前回良好な結果として500回まで振子を倒さずに操作ができた。隠れ層、学習率、バッチをそれぞれ3つずつ変えて、リプレイバッファの最大長(2000)、初期データ収集ス […]
Tensorflowのサンプル試し(倒立振子問題03)
■条件を変えて倒立振子問題を実施。前回取り上げたパラメータを変えて倒立振子問題を行ってみる。強化学習は試行のたびに結果が変わるので、どういった設定がいいものか?いくつか試した結果、下の設定で良好な結果が出るときがあった。 […]
Tensorflowのサンプル試し(倒立振子問題02)
■倒立振子問題の続き。倒立振子のサンプルコードを生成して、この問題がどんな感じか見てみた。キーボードから右と左を入力して、棒が倒れないように操作する。CartPole-v1では、物理法則をシミュレートする形となっているよ […]
Tensorflowのサンプル試し(倒立振子問題)
■ChatGPTでサンプルを生成して動作確認する。前回Tensorflow2.13の環境を整えたので、いくつかのテーマでChatGPTからサンプル生成して動作確認していきたい。なお、tf_agentsは強化学習のライブラ […]
Tensorflowの再設定(2.13.0)
■環境の再設定。以前Tensorflow 2.2の設定を行ったけど改めてサンプルを実行したらエラーが出た。ChatGPTに頼って環境を再設定した。今回実行したサンプルコードは、初めに下のようにライブラリをインポートしてい […]
Python(強化学習の試し16_迷路10_迷路サンプル3得点50の経路)
■最大の得点(50)を取るような設計ができるかの試し。 下のルートのような得点50になる経路を導けるか検討した。 ChatGPTと何度かやり取りをして最終的に下の設定にした。 ・学習率:0.3 ・割引率:0.99 ・探索 […]
Python(強化学習の試し15_迷路09_迷路サンプル3の試し3)
■報酬を変えての試し。現在は下の迷路サンプルを使っているけど、 0 がつくところを報酬1、2を報酬10、3を報酬20(ゴールとしてここに着いたら終了)としている。移動は上下左右を選択できるので、壁を選択することもできる( […]
Python(強化学習の試し14_迷路09_迷路サンプル3の試し2)
■学習率、割引率を変えての試し。前回は、学習率 α = 0.01、割引率 γ = 0.2で10度試した。学習率や割引率を変えて挙動を見てみる。 まず下のように割引率 γ を変えて実施。学習率 α = 0.01割引率 γ […]
Python(強化学習の試し13_迷路08_迷路サンプル3_強化学習)
■普通の強化学習を試す。前回のコードから、報酬部分(2)を下のように置いて、強化学習を試した。左上をスタートとして、右下をゴールにするため、ぱっとみ右上か左下を経由してゴールに向かうのが最短でそれなりに報酬も得られる。 […]