Python(強化学習の試し08_迷路03_強化学習)
■迷路サンプルで強化学習の試し。強化学習のコードを追加して、動作確認した。Actionの選択とQテーブルの更新のコードは下のもの。Qテーブルは[11, 11, 4] (縦、横、Action数)としている。 epsilon […]
Python(2次元配列のコピー)
■配列コピーの方法の復習。強化学習のQtableを作成する場合、状態 × Action のリストを作る。例えば、状態が4つあり、Actionが3つある場合は、下のような感じになる。ここで、a1は状態aのときにAction […]
Python(強化学習の試し07_迷路02_ランダムとか)
■迷路サンプルでの動作確認。自動的に迷路が生成されるコードを持ってきたので、今回、検証に使う適当な迷路の形を決めて、ランダムなどの動作を確認、取得する情報を決めた。強化学習については次くらいから。 検証に使うサンプルは下 […]
Python(強化学習の試し06_迷路サンプル)
■別の強化学習のテーマ。前回までは、過去の結果から0と1の2つのActionを選択するサンプルを見てきた。今回から、迷路のサンプルを試してみる。サンプルは、マイナビニュースで紹介されていたpygameのライブラリのものに […]
Python(強化学習の試し05_Rewardの条件の変更)
■途中でRewardの条件を変える。引き続き下の条件を使う。・試行は100回。これを1エピソードとして、400エピソード実行。・過去の試行3回分から強化学習。今までは、試行の100回、エピソードの400回でずっと同じ条件 […]
Python(強化学習の試し04_学習率α、割引率γを変える)
■学習率、割引率を変えて試す。引き続き、過去の試行3回分をもとに強化学習をさせてみる。条件は次のように変える。・試行は100回。これを1エピソードとして、400エピソード実行する。エピソードが進むにつれてQ値は更新されて […]
Python(強化学習の試し03_過去の試行3つ分で学習2)
■学習するコードの改善。何となく学習されているようだけど結果が芳しくなかったので、学習するコードを改善する。条件は下のもの。・ボタン(0と1)がある状態で、どちらかを押す想定。・0を押した後に1を押すと報酬として1が追加 […]
2025/01/01 良いお年を
昨年を振り返ると、ほぼ週一のペースで投稿できました。内容としては、Python(QRコード)、Android Java(NFC通信、Bluetooth)、Visual basic (オセロ)、バッチ(ファイルURLチェッ […]
Python(強化学習の試し02_過去の試行3つ分で学習)
■学習するコードの試し。前回サンプルコードを作成したので、学習するコードの試しを行っていきたい。サンプルコードの条件は下のようなもの・ボタン(0と1)がある状態で、どちらかを押す想定。・0を押した後に1を押すと報酬として […]
Python(強化学習の試し01_ベースのコード)
■簡単なサンプルで強化学習について学ぶ。入門書のネズミ学習問題は、強化学習のサンプルとして挙げられていたが、Tensorflowのライブラリなどは使っていなかった。環境から情報を得て(Observation)、それに基づ […]
Python(Tensorflow2.2の設定)
■機械学習まわりの勉強の再開。以前、TensorflowのVersion1.15で最小二乗法やMnistのサンプルの動作確認とかやったけど、現在Versionも上がり、いろいろと入門書も出ているので、改めてそのあたりの勉 […]
javascript(テトリス009_テトリスへのanime.jsの使用)
■Anime.jsでアニメーションを追加する。前回まででテトリスのコードはできたので、装飾としてAnime.js(Anime.min.js)でアニメーションを追加する。対象の動作は、行が揃って消えるところと終了時。 追加 […]