2025年

Python
Python(強化学習の試し13_迷路08_迷路サンプル3_強化学習)

■普通の強化学習を試す。前回のコードから、報酬部分(2)を下のように置いて、強化学習を試した。左上をスタートとして、右下をゴールにするため、ぱっとみ右上か左下を経由してゴールに向かうのが最短でそれなりに報酬も得られる。 […]

続きを読む
Python
Python(強化学習の試し12_迷路07_迷路サンプル3)

■経路選択を調べるためのサンプル。最適なルートがぱっとみ分からないような、少し複雑な迷路サンプルを使って強化学習を見ようとしたけど、処理に時間がかかりすぎる。そのため、迷路のサンプルをCUIにする。 とりあえず正常に動く […]

続きを読む
Python
ChatGPTの試し(オセロ)

■ChatGPTを試してみる。以前から生成AIについて興味があったので、強化学習の勉強の箸休めとしてどんなものか試してみた。無料版は使えるそうなので、それでオセロのコードを出力させてみた。他にPlus、Pro(現時点でU […]

続きを読む
Python
Python(強化学習の試し11_迷路06_強化学習)

■複雑なサンプルで強化学習を試した結果。前回の迷路のサンプル(下のもの)で何度か強化学習を試した。通ることができるマスは報酬1、黄色マスは報酬10、右下のゴールは報酬20にしている。 100回学習したときの最後の結果が下 […]

続きを読む
Python
Python(強化学習の試し10_迷路05_迷路サンプル2)

■少し複雑な迷路のサンプルで試す。前回の迷路のサンプルでは、最適化したルートが明らかだったので、今回は下のようなサンプルで強化学習を試す。黄色マスは全部で13で、一見してどういったルートが最適か分からない。 このサンプル […]

続きを読む
Python
Python(強化学習の試し09_迷路04_結果の視覚化)

■通った場所を見えるようにする。通った経路を縦横の位置情報で記録したので、そこからどこを何回通ったかカウントして視覚化してみた。まず、今回の迷路サンプルが下のもの。左上からスタートし、右下がゴールとなる。 11×11の迷 […]

続きを読む
Python
Python(2次元配列の初期化)

■2次元配列の初期化の復習。今まで迷路サンプルの試しで通った道の記録を取ってきたけど、その情報は下のように [縦の位置、横の位置]として取得している。 1 : [[1, 2], [1, 3], [1, 2], [1, 1 […]

続きを読む
Python
Python(強化学習の試し08_迷路03_強化学習)

■迷路サンプルで強化学習の試し。強化学習のコードを追加して、動作確認した。Actionの選択とQテーブルの更新のコードは下のもの。Qテーブルは[11, 11, 4] (縦、横、Action数)としている。 epsilon […]

続きを読む
Python
Python(2次元配列のコピー)

■配列コピーの方法の復習。強化学習のQtableを作成する場合、状態 × Action のリストを作る。例えば、状態が4つあり、Actionが3つある場合は、下のような感じになる。ここで、a1は状態aのときにAction […]

続きを読む
Python
Python(強化学習の試し07_迷路02_ランダムとか)

■迷路サンプルでの動作確認。自動的に迷路が生成されるコードを持ってきたので、今回、検証に使う適当な迷路の形を決めて、ランダムなどの動作を確認、取得する情報を決めた。強化学習については次くらいから。 検証に使うサンプルは下 […]

続きを読む
Python
Python(強化学習の試し06_迷路サンプル)

■別の強化学習のテーマ。前回までは、過去の結果から0と1の2つのActionを選択するサンプルを見てきた。今回から、迷路のサンプルを試してみる。サンプルは、マイナビニュースで紹介されていたpygameのライブラリのものに […]

続きを読む
Python
Python(強化学習の試し05_Rewardの条件の変更)

■途中でRewardの条件を変える。引き続き下の条件を使う。・試行は100回。これを1エピソードとして、400エピソード実行。・過去の試行3回分から強化学習。今までは、試行の100回、エピソードの400回でずっと同じ条件 […]

続きを読む