Python(オセロ06_入力を変えての比較)

■オセロで入力テキストを変更しての比較。
今まで試してきて一番成績が良さそうなGemini 3 Flashを使う。入力内容を下の3通りにして5回ずつゲームを行い比較。できれば強いゲームプレイヤーの作成にトライしたいけど、今までの結果を見ると時間がかかりすぎる。とりあえずゲームのルールに沿った手を早く打ってもらえればいいので、深い思考をするかもしれない「プロ」といった縛りを消したり、時間制限を付けたりした。また、ルールという文言では毎回ルールを確認するような動きをしているのではと思い、石を置く場所について具体的な記載にもした。

①今までのもの(ベース)。
"あなたはプロのオセロ(リバーシ)プレイヤーです。あなたは●の手番です。"
"オセロ(リバーシ)のルールに従って、置ける場所から1つ指示してください。回答は[行,列]形式のみ(行は上からの何番目。列は左からの何番目とします)。例:[3,5]。"
"同じ盤面が入力された場合、前回と別の位置を回答して下さい。"
"置くところがないときはNoneを返却"

②プロを削除して、時間制限を追加。
"あなたはオセロ(リバーシ)プレイヤーです。あなたは●の手番です。回答は10秒以内にして下さい。"
"オセロ(リバーシ)のルールに従って、置ける場所から1つ指示してください。回答は[行,列]形式のみ(行は上からの何番目。列は左からの何番目とします)。例:[3,5]。"
"同じ盤面が入力された場合、前回と別の位置を回答して下さい。"
"置くところがないときはNoneを返却"

③ルールを具体的な記載にして、時間制限についての文言を追加。
"あなたはオセロ(リバーシ)プレイヤー●です。"
"置ける場所は、上記の置ける場所のリストのうち、縦横斜めの延長線上に●が置かれているところです。"
"回答は[行,列]形式のみ(例:[3,5])で10秒以内に指示してください。"
"特にこの10秒以内は守るよう努めてください。"

結果が下。

10秒という縛りを入れても守られることはあまりない。②、③でも長いもので4~8分ほど回答にかかっている。むしろ無効な手を打つことで1ゲームを終えるまでの時間が長くなってしまっている。さらに、回数が増えるに伴って合計トークンも多くなり費用も高くなる(概算で1ゲーム400~700円)。
結果を見ると、ランダムに対してすべて勝利している。No.4や15ではどちらも置けなくなった状態でのゲーム終了。単純なランダムより強い(ある程度考えて手を打っている)と想像できるけど、ゲーム回数も少ないので、どのくらいの強さか分からない。
あと、置くことができない場合はNoneを返すよう指示しているけど、それも守られなかった。置ける場所のリストすべてを試した後にパスという扱いとしているので、その分回数が増えている(No.4, 15)。

今回複数のゲームを行い、ばらつきを考えてもだいたい1~2時間でゲームが完了すると予想できる。現在のテキスト内容でもかなり簡素化したもので、生成AIの読み込みや思考は少なめではないかと思う。このテキストを工夫して時間の大きな改善が見込めるかは疑問。それこそ生成AIに相談してみようかな。ランダムの相手に対しては15戦全勝なので、もう少し強めのロジックでどうなるかも見てみたい。






コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です