Python(オセロ09_入力を変えての比較4)
■max_output_tokensを500~700にしての試し。
出力トークンを制限する設定値(max_output_tokens)を変えてオセロの手を指示させているが、前回は1000と5000で行った。勝率はどちらも80%程度だけど、時間は5000の方がかかっている(1ゲームで平均224秒(1000)、679秒(5000))。設定値を大きくすると、使用するトークンも多くなり時間もかかるため、少ない方向で試してみる。
結果が下。max500などの部分がmax_output_tokensの設定値。




500の設定では、ゲームの有効手となる正しい回答が得られないことが多く、完了までの回答が多くなった。その分、1ゲームを完了させるまでの時間がかかっている(平均790秒)。ただ、勝率は80%程度である。正しい回答もできないぐらいなので、ランダムとほぼ変わらなくなるのではないかと思ったけど、意味がある場所には置いているよう。結果的に、500~700に増やすにつれ正しい回答を得られることが多くなるが、勝率はほとんど変わらない。
前回の結果も踏まえて、思考トークンを増やせば強くなるとは限らないよう。それに対して、思考トークンを増やせば1手に対する時間は長くなる。正しい回答が得られて、かつ1手の時間が最も短いものは700あたりとなった。これで1ゲーム3分強、12円程度。勝率が変わらないと仮定すると、この設定値がベストになる。
次に、700の設定でランダム以外の複数のロジックで対戦させてみる。

