|
(GPS将棋開発参加記録)
|
前回のevaluation curveの紹介の続きで、今度は局面の頻度を紹介します。

横軸が評価値、縦軸がその評価値がついた局面の頻度(その評価値がついた局面の数 / 全部の局面の数)で、左が将棋倶楽部24万局集の棋譜(片方のレーティングが1500以上)を分析した場合、右がプロ棋士の棋譜を分析した場合です。局面の評価値を求める部分は、探索無し、静止探索、静止探索+1手と3種類実験して、3本のグラフがあります。しかし、いずれも普通に戦う探索よりもずっと浅い≒ぱっと見の評価、つまり弱いです。
二つのグラフを比較すると、右のグラフは中央に偏っているのが読み取れます。それでも、右は中央付近で頻度は倍近いですし、逆に左は+-1500点付近でも頻度が0になっていません。(右のグラフは少しがたがたしていますが、これは棋譜の数が少ないためです。)
これは、プロ棋士は互角に近い形勢でずっと戦っている傍証ではないかと想像しています。真に互角に近いのか、プロの目には大差でコンピュータにその差が分からないのかは分かりません。
もう一つ細かい違いは、右のグラフだけ、緑の線が右に寄っています。右に寄るというのは手番側が良いように見えるということですが、この理由はよく分かりません。一手指すと良く見えるということで、例えば損をしないで取れる駒が盤面上に多いということかもしれません。
GPS将棋の実力は、特に今回の0.1秒もかけていない探索は、プロ棋士の強さに到底及ばないにも関わらず、棋譜の分析結果に差が現れるというのは興味深いところです。
ご来場くださったみなさま、ありがとうございました。当日に使った資料をを微調整したpdfファイルを公開しましたので興味のある方はご覧ください。(配布資料ではwdoorのURLが間違っていたりしました、すみません) 資料を作るにあたって技術的内容をどこまで紹介するか迷ったのですが、感想・コメント・質問等いただければ次回の参考にしたいと思います。(9/14記載)
当日、会場で、人間より強くなることを目指すことの是非について質問がありました。将棋には人間の文化としての側面と最善手の追求という側面があって、コンピュータは前者には立ち入らないというようなことをお答えしたつもりです。また、司会の長井さんには、チェスの競技人口は減っていないとフォローしていただきました。棋力や興味によって感じ方が変わりそうなので別の例も考えてみると、たとえばクイズ番組に挑戦するコンピュータが人間に勝てる日が来たとしても、クイズ番組の魅力は減らないような気はします。
一方で、囲碁のセッションでは布石が人間らしくないことの改善についてのコメントがありました。プログラムに対する印象は将棋と囲碁で差がありそうですね。(9/14記載)
週末は打ち合わせで電通大に出かけたり、google code jamの予選に参加したりしていました。調布駅は改装中でエアコンがないとかで、天井で扇風機が活躍中でした。google code jam は仕様に対応するプログラムを時間内に書きあげるというコンテストです。練習もできます。プログラムの対象も競技時間も異なりますが、コンピュータ将棋の開発や競技の楽しさと重なる部分があるように思うので興味のある方は来年ぜひ。
その後、体力作りに泳ぎにいったのですが、これは疲労をためてしまって失敗だったかも…
twitterにBonanza_shogiが登場しています。本日行われた「第57期王座戦五番勝負第2局(9月16日)羽生善治王座 対 山崎隆之七段」の対局の両プログラムによる評価値をグラフにしてみました。
横軸が手数、縦軸が評価値、Bonanzaが赤、GPS将棋が緑です。違うところは色々ありますが、評価値の傾向はそれなりに似ていますね。70手目前後の評価の違いが何に由来するのか気になります。GPS将棋が36手目のあたりで評価値が跳ね上がっているのは、△2七歩から△3八角が読み抜けだったかもしれません。
(9/26追記)
続いて第3局のグラフです。第2局よりもさらに近い評価値です。第3局ではBonanza_shogiに倣って、読み筋を複数表示させてみました。(9/27追記) Fireworksさんに紹介していただきました。「次の狙い」はパスした後の読み筋を、それっぽい時だけ表示しています。狙いっぽさの精度がいまいちなことが気になっていたのですが、「たぶん」とつけると和らぎますね。次から表現をお借りしたいと思います。
Before...
_ kaneko [コメントありがとうございます。重心を図って見たところ、 将棋クラブ24: 赤 -86.7, 緑 -8.5, 青 10..]
_ take-w1 [ああ、緑は右寄りですか。失礼。 ・本質的にプロの対局は均衡している ・駒がぶつかったまま(手抜いている)な状態が多..]
_ kaneko [そうですね、本当はtwitterに投稿しているような深さのデータがあると良いのですが、実験時間の関係でなかなか深くで..]