最新 追記

(元)駒得少年の冒険

rating
(GPS将棋開発参加記録)
2004|12|
2005|01|02|03|04|05|06|07|08|09|10|11|
2006|01|04|05|06|07|08|09|10|
2007|02|04|05|08|10|11|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|
2011|01|03|04|05|06|07|11|12|
2012|01|03|04|05|

2009-08-10

_ GPS将棋観察記録

07/28 第22期竜王戦決勝トーナメント久保利明棋王対松尾歩七段: 途中から後手の指手をわりと読み筋に含んでいた印象があるので、後で確かめる。仮説としては、攻めている側が当たりやすいとか、評価値が高い側が(実際の形勢とは別に、狙いがGPS将棋に理解できたから良い評価になっていて)最善応手手順に出てきやすいとか。

08/03 朝日杯将棋オープン戦一次予選飯塚祐紀六段-長岡俊勝アマ: △3八歩成の詰めろは、GPS将棋には詰将棋に集中させても約1分必要 → 当分正しく応対できない。この例は極端かもしれないが、世界コンピュータ将棋選手権(25分切れ負け)よりもかなり詰みを読んでいても、強い人の終盤はさらに詰みをよく読まないと理解が難しい印象

08/04 王位戦 第4局 終盤の△8六飛からの速い寄せがGPS将棋には見えていなかった。△6九銀でようやく。

08/07 竜王戦決勝トーナメント羽生善治名人対森内俊之九段: twitterが不安定なこともあり観戦できず。終盤の詰めろを後で読みを確認するべき。

08/10 竜王戦決勝トーナメント深浦康市王位対久保利明棋王: GPS将棋は後手を穴熊に囲わせたいようだが、評価関数に問題があると思われる。(追記)△5七飛成を予想したのには驚いた。その後の▲1六角は一度候補には上がっていたものの選ばれなかった。中盤にプロ棋士が選ぶ手と選ばない手の差はほとんど見えていない印象。

[]

2009-08-16

_ CSA使用可能ライブラリについて

CSAがライブラリについてのアンケートをしているようです。詳細はそちらをご覧いただくとして、懸念のひとつに"選手権上位プログラムの技術の多様性が失われる"点があげられています。ここで、多様性がある方が望ましいとして、何が"多様性"かを定義することは簡単ではなさそうです。同様に、対策案の一つに"大会前にオリジナリティを文書化してオリジナリティ審査委員会で審査"することがあげられていますが、"オリジナリティ"の有無について明解な基準を設けることは難しいと予想されます。

そこで、まずはオリジナリティの可視化を少し進める案を提案してみます: (1)大会前にオリジナリティを示すことを兼ねてプログラムの特徴をアピールする文書をCSAに提出し、全チーム分をCSAが公表する。(2)二次予選、決勝では、評価関数のオリジナリティが客観的に示される枠組みを導入する。たとえば、プログラムが指した全ての指手についての評価値や読み筋等の思考ログを試合終了後に直ちに提出することを義務化する。全てのファイルはCSAを通じて一試合ごとに速やかに公表される。

要は、現状のままで良いと言い切る自信はないけれども、何かルールを作るとしても様子をみて進めてはどうかということです。プログラムの思考を少し可視化することで、多様であるとかないとか、オリジナリティを認めるべきとか認めたくないとか、様々な立場の人が公開資料から議論できるようになります。例えば、色々な人が(1)の文書と(2)の整合性を考えて自分なりのコメントを表明したり、この改良はオリジナリティを認めたいがこの部分は認めたくないなどの意見が現れたりすることが期待されます。(2)に評価値と読み筋を含めたのは、棋力のない人にも参加しやすいという意味もあります。

(1)は、ライブラリを使わない人は「全部自力で書いた」等定型文で済ませても良いかもしれません。もし作文が苦にならなければ、アピールしたいことや苦労話等を自由に書くことで、観戦者の楽しみ方を増やせることでしょう。脱線ですが、コンピュータ将棋への注目が高いことを考えると、CSAから報道機関向けに各チームの紹介を体裁を整えて配布した方が良いように思います。

(2)は、たとえばこのようなものをイメージしています。自動的に生成されたもので人間が手を加えていない、必要な情報が人間に読み取れれば読みやすさ等は問わない(暗号化等妨害は禁止)あたりでいかがでしょう。今までより少し参加者の負担が増えるので二次予選上位以上(例えば決勝進出権と連動)でも良いかもしれません。評価値と読み筋を秘密にしておきたいかどうかについては、今までも激指が公開していたりするので、決勝参加者には抵抗が少ないと期待しています。また、どの程度の詳細の提出を要求するかは(手間と偽造対策のバランスで)毎年見直すべきでしょう。例外的な場合では、事前の調整でCSAは柔軟に対応するべきでしょう。例えば、合議では読み筋の代わりに多数決の様子とか。再び脱線ですが、一局ごとにそれぞれの評価値のグラフを描くと観戦者は楽しいはずです。感想戦ではないですが、注目の試合だけでも試合後にログを元に人手でプロットしてはどうでしょうか。floodgateのようにリアルタイムに描こうとすると大きな変更が必要になってしまいますが。

_ 提案の背景

仮に、ライブラリを使うと決勝に行けない等のルールが作られたとすると、ライブラリを使う際に、申告しないでこっそり使うメリットが生まれてしまいます。こっそり使うのであれば、登録ライブラリ以外のもの(例えばGPS将棋の評価関数の生データ…(追記)市販ソフトのバイナリを使う方が現実的な懸念かもしれませんね)まで使ってしまう方がメリットが大きいかもしれません。このような展開は避けたいところです。

さらに、ライブラリ登録制度の目的の一つは新規参加を増やすことですから、参加意欲に水を差すようでは目的が果たせません。特に新規参加の場合は大会の「空気」は分かりませんから、主旨に沿ったライブラリの使用が歓迎されることが分かりやすいルールにしておく必要があります。

その点で、今回の提案は普通の参加者には手間が少ない、こっそり使おうとするとログの類似性を指摘された時に恥ずかしいかもしれない、こっそり使いながらログを捏造しようとするとちょっと面倒というバランスになっていると期待しています。また、ライブラリ使用者も、思考ログから独自性が読み取れる状態ならば、それ以上オリジナリティについて主張する努力が不要になるというメリットがあります。

ちなみに、私は今年の選手権の文殊のような形態のライブラリの利用は問題なく、登録ライブラリ制度が有効に活用された事例と思います。思考実験としてもし仮に、ライブラリを利用した参加者のホームページがなく、その開発者と面識がなく、かつ開発者が秘密主義だったらどんな印象になるかを考えて、今回の案を思いつきました。

_ 様々な意見へのリンク

  • コンピュータ将棋協会blog CSAの方はアンケートは作り直さないとおっしゃっているので、議論がどう進むかCSA blogのコメント欄を注視する必要がありそうです。
  • GA将!!!! 作ってます 似たようなプログラムとばかり戦うことになると開発者の楽しみが減る点に触れられています。
  • 小宮日記 Bonanzaの評価関数を足がかりに将棋プログラムを作り改良してゆく楽しさに触れられています。登録ライブラリのBonanzaとセットで配布されているfv.binを使っていてもCSAライブラリを使ったことにはならないという立場のようです。
    (個人的には予想外でした。その立場が認められるとすると、GPS将棋の評価関数のデータ部分をCSA登録ライブラリから外しているのは意味がないですね。"bona412で違う棋譜をつかって再学習して""配布されているfv.binとはまったく違うデータ"を作った後でそれを使うのであれば、CSAライブラリを使ったことにはならないと私も思います。自作でない定跡を使ってもオリジナリティに影響しないという点はCSAから表明されていたと思いますが、評価関数のデータについてどのように判断されるかは早目にCSAから表明があるべきでしょう。)
  • マイムーブ ご結婚おめでとうございます!
    ライブラリに否定的な考えの人が多いことを紹介されています。
    参加者が減ってしまうようだと制度としては失敗という評価になるかもしれませんね。
  • CSAのメーリングリストに流れたメールによると"ライブラリについての考え方は、決勝進出経験のある方の中でもかなり両極端に分かれて"いるとのことです。
    そうするとまとまらないかもしれないですね。
    個人的にはライブラリの是非はどちらでも良いのでまとまる方に一票で。
  • コンピュータ将棋関連の暫定掲示板 森岡さん作成です

_ 雑感

(8/18)少し眺めて思いましたが、やはり参加者同士の信頼関係がCSAの大会の貴重な財産だと思います。その意味で、こんな土俵で戦おうという合意が大まかにでもとれないと、大会は成り立たないですね。

私の可視化の提案は、どう作っても意外とオリジナリティが出るねという結論になるという結論を期待する楽観的な立場への軸足が強いようです。参加者を疑うようになっては終わりなので、(容易かどうかはともかく)偽造などと書いたのはミスリーディングでした。

という背景で、個人的にはライブラリの是非はどちらでも良いので、まとまる方に一票という気分に今はなっています。

本日のTrackBacks(全1件) []

_ GA将!!!! 作ってます :[コンピュータ将棋]ライブラリのアンケート  この辺のエントリで知って、ついさっき回答してきました。  http://www.computer-shogi.o..


2009-08-18

_ 詰探索の速度

プロ棋士の終盤は難しい詰めろが現れるという雑談の流れで、ある局面で詰みを見つけるまでの所要時間を比較したところ、df-pnの大家の岸本さんのプログラムはGPS将棋の2,3倍速かったです。一例だけで一般的な結論は出せませんが、ある局面でどのように振る舞うかは同じコンピュータ将棋でもプログラム毎の違いがわりと大きいように思います。GPS将棋について何か書く際には苦手なことも得意なことも紹介したいと思いますが、GPS将棋の性質をコンピュータ将棋全体に一般的であるかのように書いてしまうとまずいので気をつけないといけません。

[]

2009-08-19

_ Blunderがgps_normalを越える

二週間レーティングで8月18日以降からBlunderがgps_normalを越えているようです。おめでとうございます。初めからGPS将棋より強かったプログラムとか正体不明プログラムとかBonanza評価関数利用してとかを別にすると、Blunderが初めてのプログラムではないでしょうか。(記憶違いでしたらご指摘ください)。gps_normalはアンカー用に強さを固定して戦っていますが、思ったよりも頑張っているようです。

svn diff -r '{2009-08-13}:{2009-08-20}' -x '-ubw' | grep -c '^\+'は、osl 427行、gpsshogi が985行でした。aki.のさんの10891行には7倍以上負けています。追い抜かれないように、頑張らないと…。

本日のツッコミ(全2件) [ツッコミを入れる]

_ aki. [ありがとうございます。gps_normalは長らく目標だったので嬉しいです。 svn diffもお試し頂きありがとう..]

_ kaneko [昨年のgps_lの伸びより傾きが急そうですね。(いつのまにか止まっていたグラフも復活しました http://wdoo..]

[]

2009-08-23

_ gps500復活 (floodgate)

gps500が8/10のあたりで通信切断していたようです。先ほど気づいて復活させました。しばらくの間、奇数プログラムが接続していると手空きが生じていたかもしれません。すみません。

[]

2009-08-27

_ コンピュータ将棋の+300点は勝率何パーセント?

以前、山田@CSAさんに教えていただいた、イメージと読みの将棋観を買いました。プロ棋士が局面に勝率をつけているのが興味深いです。この本の内容が分かるくらいの棋力があると楽しそうなのですが、残念ながら私はとても弱いです。でも、GPS将棋の読みと比べることは面白いかもしれません。evaluation curve

本題ですが、評価値を勝率に結びつける手法として、竹内提案のevaluation curveというグラフ化があります。

横軸が評価値(歩100点換算)で縦軸が勝率です。グラフの読み方は、棋譜の中から、1000点くらいの評価値がついた局面を集めて、元の棋譜での勝敗を調べたら勝率7割くらいだった、と読みます。今回は将棋クラブ24の24万局の書籍の棋譜とGPS将棋r2110を使いました。赤いグラフが評価値そのものを使った場合で、緑のグラフは静止探索(末端4手相当)の評価値を使った場合です。まず、グラフが右肩上がりなので、評価値が悪いと負け試合が多く評価値が良いと勝ちが多いと、評価値と人間の勝ち負けが対応していることが分かります。また、赤と緑を比べると、わずかながら緑の方が傾きが急になっています。つまり、緑の方が評価値に信頼性があります。例えば評価値-2000点くらいのところでも赤は2割くらい勝つ可能性がありますが、緑は1割くらいしかありません。これが探索の効果と言えそうです。gpsshogi@twitterは16-18手くらい読んでいるので、もしその条件でグラフを描けば、もっと傾きが急になるはずです。開発者の予想では、深く読んで1000点を越えたら、頓死以外ではほとんど負けない気がします。しかし、このグラフを描くには、2400万局面くらい評価しているので、深く読んだグラフを描くのは難しい状況です。evaluation curve2

上のグラフは、どちらかのレートが1500以上の対局だけ対象にしています。これをすべての対局を対象にするように変更すると、下のグラフの青になります。緑と青を比べると、傾きが緩くなっています。これは、レート1500未満同士の人の棋譜を混ぜると、GPS将棋が人間の勝敗を予想しにくくなるということを意味します。つまりグラフから読み取れる信頼性は棋譜により変わります。

さて、強い人の棋譜ではどうなるかということで、プロ棋士の棋譜を対象にこのグラフを描いてみると、グラフの様子が変わります。続きはまた後日に。

[]


  1. kaneko (08-24)
  2. aki. (08-22)