ひまわりmini

学習中の評価関数

最近はひまわりminiの学習を行いつつ、ハイパーパラメータの調整を行っています。

現在は学習にはプロの棋譜を用いています。

 

ハイパーパラメータとは、学習の開始時に設定し、学習によって調整されないパラメータです。

方策勾配法では学習率εと温度Tがハイパーパラメータだと考えています。

 

学習の良し悪しはハイパーパラメータの組み合わせによって変わります。

その割に良いハイパーパラメータはあまり報告されることもなく、論文でも何故その値が使われるのか分からずに同じ値を使うことが多いです。

 

ということで、現在は本学習に使用するパラメータを決定するための調査としての学習を行っています。

年内は学習則の調整を中心に行うことを考えています。

学習しててちょっと良いなと思ったパラメータはどんどん公開してみたいと思います。
評価関数ダウンロード

お手元のひまわりminiのkkp.binを差し替えれば利用できます。

よろしければ是非、感想を聞かせてください。

ひまわりminiの定跡ファイル

ひまわりminiの定跡ファイルはbook.sfenというファイルです。

ファイルの内容は分かりやすさを重視してテキスト形式になっています。

 

定跡ファイルのフォーマットは以下の通りです。

sfen <sfen string> move <move 1> <value 1> <move 2> <value 2> … <move i> <value i>

 

ひまわりminiでは、局面<sfen string>に対して、<move 1>から<move i>の着手を<value 1>から<value i>の割合で選択します。

 

sfen形式の局面の記述については以下のWebページを参照して下さい。

http://www.geocities.jp/shogidokoro/usi.html

 

定跡ファイルのフォーマットさえ理解していれば、ひまわりの序盤定跡を作成することができます。

今後、希望が多ければ定跡ファイルを編集するツールを作成することを検討しています。

 

感想・要望などはコメントをいただけたらと思います。