学習中の評価関数

最近はひまわりminiの学習を行いつつ、ハイパーパラメータの調整を行っています。

現在は学習にはプロの棋譜を用いています。

 

ハイパーパラメータとは、学習の開始時に設定し、学習によって調整されないパラメータです。

方策勾配法では学習率εと温度Tがハイパーパラメータだと考えています。

 

学習の良し悪しはハイパーパラメータの組み合わせによって変わります。

その割に良いハイパーパラメータはあまり報告されることもなく、論文でも何故その値が使われるのか分からずに同じ値を使うことが多いです。

 

ということで、現在は本学習に使用するパラメータを決定するための調査としての学習を行っています。

年内は学習則の調整を中心に行うことを考えています。

学習しててちょっと良いなと思ったパラメータはどんどん公開してみたいと思います。
評価関数ダウンロード

お手元のひまわりminiのkkp.binを差し替えれば利用できます。

よろしければ是非、感想を聞かせてください。

SNSでもご購読できます。