送交者: permutation 于 2008-08-08, 15:22:34:
回答: 当前盘面的估计比较难吧。是不是从枝干中取样本估计? 由 投影 于 2008-08-08, 15:04:55:
每次从树根往下走,挑赢的次数多的枝往下走,如果走到叶上了,在叶上做模拟,模拟的结果再往上更新。记下每个节点的访问数和输赢状况。如果某个点赢得少,但是访问次数也少的话,要保证在一定的访问次数后,也要试这些点。balance between exploitation and exploration.
如果叶的访问次数多了,这个叶变成节点,再往下走。
其实看了图后非常好理解。只是我说不好。下面是他们最初的文章。
http://hal.inria.fr/inria-00117266