MCTS is often used to choose the next move in board games.
MCTS 常用于在棋类游戏中选择下一步走法。
By combining MCTS with a learned policy and value network, the agent can plan deeper and make stronger decisions under uncertainty.
将 MCTS 与学习到的策略网络和值网络结合,智能体就能在不确定性下进行更深层的规划并做出更强的决策。
词源与背景 Etymology & Background
“Monte Carlo(蒙特卡洛)”最初指用随机抽样来解决问题的一类方法,名称与摩纳哥的蒙特卡洛赌场联系在一起,暗示“像赌博一样依赖随机性”。“Tree Search(树搜索)”描述的是在树状结构的状态空间里进行搜索。合起来,MCTS 就是:在树搜索过程中用大量随机模拟来评估节点/动作的好坏。其经典变体之一是 UCT(Upper Confidence bounds applied to Trees),把多臂老虎机(bandit)的思想用于树的节点选择。