Monte Carlo Tree Search

定义 Definition

蒙特卡洛树搜索（MCTS）：一种用于决策与规划的搜索算法。它通过在搜索树中反复进行随机模拟（rollout）来估计各个动作/分支的价值，并在探索（exploration）与利用（exploitation）之间权衡，逐步把计算资源集中到更有希望的分支上。常用于棋类博弈、路径规划与强化学习中的决策。

发音 Pronunciation (IPA)

/ˈmɒnti ˈkɑːrloʊ triː sɜːrtʃ/

例句 Examples

MCTS is often used to choose the next move in board games.
MCTS 常用于在棋类游戏中选择下一步走法。

By combining MCTS with a learned policy and value network, the agent can plan deeper and make stronger decisions under uncertainty.
将 MCTS 与学习到的策略网络和值网络结合，智能体就能在不确定性下进行更深层的规划并做出更强的决策。

词源与背景 Etymology & Background

“Monte Carlo（蒙特卡洛）”最初指用随机抽样来解决问题的一类方法，名称与摩纳哥的蒙特卡洛赌场联系在一起，暗示“像赌博一样依赖随机性”。“Tree Search（树搜索）”描述的是在树状结构的状态空间里进行搜索。合起来，MCTS 就是：在树搜索过程中用大量随机模拟来评估节点/动作的好坏。其经典变体之一是 UCT（Upper Confidence bounds applied to Trees），把多臂老虎机（bandit）的思想用于树的节点选择。

文学/著作例证 Works & Notable Mentions

Kocsis, L. & Szepesvári, C. (2006). Bandit based Monte-Carlo Planning（提出 UCT 思路的经典论文之一）。
Browne, C. B. et al. (2012). A Survey of Monte Carlo Tree Search Methods（MCTS 方法综述，系统梳理变体与应用）。
Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search（《Nature》AlphaGo 论文，深度网络 + MCTS 的代表性应用）。
Russell, S. & Norvig, P. Artificial Intelligence: A Modern Approach（现代 AI 教科书中在规划/博弈相关章节会讨论或提及树搜索与蒙特卡洛思想）。
Sutton, R. & Barto, A. Reinforcement Learning: An Introduction（强化学习经典教材中与规划、采样估计相关内容常与 MCTS 思路相通或相互引用）。