AlphaZero

AlphaZero是DeepMind所开发的人工智能软体^[1]。

简介[编辑]

AlphaZero使用与AlphaGo Zero类似但更一般性的演算法，在不做太多改变的前提下，并将演算法从围棋延伸到将棋与国际象棋上。AlphaZero与AlphaGo Zero不同之处在于^[1]：

AlphaZero基于蒙特卡洛树搜索，每秒只能搜寻8万步（西洋棋）与4万步（将棋），相较于Stockfish每秒可以7000万步，以及elmo（日语：elmo (コンピュータ将棋ソフト)）每秒可以3500万步，AlphaZero则是利用了类神经网路提升了搜寻的品质^[1]。

AlphaZero使用了5,000颗第一代的TPU进行训练。

在4小时的训练后（约自我训练4400万局^[1]^{:Table S3}），AlphaZero以28胜72和0败的成绩打败Stockfish^[1]^{:Table 1}。

在12小时的训练后（约自我训练2400万局^[1]^{:Table S3}），AlphaZero以90胜2和8败的成绩打败elmo（日语：elmo (コンピュータ将棋ソフト)）^[1]^{:Table 1}。

在34小时的训练后（约自我训练2100万局^[1]^{:Table S3}），AlphaZero以60胜40败的成绩打败AlphaGo Zero^[1]^{:Table 1}。