AlphaZero完胜三大世界冠军棋类程序:5000个TPU、自学一天?
昨天,Deepmind团队在arxiv扔了重磅炸弹,下一代alphazero使用了强大的计算资源(5000代TPU和64代TPU)后,不到24小时的自我对战(tabula称霸asa,也称为白板)加强了学习,连续打败了世界冠军级的程序(棋、棋、围棋)。
其中包括上一代冠军围棋程序AlphaGoZero,该程序发布不到两个月,Deepmind又称霸了自己(因此谷歌队自我进化速度的时间单位都是天计,很可怕)。
AlphaZero百局战绩:
象棋程序Stockfish:28胜,72平
象棋程序Elmo:90胜,2平,8负
象棋程序AlphaGo:60胜,40负
AlphaZero自我对战的训练时间:
训练次数|训练时间段
30万,2小时,打败国际象棋Elmo
11万,4小时,打败国际象棋Stockfish16.5万,8小时,打败国际象棋AlphaGo
删除Go意味着AlphaZero,已经是比AlphaGoZero更通用的程序。一直以来,尽管许多顶级人工智能的程序超过了人类世界冠军的水平,但他们只能在单一领域执行单一任务,不能将这种打败人类的超能力泛化到其他任务中。
Deepmind的野心不开发者_如何学C仅仅是在棋类游戏中超越人类,这次他们研究了这个更通用的程序AlphaZero,很快就会投入蛋白折叠的应用。
官方表示,他们很快就会发表相关论文,通过检测蛋白错误折叠,快速诊断神经退行性疾病,如阿尔茨海默病、帕金森病、囊状纤维化。
期待AlphaZero在医疗健康领域的表现。
精彩评论