2019年,DeepMind出过有个游戏AI,AlphaStar,用于打游戏StarCraft II。
论文链接:https://www.nature.com/articles/s41586-019-1724-z
bolg:AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning
blog:AlphaStar: Mastering the real-time strategy game StarCraft II
github(官方,无训练代码):google-deepmind/alphastar
github(开源实现):liuruoze/mini-AlphaStar
2019年10月底,DeepMind在《自然》杂志发布最新研究:《Grandmaster level in StarCraft II using multi-agent reinforcement learning》,并放出大量AlphaStar和顶级人类选手的《星际争霸II》对战replay。相关数据显示,AlphaStar在战网上(欧服天梯)的排名已超越99.8%的活跃玩家,在不到 4 个月的时间里,它使用每个种族进行了 30 场天梯比赛,三个种族的水平都达到了宗师级别:星灵 6275 分(胜率 83%),人族 6048 分(胜率 60%),虫族 5835 分(胜率 60%)。
AlphaStar是一个把游戏看作长序列建模学习任务的强化学习智能体,它的模型设计也就以长序列建模为能力为核心。模型从游戏接口接收的数据是单位列表和这些单位的属性,经过神经网络计算后输出在游戏中执行的指令。这个神经网络的基础是Transformer网络,并且结合了一个深度LSTM网络核心、一个带有指针网络的自动回归策略头,以及一个中心化的评分基准。这样的网络架构是DeepMind对复杂序列建模任务的最新思考结果,他们也相信这样的先进模型可以在其他需要长序列建模、有很大行动空间的机器学习任务(比如机器翻译、语言建模和视觉表示)中同样发挥出优秀的表现。
AlphaStar使用神族(Protoss),在2018年12月10日以5:0战绩打败了Team Liquid的职业星际2选手TLO,然后经过更多训练后,在12月19日再次以5:0的完胜战绩打败了来自同一个战队的职业选手MaNa 。
===
如果有一天,用人工智能作为代练机器人帮忙打上王者荣耀国服,那么,它将会带来哪些影响?
比如说星际2就有开源的游戏环境:DeepMind and Blizzard open StarCraft II as an AI research environment
并且DeepMind还做了Baseline模型:StarCraft II: A New Challenge for Reinforcement Learning
RNN联合注意力attention框架改进: Pointer Networks。我们直到所有RNN(lstm) 在当下序列建模里的成就都和attention机制的结合有关。 而pointer network又对之前的attention进行了改进, 用输出的结果直接影响注意力需要注意的对象, 并且这个输出的尺寸是可变的。
链接:https://www.zhihu.com/question/310195660/answer/582705422
超大动作空间 -> auto-regressive policy
动作空间组合数目较多,每一个动作都需要先选择一个对象(比如农民),选择动作的类型,然后可能还需要地图中选择作用的位置(比如走到某个位置),最后还需要选择什么时候进行下一个动作。