AlphaGo Zero Final-没有人教也能学会下围棋！？【无师自通 AlphaGo Zero】-爱哔哩(B站视频、音频mp3解析下载站)

AlphaGo Zero Final-没有人教也能学会下围棋！？【无师自通 AlphaGo Zero】

视频图片作者头像弹幕高清视频下载(免费，不支持有版权的视频下载)

AID:

CID:

视频图片:

作者头像:

弹幕地址:

视频描述:

热门回复：

是陈公子呀_:最强版本在此[妙啊]
SkylakeWell:up你好，我有个不懂的地方。你最后说MCTS的π始终比P强，我有点不理解，为什么说π是基于神经网络的呢？π由MCTS给出那和神经网络又有什么关系呢。有点菜，没理解到[笑哭]
妮马舒婷吃不停:up要不要做一期将katago的[热词系列_三连]
dbsxdbsx:我想基于自己的理解向up主提个稍微有点硬核的问题。相信up主也意识到从alphaGo到alphazero最核心的不同就是学习机制从policy gradient改变为了policy iteration（以下简称PI）, 也就是评估和进化2步走的学习过程。关于PI在离散状态空间下确实是有证明可以收敛至最优的----直觉上其实也好理解，因为评估是无偏的，而每一次policy也确实进步了----PI整个过程可以形象地认为就是蜗牛缓慢前行的过程。但是一旦进入到神经网络（深度学习）的领域...就变得有些不清晰了，评估不再准确，基于不准确的评估的policy在进化这一步也未必真的进化了.... 那到底怎么保证基于深度学习的pi真的能不断进化呢----不知道是否有相关文献，至少我没看到.... 另一个可能相关的疑问是：像alpahzero这类通过自我对弈收集数据，并基于PI的improvent这一步让基于直觉的p→基于规划的Π，虽然直觉上很好理解（毕竟规划的总是比直觉的要好），但这里基于自身数据的进步是不是一个关键呢？即如果一开始就是和一个专家进行对弈，基于mcts的PI算法是不是就不奏效了呢？
Musashi武蔵:讲的太棒了，期待后面的视频