AlphaGo Zero Final-没有人教也能学会下围棋!?【无师自通 AlphaGo Zero】

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • 是陈公子呀_:最强版本在此[妙啊]
  • SkylakeWell:up你好,我有个不懂的地方。你最后说MCTS的π始终比P强,我有点不理解,为什么说π是基于神经网络的呢?π由MCTS给出那和神经网络又有什么关系呢。有点菜,没理解到[笑哭]
  • 妮马舒婷吃不停:up要不要做一期将katago的[热词系列_三连]
  • dbsxdbsx:我想基于自己的理解向up主提个稍微有点硬核的问题。相信up主也意识到从alphaGo到alphazero最核心的不同就是学习机制从policy gradient改变为了policy iteration(以下简称PI), 也就是评估和进化2步走的学习过程。关于PI在离散状态空间下确实是有证明可以收敛至最优的----直觉上其实也好理解,因为评估是无偏的,而每一次policy也确实进步了----PI整个过程可以形象地认为就是蜗牛缓慢前行的过程。 但是一旦进入到神经网络(深度学习)的领域...就变得有些不清晰了, 评估不再准确,基于不准确的评估的policy在进化这一步也未必真的进化了.... 那到底怎么保证基于深度学习的pi真的能不断进化呢----不知道是否有相关文献,至少我没看到.... 另一个可能相关的疑问是:像alpahzero这类通过自我对弈收集数据,并基于PI的improvent这一步让基于直觉的p→基于规划的Π,虽然直觉上很好理解(毕竟规划的总是比直觉的要好),但这里基于自身数据的进步是不是一个关键呢?即如果一开始就是和一个专家进行对弈,基于mcts的PI算法是不是就不奏效了呢?
  • Musashi武蔵:讲的太棒了,期待后面的视频