1.VIT论文细节详细解读-VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读,看不懂来打我

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • 且坐堂前试新茶:论文中要让Patching Embedding和位置编码pos相加的原因应该是强迫后面的线性层学到这个时序关系,而直接concat会削弱这种能力。假如输入的embedding是x,concat后送入linear层输出就是y=【W,Wp】^T【X,pos】=【W^T*X,Wp^T*pos】,因为位置编码pos是一个很强的周期信息,本身不随输入内容的变化而变化,所以网络会倾向于将Wp优化成0,也就是忽略这部分信息。而如果是相加的话,y=W(X+pos),会强迫网络学习到这个位置信息
  • 学学爱:真就听懂了!!!已投币。然后想问下只有一张显卡还能从事这个研究嘛[tv_大哭]
  • JackKoLing:请问官方的vit有提供预训练模型吗?如何加载进来微调自己的数据?感谢
  • 子鼠丑牛:在代码讲解部分07:30,为什么PreNorm(dim,Attention())表示的是先做norm,再做att. 在函数norm内部调用的att函数不是应该先执行吗?
  • twilightIRIS:Norm的位置变化据说是因为这样的效果比放在后面更好,有一篇论文专门讲了这个问题,已经得到验证了,所以在往后的论文中基本都是先进行Norm的