1.VIT论文细节详细解读-VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读，看不懂来打我-爱哔哩(B站视频、音频mp3解析下载站)

AID:

CID:

视频图片:

作者头像:

弹幕地址:

视频描述:

热门回复：

且坐堂前试新茶:论文中要让Patching Embedding和位置编码pos相加的原因应该是强迫后面的线性层学到这个时序关系，而直接concat会削弱这种能力。假如输入的embedding是x，concat后送入linear层输出就是y=【W,Wp】^T【X,pos】=【W^T*X,Wp^T*pos】，因为位置编码pos是一个很强的周期信息，本身不随输入内容的变化而变化，所以网络会倾向于将Wp优化成0，也就是忽略这部分信息。而如果是相加的话，y=W(X+pos)，会强迫网络学习到这个位置信息
学学爱:真就听懂了！！！已投币。然后想问下只有一张显卡还能从事这个研究嘛[tv_大哭]
JackKoLing:请问官方的vit有提供预训练模型吗？如何加载进来微调自己的数据？感谢
子鼠丑牛:在代码讲解部分07:30，为什么PreNorm（dim，Attention（））表示的是先做norm，再做att. 在函数norm内部调用的att函数不是应该先执行吗？
twilightIRIS:Norm的位置变化据说是因为这样的效果比放在后面更好，有一篇论文专门讲了这个问题，已经得到验证了，所以在往后的论文中基本都是先进行Norm的