2021-12-21 22-31-26-28、Vision Transformer(ViT)模型原理及PyTorch逐行实现-爱哔哩(B站视频、音频mp3解析下载站)

AID:

CID:

视频图片:

作者头像:

弹幕地址:

视频描述:

热门回复：

艾瑞克的黑叔叔:好熟悉，毕业论文我用的这个模型[笑哭]
丶谈何容易:Up，有关于cls_token_embedding我有一个疑问，即：cls_token_embedding作为batch_size中每一个序列的开始，是否应该对于每一个序列的开始都torch.cat同样的一个cls_token_embedding，然后都是对这同一个cls_token_embedding进行训练？如果不是这样的话，当对一个图片进行推理的时候，我们应该选batch_size个cls_token_embedding中的哪一个？如果是这样的话，视频中的cls_token_embedding=torch.randn(bs,1,model_dim,requires_grad=True)对于不同的序列产生不同的cls_token_embedding与patch_embedding_conv/naive进行cat就是有误了，对吗？
紫川逝:up请问一般使用vit要不要加载预训练的模型？我自己测试了下加载huggingface的预训练模型还不如直接经过6层trm块的训练效果好
板蓝根哈哈啥:up考虑讲代码放到github上吗[呲牙][呲牙][呲牙]
葱叶v587:大佬，我仔细跟着你代码的思路，但还是没搞懂cls_token_embedding的作用是什么，本身cls_token_embedding没有和任何样本矩阵有乘法联系，最后训练出来的也是一张确定的表，在做inference的时候，完全是一个常数的作用。送入transformer后，又与其他矩阵做了MHA，没搞懂用意何在啊[笑哭]