2021-12-21 22-31-26-28、Vision Transformer(ViT)模型原理及PyTorch逐行实现

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • 艾瑞克的黑叔叔:好熟悉,毕业论文我用的这个模型[笑哭]
  • 丶谈何容易:Up,有关于cls_token_embedding我有一个疑问,即:cls_token_embedding作为batch_size中每一个序列的开始,是否应该对于每一个序列的开始都torch.cat同样的一个cls_token_embedding,然后都是对这同一个cls_token_embedding进行训练?如果不是这样的话,当对一个图片进行推理的时候,我们应该选batch_size个cls_token_embedding中的哪一个?如果是这样的话,视频中的cls_token_embedding=torch.randn(bs,1,model_dim,requires_grad=True)对于不同的序列产生不同的cls_token_embedding与patch_embedding_conv/naive进行cat就是有误了,对吗?
  • 紫川逝:up请问一般使用vit要不要加载预训练的模型?我自己测试了下加载huggingface的预训练模型还不如直接经过6层trm块的训练效果好
  • 板蓝根哈哈啥:up考虑讲代码放到github上吗[呲牙][呲牙][呲牙]
  • 葱叶v587:大佬,我仔细跟着你代码的思路,但还是没搞懂cls_token_embedding的作用是什么,本身cls_token_embedding没有和任何样本矩阵有乘法联系,最后训练出来的也是一张确定的表,在做inference的时候,完全是一个常数的作用。送入transformer后,又与其他矩阵做了MHA,没搞懂用意何在啊[笑哭]