Lecture 1: Introduction and Word Vectors-2019斯坦福公开课CS224N(可选字幕版)

AID:
CID:
视频图片:
作者头像:
弹幕地址:
视频描述:

热门回复:

  • brandon2017:训练两组词向量是为了计算梯度的时候求导更方便。如果只用一组词向量 ,那么Softmax计算的概率公式里分母会出现一项平方项 ,那么再对 求导就会比较麻烦。相反如果用两套词向量,求导结果就会很干净。但其实,因为在窗口移动的时候,先前窗口的中心词会变成当前窗口的上下文词,先前窗口的某一个上下文词会变成当前窗口的中心词。所以这两组词向量用来训练的词对其实很相近,训练结果也会很相近。一般做法是取两组向量的平均值作为最后的词向量。
  • 小米CEO-雷军:花了四天细细看完了 今年的课程质量明显上升啊[点赞] 油管只有英文字幕 有时啃不下来 多谢分享[点赞]
  • myfqwer:Transformer是变形金刚,233
  • 你的元哥:我觉得小姐姐比教授讲的好 不知道为啥
  • 隔壁李全蛋:还是中英字幕一起对着看舒服[大笑]