老师,我想问下这个表中的概率值是怎么计算的呀,为什么他的概率之和不为1呀
老师,在tf.nn.dunamic_nn中最后一时刻的输出为什么是相同的呀,向上传要经过v矩阵,向右要经过W矩阵,不会一样呀
老师,我想问下CNN为什么说只能传入一个时刻的输入,我增大他的batch不就可以输入多个时刻了吗/
老师,我想问下在NPLM中首先会把词变为一个长度为m的词向量,而词向量的参数又是随机给定的,既然是这样的话那为什么不直接随机一个长度为m的向量就可以,这么做岂不是多此一举吗?
老师,这里不是调整W8参数吗?那求偏导不应该是L对W8求偏导吗?
Decoder中Masked Attention经过Add&Normalization后的Q矩阵,和传过来Encoder的K、V矩阵应该怎么理解?
我的理解:
1)Q矩阵是当前词可能的匹配可能;
2)K表示该词和每个词的匹配程度;
3)V表示每个词的隐含信息;
4)K和V是在Encoder中直接获取,就不需要Decoder来计算了,所以从Encoder直接拿过来就可以。Q矩阵的话因为Decoder这边是单向的,只能从前面的算当前的,所以用Decoder自己的。(Encoder那边的Q矩阵是双向的,一个目标词的前后的词信息都在Encoder的Q矩阵中。)
这样理解合适么?
这句话来自同一个序列怎么理解呢?
输入数据转成词向量的Embedding结果矩阵Ι模型持有一份,然后单头的self-attention中一组Wq、Wk、Wv对矩阵I进行计算,就是对同一份Encoder进行处理,和Encoder那边没有任何关系。可以这么理解么?
请问一下,对一个文档里面的词进行one-hot encode的话构成的应该是个二维的数组吧?那对多个文档进行独热编码是不是三维的数组?望告知,多谢!
蓝色部分不是输入么?输入也能被训练的么?
这里的分子应该是2,而不是827吧?因为want先出,I在后面,所以个数是两个才对。求告知,多谢!
求p(i|want)的概率的时候 应该是 先有want 再有i 对应表里的2,而不是等于p(want|i)先有i再有want 对应表里的827
老师,请教一下,encoder和decoder的nx数量是怎样确定的?
老师请教一下,红框这个箭头代表0t-1的输出,还是代表st-1时刻的输出啊?
老师请教一下,蓝色框中的向量到底是什么?能举例说明吗?为什么还可以调整
既然bert只使用了transformer的encoder,gpt使用了decoder,理论上应该transformer比bert和gpt的效果都要好的。为什么bert和gpt需要把他们拆开来用呢
非常抱歉给您带来不好的体验!为了更深入的了解您的学习情况以及遇到的问题,您可以直接拨打投诉热线:
我们将在第一时间处理好您的问题!
关于
课程分类
百战程序员微信公众号
百战程序员微信小程序
©2014-2023 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园网站维护:百战汇智(北京)科技有限公司 京公网安备 11011402011233号 京ICP备18060230号-3 营业执照 经营许可证:京B2020212637