单项选择题
Transformer中的Attention机制主要是用来做什么的?()
A.将输入序列直接映射到输出序列B.生成新的词嵌入向量C.替换Encoder和Decoder中的全连接层D.计算输入序列中每个词的重要性
单项选择题 在深度学习中,池化是指什么?()
单项选择题 在优化深度学习模型时,SGD和Adam优化器的主要区别在于什么?()
单项选择题 Dropout改进方法的原理是什么?()