单项选择题
SGD和Adam的优化方法有什么区别?()
A.SGD只考虑一阶梯度,而Adam结合了一阶动量和二阶动量B.Adam只考虑一阶梯度,而SGD基于动量梯度方法C.SGD和Adam都只使用一阶梯度D.SGD和Adam都考虑二阶梯度
单项选择题 在深度学习中,哪种激活函数通常不存在梯度消失问题,并且计算效率较高?()
单项选择题 为什么在使用sigmoid作为激活函数时,常用交叉熵损失函数而不用均方差误差损失函数?()
单项选择题 在什么条件下,最小二乘法与极大似然估计是等价的?()