多项选择题
用于监督分类的算法有()。
A.支持向量机 B.决策树 C.神经网络 D.线性回归
单项选择题 强化学习的回报值一个重要特点是具有()。
单项选择题 马尔可夫性质强调在每一个动作状态序列中,下一个状态与()有关。
单项选择题 强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。