多项选择题
在强化学习中,主体和环境之间交互的要素有()。
A.状态 B.动作 C.回报 D.强化
多项选择题 用于监督分类的算法有()。
单项选择题 强化学习的回报值一个重要特点是具有()。
单项选择题 马尔可夫性质强调在每一个动作状态序列中,下一个状态与()有关。