Open tinsir888 opened 3 months ago
https://tinsir888.github.io/posts/a15fe612.html
授课老师:张伟楠 STJU 强化学习简介 Review:两种机器学习类型 预测型 根据数据预测所需输出(有监督) 根据 P(x)P(x)P(x) 预测 P(y∣x)P(y|x)P(y∣x) 生成数据实例(无监督):P(x,y)P(x,y)P(x,y) 决策型 在动态环境中采取行动(强化学习),此处行动会引起环境中的改变 转变到新的状态 获得即时奖励 随着时间的推移最大化累计奖
https://tinsir888.github.io/posts/a15fe612.html
授课老师:张伟楠 STJU 强化学习简介 Review:两种机器学习类型 预测型 根据数据预测所需输出(有监督) 根据 P(x)P(x)P(x) 预测 P(y∣x)P(y|x)P(y∣x) 生成数据实例(无监督):P(x,y)P(x,y)P(x,y) 决策型 在动态环境中采取行动(强化学习),此处行动会引起环境中的改变 转变到新的状态 获得即时奖励 随着时间的推移最大化累计奖