hiyouga / hiyouga-blog-project

填坑ing...
http://blog.hiyouga.top
MIT License
7 stars 3 forks source link

Reinforcement Learning in Natural Language Processing - Report Review #38

Open hiyouga opened 6 years ago

hiyouga commented 6 years ago

一、自然语言处理中的强化学习(Reinforcement Learning in Natural Language Processing) 报告人:黄民烈教授,清华大学计算机系副教授

研究方向:

近期工作:

强化学习(Reinforcement Learning): 与传统机器学习不一样的学习范式,智能体通过与环境交互达到学习目标。 20180423000004 在每步 t:

Paper:intro_RL.pdf Origin

深度强化学习(Deep Reinforcement Learning): qq 20180423000730 利用深度学习的方法去表示状态、动作或策略函数。 刻画状态:利用深度学习将图片表示为特征向量 描述动作:连续的向量(来自神经网络的输出) 策略函数:利用神经网络的函数拟合和近似功能

数学角度:马尔科夫决策过程(Markov Decision Process) qq 20180424104212 在每一步过程中,智能体都有一个 observation \(o_t\),在观测下执行一个动作 \(a_t\),在某一个状态 \(s_t\) 下执行动作后会转移到另外一个状态 \(s_2\),其中有状态转移概率 \(p(s_{t+1}|s_t,a_t)\)。智能体所处环境有两种配置,一种是完全可观测的,智能体可以观测到环境的全部信息,例如 AlphaGo 对于棋盘信息,此时使用策略函数 \(\pi_\theta(a_t,s_t)\),在部分可观测时策略函数为 \(\pi_\theta(a_t,o_t)\)。 优化过程: 智能体与环境交互的过程中会产生一个轨迹,可以由 s 和 a 组成的序列来刻画,即 \(\tau\) 进行如下概率变换: $$p_\theta(\mathrm{s}_1,\mathrm{a}_1,\cdots,\mathrm{s}_T,\mathrm{a}_T)=p(\mathrm{s}_1)\prod_{t=1}^T\pi_\theta(\mathrm{a}_t|\mathrm{s}_t)p(\mathrm{s}_{t+1}|\mathrm{s}_t,\mathrm{a}_t)\\ \pi_\theta(\tau)=p(\mathrm{s}_1)\prod_{t=1}^T\{Markov\ chain\}\\ p_\theta(\mathrm{s}_t,\mathrm{a}_t): \text{在状态s下执行动作a的临界条件}\\ p_\theta(\mathrm{s},\mathrm{a}): \text{马尔科夫链的平稳分布}\\ \text{无限范围时:}\\ \theta^*=\arg\max_\theta E_{(\mathrm{s},\mathrm{a})\sim p_\theta(\mathrm{s},\mathrm{a})}[r(\mathrm{s},\mathrm{a})]\\ \text{有限范围时:}\\ \theta^*=\arg\max_\theta \sum_{t=1}^T E_{(\mathrm{s}_t,\mathrm{a}_t)\sim p_\theta(\mathrm{s}_t,\mathrm{a}_t)}[r(\mathrm{s}_t,\mathrm{a}_t)]$$ qq 20180424111447 优化目标为找到最大化收益期望的参数集合,在有限情况下求和,无限情况下可以使用积分的形式。从一个随机的策略出发,与环境交互得到数据,拟合 Q-learning 等模型,进一步优化策略,不断迭代。 策略梯度: $$\begin{align} J(\theta) &= E_{\tau\sim\pi_\theta(\tau)}[r(\tau)]\\ &= \int\pi_\theta(\tau)r(\tau)d\tau\ \end{align}$$ $$\begin{align} \nabla_\theta\pi_\theta(\tau)&=\pi_\theta(\tau)\frac{\nabla_\theta\pi_\theta(\tau)}{\pi_\theta(\tau)}\\&=\pi_\theta(\tau)\nabla_\theta\log\pi_\theta(\tau) \end{align}$$ $$\begin{align} \nabla_\theta J(\theta) &= \int\nabla_\theta\pi_\theta(\tau)r(\tau)d\tau\\ &= \int\pi_\theta(\tau)\nabla_\theta\log\pi_\theta(\tau)r(\tau)d\tau\\ &= E_{\tau\sim\pi_\theta(\tau)}[\nabla_\theta\log\pi_\theta(\tau)r(\tau)] \end{align}$$ $$\nabla_\theta J(\theta)=E_{\tau\sim\pi_\theta(\tau)}\left[\left(\sum_{t=1}^T\nabla_\theta\log\pi_\theta(\mathrm{a}_t|\mathrm{s}_t)\right)\left(\sum_{t=1}^Tr(\mathrm{s}_t,\mathrm{a}_t)\right)\right]$$

待补充

fun-code-ai commented 1 year ago

你好大佬,请问下有这篇报告的完整版吗?最近在了解相关方面内容,希望可以了解相关资料,谢谢!