Reinforcement Learning in Natural Language Processing - Report Review

一、自然语言处理中的强化学习（Reinforcement Learning in Natural Language Processing）报告人：黄民烈教授，清华大学计算机系副教授

研究方向：

深度学习
深度强化学习
广义问答：问答系统，阅读理解，故事理解
对话系统：任务导向，开放领域
语言生成
情感理解

近期工作：

对 RL 的基本介绍
基于 RL 的结构化表示学习（AAAI 2018）
- 策略梯度（Policygradient）
知识图谱中含噪声数据的关系分类（AAAI 2018）
- 入选 PaperWeekly 2017 年度最值得读的 10 篇 NLP 论文
- 策略梯度
在客服对话中话题分割和标注的弱监督方法（IJCAI 2018）
- 策略梯度
协作学习：联合搜索排名优化（WWW 2018）
- 多智能体强化学习；确定性策略；Actor Critic算法

强化学习（Reinforcement Learning）：与传统机器学习不一样的学习范式，智能体通过与环境交互达到学习目标。 20180423000004 在每步 t：

智能体从环境中接收到一个状态（state）$S_t$
智能体基于接受到的状态执行动作（action）$A_t$
智能体从环境中接收到标量的回报（reward）$R_t$
环境转移到新的状态$S_{t+1}$

深度强化学习（Deep Reinforcement Learning）： qq 20180423000730 利用深度学习的方法去表示状态、动作或策略函数。刻画状态：利用深度学习将图片表示为特征向量描述动作：连续的向量（来自神经网络的输出）策略函数：利用神经网络的函数拟合和近似功能

数学角度：马尔科夫决策过程（Markov Decision Process） qq 20180424104212 在每一步过程中，智能体都有一个 observation $o_t$，在观测下执行一个动作 $a_t$，在某一个状态 $s_t$ 下执行动作后会转移到另外一个状态 $s_2$，其中有状态转移概率 $p(s_{t+1}|s_t,a_t)$。智能体所处环境有两种配置，一种是完全可观测的，智能体可以观测到环境的全部信息，例如 AlphaGo 对于棋盘信息，此时使用策略函数 $\pi_\theta(a_t,s_t)$，在部分可观测时策略函数为 $\pi_\theta(a_t,o_t)$。优化过程：智能体与环境交互的过程中会产生一个轨迹，可以由 s 和 a 组成的序列来刻画，即 $\tau$ 进行如下概率变换： $$p_\theta(\mathrm{s}_1,\mathrm{a}_1,\cdots,\mathrm{s}_T,\mathrm{a}_T)=p(\mathrm{s}_1)\prod_{t=1}^T\pi_\theta(\mathrm{a}_t|\mathrm{s}_t)p(\mathrm{s}_{t+1}|\mathrm{s}_t,\mathrm{a}_t)\\ \pi_\theta(\tau)=p(\mathrm{s}_1)\prod_{t=1}^T\{Markov\ chain\}\\ p_\theta(\mathrm{s}_t,\mathrm{a}_t): \text{在状态s下执行动作a的临界条件}\\ p_\theta(\mathrm{s},\mathrm{a}): \text{马尔科夫链的平稳分布}\\ \text{无限范围时：}\\ \theta^*=\arg\max_\theta E_{(\mathrm{s},\mathrm{a})\sim p_\theta(\mathrm{s},\mathrm{a})}[r(\mathrm{s},\mathrm{a})]\\ \text{有限范围时：}\\ \theta^*=\arg\max_\theta \sum_{t=1}^T E_{(\mathrm{s}_t,\mathrm{a}_t)\sim p_\theta(\mathrm{s}_t,\mathrm{a}_t)}[r(\mathrm{s}_t,\mathrm{a}_t)]$$ qq 20180424111447 优化目标为找到最大化收益期望的参数集合，在有限情况下求和，无限情况下可以使用积分的形式。从一个随机的策略出发，与环境交互得到数据，拟合 Q-learning 等模型，进一步优化策略，不断迭代。策略梯度： $$\begin{align} J(\theta) &= E_{\tau\sim\pi_\theta(\tau)}[r(\tau)]\\ &= \int\pi_\theta(\tau)r(\tau)d\tau\ \end{align}$$ $$\begin{align} \nabla_\theta\pi_\theta(\tau)&=\pi_\theta(\tau)\frac{\nabla_\theta\pi_\theta(\tau)}{\pi_\theta(\tau)}\\&=\pi_\theta(\tau)\nabla_\theta\log\pi_\theta(\tau) \end{align}$$ $$\begin{align} \nabla_\theta J(\theta) &= \int\nabla_\theta\pi_\theta(\tau)r(\tau)d\tau\\ &= \int\pi_\theta(\tau)\nabla_\theta\log\pi_\theta(\tau)r(\tau)d\tau\\ &= E_{\tau\sim\pi_\theta(\tau)}[\nabla_\theta\log\pi_\theta(\tau)r(\tau)] \end{align}$$ $$\nabla_\theta J(\theta)=E_{\tau\sim\pi_\theta(\tau)}\left[\left(\sum_{t=1}^T\nabla_\theta\log\pi_\theta(\mathrm{a}_t|\mathrm{s}_t)\right)\left(\sum_{t=1}^Tr(\mathrm{s}_t,\mathrm{a}_t)\right)\right]$$

待补充

hiyouga / hiyouga-blog-project

Reinforcement Learning in Natural Language Processing - Report Review #38