目录

简介

本文简单介绍强化学习在自然语言处理中的应用。

首先,现在最主要的一个解决方式是,强化学习对一个离散空间上的决策是有天然的优势。

一、强化学习在策略决策或文本生成上具有天然优势,因为我们在拟合 Q-wise learning 的时候,我们发现(除强化学习之外的)其他方式都不能很好的达到我们理想的效果。

二、在任务型对话系统中,给定一个对话之后,会有一个决策过程,也就是指,这个系统下一步是要问问题还是要回答问题,这都是策略。我们可以把它们变成一个策略,再进行一个策略决策,再进行一个强化学习,去拟合它和训练它。

三、在很多隐状态的时候,我们有可能应用到强化学习,这时,我们可以利用自己设立的权利机制来对隐状态进行一个训练或者拟合。

参考