目录

模型组成

  • Policy Network(PNet)
  • Structured Representation Model
  • Classification Network(CNet)

PNet

采用随机策略并根据当前的状态采取不同的行动。 它保持采样直到句子结束,并为句子产生一个动作序列。

Structured Representation Model

结构化表示模型将行为转化为结构化表示。

CNet

基于结构化表示进行分类,并向PNet提供reward。

参考