目录
模型组成
- Policy Network(PNet)
- Structured Representation Model
- Classification Network(CNet)
PNet
采用随机策略并根据当前的状态采取不同的行动。 它保持采样直到句子结束,并为句子产生一个动作序列。
Structured Representation Model
结构化表示模型将行为转化为结构化表示。
CNet
基于结构化表示进行分类,并向PNet提供reward。
采用随机策略并根据当前的状态采取不同的行动。 它保持采样直到句子结束,并为句子产生一个动作序列。
结构化表示模型将行为转化为结构化表示。
基于结构化表示进行分类,并向PNet提供reward。