目录

词嵌入

  • word2vec
  • glovec
  • bert
  • ...

深度

如词性标注、语义角色标注

  • deep Bi-LSTM,它通常包含 3-4 层

层连接

  • Highway 层
  • 残差连接(residual connection)
  • 密集型残差连接

Dropout

多任务学习

注意力机制

最优化方法

Adam

集成方法

超参数优化

分类最佳实践

CNN

  • CNN 过滤器:使过滤器大小接近最优过滤器大小,如 (3,4,5) 性能最佳(Kim, 2014; Kim et al., 2016)。特征映射的最佳数量范围是 50~600(Zhang & Wallace, 2015)[59]。
  • 聚合函数(Aggregation function):1-最大池化优于平均池化和 k-最大池化(Zhang & Wallace, 2015)。

参考

  • https://www.jiqizhixin.com/articles/2017-07-26-5

https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247489078&idx=2&sn=3ea74efebeee09e480814e4070bfec45

12 papers to understand QA system with Deep Learning

http://blog.csdn.net/abcjennifer/article/details/51232645