目录
词嵌入
- word2vec
- glovec
- bert
- ...
深度
如词性标注、语义角色标注
- deep Bi-LSTM,它通常包含 3-4 层
层连接
- Highway 层
- 残差连接(residual connection)
- 密集型残差连接
Dropout
多任务学习
注意力机制
最优化方法
Adam
集成方法
超参数优化
分类最佳实践
CNN
- CNN 过滤器:使过滤器大小接近最优过滤器大小,如 (3,4,5) 性能最佳(Kim, 2014; Kim et al., 2016)。特征映射的最佳数量范围是 50~600(Zhang & Wallace, 2015)[59]。
- 聚合函数(Aggregation function):1-最大池化优于平均池化和 k-最大池化(Zhang & Wallace, 2015)。
参考
- https://www.jiqizhixin.com/articles/2017-07-26-5
https://mp.weixin.qq.com/s?__biz=MzI0ODcxODk5OA==&mid=2247489078&idx=2&sn=3ea74efebeee09e480814e4070bfec45
12 papers to understand QA system with Deep Learning
http://blog.csdn.net/abcjennifer/article/details/51232645