目录
简介
当需要很多天训练的大模型来说,需要更鲁棒的训练过程,主要需求如下:
- 干净的处理shutdown以及crash
- 在shutdown或者crash之后可以恢复
- 可以通过tensorboard来监控
tf.train.Supervisor 提供了一系列服务来帮助实现一个鲁棒的训练过程。
简单方案
- 创建一个Supervisor对象,将要保存checkpoints以及summaries的目录路径传递给该对象。
- 利用tf.train.Supervisor.managed_session向supervisor请求一个session。
- 利用该session来执行训练的op,在每一步都核查supervisor是否要求训练结束。