目录

简介

当需要很多天训练的大模型来说,需要更鲁棒的训练过程,主要需求如下:

  • 干净的处理shutdown以及crash
  • 在shutdown或者crash之后可以恢复
  • 可以通过tensorboard来监控

tf.train.Supervisor 提供了一系列服务来帮助实现一个鲁棒的训练过程。

简单方案

  • 创建一个Supervisor对象,将要保存checkpoints以及summaries的目录路径传递给该对象。
  • 利用tf.train.Supervisor.managed_session向supervisor请求一个session。
  • 利用该session来执行训练的op,在每一步都核查supervisor是否要求训练结束。