011 tensorflow Supervisor

标签: tensorflow 更新于: 2018/10/22 阅读:806

目录

目录
简介
简单方案

简介

当需要很多天训练的大模型来说，需要更鲁棒的训练过程，主要需求如下：

干净的处理shutdown以及crash
在shutdown或者crash之后可以恢复
可以通过tensorboard来监控

tf.train.Supervisor 提供了一系列服务来帮助实现一个鲁棒的训练过程。

简单方案

创建一个Supervisor对象，将要保存checkpoints以及summaries的目录路径传递给该对象。
利用tf.train.Supervisor.managed_session向supervisor请求一个session。
利用该session来执行训练的op，在每一步都核查supervisor是否要求训练结束。