大规模机器学习的训练可以考虑使用MPI集群。


框架可以考虑使用torque或者slurm。