1. 梯度下降有三种变种,主要区别在于计算目标函数梯度下降的数据量。

  2. 每次计算的数据量,会影响到训练时间和模型准确率。