什么是梯度消失和梯度爆炸,使用sigmoid时,那个更容易发生,为什么?如何解决?