なぜ変数の微分に小さな値を掛けたものを変数から引くと損失が減るのか


y = f(x)

とすると、


\frac{dy}{dx}

はxを極少量増加させたときのyの増加量を表す(増加量が負になることもありえることに注意)。なので、yが損失だった場合にyを最小化するためにはxから\frac {\frac{dy}{dx}} {\vert \frac{dy}{dx} \vert} lrを引けばyを減少させることができる。 ここで\vert \frac{dy}{dx} \vertは変数xのyへの影響度の大きさと考えることができる。影響度が小さいものよりも、影響度が大きいものを大きく動かしたほうが速くyが小さくなると素朴に考えることができる。 なので\vert \frac{dy}{dx} \vert \frac {\frac{dy}{dx}} {\vert \frac{dy}{dx} \vert} lrだけ引けばうまくyを減少させることが期待できる。