Clustering alrogithms

less than 1 minute read

Published:

gradient descent, stochastic gradient descent, batch gradient descent

Improvements for gradient descent

Momentum (惯性保持) —— \(v_t = \gamma v_{t-1}+ \eta g_t\) \(\theta_{t+1} = \theta_{t}-v_t\)

  • 学习速率$\eta$乘当前梯度$g_t$.
  • 带衰减的前一次的步伐$v_{t-1}$.

AdaGrad (环境感知)

采用“历史梯度平方和”来衡量不同参数的梯度和稀疏性(取值越小越稀疏)

Adam (惯性保持+环境感知)

  • 梯度的一阶矩 (first moment):过往梯度与当前梯度的平均 -> 惯性保持
  • 梯度的二阶矩 (second moment):过往梯度平方与当前梯度平方的平均 -> 环境感知,为不同参数产生自适应的学习速率