About 6,350,000 results
Open links in new tab
  1. 一文读懂Adam优化算法 - 知乎

    May 9, 2024 · Adam算法是在2014年提出的一种基于一阶梯度的优化算法,它结合了 动量 (Momentum)和 RMSprop (Root Mean Square Propagation)的思想, 自适应地调整每个 …

  2. Adam和AdamW - 知乎

    AdamW目前是大语言模型训练的默认优化器,而大部分资料对Adam跟AdamW区别的介绍都不是很明确,在此梳理一下Adam与AdamW的计算流程,明确一下二者的区别。

  3. Adam 优化器背后的数学原理 - 知乎

    Adam,这个名字在许多获奖的 Kaggle 竞赛中广为人知。 参与者尝试使用几种优化器(如 SGD、Adagrad、Adam 或 AdamW)进行实验是常见的做法,但真正理解它们的工作原理是另一回 …

  4. PyTorch模型训练优化器Adam和AdamW - 知乎

    在 PyTorch 里, Adam 和 AdamW 的调用语法几乎一模一样,这是因为 PyTorch 的优化器接口是统一设计的,使用方式都继承自 torch.optim.Optimizer 的通用结构。

  5. 深入剖析 Adam 优化器:原理、优势与应用 - 知乎

    Adam优化器凭借其独特的设计和出色的性能,已成为深度学习领域不可或缺的工具。 深入理解其原理和性质,能帮助我们更好地运用它提升模型训练效果,推动深度学习技术不断发展。

  6. 简单认识Adam优化器 - 知乎

    2014年12月, Kingma和Lei Ba两位学者提出了Adam优化器,结合AdaGrad和RMSProp两种优化算法的优点。 对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估 …

  7. PyTorch中的torch.optim.Adam优化器 - 知乎

    它可以用来描述参数的梯度大小,也就是更新速度,如果梯度过大(也就是更新将会很快),则会在参数更新公式上延缓其更新速度。 总而来说就是,Adam优化器可以为每个参数自适应地调 …

  8. 【Adam】优化算法浅析 - 知乎

    adam算法是一种基于“momentum”思想的随机梯度下降优化方法,通过迭代更新之前每次计算梯度的一阶moment和二阶moment,并计算滑动平均值,后用来更新当前的参数。

  9. Adam-一种随机优化算法 - 知乎

    Adam算法的结构如下,其算法主要是在REMSprop的基础上增加了momentum,并进行了偏差修正。 如下图算法中的 m_t 可理解为momentum, v_t 可理解为梯度变化的方差,他们分别是 …

  10. 一文看懂各种神经网络优化算法:从梯度下降到Adam方法 - 知乎

    应该用 梯度下降, 随机梯度下降,还是 Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的优化方法。