欢迎登陆餐饮加盟连锁网!
汇丰-汇丰娱乐餐饮加盟中心

Adam优化器杂谈

文章来自:微信公众号【机器学习炼丹术】

最常用的Adam优化器,有着收敛速度快、调参容易等优点,但是也存在经常被人吐槽的泛化性问题和收敛问题。

因此,在很多大佬的代码中,依然会使用传统的SGD+momentum的优化器。

关于两个优化器的比较,仁者见仁智者见智,可以看一下这篇文章,有简单的关于这两个优化器的代码实现和效果比较: Pytorch的SGD,SGDM,Adam,RAdam的代码实现

这篇文章就随便的谈一谈下面的问题,来让大家扩展一下知识:

  • Adam被攻击的泛化问题和收敛问题;

对机器学习有了解的朋友,应该对Adam优化器不陌生了。大体来说就是Momentum + Adagrad + RMSProp的结合。

【如果需要的话,之后可以简单易懂的通俗讲讲各种类型的优化器的算法】

从Adam和SGDM中就可以得知,Momentum是一个很好的设计。

在讨论模型泛化问题的时候,我们会希望模型找到的极小值(收敛位置),是一个比较平缓、不陡峭的位置!,原因看下图: ![](helloworld2020.net/wp-c

左边的那个收敛点是一个比较平缓的点,而右边的是一个非常陡峭非常sharp的收敛点。而训练集和测试集虽然要求同分布,但是其实还是会有微小的差别。

对于陡峭的收敛点,训练集的损失可能会很小,但是测试集的损失很可能就很大。而平坦的收敛点就不会这样。这就是泛化问题,有的时候也被看成过拟合现象。

但是我们是也无法直接证明Adam总是找到sharp的极小值。不过很多很论或多或少都只指出了Adam在测试的时候error会较大。

这里有一张图,可以看到,虽然Adam在训练集中收敛速度最快,但是测试集的效果并不是非常的好。

Adam在某些情况下会出现无法收敛的情况,最著名的关于这个问题的Adam的吐槽就是这个论文: 2018 ICLR的best paper:On the Convergence of Adam and Beyond

但是这个问题其实并不是我们这种人经常会遇到的,反而泛化问题是一个真正的困扰。

大佬们经常用的一个learning rate scheduling方案就是warn-up+decay。

【warn-up】

是指不要一开始用高的learning-rate,应该要从低的慢慢增大到base-learning rate。学习率从小到大。

【decay】

随着optimization的步数的增长,逐渐降低learning rate。

Decay的部分其实很常见,所有的人都会用,但是warn-up其实就有点诡异了,在ResNet的论文中其实可以看到这个。

Radam 是在warm up的时候提出了一些有效的策略。

我要加盟(留言后专人第一时间快速对接)

已有 1826 企业通过我们找到了合作项目

姓 名:

联系电话:

留言备注:

餐饮项目推荐

鲁二哥卤肉饭加盟
鲁二哥卤肉饭加盟
投资额:1-3万
热度:
我要加盟
优粮生活快餐加盟
优粮生活快餐加盟
投资额:10-20万
热度:
我要加盟
优蒂咖啡加盟
优蒂咖啡加盟
投资额:10-20万
热度:
我要加盟
托馥咖啡加盟
托馥咖啡加盟
投资额:10-20万
热度:
我要加盟
街边物语咖啡加盟
街边物语咖啡加盟
投资额:10-20万
热度:
我要加盟
加盟指南排行榜
  • 1小趣茶茶饮加盟200
    小趣茶茶饮加盟
    投资额:2-5万
    热度:
    查看详情>>
  • 2顶膳牛排加盟195
    顶膳牛排加盟
    投资额:1-3万
    热度:
    查看详情>>
  • 30夏7度奶茶店加盟194
    0夏7度奶茶店加盟
    投资额:3万
    热度:
    查看详情>>
  • 4乐速速奶茶加盟192
    乐速速奶茶加盟
    投资额:1-2万
    热度:
    查看详情>>
  • 5中卫披萨加盟192
    中卫披萨加盟
    投资额:1-3万
    热度:
    查看详情>>
  • 6小蛮螺网红螺蛳粉加盟192
    小蛮螺网红螺蛳粉加盟
    投资额:1-2万
    热度:
    查看详情>>
  • 7夏日沫沫茶加盟185
    夏日沫沫茶加盟
    投资额:1-2万
    热度:
    查看详情>>
  • 首页 |公司简介 |法律声明 |正在咨询 |公司动态 |联系我们 |网站地图

    平台注册入口