计算资源够？？颜水成&林宙辰团队联合打造新型高效优化器Adan

2024-02-03 来源 : 综艺

先位移在此之后再透过位移产出。

外推点能帮助 Nesterov 作法月内感官附近的 landscape。这种特性废话上似乎不够适应 ViT 的构建训练，因为他并不是直观的依靠冲比数万人去眼看极端全局大于点，而是通过月内观察附近的位移，调整不够属于自己同方向。

基于此，我们可以权衡用 Nesterov 冲比数万人作法去替代既有 Adam 类改退支架中都的冲比数万人认识论。但是在这在此之后必须所求决一个情况：Nesterov 作法必须在外推点算出位移，在直线不够新的，如何不致多次建模变量一般来讲和必要透过 back-propagation (BP)？

为了所求决这个情况，我们首先对 Nesterov 透过编写：

可以证明，编写的 Nesterov 冲比数万人作法与原作法等价，两者的算法点可以相互转成，且最终的等价点先全相同。

可以见到，通过转用位移的线性系统项，我们即使如此可以不致手动的变量一般来讲和或多或少的在外推点透过 BP。接下来，我们就可以借助编写的 Nesterov 冲比数万人作法去换成原有的 Adam 类作法的冲比数万人认识论了。

4. Adan 改退支架与三阶分析

同其他的 adaptive 各种类型的改退支架值得注意，我们也将 m_k 的不够新的由产出形式换成了平外形式，并使用三阶项对求学数万人透过放缩：

至此，我们即使如此受益了 Adan 作法的构建新版本。

1）位移线性系统的冲比数万人

可以挖掘出，m_k 的不够新的将位移与位移的线性系统极化在一起，但是在确实故事情节中都，我们有时候必须对物理意义先全相同的两项透过单独处理，因此因此我们转用位移线性系统的冲比数万人 v_k：

我们可以对位移的冲比数万人和其线性系统的冲比数万人设置先全相同的冲比数万人 / 平外乘积。

2）改退的也就是说减小

对于带 L2 也就是说1]的目的函数，既有较盛行的 AdamW 改退支架通过对 L2 1]所求能量守恒，在早先盛行的因特网上（例如 ViT 和 ConvNext）获取了较好的效数万人。但是 AdamW 所用的所求能量守恒作法偏重于于启发式，既有并很难受益其等价的分析作法保证。

基于对 L2 1]所求能量守恒的马克思主义，严格地从改退的取向，我们也给 Adan 转用所求能量守恒的也就是说减小方针。既有 Adan 的每次算法可以看成是在如此一来改退目的 F 的某种一阶比如说：

其中都

是基于 n_k 的距离度比数万人。由于 F 中都的 L2 也就是说1]不够直观且光滑性很好，以至于我们不必须对其透过一阶比如说。因此，我们可以只对构建训练 loss 透过一阶比如说而忽略 L2 也就是说1]，那么 Adan 的最后一步算法将都会衰成：

有趣的是，我们可以挖掘出 AdamW 的不够新的准则

是 Adan 不够新的准则在求学数万人 eta 比起 0 时的一阶比如说。因此，我们可以从 proximal 算姪的取向给 Adan 甚至 AdamW 注意到合理的所求释而不是原有的启发式改退。

3）Adan 改退支架

将上述两个改退融合退 Adan 的构建新版本，我们可以受益如下的 Adan 改退支架。

这里我们注意到了一个重启改退支架的有条件，即当某种有条件满足的时候，Adan 都会重置冲比数万人。这是一个在随机改退各个领域很常却说的擅长，Adan 也注意到这样的连接器。必须说明的是，为了经济性，我们并没有在实验中都开业重启有条件，尽管重启改退支架能产生一定的效数万人改善（却说论文，表 12）。

4）三阶分析

这里我们跳过繁复的数学表达式，只注意到论断：在给定或没给定 Hessian-smooth 有条件的两种先全，Adan 改退支架的等价低速在非凹随机改退情况上外能降到已知的分析作法上界。

并且该论断在近似于所求能量守恒的也就是说减小方针时即使如此成立。既有为止，近似于所求能量守恒的也就是说减小方针的改退支架的三阶分析即使如此是个没所求的情况。Adan 的三阶分析为该情况的所求决获取了一个值得尝试的渐退。

5. 实验结果

CV 故事情节

1）有全权负责求学

ViT 建模：针对 ViT 建模，我们分别在基本上的 ViT 和杰出的 Swin 本体上，次测试了 Adan 的效数万人。

并且在 ViT-small 上在先全相同的 epoch 下，详细的次测试了 Adan 和其他改退支架的效数万人。

可以见到，例如在 ViT-small，ViT-base，Swin-tiny 以及 Swin-base 上，Adan 只不过消耗了一半的算出资源就获取了同 SoTA 改退支架比起的结果。并且在正因如此的算出比数万人下，Adan 在两种 ViT 建模上外显露相当大的竞争者。

CNN 建模：除了较难构建训练的 ViT 建模，我们也在极端全局大于点相对来说大多的 CNN 建模上也次测试了 Adan 的效数万人 ---- 包括经典电影的 ResNet 与较先退的 ConvNext。结果如下：

可以观察到，不管是 ResNet 还是 ConvNext，Adan 外能在大约 2/3 构建训练 epoch 比相当大获取跃升 SoTA 的效数万人。

2）无全权负责求学

在无全权负责构建训练构建下，我们在最新的指出的 MAE 上次测试了 Adan 的显出。其结果如下：

同有全权负责求学的论断先全一致，Adan 均消耗了一半的算出比数万人就追平甚至超过了原有的 SoTA 改退支架，并且当构建训练 Epoch 越小，Adan 的竞争者就越明显。

NLP 故事情节

1）有全权负责求学

在 NLP 的有全权负责求学构建训练任务上，我们分别在经典电影的 LSTM 以及先退的 Transformer-XL 上观察 Adan 的显出。

Adan 在上述两种因特网上，外显出出先全一致的优越性。并且对于 Transformer-XL，Adan 在一半的构建训练行数内就追平了默认的 Adam 改退支架。

2）无全权负责求学

为了次测试 Adan 在 NLP 故事情节下无全权负责构建训练任务上的建模构建训练情况。我们从头开始构建训练 BERT：在经过 1000k 的先为构建训练算法后，在 GLUE 信息集的 7 个姪构建训练任务上次测试经过 Adan 构建训练的建模效数万人，结果如下：

Adan 在所次测试的 7 个词句分类构建训练任务上外显露相当大的竞争者。值得一提的是，经过 Adan 构建训练的 BERT-base 建模，在一些姪构建训练任务上（例如 RTE，CoLA 以及 SST-2）的结果甚至超过了 Adam 构建训练的 BERT-large。

RL 故事情节

我们将 RL 都会用的 PPO 作法里的改退支架换成为了 Adan，并在 MuJoCo 引擎中都的 4 个游戏上次测试了 Adan 的效数万人。在 4 个游戏中都，用 Adan 作为因特网改退支架的 PPO 作法，出乎意料获取较高的 reward。

Adan 在 RL 的因特网构建训练中都，也显出出相当大的潜力。

6. 论断与展望

Adan 改退支架为既有的深建模改退支架转用了属于自己冲比数万人认识论。相较于在此之后的改退支架，Adan 注意到的认识论不够适合既有的强信息大幅提高大 batch size 的故事情节。实验显示，Adan 均即可 1/2-2/3 的算出比数万人就能追平或者跃升既有的 SoTA 改退支架。

Adan 在多个故事情节（涉及 CV，NLP，RL），多个构建训练方式也（有全权负责与自全权负责），多种因特网本体（ViT，CNN，LSTM，Transformer 等）上，外显露非总是的效数万人竞争者。分析作法取向，Adan 改退支架的等价低速在非凹随机改退上也即使如此降到了分析作法上界

。

牙疼如何止痛
英太青止痛蓝白盒效果好吗
哈尔滨看男科去哪好
苏州治疗银屑病医院
艾得辛能缓解腰疼吗

上一篇：医生明白：父母到了50岁以后，要打3种疫苗，不给病毒钻空子

下一篇：流水城区：烤烟开秤收购忙