Optimizer : Adam memo  

 AdamではAdaDelta同様、古い情報ほど取り込む勾配情報を低くしていくという特徴を持つ

「最適化」は一概にAdamに設定することが最も良いわけではないらしいので、改めて論文を読み始めました。やはり、どのようにして最小値に行きつくかは理解必須かもしれません(今更)。ネット上を探してみると既に結構記事が書かれているので、改めて書くことはしませんが、参考にしたサイトを載せておきます。

 

①基礎から実践まで理解したい人向け

qiita.com

 

②論文中の通り、AdamはAdaGradとRMSPropを良いとこを組み合わせた機能になっています。

s0sem0y.hatenablog.com

 

③Adamについて結論から知りたい人向け

ja.scribd.com

 

 

Adamの上位にあたるEveというoptimizerが考案された模様

https://arxiv.org/pdf/1611.01505v2.pdf

個人的に

 

・Adagradは単調減少するため、一度減少してしまった勾配は大きくならない

・Adamは他のoptimizerと比較して早く収束する

※Adamのデフォルト値は論文推奨の値