AdamではAdaDelta同様、古い情報ほど取り込む勾配情報を低くしていくという特徴を持つ
「最適化」は一概にAdamに設定することが最も良いわけではないらしいので、改めて論文を読み始めました。やはり、どのようにして最小値に行きつくかは理解必須かもしれません(今更)。ネット上を探してみると既に結構記事が書かれているので、改めて書くことはしませんが、参考にしたサイトを載せておきます。
①基礎から実践まで理解したい人向け
②論文中の通り、AdamはAdaGradとRMSPropを良いとこを組み合わせた機能になっています。
③Adamについて結論から知りたい人向け
Adamの上位にあたるEveというoptimizerが考案された模様
https://arxiv.org/pdf/1611.01505v2.pdf
個人的に
・Adagradは単調減少するため、一度減少してしまった勾配は大きくならない
・Adamは他のoptimizerと比較して早く収束する
※Adamのデフォルト値は論文推奨の値