Dropout層 一般的な正則化手法の特徴メモ
自分のメモ用に
機能:ランダムにニューロンを選び、不活性化する
➡ ランダムに選ばれるので、毎回異なる学習結果を得られる(=複数のNNで学習しているのと同じ)
➡ アンサンブル学習では複数の結果を合わせることで、極端な値に引っ張られることなく、精度を高めることができる。これと同様に、Dropoutの出力でも複数の学習結果の平均値をとって、認識結果とする
特徴:
・過学習を抑える
なぜ過学習を抑えられるか?
・ 確率的にニューロンを使わないことで、パラメータを削減することができるため(=テストデータに過剰な学習を防ぐことが可能)
→ パラメータが減ると、軽量化できて、より多くのパターンを学べるので訓練データに対してのみ特化するのが遅れる!!