Dropout層 一般的な正則化手法の特徴メモ

自分のメモ用に

機能:ランダムにニューロンを選び、不活性化する

 
 ➡ ランダムに選ばれるので、毎回異なる学習結果を得られる(=複数のNNで学習しているのと同じ)
  
 ➡ アンサンブル学習では複数の結果を合わせることで、極端な値に引っ張られることなく、精度を高めることができる。これと同様に、Dropoutの出力でも複数の学習結果の平均値をとって、認識結果とする


特徴:
過学習を抑える

なぜ過学習を抑えられるか?
・ 確率的にニューロンを使わないことで、パラメータを削減することができるため(=テストデータに過剰な学習を防ぐことが可能)
→ パラメータが減ると、軽量化できて、より多くのパターンを学べるので訓練データに対してのみ特化するのが遅れる!!


+α 過学習を抑える方法
① 訓練データを増やす
② ネットワークの負荷を減らす
③ 重みの正則化  etc…