深層畳み込みNNによる画像特徴抽出と転移学習

対象:これからFine-tuningする人向け

参考文献

http://www.nlab.ci.i.u-tokyo.ac.jp/pdf/CNN_survey.pdf

概約

画像認識分野における、畳み込みニューラルネットワーク(CNN)は様々な分野で適応が可能であり、注目を浴びているImageNetで得られる初期重みをCNNに適用することで、非常に高い精度に上げられる。CNNの特徴抽出器としての使用やfine-tuningによる転移学習の事例について紹介、議論する。

 

 

個人的なメモ

・従来の一般物体認識タスク、例を挙げるとRNNでは一枚の画像につき、数千個の領域画像を識別する必要があるため、グラフィックボード(GPU)を使用しても画像一枚にかかる認識時間は数十秒かかる。

 

・ImageNet等の大規模教師付き画像データを使用することで、該当する大量のデータを集めなくてもよいことが利点だ。

 

・CNNは下層に下るごとに、低次の視覚的特徴からデータセットに特化した意味的な特徴に構造化される。よって、入力層に近い層から再学習させても、精度向上の恩恵はあまりない。

 

・CNNの一般的な学習特徴は次のようだ

 初期値依存性が強く、訓練データが少ない場合はできるだけよい初期重みを用意することが過学習を防ぐのに大切である。

⇒これはフルスクラッチ(初期値なしで再学習なし)で学習させるよりも良い結果を得られる場合が多い。

※現在,CNNは教師なし事前学習はほとんど用いられていない。

 

・ImageNetの使用について

ImageNetを用いた事前学習利用のネットワークはターゲットとするタスクがImageNetのカバーする領域に関連するものでなければならない。

 

・Pre-trained networkから得られる特徴量の利用例

物体認識・詳細画像カテゴリ識別・ドメイン適応・画像検索