論文
- Deep Learning for Generic Object Detection: A Survey
- Paper: https://arxiv.org/abs/1809.02165
- Submission Date: 2018.9
要旨
- DeepLearningを用いた一般物体認識(Generic Object Detection)のサーベイ論文
- 一般物体認識に初めてCNNを用いたRCNNから、最近のYOLOやSSDまでの手法についてまとめてある
- 一般物体認識の手法は大きく次の2つに分類できる
- Region Based (Two Stage Framework)
- 精度は高いが処理速度は遅い
- RCNNやRFCNなど
- Unified Pipeline (One Stage Pipeline)
- 精度は低いが処理速度は速い
- YOLOやSSDなど
- Region Based (Two Stage Framework)
- 物体認識のための特徴表現やData Augmentation、データセットや評価指標についてもまとめてある
- DeepLearningの登場以降、急速に精度向上(ILSVRC2013の23%からILSVRC2017の73%)しているが、まだ人間の認識率には達していない
- アノテーションが付与されたデータセットを準備することが難しいことも1つの要因
- バックボーンに用いるCNNの性能にも大きく左右されるので、CNNの画像分類性能が向上すれば物体認識の精度向上しうる
所感
- 最近の一般物体認識分野について広く調査しており、それぞれの手法が登場した経緯や問題の難しさなども述べられており、30ページと長いが非常に勉強になる論文である