論文
- High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection*1
- Paper: https://arxiv.org/abs/1904.02948
- Code: https://github.com/liuwei16/CSP
- Submission Date: 2019.4
要旨
- CenterとScaleのみを予測することで、Pedestrian Detection(歩行者検知)を行う手法(Center and Scale Prediction, CSP)を提案した
- Anchor Box Basedの手法に比べ、背景やオクルージョンの影響を受けにくい
- 2つのデータセット(Caltech, CityPersion)において実験し、既存手法を上回る精度を達成した
- 歩行者検知の手法であり、一般物体認識にはそのままでは使えない
提案手法
- 提案手法は、Feature ExtractionとDetection Headの2つのコンポーネントで構成される
- Feature Extractionは、ResNetなどを用いて解像度の異なるfeature mapsを抽出し、最後に結合させる
- ResNet-50を用いた場合、最終的に出力するfeature mapは入力サイズの1/4(r=4)が最適であった
- rの値が小さい(map sizeが大きい)と計算量が増え、大きいと精度が悪くなる
- Detection Headでは、2つのブランチでオブジェクトのCenterとScaleを予測する
- 個々のオブジェクトの位置を特定するのに適しているため、Center Pointを用いる
- 他の点(オブジェクトの上や下の頂点)でも実験したが、Centerが最も精度が良かった
- Scaleは、オブジェクトのHeightを用いる
- Height, Width, Height+ Widthの3つで比較したが、Heightのみが最も精度が良かった
- Heightはノイズが少ないと考えられる
結果
- 既存手法より高い精度を達成
関連研究
- Learning Efficient Single-stage Pedestrian Detectors by Asymptotic Localization Fitting, ECCV2018
- Anchor Boxを用いてPedestrian Detectionを行う既存手法
所感
- CenterとHeightのみで、既存手法を上回る精度が達成できるとは驚きだった
- 歩行者検知のようにアスペクト比が固定され問題においては適していると思われる
*1:arXiv v2で Center and Scale Prediction: A Box-free Approach for Object Detection というタイトルになっている