Open usersan opened 4 years ago
Image Acquisition 40 ms Input Layer 620 ms Max Pool 140 ms Hidden Layers 9160 ms Output Layer 30 ms Box Drawing ≥15 ms Image Output ≥25 ms Total 10,030 ms
上記で0.1FPS Hidden LayersをPLに入れて30msになるので、Total 900msくらいで処理できる? これで1.1FPS
NEON拡張でベクトル化(GEMM)すると、Input Layerが、
これでTotal400ms。2.5FPS
ネットワーク変更(Tincy YOLO) (a) leaky ReLU -> ReLU (b) layer 3の出力ch:32 -> 64 (c) layer 13, 14の出力ch:1024 -> 512 (d)最初のlayerのストライドを 1 -> 2 にしてmax pooling削除
Input Layer + Max Pool で32msになる(Input Layerが更に小さくなる理由はストライドを大きくしたから?) これで5FPS
並列化 カメラの処理も含めてパイプライン化? pre processとpost processを高速化?
ultra96のCortex-A53はクアッドコアなので全部使って並列化するということらしい。
これで16FPS
0. 論文
Thomas B. Preußer, Giulio Gambardella, Nicholas Fraser, Michaela Blott
https://arxiv.org/abs/1806.08085
1. どんなもの?
ultra96で16fpsでYOLOが動く(Pascal VOC)?
https://github.com/Xilinx/QNN-MO-PYNQ/issues/34
QNN_MO_PYNQのTinier-YOLOのネットワークもこれが元? 論文中ではTincy-YOLOという名前になっている。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
5. 議論はある?
6. 次に読むべき論文は?