usersan / papers

読んだ論文のメモ置き場:主にエッジAI、高速化、FPGA実装関連など
0 stars 0 forks source link

Inference of Quantized Neural Networks on Heterogeneous All-Programmable Devices #21

Open usersan opened 4 years ago

usersan commented 4 years ago

0. 論文

Thomas B. Preußer, Giulio Gambardella, Nicholas Fraser, Michaela Blott

https://arxiv.org/abs/1806.08085

1. どんなもの?

ultra96で16fpsでYOLOが動く(Pascal VOC)?

https://github.com/Xilinx/QNN-MO-PYNQ/issues/34

QNN_MO_PYNQのTinier-YOLOのネットワークもこれが元? 論文中ではTincy-YOLOという名前になっている。

2. 先行研究と比べてどこがすごい?

3. 技術や手法のキモはどこ?

4. どうやって有効だと検証した?

5. 議論はある?

6. 次に読むべき論文は?

usersan commented 4 years ago

Image Acquisition 40 ms Input Layer 620 ms Max Pool 140 ms Hidden Layers 9160 ms Output Layer 30 ms Box Drawing ≥15 ms Image Output ≥25 ms Total 10,030 ms

usersan commented 4 years ago

上記で0.1FPS Hidden LayersをPLに入れて30msになるので、Total 900msくらいで処理できる? これで1.1FPS

usersan commented 4 years ago

NEON拡張でベクトル化(GEMM)すると、Input Layerが、

これでTotal400ms。2.5FPS

usersan commented 4 years ago

ネットワーク変更(Tincy YOLO) (a) leaky ReLU -> ReLU (b) layer 3の出力ch:32 -> 64 (c) layer 13, 14の出力ch:1024 -> 512 (d)最初のlayerのストライドを 1 -> 2 にしてmax pooling削除

Input Layer + Max Pool で32msになる(Input Layerが更に小さくなる理由はストライドを大きくしたから?) これで5FPS

usersan commented 4 years ago

並列化 カメラの処理も含めてパイプライン化? pre processとpost processを高速化?

ultra96のCortex-A53はクアッドコアなので全部使って並列化するということらしい。

これで16FPS