Inference of Quantized Neural Networks on Heterogeneous All-Programmable Devices

usersan / papers

読んだ論文のメモ置き場：主にエッジAI、高速化、FPGA実装関連など

0 stars 0 forks source link

Inference of Quantized Neural Networks on Heterogeneous All-Programmable Devices #21

Open usersan opened 4 years ago

usersan commented 4 years ago

0. 論文

Thomas B. Preußer, Giulio Gambardella, Nicholas Fraser, Michaela Blott

https://arxiv.org/abs/1806.08085

1. どんなもの？

ultra96で16fpsでYOLOが動く（Pascal VOC）？

https://github.com/Xilinx/QNN-MO-PYNQ/issues/34

QNN_MO_PYNQのTinier-YOLOのネットワークもこれが元？論文中ではTincy-YOLOという名前になっている。

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

usersan commented 4 years ago

Image Acquisition 40 ms Input Layer 620 ms Max Pool 140 ms Hidden Layers 9160 ms Output Layer 30 ms Box Drawing ≥15 ms Image Output ≥25 ms Total 10,030 ms

usersan commented 4 years ago

上記で0.1FPS Hidden LayersをPLに入れて30msになるので、Total 900msくらいで処理できる？これで1.1FPS

usersan commented 4 years ago

NEON拡張でベクトル化（GEMM）すると、Input Layerが、

160ms@浮動小数点
140ms@8bit量子化 using 32bit accumulator
120ms@8bit量子化 using 16bit accumulator　(overflowするので事前に4bit右シフトが必要)

これでTotal400ms。2.5FPS

usersan commented 4 years ago

ネットワーク変更(Tincy YOLO) (a) leaky ReLU -> ReLU (b) layer 3の出力ch：32 -> 64 (c) layer 13, 14の出力ch：1024 -> 512 (d)最初のlayerのストライドを 1 -> 2 にしてmax pooling削除

Input Layer + Max Pool で32msになる（Input Layerが更に小さくなる理由はストライドを大きくしたから？）これで5FPS

usersan commented 4 years ago

並列化カメラの処理も含めてパイプライン化？ pre processとpost processを高速化？

ultra96のCortex-A53はクアッドコアなので全部使って並列化するということらしい。

これで16FPS