yolov7実装紹介

github：yolov7 https://github.com/WongKinYiu/yolov7
ファーストリリース：2022/07

目的

オリジナルデータセットを使い、学習できるようにする。
yolov7をJetsonのDeepStream上で動かせるようにする。
yolov5n, yolov5s, yolov7-tinyの速さを比較する。

一言説明

yolov7は2022年7月に発表された物体検出モデル
Real-Time Object Detection on COCOでSoTA達成

JetsonとDeepStreamについて

Jetson

NVIDIAが開発した小型コンピュータ。
NVIDIAのGPUが搭載されている。

DeepStream

GStreamerをベースにしたストリーム分析ツールキット
AIを使ったビデオ解析、音声分析、画像分析のためのパイプラインを構築できる
C/C++またはPythonで開発できる（Graph ComposerというUIを使った開発もできるらしい）
単純なパイプラインを作るためには便利だが、複雑なことをやろうとすると不便

使ってみよう

yolov7-tiny, yolov5s, yolov5nを比較した。

yolov5, yolov7の学習

yolov5とyolov7はほぼ同じように学習できる。
train.ipynbを参照。

学習

以下の条件でyolov5n, yolov5s, yolov7-tinyを学習した。 yolov7は最新のリポジトリ、yolov5はv6.2のリポジトリを使用して学習した。	class	train data	valid data	input size	epoch	batch size	device
1 (person)	1000枚 Open image dataset	333枚 Open image dataset	416	100	128	NVIDIA Tesla T4

学習にかかった時間

model	所要時間	パラメータ数
yolov5n	1 h 46 min	1.9 M
yolov5s	1 h 51 min	7.2 M
yolov7-tiny	2 h 59 min	6.2 M

学習ログ

mAP_0.5, mAP0.5:0.95, precision, recall

train loss

val loss

評価

以下の条件でyolov5n, yolov5s, yolov7-tinyの精度を評価した。

test data	input size	conf thres	iou thres
500枚 Open image dataset	416	0.25	0.45

評価結果

model	Precision	Recall	mAP@0.5	パラメータ数
yolov5n	0.706	0.659	0.677	1.9 M
yolov5s	0.710	0.688	0.702	7.2 M
yolov7-tiny	0.713	0.725	0.650	6.2 M

Jetson組込

サンプルアプリdeepstream-appを使ってカメラ映像 or 動画についてyolov7で推論を行えるようにする。

環境

Jetson nano 4GB
Jetpack 4.5
Deepstream SDK 5.1

組込手順

モデルのTensorRT化: モデルをDeepStreamで使える形式に変換する。デバイスに合わせてモデルを高速化する。
コンフィグファイルの設定: 前処理の設定などを行う。
パーサー作成: 後処理(NMS処理など)を行うファイルを作成する。
サンプルアプリ実行

1. モデルのTensorRT化

モデルをDeepStreamで使える形式に変換する。デバイスに合わせてモデルを高速化する。　　 yolov5と同様に、.pt -> .wts -> .engineの順で変換する。 .wtsファイルまではgoogle colabで変換し、.engineファイルへの変換はJetsonで行う。
具体的な方法は以下の記事を参照
https://qiita.com/mihara-shoko/items/f4444c2f097559f0ec37

2. コンフィグファイルの設定

前処理の設定などを行う。　　

以下のリポジトリをダウンロードし、parserフォルダをJetsonの/opt/nvidia/deepstream/deepstream-5.1/sources/下に保存する。
https://github.com/mihara-shoko/yolo_parser

必要があればconfig_infer_primary.txtを修正する。

[property]
gpu-id=0
net-scale-factor=0.0039215697906911373
model-color-format=0 
model-engine-file=yolov7_tiny.engine # TensorRT化したモデルのパス
labelfile-path=labels.txt # ラベルファイルのパス
num-detected-classes=1 # クラス数
interval=0
gie-unique-id=1
process-mode=1
network-type=0
cluster-mode=4
maintain-aspect-ratio=1
parse-bbox-func-name=NvDsInferParseCustomYoloV5
custom-lib-path=nvdsinfer_custom_impl_Yolo/libnvdsinfer_custom_impl_Yolo.so

[class-attrs-all]
pre-cluster-threshold=0.25 # conf thres

前処理に関係する項目	項目	説明
net-scale-factor	ピクセル値にかける値モデルにはyのピクセル値が入力される。 y = net scale factor*(x-offset)	0.0039215697906911373 0-255を0-1のrangeにしている
offset	ピクセル値から引く値 RGBそれぞれ別に設定できる。モデルにはyのピクセル値が入力される。 y = net scale factor*(x-offset)	0:0:0 設定しなくて良い
model-color-format	0:RGB 1:BGR 2:GRAY	0
maintain-aspect-ratio	リサイズするときにアスペクト比を維持するかどうか	1

詳しくはNVIDIAのページを参照
https://docs.nvidia.com/metropolis/deepstream/dev-guide/text/DS_plugin_gst-nvinfer.html

3. パーサー作成

後処理(NMS処理など)を行うファイルを作成する。

Jetsonの/opt/nvidia/deepstream/deepstream-5.1/sources/parserに移動する。
nvdsinfer_custom_impl_Yolo/yololayer.hのクラス数(19行目)、input size(20, 21行目)を適宜変更する。

#ifndef _YOLO_LAYER_H
#define _YOLO_LAYER_H

#include <vector>
#include <string>
#include "NvInfer.h"

namespace Yolo
{
    static constexpr int CHECK_COUNT = 3;
    static constexpr float IGNORE_THRESH = 0.1f;
    struct YoloKernel
    {
        int width;
        int height;
        float anchors[CHECK_COUNT * 2];
    };
    static constexpr int MAX_OUTPUT_BBOX_COUNT = 1000;
    static constexpr int CLASS_NUM = 1;
    static constexpr int INPUT_H = 416;  // yolov5's input height and width must be divisible by 32.
    static constexpr int INPUT_W = 416;

以下のコマンドでコンパイルする。

CUDA_VER=10.2 make -C nvdsinfer_custom_imple_Yolo

nvdsinfer_custom_impl_Yolo下生成した.soファイルがパーサーとなる。

4. サンプルアプリ実行

サンプルアプリを使ってyolov7で推論を行う。推論速度をyolov5n, yolov5s, yolov7と比較する。

Jetsonの/opt/nvidia/deepstream/deepstream-5.1/sources/parserに移動する。 deepstream_app_config.txtのuriに読み込ませたい動画のパスを設定する。

[source0]
enable=1
type=3
uri=file://../../samples/streams/sample_1080p_h264.mp4
num-sources=1
gpu-id=0
cudadec-memtype=0

以下のコマンドを実行し、アプリを実行する。

deepstream-app -c deepstream_app_config.txt

アプリ実行条件	input size	データ型	conf thres	iou thres
416	FP16	0.25	0.45

FPS

model	FPS	.ptモデルのパラメータ数
yolov5n	55	1.9 M
yolov5s	28	7.2 M
yolov7-tiny	37	6.2 M

利用した所感

yolov5を使ったことがある人なら、yolov7の学習と組み込みが同様の手順で行える。
yolov5n, yolov5s, yolov7-tinyの精度はあまり変わらなかった。
yolov5よりも推論速度が速いため、アプリ開発で使えそう。

aifield / CV_News

#12 yolov7 + jetson #12