Разработано Вячеславом Серебренниковым, Антоном Васильевым, Александром Ивановым, Михаилом Юриным, Савелием Осиповым и Кременецким Михаилом для SBER AI.
В данной работе были обучены модели машинного обучения ViT и ResNET18 для классификации стороны тигра на изображении (лево, право, перед, другое).
Для обучения использовался датасет ATRW (https://cvwc2019.github.io/challenge.html), состоящий из более 5000 изображений тигров преимущественно в вольной среде. Классы сторон тигра размечались упомянутой выше командой разработчиков.
Значение F1 меры работы модели ViT составляет 0.90, модели ResNET18 - 0.89.
Для повышения точности работы модели в условиях плохой видимости камеры, скрытых частей тела тигра, черно-белых ночных кадров, была проведена аугментация Random Crop, GrayScale, GaussianBlur. Значения F1 меры работы моделей снизились на 0,02.
cd src
python inference.py \
--image="путь_к_файлу"
cd src
python train.py