weekly useful materials - 11/23 -

GENZITSU / UsefulMaterials

34 stars 0 forks source link

weekly useful materials - 11/23 - #78

Open GENZITSU opened 3 years ago

GENZITSU commented 3 years ago

PiCIE: Unsupervised Semantic Segmentation using Invariance and Equivariance in Clustering

教師なしでセマンティックセグメンテーションを行う手法の提案@CVPR 2021.

以下の図のように、特徴抽出器からピクセルレベルの特徴量を抽出して、それらのクラスタリングを行うことでセグメンテーションを実施する。分類器を使うよりもクラスタリングの方がノイズに強いのでそちらを選択しているとのこと。

スクリーンショット 2021-11-17 11 03 20

スクリーンショット 2021-11-17 11 07 02

スクリーンショット 2021-11-17 11 08 06

教師なし学習を可能にするために、photometric変換をかけてもラベルは不変だが、geometric変換をかけるとラベルも同様に変化するという制約をつけて学習を行う。

For photometric transformations, we randomly applied color jitter, gray scale, and Gaussian blur For geometric transformations, we applied random crop and random horizontal flip with crop factor r ∈ [0.5, 1] and flipping probability p = 0.5.

自己教師あり学習チックな手法で成功しているのは面白い。

出典

元論文

解説記事

GENZITSU commented 3 years ago

BERTとResNetのマルチモーダルモデル「MMBT」を徹底解説

商品の説明文をBERTで、商品画像をResNetで処理するマルチモーダルな分類手法の紹介。

5行まとめると・MultiModal BiTransformersの略だよ・画像とテキストを分類するための教師ありマルチモーダル・ディープラーニングモデルだよ・高精度かつファインチューニングが容易で実装が簡単なのが特徴だよ・事前学習済のBERTとResNet-152を使ってるけど、BERT単体,ResNet単体のモデルや両方を単純に結合したモデルより高い精度が出るよ・BERTとResNet-152のベクトルを結合した後にさらにBERTに入力しているのがミソだよ

以下がアーキテクチャー図。

スクリーンショット 2021-11-17 13 09 15

元記事にはgradcamとAttetionMapによる可視化についても触れられていた。

スクリーンショット 2021-11-17 13 10 22

比較表をみたところ、imageのみだと厳しいがBERT単体だと結構が精度がでて、そこからのもうワンプッシュを達成できているように見える。

スクリーンショット 2021-11-17 13 12 32

実サービスにも適用されたらしい。すごい

早速実務のECサイトの商品分類活用したところ、論文の通り従来のBERT単体やResnet単体よりも精度が高く、実サービスに採用することが決まりました。

メモ。マルチモーダルだとなんか重そうだけど、実運用まで漕ぎ着けてるのが驚き。

GENZITSU / UsefulMaterials