SIGIR eCom 2020 multi-modal product classification and retrieval challenge
商品の説明と画像が含まれているが,商品照合のためのグランドトゥルースが含まれていない.
(to the best of our knowledge) 製品の画像と説明文,およびマッチング製品に関する情報の両方を含むERデータセットは,現在のところ存在しない.
提案手法
データセットの拡張
The underlying common crawl1 snapshot dates back to November 2017 and does not contain additional data apart from the HTML documents, hence it is not initially clear to which amount the URLs are still valid and whether the images are still available.
INFO
author
Moritz Wilke, Erhard Rahm
affiliation
Leipzig University
conference or year
2021
link
paper [実装]()
概要
Entity Resolution (ER) (ないしRecord Linkage)は, 様々なweb shopの商品情報をマッチさせるのに用いられている. しかし, 特定のドメイン(テキストや数字)の属性のみでは, 信頼性の高い照合判定を行うことが難しい. この問題を解決するために, 属性ベースのマッチングシステムを拡張し, ほとんどすべてのweb shopで利用可能な画像データを組み込む. システムを評価するために, WDCの製品マッチングデータセットにウェブから収集した画像を追加. 実験の結果から, 画像を使用することでrecallと全体的な照合品質が向上することを示した.
* ER とは1つまたは複数のデータソースからどのアイテムがreal-world entityを参照しているかを特定する手順.
課題と背景
ERの応用例としてweb上の商品のマッチングが挙げられる. web shopでの価格や在庫を比較したり, 製品をユーザーに提示するために使用することができる. スマートフォンなどはスペックなどの属性で識別することが可能であるが, ファッション分野のように文字の情報が少ないアイテムをマッチングさせることは困難であり, 視覚的特徴に大きく作用される.
例えばFigure 1において, 似ているが異なる2つの靴は, 視覚的な商品照合の問題点と可能性を示している. 画像を見れば, 2つの靴が異なるものであることは一目瞭然であるが, 属性情報からは明確な判断を下すことは困難である. これは, 属性値が欠けていると, 説明文の違いが大きくなるためである. また, 2つ目の靴の説明文は, 顧客を納得させるために広告的に書かれているため, 情報価値が低下している.
他にも, 一般的なERや製品マッチングの研究において, マッチングするエンティティに関する真の情報を含む大規模な公開データセットがないことが障害となっていた. 商品画像と説明文を組み合わせたデータセットはいくつかあり, 画像と説明文のいずれかのマッチングペアを含むデータセットもあるが, 現在のところ商品の画像と説明文, そして一致するアイテムの真のセットを含む公開データセットはない.
Dataset
WDC Product Data Corpus and Gold Standard for Large-scale Product Matching 2.0 (WDC dataset)
DeepFashion2
SIGIR eCom 2020 multi-modal product classification and retrieval challenge
提案手法
データセットの拡張
The underlying common crawl1 snapshot dates back to November 2017 and does not contain additional data apart from the HTML documents, hence it is not initially clear to which amount the URLs are still valid and whether the images are still available.
WDCデータセットを画像データで拡張. 基礎となる共通のクロール1スナップショットは2017年11月時点であり, HTML文書以外の追加データを含んでいないため, どの程度までURLが有効なのか, 画像がまだ利用可能なのか, 明らかではない. 画像の取得を次のような手順で行った
文書を解析して, 画像のURLとその画像が製品に属することを示す注釈を含むHTMLタグを探す(ウェブサイトから無関係な画像を収集することを避けるために用いる)
URLを照会して商品ごとに最大5枚の画像を取得し, インターネット上のarchive2 に画像がないかどうかを問い合わせる手順を用いる.
結果, WDCコーパスから10M(63%)の製品の画像を集めたデータベースを作成. しかし, 集められた画像データは決してきれいなものではない. (正しい商品ではなく, ロゴやプレースホルダー, 全く別のもの, ピクセル単位で重複など) 表1は, 靴カテゴリのクローリング結果. 最初の評価は画像を完全にカバーし,間違った画像やノイズの多い画像データを含まないデータで行いたいので,手動で画像を検証し,必要な特性を持つ評価サブセットを作成し,それを小さくしている.
マッチング手法
画像データをproduct matchingに用いるアプローチ[14] との大きな相違点はImage embeddingをマッチングタスクにおいて直接学習するか否かである. 先行研究ではImageNet or カテゴリーを学習したモデルを固定し特徴抽出機としてのみ扱っていた.
DeepMatcherをベースにし, 全体の構造や構成要素はそのままに, 画像データの処理機能を追加.
Attribute-level embedding
Attribute summarizer
Image processing module
Image embedding
これらのステップを経て, 画像やテキストの属性から得られる特徴ベクトルは同じ次元であり, 同等に扱うことができる
Attribute comparator
Classifier
検証
マッチング品質はprecision, recall, f1 scoreを測定.
新規性
date
Sep. 24th, 2021