INFO

author

Moritz Wilke, Erhard Rahm

affiliation

Leipzig University

conference or year

2021

link

paper [実装]()

概要

Entity Resolution (ER) (ないしRecord Linkage)は, 様々なweb shopの商品情報をマッチさせるのに用いられている. しかし, 特定のドメイン(テキストや数字)の属性のみでは, 信頼性の高い照合判定を行うことが難しい. この問題を解決するために, 属性ベースのマッチングシステムを拡張し, ほとんどすべてのweb shopで利用可能な画像データを組み込む. システムを評価するために, WDCの製品マッチングデータセットにウェブから収集した画像を追加. 実験の結果から, 画像を使用することでrecallと全体的な照合品質が向上することを示した.

* ER とは1つまたは複数のデータソースからどのアイテムがreal-world entityを参照しているかを特定する手順.

課題と背景

ERの応用例としてweb上の商品のマッチングが挙げられる. web shopでの価格や在庫を比較したり, 製品をユーザーに提示するために使用することができる. スマートフォンなどはスペックなどの属性で識別することが可能であるが, ファッション分野のように文字の情報が少ないアイテムをマッチングさせることは困難であり, 視覚的特徴に大きく作用される.

例えばFigure 1において, 似ているが異なる2つの靴は, 視覚的な商品照合の問題点と可能性を示している. 画像を見れば, 2つの靴が異なるものであることは一目瞭然であるが, 属性情報からは明確な判断を下すことは困難である. これは, 属性値が欠けていると, 説明文の違いが大きくなるためである. また, 2つ目の靴の説明文は, 顧客を納得させるために広告的に書かれているため, 情報価値が低下している.

他にも, 一般的なERや製品マッチングの研究において, マッチングするエンティティに関する真の情報を含む大規模な公開データセットがないことが障害となっていた. 商品画像と説明文を組み合わせたデータセットはいくつかあり, 画像と説明文のいずれかのマッチングペアを含むデータセットもあるが, 現在のところ商品の画像と説明文, そして一致するアイテムの真のセットを含む公開データセットはない.

Dataset

WDC Product Data Corpus and Gold Standard for Large-scale Product Matching 2.0 (WDC dataset)

ER評価に適しているが, 製品画像は含まれていない. (v2で削除された) 前述[14]の実験は, WDC datasetの初期バージョンで行われたが, 対応する画像は現在入手不可.

DeepFashion2

ファッション分野の画像検索用データセット
同じ商品の異なる画像が含まれており, ショップからのものとユーザーからのもの存在
しかし, 商品にはテキスト属性がないため, マルチモーダルとしては扱えない

SIGIR eCom 2020 multi-modal product classification and retrieval challenge

商品の説明と画像が含まれているが，商品照合のためのグランドトゥルースが含まれていない．
(to the best of our knowledge) 製品の画像と説明文，およびマッチング製品に関する情報の両方を含むERデータセットは，現在のところ存在しない．

提案手法

データセットの拡張

The underlying common crawl1 snapshot dates back to November 2017 and does not contain additional data apart from the HTML documents, hence it is not initially clear to which amount the URLs are still valid and whether the images are still available.

WDCデータセットを画像データで拡張. 基礎となる共通のクロール1スナップショットは2017年11月時点であり, HTML文書以外の追加データを含んでいないため, どの程度までURLが有効なのか, 画像がまだ利用可能なのか, 明らかではない. 画像の取得を次のような手順で行った

文書を解析して, 画像のURLとその画像が製品に属することを示す注釈を含むHTMLタグを探す(ウェブサイトから無関係な画像を収集することを避けるために用いる)
URLを照会して商品ごとに最大5枚の画像を取得し, インターネット上のarchive2 に画像がないかどうかを問い合わせる手順を用いる.

結果, WDCコーパスから10M（63％）の製品の画像を集めたデータベースを作成. しかし, 集められた画像データは決してきれいなものではない. (正しい商品ではなく, ロゴやプレースホルダー, 全く別のもの, ピクセル単位で重複など) 表1は, 靴カテゴリのクローリング結果. 最初の評価は画像を完全にカバーし，間違った画像やノイズの多い画像データを含まないデータで行いたいので，手動で画像を検証し，必要な特性を持つ評価サブセットを作成し，それを小さくしている．

マッチング手法

画像データをproduct matchingに用いるアプローチ[14] との大きな相違点はImage embeddingをマッチングタスクにおいて直接学習するか否かである. 先行研究ではImageNet or カテゴリーを学習したモデルを固定し特徴抽出機としてのみ扱っていた.

DeepMatcherをベースにし, 全体の構造や構成要素はそのままに, 画像データの処理機能を追加.

Attribute-level embedding

事前に学習した単語モデルを適用して，属性値の各単語（またはn-gram）を単語ベクトルに変換
出力は, 入力された単語の数と同じ長さのエンベッディングのリスト
これらのリストは各レコードごとに異なる長さであるため, 2つの製品の属性を比較する前にそれらを整列させる必要がある

Attribute summarizer

(例えば) RNNのような, あらゆる種類のシーケンスからベクトルまでのモジュールであることが可能
情報を圧縮し, 冗長な単語や意味のない単語をフィルタリングして, 属性を固定長のベクトルとして表現

Image processing module

オプションの前処理ステップで, 画像内の主要な形状を検出し, それに応じて画像を切り取り(画像のスペースや非情報領域を減らす)
例えば, 物体の検出やsegmentationを行う方法があるが, カテゴリごとのbboxやmaskが必要となり複雑になる(どのように実装されているかは不明)

Image embedding

学習済みのResnet50を使用
全結合層を追加して，他の特徴ベクトルの次元にダウンサンプル
学習時間を短縮するため, 最初の6層を固定
この研究では製品ごとに1枚の画像しか使用していないため, 画像のsummarizerはない

これらのステップを経て, 画像やテキストの属性から得られる特徴ベクトルは同じ次元であり, 同等に扱うことができる

Attribute comparator

同じ属性の両方の商品の特徴ベクトルを入力として, 類似性表現を作成
DeepMatcherでは, 両ベクトルの絶対距離, 連結, またはベクトルを返すその他のメソッドを使用

Classifier

2層のFC層

検証

マッチング品質はprecision, recall, f1 scoreを測定．

画像のみを使用した場合, 再現率は90％以上, fスコアは73％となり, 画像がマッチングに有用な情報を提供していることがわかる
テキスト属性のみを使用した場合は, タイトルと説明文の両方を使用した場合よりも, タイトル属性を使用した場合の方が効果的である. (説明文がノイズや欠落しているケースが多いため, 有用性が低いことが影響していると考えられる)
テキスト属性に加えて画像を使用することで, 最大で約2％recallが向上し, f1 scoreも向上
タイトルと画像の類似性を組み合わせた場合には85.6％という最高のf1 scoreが得られたが, 画像を使用した場合には0.4％というわずかな改善のみであった
タイトルと説明文の組み合わせでは, 画像を使用することで2.1％の改善

新規性

マルチモーダルERのベンチマークデータセットの作成
DeepMatcherフレームワークの画像データを使用するための拡張
システムの評価

date

Sep. 24th, 2021

IsHYuhi / PaperSummary

Towards Multi-modal Entity Resolution for Product Matching #22