A Web Scale Entity Extraction System

https://arxiv.org/abs/2110.00423
2021

ウェブ上のコンテンツの意味を、実体や概念という観点から理解することは、多くの実用的な利点があります。しかし、大規模なエンティティ抽出システムを構築する際には、インターネットプラットフォーム上で利用可能なデータの規模と多様性を活用するための最良の方法を見つけるというユニークな課題に直面しています。本発表では、マルチモーダル・トランスフォーマーを用いて、複数のドキュメントタイプに対応した大規模なエンティティ抽出システムを構築した結果を報告する。マルチリンガル、マルチタスク、クロスドキュメントタイプの学習の有効性を経験的に示します。また、収集されたデータに含まれるノイズの量を最小化するためのラベル収集スキームについても議論する。

1 はじめに

コンテンツの理解は、大規模な推薦システムに数多く応用されています。その一例として、データの少ないコンテンツのランキングがある(Davidson et al., 2010; Amatriain and Basilic, 2012)。このようなシナリオでは、コンテンツシグナルは、コールドスタートの問題を克服するために、より良い一般化を提供することができる(Lam et al., 2008; Timmaraju et al., 2020)。別の例としては、推薦システムの作業理論をユーザーや規制当局に説明することが挙げられる（Chen et al.、2019）。このようなシナリオでは、コンテンツシグナルは人間が理解できる特徴を提供することができる。

本稿では、我々が推薦システムのために構築したエンティティ抽出プラットフォームの概要を紹介する。その過程で、いくつかのユニークな課題を克服しました。複数のエンティティタイプ - 人や場所などの名前付きエンティティや、製品やブランドなどの商用エンティティを含む、複数のタイプのエンティティを抽出したいと考えています。以降のセクションでは、データを収集するための方法論と、モデルの背後にあるアイデアについて説明します。そして、これらのモデルを効率的に展開するための技術について説明します。

2 表記と設定

エンティティとは、実世界の概念に基づいた人間が解釈可能な概念です。言及とは、テキストの中でエンティティを参照している単語やフレーズのことです。例えば、"Joe Biden "と "Biden "は、第46代米国大統領を表す同じエンティティを指すメンションです。エンティティ抽出とは、与えられたテキストからメンションを抽出し、それらをエンティティに結びつける作業です。この問題の各インスタンスは、タイトルや説明などのテキスト属性に加え、カテゴリカルな特徴やメタデータを持つ構造化文書で構成されており、そこから複数のエンティティを抽出したいと考えています。エンティティ抽出のタスクは、クローズドワールドタスクとオープンワールドタスクに分類されます。前者は、Wikipediaのトピックのように、あらかじめ定義されたエンティティの世界が決まっている場合に適用でき、後者は、製品のようにそのようなリストがない場合に必要となる。

3 オープンワールド抽出

本節では、オープンワールドエンティティ抽出のためのデータラベリングとモデルアーキテクチャについて説明する。

3.1 データのラベリング

オープンワールドエンティティ抽出のためのデータ収集は、評価者からの自由形式の入力を収集することになるため、ユニークな課題があります。我々は、評価者がテキストのスパンをハイライトできるようなウィジェットをデザインし、例ごとにポジティブな言及のセットを生成する。それぞれの例は3人の評価者によって評価され、異なる評価者からの言及をグランドトゥルースに結合する様々な方法を評価した。これらの手法の品質を，社内の専門家が作成したゴールデンセットと比較した結果を表1に示す． Majorityメソッドは、精度とリコールの間で最も良いトレードオフを提供します。ラベル付けされたデータを監査して品質を向上させるために、ユーザーインターフェースの操作方法、タスクごとの推論プロセス、ルールを説明するサンプルタスク、コーナケースを処理するための説明などを詳細に用意している。また，外部の評価者を校正するために，既知の事例を定期的に注入しています．外部評価者のうち、出力が専門家から大きく逸脱している人は、定期的に評価者を削除し、再教育します。さらに、外れ値を検出するために、コンセンサスラベルとの整合性を追跡します。最後に、よくあるエラーを修正するために、ルールベースのサニタイズを行います。例えば、評価者が同じテキストのすべての出現箇所を選択できないことがよくあることがわかりました。そこで、選択された言及を入力全体にブロードキャストして、すべての出現箇所を捕捉します。

3.2 モデル化

オープンワールドのエンティティ抽出タスクを、抽出ステージとクラスタリングステージに分けます。

3.2.1 抽出ステージ

抽出ステージでは、sequence to sequence モデルを使用して、テキスト内のすべての言及を見つけようとします。図1aに描かれているように、我々の抽出モデルは、事前に訓練されたクロスリンガル言語モデル（Lample and Conneau, 2019）に基づいています。計算効率のために、条件付きランダムフィールド層の代わりに、XLMの上に複数の層の知覚を選択します（Lafferty et al. 我々は、単純な複数の層の知覚と、シーケンス内のテイク・コンティニュアス・ポジティブ・ブロックのデコーディングが、高品質の言及を提供するのに十分に機能することを見出した。

3.2.2 半教師付きクラスタリング段階

クラスタリング段階では、同じ概念を参照しているすべての言及を、正準的なエンティティに折り畳むことを試みます。直感的には、抽出段階で得られたエンベッディングに対してk-meansアルゴリズムを実行することができます。しかし、2つの理由から、このアプローチの性能は受け入れられないことがわかりました。 kmeansは一様分布の仮定に基づいていますが、エンベッディングはそれに従っていません。また、抽出モデルから得られたエンベッディングは、2つの言及が同じ概念であるという人間の解釈と一致しません。この問題を解決するために、半教師付きのグラフベースのアプローチを採用しました。ここでは、図1bに示すような専用のモデルを構築し、メンション間のリンクが基本的に同じエンティティを表しているかどうかを予測します。このモデルは、別途収集した言及の概念の類似性に特化したデータセットで学習されます。グラフ構築時に何億ものドキュメント間のすべてのペアを処理できるように、シャムニューラルネットワークのアーキテクチャを採用しています。次に、Louvainコミュニティ検出アルゴリズム(Blondel et al., 2008)を結果として得られたグラフ上で実行し、近い言及を1つのエンティティにまとめる。これにより、クラスターの品質が大幅に向上することが分かりました。

4 閉じた世界の抽出

このセクションでは、閉じた世界のエンティティ抽出のためのデータ・ラベリングとモデル・アーキテクチャについて説明します。

4.1 データのラベリング

理想的には、評価者が入力テキストから自由に言及を選択し、それに対応するWikipediaエンティティを添付することが望ましい。しかし、それでは評価者が合意に達することは難しく、我々が品質管理を行うこともできません。その代わりに、タスクを多肢選択式にして、あらかじめ定義された辞書を使って、可能性のある言及のリストと、そのウィキペディアのリンク候補を抽出します。評価者は、与えられたリストの中から、肯定的な言及とそれに対応するウィキペディアの実体の両方を選択するだけです。オープンワールドと同様に、我々は異なるコンセンサス方法の品質分析を行います。ここでは、5人の評価者のうち2人の評価者が選んだウィキペディアの実体をコミュニティのグランドトゥルースとして扱います。この方法を社内の専門家が提供するオラクルラベルと比較すると、抽出された全てのエンティティが正しい確率は80％、抽出された全てのエンティティが正しい確率は70％となります。また、1つのエラーを許容した場合、両方とも14%増加します。参考までに、このタスクにおける個人の平均評価者のF1スコアは0.68である。

4.2 モデリング

オープンワールドモデルと同様に、タスクを抽出ステージとリンクステージに分割します。

4.2.1 抽出ステージ

言及が抽出された後に可能なエンティティリンクを動的に見つけるのではなく、様々な言及のエイリアスからエンティティへのマッピングを含む静的な辞書に依存し、ファジー文字列マッチングを使用して事前にすべての可能なリンクを抽出します。これにより、ラベリング作業が簡素化され、学習と推論の両方の計算時間も短縮されます。しかし、その性能は辞書の質に大きく依存します。辞書を構築するために、言及からエンティティへのマッピングを定義するWikipediaのリダイレクションと、言及を複数の可能なエンティティにマッピングするDisambiguationページを再帰的にトレースします。また、言及、エンティティ、マッピングに対して、さまざまなルールベースのクリーンアップが行われます。

4.2.2 リンク段階

リンクモデルは、次に、言及とその候補エンティティの間の類似性を計算します。言及の塔は、オープンワールドモデルに似ており、入力文書を言語モデルに通し、出力をプールして言及のためのエンベディングを得ます。エンティティ側では、そのWikipediaテキストをオフラインでエンベッディングにまとめます。図1cに示すように、各メンションとエンティティのペアに対して、メンションの埋め込みは、線形投影の後、エンティティの候補の埋め込みとドットにブロードキャストされ、関連性スコアが出力されます。また、オープンワールドの場合と同様に、最初にメンテンス・スコアを予測する実験も行いましたが、最終的なエンティティ・メトリックにはほとんど差がありませんでした。また、評価者からの投票数に基づいて、エンティティの重要性に関する監視が追加されます。これらのスコアを、言及とエンティティのリンクの優先度などのカウンターベースの特徴と結合し、フィードフォワード層の後に最終的なリンクスコアを得ます。

5 スケーリングの課題

様々なドキュメントを十分にカバーするためには、言語、エンティティタイプ、ドキュメントタイプに応じてシステムをスケーリングする必要があります。単純に考えれば、各トリプル（言語、エンティティタイプ、ドキュメントタイプ）に対してモデルを開発し、各ドキュメントに対してモデルの組み合わせを実行することができます。しかし、これではモデルの開発やモデルの提供に大きなオーバーヘッドが生じてしまいます。そこで、本システムでは、以下のような手法でこれらのスケーリングの課題に取り組み、代わりに単一のモデルを学習します。

5.1 Cross Language Model and Fine-Tuning

Transformer (Vaswani et al., 2017) ベースのプレトレーニングされた言語モデルは、様々な自然言語処理タスクにおいて強力な改善をもたらしています（Wang et al., 2018）。言語横断的な事前学習を行うことで、XLM（Lample and Conneau, 2019）は言語横断的に最先端の結果を得ることができます。我々の研究では、XLMを採用し、多言語データ上で微調整することにより、予測をさらに向上させます。ゼロショットモデルとファインチューニングされた商品抽出モデルの広告に対する性能を表2で比較します。ゼロショットモデルは、フランス語(fr)やポルトガル語(pt)などのロマンス系言語では適切に予測することができますが、アラビア語(ar)やベトナム語(vi)ではパフォーマンスが低いことがわかりました。これは、これらの言語が英語とは大きく異なる特性を持っていることから予想されます。すべての言語のデータを使って微調整を行うことで、すべての言語でモデルのパフォーマンスが大幅に向上しました。

5.2 抽出、クラスタリング、リンクのためのマルチタスク学習

マルチタスク学習(Caruana, 1997)は、機械学習のサブフィールドであり、複数のタスクを同時に共有モデルで学習する。このようなアプローチは、データ効率の向上、共有表現によるオーバーフィッティングの低減、補助情報の活用による高速学習などの利点がある。コンピュータビジョン（Zhang et al., 2014）や自然言語処理（Vaswani et al., 2017）などの様々なアプリケーションで有効であることが証明されています。これまでのサブセクションでは、モデルを別々に訓練し、異なるエンティティタイプに対して並行して予測しています。これは、他のエンティティモデルに影響を与えることなく、新しいエンティティタイプ用のモデルをトレーニングしたり、既存のエンティティタイプ用のモデルをアップデートしたりできるという点で有利です。しかし、この方法では、新しいエンティティタイプを考慮すると、推論コストがますます増加してしまいます。

現在、5つのエンティティタイプと7つのTransformerベースのモデルがありますが、これは、広告やWebページなどごとに7つのXLMエンコーダーを実行することを意味します。この推論コストの高さが、私たちのサービスの大きな障害となっています。この問題を解決するために、私たちは統一されたモデル構造と学習フレームワークを開発しました。すべてのエンティティ抽出モデルとリンクモデルを、共通のXLMエンコーダーで共同学習することが可能になりました。符号化部分が全計算の大部分を占めるため、推論時間は以前の7分の1に短縮され、サービスの妨げにならない。表3は、本フレームワークで学習した共有エンコーダーモデルの性能を示しています。別々に学習したモデルと同等の性能が得られていることがわかる。閉鎖的な世界へのリンクモデルは、共同訓練によってわずかに精度が向上したが、商品名抽出モデルの性能はわずかに低下した。これは、中程度の大きさの単一のXLMでは、異なるエンティティ抽出ヘッドが必要とするすべての情報をエンコードできない可能性があるためである。エンコーダーの容量を増やせば、コンフリクトを減らすことができると期待しています。以上のように、統一モデルは、推論コストをほとんどかけずに、性能をわずかに落とすだけで、新しいエンティティタイプを可能にします。

5.3 クロスドキュメント転送学習

転送学習は、異なるが関連するソースドメインに含まれる知識を転送することで、ターゲットドメインにおけるターゲットモデルの性能を向上させることを目的とする(Zhuang et al., 2021)。ゼロショット転送学習(Xian et al., 2017)から数ショット転送学習(Vinyals et al., 2016)まで、さまざまな転送学習アプローチが開発されている。我々は、クロスドキュメントタイプの課題を解決するために、我々のシステムに転送学習フレームワークを組み込む。表4のように、ゼロショット転送学習と数ショット転送学習の実験を行います。表4に示すように、転送学習によって、両方の文書タイプに対するモデルの性能を高めることができた。

e4exp / paper_manager_abstract