Abst
Multimodal Named Entity Recognition (MNER)に関する研究
既存の研究の2つの欠点
・単語表現が視覚表現の文脈の影響を受けない
・視覚的な文脈を無視している
→ image-aware word representationとword-aware visual representationを獲得
→ text-basedのentity span検出を補助モジュールとして用いたマルチモーダル設計を提案
1 Intro
SNS上における非構造コンテンツからいかに情報を抽出するか
Named Entity recognition (NER):人や場所,組織といったタイプに分類
SNSでのNamed Enetityは難しい (visual情報の活用)
Seungwhan Moon, Leonardo Neves, and Vitor Car-valho. 2018. Multimodal named entity recognitionfor short social media posts.InProceedings ofNAACL
Qi Zhang, Jinlan Fu, Xiaoyu Liu, and Xuanjing Huang.2018. Adaptive co-attention network for named en-tity recognition in tweets. InProceedings of AAAI,pages 5674–5681
0. 論文
Journal/Conference: ACL 2020 Title: Improving Multimodal Named Entity Recognition via Entity SpanDetection with Unified Multimodal Transformer Authors: Jianfei Yu, Jing Jiang, Li Yang, Rui Xia URL: https://www.aclweb.org/anthology/2020.acl-main.306/
1. どんなもの?
SNS上の投稿に対してMultimodal Named Entity Recognition (MNER)のタスクを取り組むためのモデルを提案. 既存のモデルではテキストのコンテキスト情報をうまく取得できていなかったり,視覚情報によるバイアスを除去できていないといった問題が存在したが、Attentinon-basedによる補助タスクを取り入れたモデルによってこれらの問題を解決. 2つのベンチマークでbest performanceを達成
2. 先行研究と比べてどこがすごい?
提案モデルでは,BERTなどのモデルを用いてテキストのコンテキスト情報を獲得し,AttentionをベースとしたMultimodal interaction moduleを提案することで視覚情報とテキスト情報の相互的な関係を獲得できるモジュールを導入. 更に,テキスト-basedのNamed Entity Recognitionタスクを補助タスクと設定することで,視覚情報によるバイアスを除去するモデルとなっている.
3. 技術や手法のキモはどこ?
4. どうやって有効だと検証した?
2つのベンチマーク (Twitter-15,Twitter-17)で他の手法と比較してbest performanceを達成.BERTの効果や,本モデルで提案したText-basedのNERを補助タスクとしたモジュールが特に効果的であったことがわかった.
5. 議論はある?
6.次に読むべき論文は?
SNS投稿にはテキストと画像が一致しない投稿も多く存在する (例:パロディ,漫画の一コマなど)が,こういった例では提案モデルではうまく効かない例が示されていたが,これはSNS投稿を扱う際に頻繁に生じる問題であるので今後検討が必要.
メモ
Abst Multimodal Named Entity Recognition (MNER)に関する研究 既存の研究の2つの欠点 ・単語表現が視覚表現の文脈の影響を受けない ・視覚的な文脈を無視している → image-aware word representationとword-aware visual representationを獲得 → text-basedのentity span検出を補助モジュールとして用いたマルチモーダル設計を提案
1 Intro SNS上における非構造コンテンツからいかに情報を抽出するか Named Entity recognition (NER):人や場所,組織といったタイプに分類 SNSでのNamed Enetityは難しい (visual情報の活用) Seungwhan Moon, Leonardo Neves, and Vitor Car-valho. 2018. Multimodal named entity recognitionfor short social media posts.InProceedings ofNAACL Qi Zhang, Jinlan Fu, Xiaoyu Liu, and Xuanjing Huang.2018. Adaptive co-attention network for named en-tity recognition in tweets. InProceedings of AAAI,pages 5674–5681
本研究:文書と画像のペアからNamed Entityを検出し識別 これまでの問題 ・文脈に関係なく各単語が同じベクトルを持つ ・visual contextをどうやって取り入れるか? ・視覚情報を取り入れることによるバイアス (SNS Postでは関連する画像の中の少ないEntityのみに着目されやすい) → transformerをbasedにしたモデルを提案 (Unified Multimodal Transformer) ・学習済representation modelをencoderとして用いて,各単語の文脈を取得 ・単語と画像の間のalignmentを捉えるためにcriss modal attentionを導入して,表現を生成 ・補助タスクとしてtext-basedのEntity span detectionを用いたモデルを設計 (補助タスクとメインタスクの対応関係を構築)
2 Methodology Task Formulation sentence S = (s_1, s_2, s_3, .., s_n) words image V → y = (y_1, … y_n) (corresponding label BIO2 Tagging)
2.1 Overall Architecture wordとvisualからそれぞれrepresentationを獲得 Transformer層でMMiモジュールを提案 → CRF (conditional random field) Layerで各単語についてラベルを生成 auxiliary entity span detection modulが補助タスクとして視覚的バイアスを緩和し,メインのMNERタスクに活用するためにラベル間の依存関係をencodeするための変換行列を設計
2.2 Unimodel Input Representations ・Word Rep position embeddingを加えた表現を入力としてBERTに入力 → C
・Visual Rep REsNetから各層の特徴 v = (v1,...v49)を取得
2.3 Multimodal Transformer for MNER Transformerを加えて,text hidden layer Rを取得 text (each word)とvisionを相互にawareさせるためのモジュールを提案 (Multimodal interaction module) → 単純に図見た方が早くない? (Fig. 2 (b)) → ただ,ここらへんのお気持ちがあんまり理解できない… (なぜ,このような設定をしたのか?)
2.3.1 Image-Modal Transformer Layer (CMT) ・Cross-modal transformer Layer 2.3.2 Word-aware Visual representation 2.3.3 CRF Layer Mutilomodal interaction moduleで得られたhidden state HをCRF層に供給して, CRF層の計算は,次のラベルへの遷移確率と,ラベルの重み付けで定義 (e.q.4 - 6)
2.4 Unified Multimodal Transformer 画像によって強調されたEntityだけでなく,テキストでも注目されたEntityを検出 テキストbasedのEntity span detectionを補助タスクとして設定 (ResNetには文章まで考慮するような特徴を生成するように学習されていないことから,補助タスクでその特徴を補う) ・Auxiliary Entity Span Detection Module z:sequence label (B, I, O) CRF layerを学習
・Conversion Matrix 文中のESDとMNERには高い相関が存在 ESDからMNERへと遷移するラベルの確率を定義
2.5 Model Training 本タスクの対数尤度を最大化 + 補助タスクの対数尤度も最大化を組み合わせた損失関数
3 Experiments
3.1 Experiment Settings Datasets ・Twitter-15:Qi Zhang, Jinlan Fu, Xiaoyu Liu, and Xuanjing Huang.2018. Adaptive co-attention network for named en-tity recognition in tweets. InProceedings of AAAI,pages 5674–5681. ・Twitter-17:Di Lu, Leonardo Neves, Vitor Carvalho, Ning Zhang,and Heng Ji. 2018. Visual attention model for nametagging in multimodal social media. InProceedingsof ACL, pages 1990–1999 という2つのデータセット
3.2 Compared System
3.3 Main Results (Table2) Precision, Recall, F1 Scoreで評価 Text-based model:BERT modelの有用性 Multimodal modelの方が比較的に高い精度を達成する
3.4 Ablation Study (Table3) 全部のモジュールが精度に貢献しているけど,特に変換行列の効果が大きい
3.5 Future Analysis ・Importance of MMI and ESD Module Fig3, Fig4:BERT-CRFと比較して正しく予測されたEntityの数 Table 4:具体例 (text補助タスクによってvisualのバイアスが削除できているのがわかる)
・Effect of Incorporating images Table4 C:テキストと画像の相互関係がうまく現れている例
5%のSNS投稿では画像とテキストが関連性を持たない可能性がある ・画像memeや漫画などが含む写真 ・画像やテキストの内容は同じ現象の異なる側面をハネイしている 例:画像とテキストが関係ない場合はどうするの? (前もって分類器を作成すればよいのでは?)
5 Conclusion 2つのベンチマークデータセットでbest performance テキストと画像が一致していないSNS投稿について十分な性能を発揮できない → 画像から潜在的なノイズをフィルタリングして除去 → 画像入力前にその画像とテキストとの関係の分類器を構築しておくとよい? → 半教師学習の枠組みでラベルなし投稿でも学習可能なフレームワークを提案したい