Sosuke115 / paper-reading

4 stars 1 forks source link

FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents [KDD, 2020] #41

Open Sosuke115 opened 3 years ago

Sosuke115 commented 3 years ago

ひとことで言うと

深層学習を用いてwebの構造化データから情報抽出を行う手法を提案

論文リンク

https://dl.acm.org/doi/pdf/10.1145/3394486.3403153

概要

webにおける構造化データからの情報抽出は教師データとなるサンプル数が少なく、 ルールベースによる手法が用いられる。 提案手法(FreeDOM)ではDOM nodeのベクトル化とrelational networkの導入により ヒューリスティックなルールを必要とせず、少ない教師データのみで未知のwebページにおける情報抽出が可能となる。 Screen Shot 2021-02-01 at 16 42 40

手法のキモ

FreeDOMでは以下の2ステップで抽出を行う

  1. ノードのベクトル化 ノードにおけるテキスト、親ノードにおけるテキスト、マークアップから得られる離散的な情報(\<h1>等)を素性として利用する。 テキスト情報はCNN-BiLSTM encoderによりベクトル化、離散的な情報はembedding layerを設定しベクトル化しそのbag of embeddingを用いる。 3つのベクトルを連結してノードをマルチクラス分類するタスクを解く。

Screen Shot 2021-02-01 at 16 52 33

  1. 関係情報 step1のみだとノードのベクトルは教師データの特徴しか反映されておらず汎用性がない。(未知構造のページは解けない) 特にノードに明確な情報がなかったり、Noneの場合とベクトルが似ている場合はうまく分類できない。

→headとtailノードの関係を推定するタスクを解く? headとtailノードにおけるstep1で得られたベクトル、xpathの情報をbiLSTMによりベクトル化したもの、位置情報(何ノード離れているか)の素性から {none-none, none-value, value-none, value-value}を推論