FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents [KDD, 2020]

ひとことで言うと

深層学習を用いてwebの構造化データから情報抽出を行う手法を提案

論文リンク

https://dl.acm.org/doi/pdf/10.1145/3394486.3403153

概要

webにおける構造化データからの情報抽出は教師データとなるサンプル数が少なく、ルールベースによる手法が用いられる。提案手法（FreeDOM）ではDOM nodeのベクトル化とrelational networkの導入によりヒューリスティックなルールを必要とせず、少ない教師データのみで未知のwebページにおける情報抽出が可能となる。 Screen Shot 2021-02-01 at 16 42 40

手法のキモ

FreeDOMでは以下の２ステップで抽出を行う

ノードのベクトル化ノードにおけるテキスト、親ノードにおけるテキスト、マークアップから得られる離散的な情報（\<h1>等）を素性として利用する。テキスト情報はCNN-BiLSTM encoderによりベクトル化、離散的な情報はembedding layerを設定しベクトル化しそのbag of embeddingを用いる。 3つのベクトルを連結してノードをマルチクラス分類するタスクを解く。

Screen Shot 2021-02-01 at 16 52 33

関係情報 step1のみだとノードのベクトルは教師データの特徴しか反映されておらず汎用性がない。（未知構造のページは解けない）特にノードに明確な情報がなかったり、Noneの場合とベクトルが似ている場合はうまく分類できない。

→headとtailノードの関係を推定するタスクを解く？ headとtailノードにおけるstep1で得られたベクトル、xpathの情報をbiLSTMによりベクトル化したもの、位置情報（何ノード離れているか）の素性から {none-none, none-value, value-none, value-value}を推論

Sosuke115 / paper-reading

FreeDOM: A Transferable Neural Architecture for Structured Information Extraction on Web Documents [KDD, 2020] #41

ひとことで言うと

論文リンク

概要

手法のキモ