Open Sosuke115 opened 3 years ago
深層学習を用いてwebの構造化データから情報抽出を行う手法を提案
https://dl.acm.org/doi/pdf/10.1145/3394486.3403153
webにおける構造化データからの情報抽出は教師データとなるサンプル数が少なく、 ルールベースによる手法が用いられる。 提案手法(FreeDOM)ではDOM nodeのベクトル化とrelational networkの導入により ヒューリスティックなルールを必要とせず、少ない教師データのみで未知のwebページにおける情報抽出が可能となる。
FreeDOMでは以下の2ステップで抽出を行う
→headとtailノードの関係を推定するタスクを解く? headとtailノードにおけるstep1で得られたベクトル、xpathの情報をbiLSTMによりベクトル化したもの、位置情報(何ノード離れているか)の素性から {none-none, none-value, value-none, value-value}を推論
ひとことで言うと
深層学習を用いてwebの構造化データから情報抽出を行う手法を提案
論文リンク
https://dl.acm.org/doi/pdf/10.1145/3394486.3403153
概要
webにおける構造化データからの情報抽出は教師データとなるサンプル数が少なく、 ルールベースによる手法が用いられる。 提案手法(FreeDOM)ではDOM nodeのベクトル化とrelational networkの導入により ヒューリスティックなルールを必要とせず、少ない教師データのみで未知のwebページにおける情報抽出が可能となる。![Screen Shot 2021-02-01 at 16 42 40](https://user-images.githubusercontent.com/44390274/106428544-8268f080-64ac-11eb-8b87-b9fca1b200a8.png)
手法のキモ
FreeDOMでは以下の2ステップで抽出を行う
→headとtailノードの関係を推定するタスクを解く? headとtailノードにおけるstep1で得られたベクトル、xpathの情報をbiLSTMによりベクトル化したもの、位置情報(何ノード離れているか)の素性から {none-none, none-value, value-none, value-value}を推論