Open tm4roon opened 4 years ago
テーブルデータに基づいた質問応答のタスクにBERTを適用させた研究。モデルは下図に示すように、3つの要素によって構成される。
(A) 入力された質問文に関連度の高い行の抽出: 質問文と行に含まれる各要素のn-gramの一致度により関連度を計算し、上位n件を学習に利用する。 (B) 質問文と(A)で得られた行の要素を結合してエンコード: 行の要素は、列名・列のタイプ・セルの値の3つを結合する形でエンコードする。
(C) Vertical self-atttentionで各行の情報を集約。
事前学習はテーブルにマスクをかけて、列名や列のタイプ、セルの値を予測させるマスク単語予測により行う。
TABERT: Pretraining for Joint Understanding of Textual and Tabular Data
テーブルデータに基づいた質問応答のタスクにBERTを適用させた研究。モデルは下図に示すように、3つの要素によって構成される。
(A) 入力された質問文に関連度の高い行の抽出: 質問文と行に含まれる各要素のn-gramの一致度により関連度を計算し、上位n件を学習に利用する。 (B) 質問文と(A)で得られた行の要素を結合してエンコード: 行の要素は、列名・列のタイプ・セルの値の3つを結合する形でエンコードする。
(C) Vertical self-atttentionで各行の情報を集約。
事前学習はテーブルにマスクをかけて、列名や列のタイプ、セルの値を予測させるマスク単語予測により行う。
文献情報