tm4roon / survey

Survey on machine learning.
14 stars 1 forks source link

Improving Text-to-SQL Evaluation Methodology #124

Open tm4roon opened 3 years ago

tm4roon commented 3 years ago

Improving Text-to-SQL Evaluation Methodology

Text-to-SQLの評価方法について調査した研究。従来の訓練・テストデータの分割方法は、自然言語文側に焦点を当てたものだった。この分割方法では、テストデータに訓練データと同様のSQL文が含まれてしまう。Text-to-SQLのタスクでは、一般的に自然言語文とSQL文は多対一の関係であるため、このような事例がたくさん発生してしまう。

そこで、本論文では、SQL文を基準に訓練・テストデータの分割を行う方法を提案している。具体的には、 SQL文の変数部分を以下のように適切なトークンに置き換え、テストデータに訓練データのSQL文が含まれないように分割を行う。

結果として、従来の分割方法で高性能を達成していたモデルでも、提案手法で分割したデータでは解析が難しく、データ分割の重要性を明らかにした。

文献情報