ichiroex / nlp-papers

a brief summary of the papers I read
3 stars 0 forks source link

Chart-to-Text: A Large-Scale Benchmark for Chart Summarization #1

Open ichiroex opened 2 years ago

ichiroex commented 2 years ago

Kanthara, Shankar, Rixie Tiffany Ko Leong, Xiang Lin, Ahmed Masry, Megh Thakkar, Enamul Hoque, and Shafiq Joty. 2022. “Chart-to-Text: A Large-Scale Benchmark for Chart Summarization.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/2203.06486.

解決したい課題

棒グラフや線グラフなどのチャートを説明するテキストを生成したい。 これまでchart summarizationはあまり取り組まれていない要因として、データセットが不足している課題があった。

提案手法

chart summarizationのためのpublic datasetを作成した。Statista, Pewからデータを収集。 本タスクのためのベースラインとして、image captioning,data-to-text modelを検証。 data-to-text modelでは、チャート画像からOCRにより取得したテキスト情報も合わせて用いる。

結果

Image caption modelは性能が高くない。 data-to-text modelの中でも特にT5, BARTを使ったモデルの性能が高い。 実験設定として、chartに対応するdata tableが利用可能な設定(TAB-)とそうではない設定(OCR-)で実験している。 Hallucinations, factual errrosは依然として存在するが、data tableが利用可能な場合、これらの問題が軽減される。

スクリーンショット 2022-03-27 10 25 06