どんなもの？

- MIMIC-IIIの退院サマリー中を対象とした文単位のタスクに対し，サマリー中の文と同じ意味で別の文を人工的に生成することにより，成績を向上させた研究.

先行研究と比べてどこがすごい？

- EHRを対象とした人工的なデータ生成の先行研究はある
    - しかしこれまでは単純なsentence classificationのみが対象

技術や手法のキモはどこ？

- 検証用データセット
    - 次の2タスクのデータセットを検証に利用.
        - phenotyping dataset (MIMIC-IIIの数百患者に対し, 13疾患について実際に罹患しているかそうでないかを0/1ラベルでアノテーションしたデータセット)
        - i2b2 2012 temporal relations dataset (MIMIC-IIの170患者の記述に対し, EVENTとその時系列的な関係をアノテーションしたもの)
- コーパス
    - ダミーコーパス生成用データセット
        - MIMIC-IIIの患者の退院サマリーからphenotyping datasetと被るものを除外
        - 残った退院サマリーのうち, プロブレムリストの最初の3疾患の並びがphenotyping datasetのいずれかの患者の最初の3疾患の並びと一致する患者のみを残す ...(1)
        - spaCyで小文字化 & 日付をdateに変換 & 5語未満の短文を削除
        - (1)をtrain-gen, val-genに分離
    - phenotype classification用データセット
        - train-pheno : dev-pheno : test-pheno = 7:2:1に分離
        - このtrain-phenoはtest-genとしても利用
    - temporal relation extraction用データセット
        - train setとして提供されているデータを train-temp : dev-temp = 9:1に分離
        - このtrain-tempはtest-genとしても利用
        - test setとして提供されているデータをそのままtestに利用
- Natural Language Generation
    - Rakeアルゴリズムを用いて train-gen の各文のスコアの高いkey phraseを同定
    - OpenNMTを用いて train-gen の各文をinputとし, key phraseのすべてを含んだ文を出力させるよう訓練
    - OpenNMTのパラメータはデフォルトのまま
    - ただし vocab sizeを抑えるため train-gen 全体をつうじて1回しか登場しない単語はplaceholderに置き換えた

どうやって有効だと検証した？

- Real data, Real data x2 (upsample), Real + Artificial data で検証
- タスク用のモデルにはSOTAを使用

議論はある？

- あくまで生成しているのは短文
- 入力文の意味が生成文においても保持されていることを重視しているタスクを選んでいる

yutanakamura-tky / medical_ai_survey_acl2019

W19-5026: Is artificial data useful for biomedical Natural Language Processing algorithms? #76

どんなもの？

先行研究と比べてどこがすごい？

技術や手法のキモはどこ？

どうやって有効だと検証した？

議論はある？

次に読むべき論文は？