Open iBotamon opened 4 years ago
- MIMIC-IIIの退院サマリー中を対象とした文単位のタスクに対し,サマリー中の文と同じ意味で別の文を人工的に生成することにより,成績を向上させた研究.
- EHRを対象とした人工的なデータ生成の先行研究はある
- しかしこれまでは単純なsentence classificationのみが対象
- 検証用データセット
- 次の2タスクのデータセットを検証に利用.
- phenotyping dataset (MIMIC-IIIの数百患者に対し, 13疾患について実際に罹患しているかそうでないかを0/1ラベルでアノテーションしたデータセット)
- i2b2 2012 temporal relations dataset (MIMIC-IIの170患者の記述に対し, EVENTとその時系列的な関係をアノテーションしたもの)
- コーパス
- ダミーコーパス生成用データセット
- MIMIC-IIIの患者の退院サマリーからphenotyping datasetと被るものを除外
- 残った退院サマリーのうち, プロブレムリストの最初の3疾患の並びがphenotyping datasetのいずれかの患者の最初の3疾患の並びと一致する患者のみを残す ...(1)
- spaCyで小文字化 & 日付をdateに変換 & 5語未満の短文を削除
- (1)をtrain-gen, val-genに分離
- phenotype classification用データセット
- train-pheno : dev-pheno : test-pheno = 7:2:1に分離
- このtrain-phenoはtest-genとしても利用
- temporal relation extraction用データセット
- train setとして提供されているデータを train-temp : dev-temp = 9:1に分離
- このtrain-tempはtest-genとしても利用
- test setとして提供されているデータをそのままtestに利用
- Natural Language Generation
- Rakeアルゴリズムを用いて train-gen の各文のスコアの高いkey phraseを同定
- OpenNMTを用いて train-gen の各文をinputとし, key phraseのすべてを含んだ文を出力させるよう訓練
- OpenNMTのパラメータはデフォルトのまま
- ただし vocab sizeを抑えるため train-gen 全体をつうじて1回しか登場しない単語はplaceholderに置き換えた
- Real data, Real data x2 (upsample), Real + Artificial data で検証
- タスク用のモデルにはSOTAを使用
- あくまで生成しているのは短文
- 入力文の意味が生成文においても保持されていることを重視しているタスクを選んでいる
-
https://aclweb.org/anthology/papers/W/W19/W19-5026/