hkefka385 / paper_reading

3 stars 1 forks source link

Transfer Learning for Unsupervised Influenza-like Illness Models from Online Search Data #71

Open hkefka385 opened 4 years ago

hkefka385 commented 4 years ago

0. 論文

Journal/Conference: WWW 2019 Title: Transfer Learning for Unsupervised Influenza-like Illness Models from Online Search Data Authors: Zou, Bin, Vasileios Lampos, and Ingemar Cox URL: https://dl.acm.org/doi/10.1145/3308558.3313477

1. どんなもの?

検索クエリからインフル流行を予測する学習済み予測モデルを,過去のデータが存在しない場所でも適用可能なモデルとするための転移学習の手法を提案.

2. 先行研究と比べてどこがすごい?

・最適な検索クエリを探索するために,word embeddingのalignmentの手法を活用し,異なる国において予測に有効な検索クエリを探索

3. 技術や手法のキモはどこ?

Word alignmentの活用方法と,転移を行うために重み付けを考慮する手法.

4. どうやって有効だと検証した?

アメリカの学習済流行予測モデル (Elastic Net)を提案手法の転移学習の枠組みに当てはめ,オーストラリアやスペインといった異なる国において同じ重みを共有できると想定される検索クエリを探索.

5. 議論はある?

・どの国でも同じ流行の形をとるインフルエンザ流行だからできる手法なのでは? ・(おそらく)1週先予測しか焦点をあててないが,実際は2週先より更に先の予測の方が必要だし,そういった設定のタスクで本当に高い精度での予測が有用かは疑問?

スクリーンショット 2020-07-21 0 03 52

6.次に読むべき論文は?

メモ

Abst インフラが整備されたいないところを想定して,インフル流行予測モデルを転移学習の枠組みで構築 3つのステップで構成 ・source国のregularized regression model を構築 ・source国のクエリをtarget国のクエリに置き換えれるようにtemporal similarity metricsや意味の近さを用いてマッピング ・target queryの重みを再調整

1 into 教師ありモデルの学習が可能な場所から転移学習を行い,予測モデルの構築を行う 3steps ・source国の回帰モデルを構築 ・ソース国の検索クエリをターゲット国のクエリにマッピングを行うために,意味的類似度と時系列相関を組み合わせた手法 ・元のモデルのクエリの重みをターゲットクエリ用に変換

アメリカをソースとして,フランス・スペイン・オーストラリアをターゲットとして学習 精度を見ると,過去のデータが不足している場所での1つの解決策となりうる 貢献 ・転移学習で,言語の移行 (english → Frence)や季節の移行 (アメリカ → オーストラリア)などで実行

2 Dataset GoogleクエリとILI rateを利用 ・Google search query frequencies 時系列の平均値が0,標準偏差1となるように標準化し (同じ単位でクエリ頻度を表現) Google Correlateでインフルに関連するシードの単語として,使用

・ILI rates GPs Sentinelles Network (SN)︰https://websenti.u707.jussieu.fr/sentiweb/ Spanish Influenza Sentinel Surveil-lance System (SISSS) https://www.ecdc.europa.eu/en/seasonal-influenza/surveillance-and-disease-data/facts-sentinel-surveillance Australian Sentinel Practices ResearchNetwork (ASPREN):https://aspren.dmac.adelaide.edu.au/ 各国のILIの比較や相関について:Fig1

3 Methods X︰検索クエリの時系列 y:対応する時刻の病気度 Source domain: D_s Target domainL: D_t 別にクエリ数を揃える必要はない

3.1 User search behavior in different countries オンラインユーザの検索行動がターゲット国とsource国とは似ている P(q|h):検索クエリqの確率 (target とsourceが似ていると同じ) 証拠となる文献 ・H. K. Andreassen, M. M. Bujnowska-Fedak, C. E. Chronaki, R. C. Dumitru, I. Pudule, S. Santana, H. Voss, and R. Wynn. 2007. European Citizens’ Use of E-health Services: A Study of Seven Countries. BMC Public Health 7, 53 (2007). ・O. Higgins, J. Sixsmith, M. M. Barry, and C. Domegan. 2011. A Literature Review on Health Information Seeking Behaviour on the Web: A Health Consumer and Health Professional Perspective. Technical Report. インフルに関するクエリ頻度は,他国で大きく変わらない (Table1)

3.2 Transfer learning framework 3.2.1 Learning a regression function in the source domain V. Lampos, A. C. Miller, S. Crossan, and C. Stefansen. 2015. Advances in now- casting influenza-like illness rates using search query logs. Scientific Reports 5, 12760 (2015). V. Lampos, E. Yom-Tov, R. Pebody, and I. J. Cox. 2015. Assessing the Impact of a Health Intervention via User-Generated Internet Content. Data Mining and Knowledge Discovery 29, 5 (2015), 1434–1457. の研究と同様に,ソース国のデータを元にElastic Netを用いてモデルを学習

B. Zou, V. Lampos, and I. J. Cox. 2018. Multi-Task Learning Improves Disease Models from Web Search. In Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee, 87–96. V. Lampos, B. Zou, and I. J. Cox. 2017. Enhancing Feature Selection Using Word Embeddings: The Case of Flu Surveillance. In Proceedings of the 26th International Conference on World Wide Web. 695–704.B. Zou, V. Lampos, R. Gorton, and I. J. Cox. 2016. On Infectious Intestinal Disease Surveillance using Social Media Content. In Proceedings of the 6th International Conference on Digital Health. ACM, 157–161. と同様にembeddingを用いてフィルタを適用 ‘flu’, ‘fever'という単語との近接度を用いてwordをフィルタリング

3.2.2. Step2 Mapping source to target queries. ソース → ターゲット (e.q.3) ・Semantic similarity:word embeddingを用いて検索元のクエリと検索クエリをマッピング (one to many)

言語横断的な類似度測定:alignment Bilingual word embeddings︰S. L. Smith, D. H. P. Turban, S. Hamblin, and N. Y. Hammerla. 2016. Offline Bilingual Word Vectors, Orthogonal Transformations and the Inverted Softmax. arXiv Preprint (2016), arXiv:1702.03859. を用いて測定 alignmentの一般的な手法︰対訳pairsを抽出して,bilingual embeddingを生成 線形変換をを行って一致させる 線形変換させた時のコサイン類似度の高いembeddingを用いて学習

・Temporal similarity︰時間的相関関係に基づいてマッピング クエリ同士の相関係数を測定 週をずらして,クエリの相関を計算

3.2.3 Step3 Weighting target queries