M. Tarik Altuncu, Erik Mayer, Sophia N. Yaliraki, Mauricio Barahona
投稿日時
2018-06-07
コード
概要
Electronic Healthcare Recordsには、大量のフリーテキストを含む、大量の非構造化データが含まれています。それでも、この詳細な情報源は、解釈可能なコンテンツをタイムリーに抽出する方法論がないために、あまり使用されないままです。ここでは、ネットワーク理論的なツールを適用して、National Health Serviceからの病院患者インシデントレポートのフリーテキストを分析し、異なるレベルの解像度で教師なしで類似の内容を持つ文書の集まりを見つけます。ディープニューラルネットワーク段落ベクトルテキスト埋め込みと文書ベクトルの希薄化された類似度グラフに適用されるマルチスケールマルコフ安定性コミュニティ検出を組み合わせて、ロンドンのインペリアルカレッジヘルスケアNHSトラストからのインシデントレポートへのアプローチを紹介します。マルチスケールコミュニティ構造は、レコードのクラスタから抽出された記述的な用語によって示されるように、データセットのトピックにおいて異なるレベルの意味を明らかにします。また、事後分布を医療従事者によって割り当てられた手書きのカテゴリーと比較し、このアプローチがLDAベースのモデルよりも優れていることを示します。当社のコンテンツクラスタは、2つのレベルの手作業で分類されたカテゴリとの良好な対応を示しますが、それでも特定の分野におけるさらなる医学的詳細を提供し、外部分類分類を超えた事件の補足的な記述子を明らかにします。
概要
Electronic Healthcare Recordsには、大量のフリーテキストを含む、大量の非構造化データが含まれています。それでも、この詳細な情報源は、解釈可能なコンテンツをタイムリーに抽出する方法論がないために、あまり使用されないままです。ここでは、ネットワーク理論的なツールを適用して、National Health Serviceからの病院患者インシデントレポートのフリーテキストを分析し、異なるレベルの解像度で教師なしで類似の内容を持つ文書の集まりを見つけます。ディープニューラルネットワーク段落ベクトルテキスト埋め込みと文書ベクトルの希薄化された類似度グラフに適用されるマルチスケールマルコフ安定性コミュニティ検出を組み合わせて、ロンドンのインペリアルカレッジヘルスケアNHSトラストからのインシデントレポートへのアプローチを紹介します。マルチスケールコミュニティ構造は、レコードのクラスタから抽出された記述的な用語によって示されるように、データセットのトピックにおいて異なるレベルの意味を明らかにします。また、事後分布を医療従事者によって割り当てられた手書きのカテゴリーと比較し、このアプローチがLDAベースのモデルよりも優れていることを示します。当社のコンテンツクラスタは、2つのレベルの手作業で分類されたカテゴリとの良好な対応を示しますが、それでも特定の分野におけるさらなる医学的詳細を提供し、外部分類分類を超えた事件の補足的な記述子を明らかにします。