togoid / togoid-config

Definition of link data for TogoID
MIT License
10 stars 11 forks source link

MedGenのC0025202 (Melanoma)のRelated genesがTogoIDで取得できない #90

Open mitsuhashi opened 3 years ago

mitsuhashi commented 3 years ago

Togoサイトミーティング 2021/8/18(水)10:00~で池田さんから指摘を受けた以下の件について調査

mitsuhashi commented 3 years ago

先ほどjireiソンの最後に池田さんと高月さんに以下を共有しましたが、ここまでは高月さん既知の内容だったとのこと。

MedGenには、Genes(locations)とRelated genesの2つの項目(例:Familial cancer of breast(C0346153))があります。 結論からいうと、TogoIDの遺伝子とMedGen CUIの関係はGenes(locations)に記載されたものです。 一方、Melanomaの例は、Genes(locations)はなくRelated genesだけですので、TogoIDでは検索されません。

Genesの値は正しく取得できています。上記のFamilial cancer of breast(C0346153)の例では Genesの23遺伝子をTogoIDで使っているSPARQLで取得できます。

Geneの値は、MedGen HelpのGeneの説明にあるようにmim2gene_medgenファイルに記載されています

The symbols of genes reported to contribute to a disorder. Each symbol anchors a link to the record in NCBI's Gene database. The complete list of Gene-MedGen relationships is provided from Gene's FTP site (ftp://ftp.ncbi.nih.gov/gene/DATA/mim2gene_medgen)

RDFコンバータもこのファイルを入力としてGenesに対応するtripleを出力しています。

一方、Related genesは、MedGenが配布するファイルのどこに含まれているのか不明。上記のHelpにも記載がなく、どういう出自なのかも不明です。

mitsuhashi commented 2 years ago

MedGenのRelated genesの定義がわかりました。Genes (locations)と Related genesのラベルの横の?マークをクリックすると説明が出ます。Genes (locations)の定義はそのconditionに直接関係する遺伝子で、Related genesはそのconditionのサブタイプのGene(locations)を集めたもののようです。

以下は、Alzheimer disease (AD) https://www.ncbi.nlm.nih.gov/medgen/1853 の例です。

スクリーンショット 2022-02-02 11 41 44

MedGenのTerm Hierarchyを見るとADにはsubtypeがいくつかあります。Alzheimer disease2 (C1863051)もそのひとつで、Alzheimer disease2のMedGenのページにいくと、ADのページでRelated genesになっているAPOEがこのページではGenes (locations)になっています。

スクリーンショット 2022-02-02 12 02 21