データベースの整備

nwatarai commented 5 years ago

Validation のための当面の課題： https://operondb.jp/known のGFFファイル及び正解のリストを作る

ODBからKnown moduleのすべての項目を生物種ごとにまとめ、それぞれの正解遺伝子IDとしてまとめる。

nwatarai commented 5 years ago

Known module は酵素反応でないものも多く含んでいる。酵素反応だけをどう抽出するか。外部予測によって抜くのならばKnown以外も利用可能か。

nwatarai commented 5 years ago

と思ったけどそもそも化合物のヒモ付けがないから使えなかった。

nwatarai commented 5 years ago

https://www.kegg.jp/kegg-bin/view_ortholog_table?md=M00548 やはりKEGGのortholog table から取ってくるのが良さそう。

nwatarai commented 5 years ago

・モジュールは少なくとも2つ以上の反応があるときに作る・モジュールすべてが一つのオペロンを形成していることは稀・二次代謝物など、中間産物が特殊なものはオペロンを形成しがち・分解反応も途中で細胞外からの合流などが考えられる場合はオペロンが分割されがち →登録モジュールのうち、特異性が高い(多様性の低いKOが直列に並んだ)ものを抽出してテストデータとして用いれば良さそう。特に生成反応が多そうなので、分解は切ってしまってもいいかも。

また、Ortholog Tableについて・色分けは完全に隣の遺伝子でのみ同色になる(向きも考慮される) ・トランスポーターや転写因子が挿入されることはよくある・パラログがある場合は何らかの優先順位で色分けされる →とりあえずOrtholog Tableから遺伝子を抜き出して隣接関係を見れば良さそう。パラログ等に関してはデータの処理段階で最大スコアのところだけ取ってくるなど、なんとかしたい

フュージョン遺伝子は扱いが難しいので、ドメインで予測するというのは悪くないかも？でもその場合KOからの変換が結構面倒かも

nwatarai commented 5 years ago

間中のデータを改変することでだいたい得られることがわかったのでまずそれをやる。

nwatarai / metadigzyme

データベースの整備 #1