ddbj / ddbj_validator

DDBJ Validation Rule/Validator/Module/API server
1 stars 0 forks source link

複数属性の処理方法 #67

Open komstat opened 5 years ago

komstat commented 5 years ago

locus_tag_prefix

2019 INSDC meeting で haploid genome は以下のように共通 BioSample と別々の BioProject で登録することになった。

Umbrella BioProject 1

haploid に異なる locus_tag が使われた場合、一つの BioSample に二つの locus_tag が書かれることになる。

登録 Assembly 例

component_organism

何が含まれているか分からない "xxx metagenome" が適切ではない、
含まれている生物種が確実に分かっているサンプル登録が増えている


サンゴと褐虫藻を実験室環境で共生、サンプリング、RNA-seq、TSA

DRA

trad TSA
配列で計算機上で生物振り分け

BioSample では生物が混在しているため organism: mixed sample とし、構成生物種を component organism: organism name in tax DB で複数記載する
BioSample 登録例

対応

BioSample RDB は name:value ペアで属性を格納しているので複数属性に対応している

D-way では運用ルールとして重複属性をエラーにしていたが、validator 導入に伴いチェックを外しており、現在は validator ルール BS_R0061 error で弾かれる。チェックの下流では最後の値が使われる
しかし、上記のように特定属性で重複が想定されており、受付方法を検討する必要がある

ENA では属性毎に複数許可を定義しており、ほとんどが複数許容になっている

ERC000013

<FIELD>  
    <LABEL>germline</LABEL>  
        <NAME>germline</NAME>  
        <DESCRIPTION>the sample described presented in the entry has not undergone somatic genomic rearrangement as part of an adaptive immune response; it is the unrearranged molecule that was inherited from the parental germline</DESCRIPTION>  
        <FIELD_TYPE>  
        <TEXT_FIELD/>  
        </FIELD_TYPE>  
        <MANDATORY>optional</MANDATORY>  
        <MULTIPLICITY>multiple</MULTIPLICITY> <-- 複数許容  
</FIELD>  

NCBI は状況不明だが複数記載されているサンプルがある

方法1: 特定属性のみ複数を許容する

複数記載が必要なケースは稀であるため、許可された属性のみ複数対応を実施する

複数許可属性

これらの値は下流では使われない

方法2: 値をデリミタで区切る

locus_tag_prefix = A,B

データ利用や検索がやりにくくなる
locus tag 予約ステップを BioProject から BioSample に移行するにあたっては複数の方がシンプル?

方法3: 問題ない属性以外は複数許容

1 想定: sample_name, sample_title, organism, taxonomy_id etc

komstat commented 5 years ago

7/18 福田さんと話し合い and 運用チーム藤本さんに聞き取り

BioSample システム

XML と DB 上は問題ないが、XML <--> TSV 相互変換が属性名がユニークである想定になっているのでその部分の改修が必要、他は属性の順番の持ち方や unique 想定になっている箇所の改修など

福田と話し合い

想定される複数許可属性は

component_organism は organism と同等のチェック、private tax DB にある scientific name であること、synonym etc は scientific name を置換、を validator で実施する
NCBI では上記チェックが入っている模様
component_organism を持つ BioSample 一覧

locus_tag_prefix は現行の書式、重複チェックを複数に対して走らせる

BioSample に locus tag 予約ステップ移行後、BioSample に BioProject ID/accession を記載する運用をやめる。BioSample は複数 BioProject にリンクすることもあり、BioSample 登録時点では関係性が定かではないこともあるため、加えて、最終的には DRA Experiment, trad DBLINK, GEA IDF/SDRF で関係が確定するため
BioProject XML への BioSample - locus_tag ペア書き込みは最終的に関係性が確定する trad entry 公開時点とする (assembly 流用できる?)。BioSample ではサンプルと tag の関係性のみを管理し、BioProject との関連は管理しない(実験レコードで関係性が確定するため)

komstat commented 5 years ago

7/18 福田さんと話し合い

trad source feature に使用可能な qualifier の cardinality

使用可能 qualifier 50 の内 44 が 1 で 6 が N 許容
N 許容 qualifier

BioSample へのルール追加検討

N 許容

現時点で culture_collection と specimen_voucher の institution code が NCBI list ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/coll_dump.txt に含まれているか、というチェックは未実装

BioCollections ftp://ftp.ncbi.nih.gov/pub/taxonomy/

okbp commented 4 years ago

9b4d54a 21d1a50 96e601d 2d2eb86