arw36 / willoughby-etal-2017-virus-interactions

Configuration to integrate bat virus-host interactions from Willoughby et al. for GloBI
0 stars 0 forks source link

integrate species taxonomy backbone #2

Open arw36 opened 3 years ago

jhpoelen commented 3 years ago

hey @arw36 Anna - I can see the value in linking your name to identifiers provided by some naming authority.

I've been tossing around this idea to provide an automated name review report. In these name reviews, taxon name identifiers related to provided names would be listed. These suggested taxon name identifiers (e.g., NCBI:9606) can then be used by dataset authors/curators however they'd like. In your case, you could use (after review) the identifiers in your interactions.tsv file.

Curious to hear your thoughts about this idea.

arw36 commented 3 years ago

I'd be all for it. I know there are nice packages for this like taxize. I haven't utilized them yet.

jhpoelen commented 3 years ago

Ok - what kind of output would be suitable for your name verification/ linking workflow?

How about something like:

$ curl "https://raw.githubusercontent.com/arw36/willoughby-etal-2017-virus-interactions/main/interactions.tsv" | cut -f4-5 | tail -n+2 | nomer append ncbi-taxon > name-review.tsv.txt

using https://github.com/globalbioticinteractions/nomer and it's ncbi taxon matcher (see attached file). name-review.tsv.txt

First few lines:

EOL:327863 Artibeus jamaicensis SAME_AS NCBI:9417 Artibeus jamaicensis species   root \ cellular organisms \ Eukaryota \ Opisthokonta \ Metazoa \ Eumetazoa \ Bilateria \ Deuterostomia \ Chordata \ Craniata \ Vertebrata \ Gnathostomata \ Teleostomi \ Euteleostomi \ Sarcopterygii \ Dipnotetrapodomorpha \ Tetrapoda \ Amniota \ Mammalia \ Theria \ Eutheria \ Boreoeutheria \ Laurasiatheria \ Chiroptera \ Microchiroptera \ Phyllostomidae \ Stenodermatinae \ Artibeus \ Artibeus jamaicensis NCBI:1 \ NCBI:131567 \ NCBI:2759 \ NCBI:33154 \ NCBI:33208 \ NCBI:6072 \ NCBI:33213 \ NCBI:33511 \ NCBI:7711 \ NCBI:89593 \ NCBI:7742 \ NCBI:7776 \ NCBI:117570 \ NCBI:117571 \ NCBI:8287 \ NCBI:1338369 \ NCBI:32523 \ NCBI:32524 \ NCBI:40674 \ NCBI:32525 \ NCBI:9347 \ NCBI:1437010 \ NCBI:314145 \ NCBI:9397 \ NCBI:30560 \ NCBI:9415 \ NCBI:40234 \ NCBI:9416 \ NCBI:9417 \ \ superkingdom \ clade \ kingdom \ clade \ clade \ clade \ phylum \ subphylum \ clade \ clade \ clade \ clade \ superclass \ clade \ clade \ clade \ class \ clade \ clade \ clade \ superorder \ order \ suborder \ family \ subfamily \ genus \ species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9417
  Artibeus toltecus SAME_AS NCBI:40240 Artibeus toltecus species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Stenodermatinae | Artibeus | Artibeus toltecus NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40234 | NCBI:9416 | NCBI:40240 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=40240
  Epomophorus labiatus SAME_AS NCBI:903567 Epomophorus labiatus species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Epomophorini-Myonycterini lineage | Epomophorini | Epomophorus | Epomophorus labiatus NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:1246965 | NCBI:1246964 | NCBI:58066 | NCBI:903567 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | clade | tribe | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=903567
  Epomops franqueti SAME_AS NCBI:77231 Epomops franqueti species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Epomophorini-Myonycterini lineage | Epomophorini | Epomops | Epomops franqueti NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:1246965 | NCBI:1246964 | NCBI:77230 | NCBI:77231 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | clade | tribe | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=77231
  Rousettus aegyptiacus SAME_AS NCBI:9407 Rousettus aegyptiacus species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Rousettus | Rousettus aegyptiacus NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:9406 | NCBI:9407 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9407
EOL:327863 Artibeus jamaicensis SAME_AS NCBI:9417 Artibeus jamaicensis species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Stenodermatinae | Artibeus | Artibeus jamaicensis NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40234 | NCBI:9416 | NCBI:9417 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9417
  Carollia brevicauda SAME_AS NCBI:138695 Carollia brevicauda species   root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Carolliinae | Carollia | Carollia brevicauda NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40231 | NCBI:40232 | NCBI:138695 | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=138695