Open arw36 opened 3 years ago
I'd be all for it. I know there are nice packages for this like taxize. I haven't utilized them yet.
Ok - what kind of output would be suitable for your name verification/ linking workflow?
How about something like:
$ curl "https://raw.githubusercontent.com/arw36/willoughby-etal-2017-virus-interactions/main/interactions.tsv" | cut -f4-5 | tail -n+2 | nomer append ncbi-taxon > name-review.tsv.txt
using https://github.com/globalbioticinteractions/nomer and it's ncbi taxon matcher (see attached file). name-review.tsv.txt
First few lines:
EOL:327863 | Artibeus jamaicensis | SAME_AS | NCBI:9417 | Artibeus jamaicensis | species | root \ | cellular organisms \ | Eukaryota \ | Opisthokonta \ | Metazoa \ | Eumetazoa \ | Bilateria \ | Deuterostomia \ | Chordata \ | Craniata \ | Vertebrata \ | Gnathostomata \ | Teleostomi \ | Euteleostomi \ | Sarcopterygii \ | Dipnotetrapodomorpha \ | Tetrapoda \ | Amniota \ | Mammalia \ | Theria \ | Eutheria \ | Boreoeutheria \ | Laurasiatheria \ | Chiroptera \ | Microchiroptera \ | Phyllostomidae \ | Stenodermatinae \ | Artibeus \ | Artibeus jamaicensis | NCBI:1 \ | NCBI:131567 \ | NCBI:2759 \ | NCBI:33154 \ | NCBI:33208 \ | NCBI:6072 \ | NCBI:33213 \ | NCBI:33511 \ | NCBI:7711 \ | NCBI:89593 \ | NCBI:7742 \ | NCBI:7776 \ | NCBI:117570 \ | NCBI:117571 \ | NCBI:8287 \ | NCBI:1338369 \ | NCBI:32523 \ | NCBI:32524 \ | NCBI:40674 \ | NCBI:32525 \ | NCBI:9347 \ | NCBI:1437010 \ | NCBI:314145 \ | NCBI:9397 \ | NCBI:30560 \ | NCBI:9415 \ | NCBI:40234 \ | NCBI:9416 \ | NCBI:9417 | \ | \ | superkingdom \ | clade \ | kingdom \ | clade \ | clade \ | clade \ | phylum \ | subphylum \ | clade \ | clade \ | clade \ | clade \ | superclass \ | clade \ | clade \ | clade \ | class \ | clade \ | clade \ | clade \ | superorder \ | order \ | suborder \ | family \ | subfamily \ | genus \ | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9417 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Artibeus toltecus | SAME_AS | NCBI:40240 | Artibeus toltecus | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Stenodermatinae | Artibeus | Artibeus toltecus | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40234 | NCBI:9416 | NCBI:40240 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=40240 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Epomophorus labiatus | SAME_AS | NCBI:903567 | Epomophorus labiatus | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Epomophorini-Myonycterini lineage | Epomophorini | Epomophorus | Epomophorus labiatus | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:1246965 | NCBI:1246964 | NCBI:58066 | NCBI:903567 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | clade | tribe | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=903567 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Epomops franqueti | SAME_AS | NCBI:77231 | Epomops franqueti | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Epomophorini-Myonycterini lineage | Epomophorini | Epomops | Epomops franqueti | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:1246965 | NCBI:1246964 | NCBI:77230 | NCBI:77231 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | clade | tribe | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=77231 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Rousettus aegyptiacus | SAME_AS | NCBI:9407 | Rousettus aegyptiacus | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Megachiroptera | Pteropodidae | Pteropodinae | Rousettus | Rousettus aegyptiacus | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30559 | NCBI:9398 | NCBI:77225 | NCBI:9406 | NCBI:9407 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9407 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
EOL:327863 | Artibeus jamaicensis | SAME_AS | NCBI:9417 | Artibeus jamaicensis | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Stenodermatinae | Artibeus | Artibeus jamaicensis | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40234 | NCBI:9416 | NCBI:9417 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=9417 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Carollia brevicauda | SAME_AS | NCBI:138695 | Carollia brevicauda | species | root | cellular organisms | Eukaryota | Opisthokonta | Metazoa | Eumetazoa | Bilateria | Deuterostomia | Chordata | Craniata | Vertebrata | Gnathostomata | Teleostomi | Euteleostomi | Sarcopterygii | Dipnotetrapodomorpha | Tetrapoda | Amniota | Mammalia | Theria | Eutheria | Boreoeutheria | Laurasiatheria | Chiroptera | Microchiroptera | Phyllostomidae | Carolliinae | Carollia | Carollia brevicauda | NCBI:1 | NCBI:131567 | NCBI:2759 | NCBI:33154 | NCBI:33208 | NCBI:6072 | NCBI:33213 | NCBI:33511 | NCBI:7711 | NCBI:89593 | NCBI:7742 | NCBI:7776 | NCBI:117570 | NCBI:117571 | NCBI:8287 | NCBI:1338369 | NCBI:32523 | NCBI:32524 | NCBI:40674 | NCBI:32525 | NCBI:9347 | NCBI:1437010 | NCBI:314145 | NCBI:9397 | NCBI:30560 | NCBI:9415 | NCBI:40231 | NCBI:40232 | NCBI:138695 | | | superkingdom | clade | kingdom | clade | clade | clade | phylum | subphylum | clade | clade | clade | clade | superclass | clade | clade | clade | class | clade | clade | clade | superorder | order | suborder | family | subfamily | genus | species | https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=138695 |
hey @arw36 Anna - I can see the value in linking your name to identifiers provided by some naming authority.
I've been tossing around this idea to provide an automated name review report. In these name reviews, taxon name identifiers related to provided names would be listed. These suggested taxon name identifiers (e.g., NCBI:9606) can then be used by dataset authors/curators however they'd like. In your case, you could use (after review) the identifiers in your interactions.tsv file.
Curious to hear your thoughts about this idea.