OSC / phylogatr-web

The web app for the Phylogatr Project - https://phylogatr.org/
https://phylogatr.org/
MIT License
0 stars 0 forks source link

Address species that have too long filenames because of accidentally using the long gene name form #21

Open johrstrom opened 2 years ago

johrstrom commented 2 years ago

When attempting to generate a tarball of all the data, this caused a problem:

/usr/local/ruby/2.5.5/lib/ruby/2.5.0/rubygems/package/tar_writer.rb:330:in `split_name': File "phylogatr-results/Bacillariophyceae/Bacillariales/Bacillariaceae/Pseudo-nitzschia-mannii/Pseudo-nitzschia-mannii-RIBULOSE-1,5-BISPHOSPHATE-CARBOXYLASE-OXYGENASE-LARGE-SUBUNIT-(RBCL)-GENE.afa" has a too long name (should be 100 or less) (Gem::Package::TooLongFileName)

The problem is Pseudo-nitzschia-mannii-RIBULOSE-1,5-BISPHOSPHATE-CARBOXYLASE-OXYGENASE-LARGE-SUBUNIT-(RBCL)-GENE.afa where this is obviously not the short form of the gene name: RIBULOSE-1,5-BISPHOSPHATE-CARBOXYLASE-OXYGENASE-LARGE-SUBUNIT-(RBCL)-GENE. That short form is probably RBCL.

johrstrom commented 2 years ago

This particular file is still problematic.

The actual file contents is tiny, so you can see the source accession and gbif record ids for help in fixing the problem:

>LR594647_2286502301
gtttatctggtaaaaactacggtncgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcntcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtcaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaancatgtggtccattacaaacagctttagatttatggaaagatattagttttanctacacatctacagatacagctgatttcgctgtaacaccaactgcaaac
>LR594648_2286508931
tcaatgtctcaatctgtatcagaacggactcgaattaaaagtgaccgttacgaatctggtgtaatcccttatgctaaaatgggttactgggatgcttcatacgcagtaaaaactactgatgttcttgctttattccgtatcacaccacaaccaggcgtagatcctgtagaagctgctgctgcagtagctggtgaatcttcaacagcaacttggacagttgtatggactgatttattaacagcttgtgaccgttaccgtgctaaagcttaccgtgtagatccagttccaaacacatcagatgtattctttgctttcatcgcatacgaatgtgatttatttgaagaaggttctttatcgaacttaacagcatctatcattggtaacgtattcggttttaaagctgtatcagctttacgtttagaagacatgcgtattcctcactcatacttaaaaacattccaaggtcctgcnacaggtatcgttgtagaacgtgaacgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcgtcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtaaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaaacagct
>LR594649_2286502346
gttgtagaacgtgaacgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcgtcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtaaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaa
>LR594651_2286502439
tctgtatcagaacggactcgaattaaaagtgaccgttacgaatctggtgtaatcccttatgctaaaatgggttactgggatgcttcatacgcagtaaaaactactgatgttcttgctttattccgtatcacaccacaaccaggcgtagatcctgtagaagctgctgctgcagtagctggtgaatcttcaacagcaacttggacagttgtatggactgatttattaacagcttgtgaccgttaccgtgctaaagcttaccgtgtagatccagttccaaacacatcagatgtattctttgctttcatcgcatacgaatgtgatttatttgaagaaggttctttatcgaacttaacagcatctatcattggtaacgtattcggttttaaagctgtatcagctttacgtttagaagacatgcgtattcctcactcatacttaaaaacattccaaggtcctgcaacaggtatcgttgtagaacgtgaacgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcgtcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtaaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaaacagcttta
>LR594652_2286512821
caatctgtatcagaacggactcgaattaaaagtgaccgttacgaatctggtgtaatcccttatgctaaaatgggttactgggatgcttcatacgcagtaaaaactactgatgttcttgctttattccgtatcacaccacaaccaggcgtagatcctgtagaagctgctgctgcagtagctggtgaatcttcaacagcaacttggacagttgtatggactgatttattaacagcttgtgaccgttaccgtgctaaagcttaccgtgtagatccagttccaaacacatcagatgtattctttgctttcatcgcatacgaatgtgatttatttgaagaaggttctttatcgaacttaacagcatctatcattggtaacgtattcggttttaaagctgtatcagctttacgtttagaagacatgcgtattcctcactcatacttaaaaacattccaaggtcctgcaacaggtatcgttgtagaacgtgaacgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcgtcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtaaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaaacagctttagatttatggaaagatattagttttaactacacatctacagataca
>LR594653_2286502078
cgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcgtcgttatgatcgatttagttatgggttacactgcaatccaaagtactgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatacggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtaaagactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaaacagct
>LR594654_2286510307
acaggtatcgttgtagaacgtgaacgtttaaataaatatggtactcctttattaggtgctacagtaaaaccaaaattaggtttatctggtaaaaactacggtcgtgtagtattcgaaggtttaaaaggtggtttagacttcttaaaagatgatgaaaacattaactctcaaccattcatgcgttggagagagcgtttcttaaactgtatggaaggtattaaccgtgcatctgctgctacaggagaagtaaaaggttcttacttaaacgttacagctgcaactatggaagaagttatcaaacgttgtgaatatgctaaagaagtaggttctatcatcgttatgatcgatttagttatgggttacactgcaatccaaagtgctgcatactgggctcgtgaaaacgatatgcttttacatttacaccgtgctggtaactctacatacgcacgtcaaaagaaccacggtattaacttccgtgtaatctgtaaatggatgcgtatgtctggtgtagatcatatccacgctggaacagttgtaggtaaattagaaggtgatcctttaatgattaaaggtttctacgatgttttacgtttaactcacttagaagttaacttaccatttggtattttcttcgaaatgccttgggctagtttacgtcgttgtatgccggtagcatctggtggtattcactgtggtcaaatgcaccaattaattcactacttaggtgatgatgtagtattacaatttggtggtggtacaatcggtcacccagatggtattcaagccggtgctacagctaaccgtgttgctttagaagcaatggtattagctcgtaacgaaggtcacgactacttcagtccagaagttggtccacaaatcttacgtaatgccgctaaaacatgtggtccattacaaacagct
johrstrom commented 2 years ago

Though this won't affect production since the result is this file is not aligned, so the species is ignored:

 #<Species:0x0000558427576510
  id: 77455,
  path: "Bacillariophyceae/Bacillariales/Bacillariaceae/Pseudo-nitzschia-mannii",
  total_seqs: 15,
  total_bytes: 18744,
  aligned: false,
  taxon_kingdom: "Chromista",
  taxon_phylum: "Ochrophyta",
  taxon_class: "Bacillariophyceae",
  taxon_order: "Bacillariales",
  taxon_family: "Bacillariaceae",
  taxon_genus: "Pseudo-nitzschia",
  taxon_species: "Pseudo-nitzschia mannii",
  taxon_subspecies: "",
  different_genbank_species: nil>]