RolandFaure / Hairsplitter

Software that separates very close sequences that have been collapsed during assembly. Uses only long reads.
GNU General Public License v3.0
26 stars 0 forks source link

Failed to compile from source directory #2

Closed alexvasilikop closed 11 months ago

alexvasilikop commented 11 months ago

Hello,

I tried cloning and installing as described in the documentation but failed to install

git clone https://github.com/RolandFaure/Hairsplitter.git
cd Hairsplitter/src/build
cmake ..
make
Cloning into 'Hairsplitter'...
remote: Enumerating objects: 1095, done.
remote: Counting objects: 100% (76/76), done.
remote: Compressing objects: 100% (46/46), done.
remote: Total 1095 (delta 39), reused 55 (delta 27), pack-reused 1019
Receiving objects: 100% (1095/1095), 6.67 MiB | 5.85 MiB/s, done.
Resolving deltas: 100% (817/817), done.
cd: no such file or directory: Hairsplitter/src/build
CMake Warning:
  Ignoring extra path from command line:

   ".."

Then I tried running cmake and make from the src/ subdirectory:

cd Hairsplitter/src/
cmake .
make

[  2%] Building CXX object CMakeFiles/fa2gfa.dir/fa2gfa.cpp.o
[  4%] Linking CXX executable fa2gfa
[  4%] Built target fa2gfa
[  6%] Building CXX object CMakeFiles/gfa2fa.dir/gfa2fa.cpp.o
[  8%] Linking CXX executable gfa2fa
[  8%] Built target gfa2fa
[ 11%] Building CXX object CMakeFiles/clean_graph.dir/Partition.cpp.o
[ 13%] Building CXX object CMakeFiles/clean_graph.dir/clean_graph.cpp.o
[ 15%] Building CXX object CMakeFiles/clean_graph.dir/input_output.cpp.o
[ 17%] Building CXX object CMakeFiles/clean_graph.dir/read.cpp.o
[ 20%] Building CXX object CMakeFiles/clean_graph.dir/sequence.cpp.o
[ 22%] Building CXX object CMakeFiles/clean_graph.dir/tools.cpp.o
[ 24%] Building CXX object CMakeFiles/clean_graph.dir/edlib/src/edlib.cpp.o
[ 26%] Linking CXX executable clean_graph
[ 26%] Built target clean_graph
[ 28%] Building CXX object CMakeFiles/call_variants.dir/Partition.cpp.o
[ 31%] Building CXX object CMakeFiles/call_variants.dir/call_variants.cpp.o
[ 33%] Building CXX object CMakeFiles/call_variants.dir/input_output.cpp.o
[ 35%] Building CXX object CMakeFiles/call_variants.dir/read.cpp.o
[ 37%] Building CXX object CMakeFiles/call_variants.dir/sequence.cpp.o
[ 40%] Building CXX object CMakeFiles/call_variants.dir/tools.cpp.o
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp: In function ‘std::__cxx11::string consensus_reads(const string&, std::vector<std::__cxx11::basic_string<char> >&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&)’:
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp:225:11: warning: ignoring return value of ‘int system(const char*)’, declared with attribute warn_unused_result [-Wunused-result]
     system("mkdir tmp/ 2> trash.txt");
     ~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp:284:11: warning: ignoring return value of ‘int system(const char*)’, declared with attribute warn_unused_result [-Wunused-result]
     system(commandMap.c_str());
     ~~~~~~^~~~~~~~~~~~~~~~~~~~
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp:288:11: warning: ignoring return value of ‘int system(const char*)’, declared with attribute warn_unused_result [-Wunused-result]
     system(commandPolish.c_str());
     ~~~~~~^~~~~~~~~~~~~~~~~~~~~~~
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp: In function ‘std::__cxx11::string consensus_reads_wtdbg2(const string&, std::vector<std::__cxx11::basic_string<char> >&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&, std::__cxx11::string&)’:
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp:399:11: warning: ignoring return value of ‘int system(const char*)’, declared with attribute warn_unused_result [-Wunused-result]
     system("mkdir tmp/ 2> trash.txt");
     ~~~~~~^~~~~~~~~~~~~~~~~~~~~~~~~~~
/mnt/sda1/Alex/software/Hairsplitter/src/tools.cpp:427:11: warning: ignoring return value of ‘int system(const char*)’, declared with attribute warn_unused_result [-Wunused-result]
     system(commandMap.c_str());
     ~~~~~~^~~~~~~~~~~~~~~~~~~~
[ 42%] Building CXX object CMakeFiles/call_variants.dir/edlib/src/edlib.cpp.o
[ 44%] Linking CXX executable call_variants
[ 44%] Built target call_variants
[ 46%] Building CXX object CMakeFiles/filter_variants.dir/Partition.cpp.o
[ 48%] Building CXX object CMakeFiles/filter_variants.dir/filter_variants.cpp.o
/mnt/sda1/Alex/software/Hairsplitter/src/filter_variants.cpp:12:10: fatal error: clipp.h: No such file or directory
 #include "clipp.h" //library to build command line interfaces
          ^~~~~~~~~
compilation terminated.
make[2]: *** [CMakeFiles/filter_variants.dir/build.make:90: CMakeFiles/filter_variants.dir/filter_variants.cpp.o] Error 1
make[1]: *** [CMakeFiles/Makefile2:199: CMakeFiles/filter_variants.dir/all] Error 2
make: *** [Makefile:91: all] Error 2

Indeed I tried to locate this file but could not:

find ./ clipp.h
./
./Partition.h
./fa2gfa
./filter_variants.cpp
./separate_reads.h
./edlib
./edlib/src
./edlib/src/edlib.cpp
./edlib/include
./edlib/include/edlib.h
./Makefile
./Partition.cpp
./CMakeCache.txt
./read.cpp
./cluster_graph.h
./create_new_contigs.h
./cmake_install.cmake
./fa2gfa.cpp
./call_variants
./input_output.h
./clean_graph
./CMakeLists.txt
./read.h
./input_output.cpp
./separate_reads.cpp
./robin_hood.h
./tools.h
./gfa2fa.cpp
./CMakeFiles
./CMakeFiles/separate_reads.dir
./CMakeFiles/separate_reads.dir/depend.make
./CMakeFiles/separate_reads.dir/build.make
./CMakeFiles/separate_reads.dir/edlib
./CMakeFiles/separate_reads.dir/edlib/src
./CMakeFiles/separate_reads.dir/link.txt
./CMakeFiles/separate_reads.dir/progress.make
./CMakeFiles/separate_reads.dir/compiler_depend.make
./CMakeFiles/separate_reads.dir/compiler_depend.ts
./CMakeFiles/separate_reads.dir/flags.make
./CMakeFiles/separate_reads.dir/DependInfo.cmake
./CMakeFiles/separate_reads.dir/cmake_clean.cmake
./CMakeFiles/feature_tests.cxx
./CMakeFiles/Makefile.cmake
./CMakeFiles/progress.marks
./CMakeFiles/Progress
./CMakeFiles/Progress/35
./CMakeFiles/Progress/16
./CMakeFiles/Progress/3
./CMakeFiles/Progress/8
./CMakeFiles/Progress/5
./CMakeFiles/Progress/2
./CMakeFiles/Progress/14
./CMakeFiles/Progress/7
./CMakeFiles/Progress/count.txt
./CMakeFiles/Progress/11
./CMakeFiles/Progress/4
./CMakeFiles/Progress/9
./CMakeFiles/Progress/25
./CMakeFiles/Progress/27
./CMakeFiles/Progress/13
./CMakeFiles/Progress/36
./CMakeFiles/Progress/26
./CMakeFiles/Progress/12
./CMakeFiles/Progress/28
./CMakeFiles/Progress/1
./CMakeFiles/Progress/15
./CMakeFiles/Progress/10
./CMakeFiles/Progress/6
./CMakeFiles/CMakeDirectoryInformation.cmake
./CMakeFiles/CMakeOutput.log
./CMakeFiles/filter_variants.dir
./CMakeFiles/filter_variants.dir/depend.make
./CMakeFiles/filter_variants.dir/build.make
./CMakeFiles/filter_variants.dir/edlib
./CMakeFiles/filter_variants.dir/edlib/src
./CMakeFiles/filter_variants.dir/link.txt
./CMakeFiles/filter_variants.dir/progress.make
./CMakeFiles/filter_variants.dir/compiler_depend.make
./CMakeFiles/filter_variants.dir/compiler_depend.ts
./CMakeFiles/filter_variants.dir/flags.make
./CMakeFiles/filter_variants.dir/Partition.cpp.o
./CMakeFiles/filter_variants.dir/DependInfo.cmake
./CMakeFiles/filter_variants.dir/Partition.cpp.o.d
./CMakeFiles/filter_variants.dir/cmake_clean.cmake
./CMakeFiles/feature_tests.bin
./CMakeFiles/call_variants.dir
./CMakeFiles/call_variants.dir/depend.make
./CMakeFiles/call_variants.dir/build.make
./CMakeFiles/call_variants.dir/edlib
./CMakeFiles/call_variants.dir/edlib/src
./CMakeFiles/call_variants.dir/edlib/src/edlib.cpp.o.d
./CMakeFiles/call_variants.dir/edlib/src/edlib.cpp.o
./CMakeFiles/call_variants.dir/call_variants.cpp.o
./CMakeFiles/call_variants.dir/sequence.cpp.o.d
./CMakeFiles/call_variants.dir/sequence.cpp.o
./CMakeFiles/call_variants.dir/link.txt
./CMakeFiles/call_variants.dir/progress.make
./CMakeFiles/call_variants.dir/compiler_depend.make
./CMakeFiles/call_variants.dir/compiler_depend.ts
./CMakeFiles/call_variants.dir/input_output.cpp.o.d
./CMakeFiles/call_variants.dir/flags.make
./CMakeFiles/call_variants.dir/input_output.cpp.o
./CMakeFiles/call_variants.dir/Partition.cpp.o
./CMakeFiles/call_variants.dir/DependInfo.cmake
./CMakeFiles/call_variants.dir/Partition.cpp.o.d
./CMakeFiles/call_variants.dir/tools.cpp.o
./CMakeFiles/call_variants.dir/call_variants.cpp.o.d
./CMakeFiles/call_variants.dir/cmake_clean.cmake
./CMakeFiles/call_variants.dir/tools.cpp.o.d
./CMakeFiles/call_variants.dir/read.cpp.o.d
./CMakeFiles/call_variants.dir/read.cpp.o
./CMakeFiles/create_new_contigs.dir
./CMakeFiles/create_new_contigs.dir/depend.make
./CMakeFiles/create_new_contigs.dir/build.make
./CMakeFiles/create_new_contigs.dir/edlib
./CMakeFiles/create_new_contigs.dir/edlib/src
./CMakeFiles/create_new_contigs.dir/link.txt
./CMakeFiles/create_new_contigs.dir/progress.make
./CMakeFiles/create_new_contigs.dir/CXX.includecache
./CMakeFiles/create_new_contigs.dir/compiler_depend.make
./CMakeFiles/create_new_contigs.dir/compiler_depend.ts
./CMakeFiles/create_new_contigs.dir/flags.make
./CMakeFiles/create_new_contigs.dir/DependInfo.cmake
./CMakeFiles/create_new_contigs.dir/cmake_clean.cmake
./CMakeFiles/feature_tests.c
./CMakeFiles/FindOpenMP
./CMakeFiles/FindOpenMP/ompver_CXX.bin
./CMakeFiles/FindOpenMP/OpenMPCheckVersion.c
./CMakeFiles/FindOpenMP/ompver_C.bin
./CMakeFiles/FindOpenMP/OpenMPTryFlag.cpp
./CMakeFiles/FindOpenMP/OpenMPCheckVersion.cpp
./CMakeFiles/FindOpenMP/OpenMPTryFlag.c
./CMakeFiles/Makefile2
./CMakeFiles/CMakeScratch
./CMakeFiles/clean_graph.dir
./CMakeFiles/clean_graph.dir/depend.make
./CMakeFiles/clean_graph.dir/build.make
./CMakeFiles/clean_graph.dir/edlib
./CMakeFiles/clean_graph.dir/edlib/src
./CMakeFiles/clean_graph.dir/edlib/src/edlib.cpp.o.d
./CMakeFiles/clean_graph.dir/edlib/src/edlib.cpp.o
./CMakeFiles/clean_graph.dir/sequence.cpp.o.d
./CMakeFiles/clean_graph.dir/sequence.cpp.o
./CMakeFiles/clean_graph.dir/link.txt
./CMakeFiles/clean_graph.dir/progress.make
./CMakeFiles/clean_graph.dir/compiler_depend.make
./CMakeFiles/clean_graph.dir/compiler_depend.ts
./CMakeFiles/clean_graph.dir/input_output.cpp.o.d
./CMakeFiles/clean_graph.dir/flags.make
./CMakeFiles/clean_graph.dir/input_output.cpp.o
./CMakeFiles/clean_graph.dir/Partition.cpp.o
./CMakeFiles/clean_graph.dir/clean_graph.cpp.o
./CMakeFiles/clean_graph.dir/DependInfo.cmake
./CMakeFiles/clean_graph.dir/Partition.cpp.o.d
./CMakeFiles/clean_graph.dir/clean_graph.cpp.o.d
./CMakeFiles/clean_graph.dir/tools.cpp.o
./CMakeFiles/clean_graph.dir/cmake_clean.cmake
./CMakeFiles/clean_graph.dir/tools.cpp.o.d
./CMakeFiles/clean_graph.dir/read.cpp.o.d
./CMakeFiles/clean_graph.dir/read.cpp.o
./CMakeFiles/3.26.4
./CMakeFiles/3.26.4/CMakeCXXCompiler.cmake
./CMakeFiles/3.26.4/CMakeDetermineCompilerABI_CXX.bin
./CMakeFiles/3.26.4/CMakeCCompiler.cmake
./CMakeFiles/3.26.4/CompilerIdCXX
./CMakeFiles/3.26.4/CompilerIdCXX/tmp
./CMakeFiles/3.26.4/CompilerIdCXX/a.out
./CMakeFiles/3.26.4/CompilerIdCXX/CMakeCXXCompilerId.cpp
./CMakeFiles/3.26.4/CompilerIdC
./CMakeFiles/3.26.4/CompilerIdC/CMakeCCompilerId.c
./CMakeFiles/3.26.4/CompilerIdC/tmp
./CMakeFiles/3.26.4/CompilerIdC/a.out
./CMakeFiles/3.26.4/CMakeDetermineCompilerABI_C.bin
./CMakeFiles/3.26.4/CMakeSystem.cmake
./CMakeFiles/CMakeTmp
./CMakeFiles/TargetDirectories.txt
./CMakeFiles/pkgRedirects
./CMakeFiles/3.12.1
./CMakeFiles/3.12.1/CMakeCXXCompiler.cmake
./CMakeFiles/3.12.1/CMakeDetermineCompilerABI_CXX.bin
./CMakeFiles/3.12.1/CMakeCCompiler.cmake
./CMakeFiles/3.12.1/CompilerIdCXX
./CMakeFiles/3.12.1/CompilerIdCXX/tmp
./CMakeFiles/3.12.1/CompilerIdCXX/a.out
./CMakeFiles/3.12.1/CompilerIdCXX/CMakeCXXCompilerId.cpp
./CMakeFiles/3.12.1/CompilerIdC
./CMakeFiles/3.12.1/CompilerIdC/CMakeCCompilerId.c
./CMakeFiles/3.12.1/CompilerIdC/tmp
./CMakeFiles/3.12.1/CompilerIdC/a.out
./CMakeFiles/3.12.1/CMakeDetermineCompilerABI_C.bin
./CMakeFiles/3.12.1/CMakeSystem.cmake
./CMakeFiles/gfa2fa.dir
./CMakeFiles/gfa2fa.dir/depend.make
./CMakeFiles/gfa2fa.dir/build.make
./CMakeFiles/gfa2fa.dir/link.txt
./CMakeFiles/gfa2fa.dir/progress.make
./CMakeFiles/gfa2fa.dir/CXX.includecache
./CMakeFiles/gfa2fa.dir/compiler_depend.make
./CMakeFiles/gfa2fa.dir/compiler_depend.ts
./CMakeFiles/gfa2fa.dir/flags.make
./CMakeFiles/gfa2fa.dir/DependInfo.cmake
./CMakeFiles/gfa2fa.dir/cmake_clean.cmake
./CMakeFiles/gfa2fa.dir/gfa2fa.cpp.o
./CMakeFiles/gfa2fa.dir/gfa2fa.cpp.o.d
./CMakeFiles/CMakeConfigureLog.yaml
./CMakeFiles/cmake.check_cache
./CMakeFiles/fa2gfa.dir
./CMakeFiles/fa2gfa.dir/depend.make
./CMakeFiles/fa2gfa.dir/build.make
./CMakeFiles/fa2gfa.dir/link.txt
./CMakeFiles/fa2gfa.dir/progress.make
./CMakeFiles/fa2gfa.dir/compiler_depend.make
./CMakeFiles/fa2gfa.dir/compiler_depend.ts
./CMakeFiles/fa2gfa.dir/flags.make
./CMakeFiles/fa2gfa.dir/fa2gfa.cpp.o
./CMakeFiles/fa2gfa.dir/DependInfo.cmake
./CMakeFiles/fa2gfa.dir/fa2gfa.cpp.o.d
./CMakeFiles/fa2gfa.dir/cmake_clean.cmake
./gfa2fa
./GraphUnzip
./GraphUnzip/analyse_coverage_HiC.py
./GraphUnzip/graphunzip.py
./GraphUnzip/transform_gfa.py
./GraphUnzip/input_output.py
./GraphUnzip/analyse_HiC.py
./GraphUnzip/docopt.py
./GraphUnzip/interaction_between_contigs.py
./GraphUnzip/README.md
./GraphUnzip/tests.py
./GraphUnzip/LICENSE
./GraphUnzip/solve_ambiguities.py
./GraphUnzip/solve_with_long_reads.py
./GraphUnzip/simple_unzip.py
./GraphUnzip/gfa_tangled.png
./GraphUnzip/gfa_split.png
./GraphUnzip/segment.py
./GraphUnzip/solve_with_HiC.py
./GraphUnzip/check_phasing.py
./GraphUnzip/contig_DBG.py
./GraphUnzip/determine_multiplicity.py
./GraphUnzip/trash.py
./GraphUnzip/finish_untangling.py
./call_variants.cpp
./cluster_graph.cpp
./sequence.h
./call_variants.h
./filter_variants.h
./tools.cpp
./create_new_contigs.cpp
./clean_graph.cpp
./sequence.cpp
find: ‘clipp.h’: No such file or directory

Any help would be appreciated

Thanks Alex

FrostFlow13 commented 11 months ago

I'd like to second this - I just tried to install Hairsplitter today as well (I've been struggling to find a program that can accurately split the haplotypes of a collapsed diploid genome, and the description of Hairsplitter sounded perfect for our needs), and I also had the same error (I believe, at least):

[ 48%] Building CXX object CMakeFiles/filter_variants.dir/filter_variants.cpp.o
/users/PAS1802/woodruff207/Hairsplitter/src/filter_variants.cpp:12:10: fatal error: clipp.h: No such file or directory
   12 | #include "clipp.h" //library to build command line interfaces
      |          ^~~~~~~~~
compilation terminated.
make[2]: *** [CMakeFiles/filter_variants.dir/filter_variants.cpp.o] Error 1
make[1]: *** [CMakeFiles/filter_variants.dir/all] Error 2
make: *** [all] Error 2

Again, I'm very excited to try out Hairsplitter, it just seems like there's one file missing (clipp.h), maybe?


EDIT1

I found clipp.h from another branch of Hairsplitter and incorporated it - that seems to have bypassed the issue with running "make". However, I have now hit a new issue:

sh: /users/PAS1802/woodruff207/Hairsplitter/src/build/fa2gfa: No such file or directory
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28
HairSplitter v1.3.1 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-10

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

ERROR: Conversion from fasta to gfa failed while running the command:
/users/PAS1802/woodruff207/Hairsplitter/src/build/fa2gfa 1376-haploid.fasta > ../8_hairsplitter/tmp/assembly.gfa

It seems like there's no "build" directory in the /src/ directory, which I've confirmed by poking around the directories (it also appears that it might be also missing from GitHub itself?).


EDIT2

I got it a bit farther once again! This time, I made a new build directory inside /src/, ran "cmake .. -DCMAKE[...]", then ran "make" inside the build directory and it appeared to build it just fine. However, it now appears to error out on stage 5 from what I can tell:

 - Loading all reads from ../1_demul_adtrim/BC15.fastq in memory
 - Loading all contigs from ../8_hairsplitter/tmp/cleaned_assembly.gfa in memory
 - Loading alignments of the reads on the contigs from ../8_hairsplitter/tmp/reads_on_asm.sam
 - Calling variants on each contig using basic pileup
terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28
HairSplitter v1.3.1 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-10

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

===== STAGE 1: Cleaning graph of small contigs that are unconnected parts of haplotypes   [ 2023-08-10 15:35:08.559528 ]

 When the assemblers manage to locally phase the haplotypes, they sometimes assemble the alternative haplotype as a separate contig, unconnected in the gfa graph. This affects negatively the performance of Hairsplitter. Let's delete these contigs

 - Mapping the assembly against itself
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/clean_graph ../8_hairsplitter/tmp/assembly.gfa ../8_hairsplitter/tmp/cleaned_assembly.gfa ../8_hairsplitter ../8_hairsplitter/hairsplitter.log 28 minimap2
 - Eliminated small unconnected contigs that align on other contigs

===== STAGE 2: Aligning reads on the reference   [ 2023-08-10 15:35:10.486125 ]

 - Converting the assembly in fasta format
 - Aligning the reads on the assembly
 - Running minimap with command line:
      minimap2 ../8_hairsplitter/tmp/cleaned_assembly.fasta ../1_demul_adtrim/BC15.fastq -x map-ont -a --secondary=no -t 28 > ../8_hairsplitter/tmp/reads_on_asm.sam 2> ../8_hairsplitter/tmp/logminimap.txt 
   The log of minimap2 can be found at ../8_hairsplitter/tmp/logminimap.txt

===== STAGE 3: Calling variants   [ 2023-08-10 15:38:05.211768 ]

 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/call_variants ../8_hairsplitter/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15.fastq ../8_hairsplitter/tmp/reads_on_asm.sam 28 ../8_hairsplitter/tmp ../8_hairsplitter/tmp/error_rate.txt 0 ../8_hairsplitter/tmp/variants.col ../8_hairsplitter/tmp/variants.vcf

===== STAGE 4: Filtering variants   [ 2023-08-10 15:59:38.048162 ]

 - Filtering variants
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/filter_variants ../8_hairsplitter/tmp/variants.col 0.0154948 28 0 ../8_hairsplitter/tmp/filtered_variants.col ../8_hairsplitter/tmp/variants.vcf ../8_hairsplitter/tmp/variants_filtered.vcf

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-10 16:34:13.356621 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro
ERROR: separate_reads failed. Was trying to run: /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

I'm not entirely sure why it threw and error this time - digging more into that. It looks like the important part is:

terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi

or

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-10 16:34:13.356621 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro
ERROR: separate_reads failed. Was trying to run: /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

but I'm not sure how to go about solving this issue. Inside the file "separate_reads.cpp", lines 86 and 115 mention "std::stoi", but I don't personally know enough about that type of code to tell what might be happening.

Just in case it's important, here are all of the file names and sizes inside my output directory:

file    dependancies_log.txt        0 Bytes     8/10/2023 3:35:06 PM
file    assembly.fa         13.9 MB     8/10/2023 3:35:08 PM
file    trash.txt           246 Bytes   8/10/2023 3:35:08 PM
file    assembly.gfa            13.9 MB     8/10/2023 3:35:08 PM
file    minimap2.log            707 Bytes   8/10/2023 3:35:10 PM
file    assembly_against_itself.sam 13.9 MB     8/10/2023 3:35:10 PM
file    cleaned_assembly.fasta      13.9 MB     8/10/2023 3:35:10 PM
file    cleaned_assembly.gfa        13.9 MB     8/10/2023 3:35:10 PM
file    reads_on_asm.sam        13.7 GB     8/10/2023 3:38:05 PM
file    logminimap.txt          1.46 KB     8/10/2023 3:38:05 PM
file    variants.col            98.4 GB     8/10/2023 3:59:31 PM
file    variants.vcf            12.2 MB     8/10/2023 3:59:31 PM
file    error_rate.txt          10 Bytes    8/10/2023 3:59:34 PM
file    filtered_variants.col       53.1 GB     8/10/2023 4:34:12 PM
file    variants_filtered.vcf       146 Bytes   8/10/2023 4:34:12 PM
file    reads_haplo.gro         0 Bytes     8/10/2023 4:34:13 PM
RolandFaure commented 11 months ago

Many thanks to you for beta-testing HairSplitter and sorry for all the remaining small bugs. Your feedback is extremely appreciated.

First issue: the dependancy in clipp.h was actually removed, so the best fix for the bug is to actually remove the include "clipp.h". This has been fixed and pushed

Second issue: The "README" was not completely coherent with the file structure. Creating a "build/" directory in src/ and compiling from it was the good thing to do. The README has been updated

Third issue: This is a little bit more tricky. I think I know what the problem is but I'm not completely sure. @FrostFlow13 could you send me here the first 3000 lines of the file tmp/variants.col ? (using for example head -n 3000 variants.col)

FrostFlow13 commented 11 months ago

I'll definitely send you the first 3000 lines as soon as I'm in the office.

FrostFlow13 commented 11 months ago

Here it is!

[tmp]$ head -n 3000 variants.col

3000head-variants.col.txt


Also, just in case this also helps, here's some additional information:

I used Flye on demultiplexed and adapter-trimmed ONT long reads, polished using 1 round of Medaka and 5 rounds of Pilon, removed the mitochondrial DNA of our organism, then manually assembled the remaining contigs into chromosome-level contigs (as best I could, based on a reference genome), and removed any contigs that could be haplotigs. The resulting .fasta file of chromosome-level contigs is what I'm using for the assembly.

The script I used for running Hairsplitter:

source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
python /users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28

I'm currently trying another run at it from the top with your most recent commits (the installation process was much smoother this time!), I'll let you know how that goes.

RolandFaure commented 11 months ago

I'm sorry, the 3000 first lines are actually not sufficient (because it seems you have long contigs and/or deep coverage). What I was actually trying to look at are the SNPS lines. So maybe you could send me a file with the first thousand or so SNP lines (using e.g. awk '{if($1=="SNPS") print;}' variants.col | head -n 3000) ? Thanks

FrostFlow13 commented 11 months ago

My apologies - we actually have both very long contigs and very deep coverage.

I tried running the suggested line to grab the SNP lines, but it seems like it prints out a ton of commas and whitespaces for some reason: image

grep oddly does the same thing. I'm trying to sort that out so that I can get you the SNP lines!


Okay, this is odd - apparently, it works just fine when trying to awk or grep the "READS" lines: image

RolandFaure commented 11 months ago

Yes this is normal, this is the way SNPS lines are build (whitespace represent reads that do not cover a position)

FrostFlow13 commented 11 months ago

Ah, understood! In the terminal it looked like something was going wrong, that makes a lot more sense. Sorry, I'll go ahead and save the results down into a text file.

Unfortunately, it looks like 3000 lines might be too much to upload (even 300 lines was still to large: I'm wondering if our dataset might just be too large...). The resulting file was 690 MB, and GitHub has a max file size of 25 MB. I'll try a reduced run (awk '{if($1=="SNPS") print $0;}' variants.col | head -n 100 > 100head-SNPS-variants.col.txt):

100head-SNPS-variants.col.txt

RolandFaure commented 11 months ago

Thank you! The lines look good, so I don't see what was causing the issue... Could you try without the commas and whitespace but with the whole file ? (awk '{if($1=="SNPS") print $1"\t"$2"$3"\t"$4;}' variants.col) Do tell me also if HairSplitter is still failing with the version I pushed this morning, it might have dealt with the issue

FrostFlow13 commented 11 months ago

Thank you for all the help!

Using (awk '{if($1=="SNPS") print $1"\t"$2"\t"$3"\t"$4;}' variants.col > nocomnowh-variants.col.txt):

nocomnowh-variants.col.txt


As for my run of HairSplitter this morning, it looks like it failed again, potentially with the same issue (and checking the header, it looks like it should have been the version you pushed this morning that I ran on this attempt):

 - Loading all reads from ../1_demul_adtrim/BC15.fastq in memory
 - Loading all contigs from ../8_hairsplitter/tmp/cleaned_assembly.gfa in memory
 - Loading alignments of the reads on the contigs from ../8_hairsplitter/tmp/reads_on_asm.sam
 - Calling variants on each contig using basic pileup
terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28
HairSplitter v1.3.2 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-11

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

===== STAGE 1: Cleaning graph of small contigs that are unconnected parts of haplotypes   [ 2023-08-11 08:35:23.867928 ]

 When the assemblers manage to locally phase the haplotypes, they sometimes assemble the alternative haplotype as a separate contig, unconnected in the gfa graph. This affects negatively the performance of Hairsplitter. Let's delete these contigs

 - Mapping the assembly against itself
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/clean_graph ../8_hairsplitter/tmp/assembly.gfa ../8_hairsplitter/tmp/cleaned_assembly.gfa ../8_hairsplitter ../8_hairsplitter/hairsplitter.log 28 minimap2
 - Eliminated small unconnected contigs that align on other contigs

===== STAGE 2: Aligning reads on the reference   [ 2023-08-11 08:35:25.859432 ]

 - Converting the assembly in fasta format
 - Aligning the reads on the assembly
 - Running minimap with command line:
      minimap2 ../8_hairsplitter/tmp/cleaned_assembly.fasta ../1_demul_adtrim/BC15.fastq -x map-ont -a --secondary=no -t 28 > ../8_hairsplitter/tmp/reads_on_asm.sam 2> ../8_hairsplitter/tmp/logminimap.txt 
   The log of minimap2 can be found at ../8_hairsplitter/tmp/logminimap.txt

===== STAGE 3: Calling variants   [ 2023-08-11 08:38:19.013530 ]

 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/call_variants ../8_hairsplitter/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15.fastq ../8_hairsplitter/tmp/reads_on_asm.sam 28 ../8_hairsplitter/tmp ../8_hairsplitter/tmp/error_rate.txt 0 ../8_hairsplitter/tmp/variants.col ../8_hairsplitter/tmp/variants.vcf

===== STAGE 4: Filtering variants   [ 2023-08-11 08:59:28.427147 ]

 - Filtering variants
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/filter_variants ../8_hairsplitter/tmp/variants.col 0.0154948 28 0 ../8_hairsplitter/tmp/filtered_variants.col ../8_hairsplitter/tmp/variants.vcf ../8_hairsplitter/tmp/variants_filtered.vcf

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-11 09:33:53.990059 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro
ERROR: separate_reads failed. Was trying to run: /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

The "reads_haplo.gro" file is completely empty, if that helps at all.

RolandFaure commented 11 months ago

Hmm I don't see immediately... Would it be possible to send me the ../8_hairsplitter/tmp/filtered_variants.col file ? (roland.faure@irisa.fr, via wetransfer for example)

FrostFlow13 commented 11 months ago

I can do that, but be warned that it is a large file (53.1 GB)! I'm trying to find a good method for sending it over, as it seems like "WeTransfer" only allows up to 2 GB free. I have an idea, I just need to figure out how to do a direct transfer from our server into the location I have in mind (my laptop doesn't have the free space necessary). I'll also send the version of the file from today's run, just in case something HAS changed that might interfere with interpretations.

RolandFaure commented 11 months ago

Wow yes that is a little big, even if it should be well gzippable. You could try to see if you manage to make the command /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro crash with a smaller col file. col files contain CONTIG, READS and SNPS line, if you cut the file before a CONTIG line you obtain a smaller col file.

FrostFlow13 commented 11 months ago

Good idea! I'll try making a smaller .col file, then running that specific command (the original idea I had wasn't working, I'll keep trying to think of some type of workaround).

FrostFlow13 commented 11 months ago

Actually, I may have found a big, big part of my problem - I tried running the command in the terminal and got

/users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads: /usr/local/gnu/8.4.0/lib64/libstdc++.so.6: version `GLIBCXX_3.4.29' not found (required by /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads)

After I loaded up a module for gnu, it stopped throwing that error (but didn't do much else - that might be because I wasn't running it as part of a job though).

I had previously loaded the modules for gnu and cmake on the command line when installing Hairsplitter, but didn't include explicit load instructions in my script/job file. It's entirely possible the environment it's running the job in hasn't loaded either of those, and thus it could be hitting an issue when it's not able to find GLIBCXX. I'll try modifying my script to be sure those load, then run it again.

FrostFlow13 commented 11 months ago

Sorry in advance for the length of this post! I kept adding updates as things happened.


Unfortunately, specifically loading the modules in the script didn't actually end up solving the issue. Here's my script:

module load cmake/3.25.2
module load gnu/11.2.0
source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
python /users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28

And the eventual output file looks nearly identical to the one from earlier today:

 - Loading all reads from ../1_demul_adtrim/BC15.fastq in memory
 - Loading all contigs from ../8_hairsplitter/tmp/cleaned_assembly.gfa in memory
 - Loading alignments of the reads on the contigs from ../8_hairsplitter/tmp/reads_on_asm.sam
 - Calling variants on each contig using basic pileup
terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15.fastq -i 1376-haploid.fasta -x ont -o ../8_hairsplitter -t 28
HairSplitter v1.3.2 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-11

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

===== STAGE 1: Cleaning graph of small contigs that are unconnected parts of haplotypes   [ 2023-08-11 12:34:07.075390 ]

 When the assemblers manage to locally phase the haplotypes, they sometimes assemble the alternative haplotype as a separate contig, unconnected in the gfa graph. This affects negatively the performance of Hairsplitter. Let's delete these contigs

 - Mapping the assembly against itself
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/clean_graph ../8_hairsplitter/tmp/assembly.gfa ../8_hairsplitter/tmp/cleaned_assembly.gfa ../8_hairsplitter ../8_hairsplitter/hairsplitter.log 28 minimap2
 - Eliminated small unconnected contigs that align on other contigs

===== STAGE 2: Aligning reads on the reference   [ 2023-08-11 12:34:09.071499 ]

 - Converting the assembly in fasta format
 - Aligning the reads on the assembly
 - Running minimap with command line:
      minimap2 ../8_hairsplitter/tmp/cleaned_assembly.fasta ../1_demul_adtrim/BC15.fastq -x map-ont -a --secondary=no -t 28 > ../8_hairsplitter/tmp/reads_on_asm.sam 2> ../8_hairsplitter/tmp/logminimap.txt 
   The log of minimap2 can be found at ../8_hairsplitter/tmp/logminimap.txt

===== STAGE 3: Calling variants   [ 2023-08-11 12:37:02.477698 ]

 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/call_variants ../8_hairsplitter/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15.fastq ../8_hairsplitter/tmp/reads_on_asm.sam 28 ../8_hairsplitter/tmp ../8_hairsplitter/tmp/error_rate.txt 0 ../8_hairsplitter/tmp/variants.col ../8_hairsplitter/tmp/variants.vcf

===== STAGE 4: Filtering variants   [ 2023-08-11 12:58:10.803331 ]

 - Filtering variants
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/filter_variants ../8_hairsplitter/tmp/variants.col 0.0154948 28 0 ../8_hairsplitter/tmp/filtered_variants.col ../8_hairsplitter/tmp/variants.vcf ../8_hairsplitter/tmp/variants_filtered.vcf

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-11 13:32:16.952030 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro
ERROR: separate_reads failed. Was trying to run: /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

Trying to run /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro from the terminal after loading the modules also just gave the same error as before:

terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
Aborted

Furthermore, I made a smaller .col file by running head -n 135409 filtered_variants.col > Chr6-filtered_variants.col, since I've found that's where it goes from Chr6's contig to Chr7's contig:

(hairsplitter_env) [woodruff207@owens-login04 tmp]$ grep -nE 'CONTIG' filtered_variants.col 
1:CONTIG        C_albicans-MAY1376-Chr6-contig_109_96_122_91_92_97      1060344 408.69
135410:CONTIG   C_albicans-MAY1376-Chr7-contig_56       966925  408.81
279750:CONTIG   C_albicans-MAY1376-Chr5-contig_112      1244849 434.74

This new file Chr6-filtered_variants.col is "only" 3.32 GB instead of 53.1 GB.

I can't see anything really happening when I try running /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6-filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro on the command line. It just sort of sits there and (visually) does nothing. Running as part of a job:

module load cmake/3.25.2
module load gnu/11.2.0
source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
/users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6-filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

is definitely doing something, as according to the job manager's usage stats it's basically chewing on nearly everything I've allocated to it image


After waiting a little, this was the output:

/var/spool/slurmd/job26455247/slurm_script: line 15: 26607 Killed                  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6-filtered_variants.col 28 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro
slurmstepd: error: Detected 1 oom-kill event(s) in StepId=26455247.batch. Some of your processes may have been killed by the cgroup out-of-memory handler.

I guess it looks like even my "reduced" .col file simply is trying to chew on too much memory at once for the computing power I allocated to it, and the "separate_reads" failure text was just a symptom of it (maybe).


Given these issues, I might try to bump up the computing power to be requested for the run and see if it can power through it.

Additionally, I've sent you a share link via the e-mail you provided above to a OneDrive folder, with the zipped versions of both the filtered_variants.col file and the subset Chr6-filtered_variants.col file. I zipped them using 7z a -tgzip filtered_variants.col.gz filtered_variants.col and 7z a -tgzip Chr6-filtered_variants.col.gz Chr6-filtered_variants.col. Be warned that the filtered_variants.col file will end up being 53.1 GB, and the Chr6-filtered_variants.col file will end up being 3.32 GB.


I have some semi-promising developments! For my attempt at increasing computing power, it at least seems like it is running for longer this time. I allowed it to use 48 cores this time, and it looks like it was probably dying when it did it's third "jump" in cgroup memory usage.

The code:

module load cmake/3.25.2
module load gnu/11.2.0
source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
/users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6-filtered_variants.col 48 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro

The job metrics: image

Still no results from it yet, but at the very least it isn't dying as fast now? This is admittedly only the Chr6-filtered_variants.col file, which is decidedly smaller than the full filtered_variants.col file, but it's progress.


Well, it kept doing something for the next two hours according to computing usage, but never actually did anything productive. At the very least it never crashed, so maybe if I run the whole process with 48 cores it'll work this time? We'll see.


Unfortunately, running it from the top with the 48 cores didn't seem to help it progress past the separate_reads - it eventually hit the same error of it erroring out due to "std::stoi". Oddly enough though, I was watching the memory usage this time like a hawk and I didn't see it go up before it had the error - it was barely using any memory at all with the "std::stoi" error, which feels like it means the "separate_reads" step has some sort of error initiating during the full run of code (or due to the large size of my "filtered_variants.col" file, it doesn't get the chance to start using memory, but that logic feels odd).

I'll try just the "separate_reads" step again with the 48 cores, the smaller .col file, and also an extended time and see if that manages to get it done.


Unfortunately that didn't work either. It seems to have, with the 3.32 GB filtered_variants.col, to just hang at 232 GB of memory usage for most of the 8 hours I let the "separate_reads" step run, which could mean it might work if it has additional code for it to run, but I'm not sure. Honestly, that's about all I think I can do to try to troubleshoot it myself for now - last thing I can do is try running the "separate_reads" step using the normal "filtered_variants.col" file with the higher number of cores and see if it errors out with "std::stoi" and low memory usage, or if it ALSO just hangs. If it errors out without increasing the memory usage, that feels like it would imply an issue with the file size itself where it just won't even start. If it eventually just hangs with high memory usage, that would imply it is some sort of issue initializing "separate_reads" when run as part of the full program, maybe. Unsure.


Last update for the weekend - my attempt to run only the "separate_reads" portion with the original "filtered_variants.col" file near immediately with:

Lmod is automatically replacing "intel/19.0.5" with "gnu/11.2.0".

The following have been reloaded with a version change:
  1) mvapich2/2.3.3 => mvapich2/2.3.6

terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
/var/spool/slurmd/job23536958/slurm_script: line 15: 253538 Aborted                 (core dumped) /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter-OLD2/tmp/filtered_variants.col 48 0.0154948 0 ../8_hairsplitter-DualCore/tmp/reads_haplo.gro

From the very brief moment where I could see the memory usage, it didn't look like it began using any memory (or only minimal amounts). It seems the original "filtered_variants.col" file generated during the run indeed might be the issue, whether it's the length or size of the file or maybe a specific string later on past the Chr6 contig that really mucks things up. Either way, I'm a bit at a loss for what to do.


Okay, I actually have one last idea. I've used rasusa (https://github.com/mbhall88/rasusa) to randomly subsample the original demultiplexed/adapter trimmed ONT long read file (BC15.fastq = 13.3 GB = ~400X+ coverage) down to only 2.91 GB (~100X coverage, so ~50X per haplotype). I'm going to try using that as my .fastq input file and see if it helps at all. It might not have the same depth, and I might lose out on some longer reads that could be used for better mapping, but if it can get it to MOSTLY work, I can always do some polishing later on.

EDIT: Well, that didn't work. It ran much, much, MUCH faster, but ended up erroring out at the "separate_reads" step again with the "std::stoi" issue. Trying to subsample even smaller (only 50X with an input .fastq file size of 1.45 GB), as well as renaming my contigs so their names don't have any characters beyond letters and numbers, and also so that their names don't have "contig" in them, which I'm worried might somehow be confusing the program, maybe.

FrostFlow13 commented 11 months ago

Turning this into a new comment just to stop the previous one from growing endlessly, and because I think I've found the issue!

My most recent run of Hairsplitter using a rasusa-generated subset of the original reads (the size of the input .fastq file was 1.45 GB) failed with the "separate_reads" step again, still with the "std::stoi" issue.

Lmod is automatically replacing "intel/19.0.5" with "gnu/11.2.0".

The following have been reloaded with a version change:
  1) mvapich2/2.3.3 => mvapich2/2.3.6

 - Loading all reads from ../1_demul_adtrim/BC15_50X_subset.fastq in memory
 - Loading all contigs from ../8_hairsplitter/tmp/cleaned_assembly.gfa in memory
 - Loading alignments of the reads on the contigs from ../8_hairsplitter/tmp/reads_on_asm.sam
 - Calling variants on each contig using basic pileup
terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15_50X_subset.fastq -i 1376-haploid-sim.fasta -x ont -o ../8_hairsplitter -t 48
HairSplitter v1.3.2 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-11

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

===== STAGE 1: Cleaning graph of small contigs that are unconnected parts of haplotypes   [ 2023-08-14 14:55:00.422998 ]

 When the assemblers manage to locally phase the haplotypes, they sometimes assemble the alternative haplotype as a separate contig, unconnected in the gfa graph. This affects negatively the performance of Hairsplitter. Let's delete these contigs

 - Mapping the assembly against itself
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/clean_graph ../8_hairsplitter/tmp/assembly.gfa ../8_hairsplitter/tmp/cleaned_assembly.gfa ../8_hairsplitter ../8_hairsplitter/hairsplitter.log 48 minimap2
 - Eliminated small unconnected contigs that align on other contigs

===== STAGE 2: Aligning reads on the reference   [ 2023-08-14 14:55:02.315680 ]

 - Converting the assembly in fasta format
 - Aligning the reads on the assembly
 - Running minimap with command line:
      minimap2 ../8_hairsplitter/tmp/cleaned_assembly.fasta ../1_demul_adtrim/BC15_50X_subset.fastq -x map-ont -a --secondary=no -t 48 > ../8_hairsplitter/tmp/reads_on_asm.sam 2> ../8_hairsplitter/tmp/logminimap.txt 
   The log of minimap2 can be found at ../8_hairsplitter/tmp/logminimap.txt

===== STAGE 3: Calling variants   [ 2023-08-14 14:55:17.347341 ]

 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/call_variants ../8_hairsplitter/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15_50X_subset.fastq ../8_hairsplitter/tmp/reads_on_asm.sam 48 ../8_hairsplitter/tmp ../8_hairsplitter/tmp/error_rate.txt 0 ../8_hairsplitter/tmp/variants.col ../8_hairsplitter/tmp/variants.vcf

===== STAGE 4: Filtering variants   [ 2023-08-14 14:56:32.970994 ]

 - Filtering variants
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/filter_variants ../8_hairsplitter/tmp/variants.col 0.0175418 48 0 ../8_hairsplitter/tmp/filtered_variants.col ../8_hairsplitter/tmp/variants.vcf ../8_hairsplitter/tmp/variants_filtered.vcf

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-14 14:58:24.897535 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 48 0.0175418 0 ../8_hairsplitter/tmp/reads_haplo.gro
ERROR: separate_reads failed. Was trying to run: /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/filtered_variants.col 48 0.0175418 0 ../8_hairsplitter/tmp/reads_haplo.gro

The resulting "filtered_variants.col" file was only 4.98 GB large, and my contig names/fasta headers from the input .fasta assembly were things along the lines of "Chr1", "Chr2", "Chr3", etc. I'm thoroughly stumped on my end at this point. Trying to specifically run the "separate_reads" step with the original, 4.98 GB "filtered_variants.col" file causes it to near-immediately error out with

terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
Aborted

as per usual.

I tried splitting the "filtered_variants.col" file again, this time into a file that only has Chr6 contig related variants, but also a file that has Chr6 AND Chr7 contig related variants, based on the location of the "CONTIG" lines: image head -n 26524 filtered_variants.col > Chr6-filtered_variants.col head -n 47214 filtered_variants.col > Chr6_7-filtered_variants.col

I got some very interesting results from that! Running /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6-filtered_variants.col 48 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro, it hangs as it has before when I ran just the Chr6 file. No crashing, just using some memory and not progressing.

For the Chr6_7 file, /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6_7-filtered_variants.col 48 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro, it immediately gives me this error:

terminate called after throwing an instance of 'std::invalid_argument'
  what():  stoi
Aborted

as per usual. Interesting! I decided to grab Chr6 from the "filtered_variants.col" file, plus only the "CONTIG" line from Chr7 using head -n 26525 filtered_variants.col > Chr6_part7-filtered_variants.col. Running /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6_part7-filtered_variants.col 48 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro doesn't error out, it just hangs again, meaning it seems like there's something in the Chr7 section that's causing it to be problematic.

Playing with line numbers for a while, I found that running head -n 32582 filtered_variants.col > Chr6_partb7-filtered_variants.col will error out with "stoi" using /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter/tmp/Chr6_partb7-filtered_variants.col 48 0.0154948 0 ../8_hairsplitter/tmp/reads_haplo.gro.

BUT, head -n 32581 filtered_variants.col > Chr6_partb7-filtered_variants.col only hangs.

Downloading the head -n 32582 filtered_variants.col > Chr6_partb7-filtered_variants.col file that results in the error, I think I've finally found the problem!!

Line 32582:

READ    168a5f5b-2b4d-435b-9ada-685a161022c0     , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

Looking in the Chr6_7-filtered_variants.col file, I'm almost certain that this must be the issue!

Lines 32579 through 32585:

READ    c3df0ad2-b3f8-43d7-836d-e6b8d2ada39e    0   2347    303435  305783  1
READ    173cddb9-9081-4460-8fec-feb3a7a22d7d    4   518 827747  828262  0
READ    d9ce1c57-de41-4c54-a156-91666fc21aea    0   690 679135  679826  0
READ    168a5f5b-2b4d-435b-9ada-685a161022c0     , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
READ    47b9b541-c76d-45d3-a3ca-18df12754e3f    0   180 470445  470626  1
READ    69a68435-f39f-4aef-aeb6-a55a37f8d728    0   474 71877   72352   0
READ    80bacc2c-cb5e-458e-ad96-64a5167f1449    0   350 521695  522046  1

I checked, and this is the ONLY line in the Chr6_7-filtered_variants.col file that this happens on - considering that's a "READ" line, it must be messing everything else up because the "READ" lines shouldn't have ANY of that in it!

As for why it's happening, I don't know. BUT, checking the uncropped file using grep -nE 'READ' filtered_variants.col | grep -E ',' > READ-filtered_variants.col, I can see that these lines have the same issue:

32582:READ  168a5f5b-2b4d-435b-9ada-685a161022c0     , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,85, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
47972:READ  730701c6-72bb-497d-a4a2-1316b94fa6c5 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
102036:READ c1da4d1d-aaf0-482d-916d-b7122dc18fb4    278 449 707092 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,124, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
149298:READ bf02bb75-5156-4c11-a71a-6db5c5e7ac8f , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,33, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
192957:READ 5aeadfaa-68c8-46fe-9b07-9d9fc1200f28 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,40, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,40, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,42, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,40, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,42, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,40, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
251067:READ 10fda0da-f052-4aff-8f8a-fa39ee5c7671    0   46832   2318404 2365237 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,49, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

Again, I'm not sure why this is happening, but I'm almost certain that it's the root of my current issue! As a quick check, I tried to see if any of the "SNPS" lines had "READ" parts, but the "SNPS" lines all seem just fine from a rough check using grep -nE 'SNPS' filtered_variants.col | grep -E '-' (i.e. there were no "SNPS" lines that have the dashes found in the "READ" lines).

Going back to my original, 53.1 GB "filtered_variants.col" file, running grep -nE 'READ' filtered_variants.col | grep -E ',' > READS-filtered_variants.col gives me the following:

287078:READ 44de3279-ec36-4424-8afb-3505474335c6 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,118, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
693454:READ 5fc44abf-fdfe-4a8c-803c-5f97fae4b92a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
1188640:READ    0d21e3b8-86cf-41a2-848e-d6d08b4a08e9 , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,94, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,96, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,
1731101:READ    d29b3075-80f3-42f2-8168-36ec0931981a , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,100, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

Which I could almost guarantee must be what are ALSO messing things up in the larger file! At least, that's my current guess - given that I can't seem to make Hairsplitter run fully WITHOUT letting it also generate these errors, I can't exactly test it myself I don't think.

RolandFaure commented 11 months ago

Hi ! Wow, great job, this must be exactly the cause of the problem !! This means the original problem comes either from the call-variants or the filter_variants step. Is it possible for you to send me the bam and the fastq.gz file (in terms of size - if it is a problem, you can also just send me the reads, converted in fasta format, and the reference, and I'll re-run everything from my computer) ?

FrostFlow13 commented 11 months ago

Yes, once I have access to my files I can definitely send you the .fasta assembly file and the reduced-size .fastq long-reads file!

FrostFlow13 commented 11 months ago

Okay, I've uploaded two new files into the OneDrive link I sent you before: 1376-haploid-sim.fasta is the assembly file, and BC15_50X_subset.fastq is the reduced-size reads file! It should still cause the errors, since that's what I was running on my end for these most recent tests.

Additionally, just in case it helps, here was the most recent script I used for running Hairsplitter:

#!/bin/bash
#SBATCH --time=02:00:00
#SBATCH --nodes=1 --ntasks-per-node=48 --gpus-per-node=2 --partition=gpuserial-48core
#SBATCH --account=PAS1802
#SBATCH --job-name=1376-hairsplitter-subset-50X
#SBATCH --export=ALL
#SBATCH --output=1376-hairsplitter-subset-50X.out.%j
module load cmake/3.25.2
module load gnu/11.2.0
source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
python /users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15_50X_subset.fastq -i 1376-haploid-sim.fasta -x ont -o ../8_hairsplitter -t 48

EDIT:

So, I tried a run where I removed the "-t X" argument (I tried a run with only 1 thread/task allocated to it, but it died very quickly):

#!/bin/bash
#SBATCH --time=04:00:00
#SBATCH --nodes=1 --ntasks-per-node=12
#SBATCH --account=PAS1802
#SBATCH --job-name=1376-hairsplitter-subset-50X-threadnotspecified
#SBATCH --export=ALL
#SBATCH --output=1376-hairsplitter-subset-50X--threadnotspecified.out.%j
module load cmake/3.25.2
module load gnu/11.2.0
source /users/PAS1802/woodruff207/miniconda3/bin/activate
conda activate hairsplitter_env
cd /fs/ess/PAS1802/ALW/2023_06_15-MAY1376_TLOKOs_LongRead/1376/7_haploid/
python /users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15_50X_subset.fastq -i 1376-haploid-sim.fasta -x ont -o ../8_hairsplitter

For once, there hasn't been an issue yet! It has run, from the top, all the way to the "separate_reads" step, AND it's currently hanging! Which isn't necessarily a good thing, but it didn't die! Maybe there's some sort of issue when specifying the number of threads (or maybe I'm submitting the job request parameters incorrectly for what I'm trying to do...), or maybe through chance one of the errors hasn't popped up for this particular run? Either way, more information always helps a little. We'll see how far it gets.

After checking the "filtered_variants.col" file from this run, there aren't any of the unusual "READ" lines, hence why it seems to be moving through!


EDIT2:

It progressed!! It looks like it has processed the Chr1 CONTIG/READ/SNPS and added them to the reads_haplo.gro file (which has gone from 0 B to 187 MB)! However, it did take it ~2 hours and 20 minutes to finally do that, and there's still 7 other contigs left... Still, it's at least proof that it was the weird "READ" lines, most likely! This run will probably fail, as I only requested 4 hours of processing time for what seems like might take it many, many hours, but it at least it was informative.

EDIT3: And now the Chr2 parts, too! That took ~40 minutes.

EDIT4: It's run through all of the `reads_haplo.gro' additions now except for ChrR, which looks to be running right now. It absolutely seems like it was those weird "READ" lines that were the issue! I'm running an additional run beside it that is formatted the same way but ran for 8 hours (just in case), plus another run that uses multiple threads again (but with some slightly altered parameters to see if it was an issue on my setup of the job).

Interestingly, I can also see that in the filtered_variants.col file, the contigs are now ordered correctly as Chr1, 2, 3, 4, 5, 6, 7, R. In the older files with issues, they would be in a different order of Chr6, 7, 5, 3, 4, 2, R, 1. Very odd!

FrostFlow13 commented 11 months ago

I've had two successful runs! It seems like multithreading was the root of the problems (as far as I can tell) - when I removed the threads argument, it processed just fine. It took about ~7 hours for the reduced-size long reads file, but it at least worked!

Lmod is automatically replacing "intel/19.0.5" with "gnu/11.2.0".

The following have been reloaded with a version change:
  1) mvapich2/2.3.3 => mvapich2/2.3.6

 - Loading all reads from ../1_demul_adtrim/BC15_50X_subset.fastq in memory
 - Loading all contigs from ../8_hairsplitter-semiLONG/tmp/cleaned_assembly.gfa in memory
 - Loading alignments of the reads on the contigs from ../8_hairsplitter-semiLONG/tmp/reads_on_asm.sam
 - Calling variants on each contig using basic pileup
 - Creating the .gaf file describing how the reads align on the new contigs
 - Creating the new contigs
/users/PAS1802/woodruff207/Hairsplitter/hairsplitter.py -f ../1_demul_adtrim/BC15_50X_subset.fastq -i 1376-haploid-sim.fasta -x ont -o ../8_hairsplitter-semiLONG
HairSplitter v1.3.2 (github.com/RolandFaure/HairSplitter). Last update: 2023-08-11

    ******************
    *                *
    *  Hairsplitter  *
    *    Welcome!    *
    *                *
    ******************

===== STAGE 1: Cleaning graph of small contigs that are unconnected parts of haplotypes   [ 2023-08-15 16:55:44.904180 ]

 When the assemblers manage to locally phase the haplotypes, they sometimes assemble the alternative haplotype as a separate contig, unconnected in the gfa graph. This affects negatively the performance of Hairsplitter. Let's delete these contigs

 - Mapping the assembly against itself
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/clean_graph ../8_hairsplitter-semiLONG/tmp/assembly.gfa ../8_hairsplitter-semiLONG/tmp/cleaned_assembly.gfa ../8_hairsplitter-semiLONG ../8_hairsplitter-semiLONG/hairsplitter.log 1 minimap2
 - Eliminated small unconnected contigs that align on other contigs

===== STAGE 2: Aligning reads on the reference   [ 2023-08-15 16:55:50.915748 ]

 - Converting the assembly in fasta format
 - Aligning the reads on the assembly
 - Running minimap with command line:
      minimap2 ../8_hairsplitter-semiLONG/tmp/cleaned_assembly.fasta ../1_demul_adtrim/BC15_50X_subset.fastq -x map-ont -a --secondary=no -t 1 > ../8_hairsplitter-semiLONG/tmp/reads_on_asm.sam 2> ../8_hairsplitter-semiLONG/tmp/logminimap.txt 
   The log of minimap2 can be found at ../8_hairsplitter-semiLONG/tmp/logminimap.txt

===== STAGE 3: Calling variants   [ 2023-08-15 17:02:38.291973 ]

 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/call_variants ../8_hairsplitter-semiLONG/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15_50X_subset.fastq ../8_hairsplitter-semiLONG/tmp/reads_on_asm.sam 1 ../8_hairsplitter-semiLONG/tmp ../8_hairsplitter-semiLONG/tmp/error_rate.txt 0 ../8_hairsplitter-semiLONG/tmp/variants.col ../8_hairsplitter-semiLONG/tmp/variants.vcf

===== STAGE 4: Filtering variants   [ 2023-08-15 17:05:43.795917 ]

 - Filtering variants
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/filter_variants ../8_hairsplitter-semiLONG/tmp/variants.col 0.0175418 1 0 ../8_hairsplitter-semiLONG/tmp/filtered_variants.col ../8_hairsplitter-semiLONG/tmp/variants.vcf ../8_hairsplitter-semiLONG/tmp/variants_filtered.vcf

===== STAGE 5: Separating reads by haplotype of origin   [ 2023-08-15 17:08:09.896878 ]

 - Separating reads by haplotype of origin
 Running:  /users/PAS1802/woodruff207/Hairsplitter/src/build/separate_reads ../8_hairsplitter-semiLONG/tmp/filtered_variants.col 1 0.0175418 0 ../8_hairsplitter-semiLONG/tmp/reads_haplo.gro

===== STAGE 6: Creating all the new contigs   [ 2023-08-15 21:57:39.048192 ]

 This can take time, as we need to polish every new contig using Racon
 Running :  /users/PAS1802/woodruff207/Hairsplitter/src/build/create_new_contigs ../8_hairsplitter-semiLONG/tmp/cleaned_assembly.gfa ../1_demul_adtrim/BC15_50X_subset.fastq 0.0175418 ../8_hairsplitter-semiLONG/tmp/reads_haplo.gro ../8_hairsplitter-semiLONG/tmp 1 ont ../8_hairsplitter-semiLONG/tmp/zipped_assembly.gfa ../8_hairsplitter-semiLONG/tmp/reads_on_new_contig.gaf 0 minimap2 racon 0

===== STAGE 7: Untangling (~scaffolding) the new assembly graph to improve contiguity   [ 2023-08-15 23:52:49.578081 ]

 - Running GraphUnzip with command line:
      python /users/PAS1802/woodruff207/Hairsplitter/src/GraphUnzip/graphunzip.py unzip -l ../8_hairsplitter-semiLONG/tmp/reads_on_new_contig.gaf -g ../8_hairsplitter-semiLONG/tmp/zipped_assembly.gfa -o ../8_hairsplitter-semiLONG/hairsplitter_final_assembly.gfa 2>../8_hairsplitter-semiLONG/tmp/logGraphUnzip.txt >../8_hairsplitter-semiLONG/tmp/trash.txt 
   The log of GraphUnzip is written on  ../8_hairsplitter-semiLONG/tmp/logGraphUnzip.txt

 *To see in more details what supercontigs were created with GraphUnzip, check the hairsplitter_summary.txt*

===== HairSplitter finished! =====   [ 2023-08-15 23:52:58.976752 ]
RolandFaure commented 11 months ago

Ok, good to know HairSplitter runs for you, I'm still leaving the issue open until I figure out what is happening exactly.

RolandFaure commented 11 months ago

Hello, I took time to look at the buggy dataset. There was indeed a tricky multithreading bug. It has been corrected now and released. Thanks for your time, don't hesitate if there are any more bugs