pbstarphase reported NO_READS/NO_READS in HG00436.final.cram in the CYP2D6 gene

davidyuyuan commented 3 months ago

I used /opt/conda/bin/pbstarphase diplotype -v --normalize-d6-only --bam "${output_dir}/${file}" -d "${CPIC_JSON_DB}" -t 4 -o "${output_dir}/${file}.json" --pharmcat-tsv "${output_dir}/pharmcat.tsv" -r "${ref_genome}" to call diplotype of CYP2D6 in a CRAM from G1K (ftp://ftp.sra.ebi.ac.uk/vol1/run/ERR324/ERR3241673/HG00436.final.cram). With visual inspection in the EnsEMBL genome browser, the CRAM has 30x - 47x even coverage through the gene region. The utility reported no reads detected. Here is a snippet of the log message:

[2024-05-29T08:02:09.977Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:1:1607:22101:22232 at 42126733
[2024-05-29T08:02:09.986Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:09.986Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:09.986Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:4:1546:1398:28526 at 42137387
[2024-05-29T08:02:09.993Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:09.993Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:09.993Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:3:1252:15031:11710 at 42144142
[2024-05-29T08:02:10.001Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.002Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.002Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:38:HCWHCDSXX:3:1136:19985:8328 at 42141085
[2024-05-29T08:02:10.011Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.011Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.011Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:1:2411:17291:26271 at 42140701
[2024-05-29T08:02:10.018Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.018Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.018Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:38:HCWHCDSXX:4:2328:31340:34100 at 42122977
[2024-05-29T08:02:10.023Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.023Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.023Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:1:1276:14877:7498 at 42124007
[2024-05-29T08:02:10.032Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.032Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.032Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:2:2263:19018:14763 at 42134666
[2024-05-29T08:02:10.037Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.037Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.037Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:3:2551:27778:15906 at 42133353
[2024-05-29T08:02:10.041Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.041Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.041Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:4:1521:3830:23719 at 42123274
[2024-05-29T08:02:10.048Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.048Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.048Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:3:1657:25129:10160 at 42124030
[2024-05-29T08:02:10.056Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.056Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.056Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:1:2543:16740:6652 at 42125709
[2024-05-29T08:02:10.064Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.064Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.064Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:4:1114:22697:22044 at 42134941
[2024-05-29T08:02:10.070Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.070Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.070Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:4:1244:29848:7811 at 42123373
[2024-05-29T08:02:10.078Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.078Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.078Z DEBUG pbstarphase::cyp2d6_caller] Searching A00404:39:HCWTJDSXX:3:1261:28727:17519 at 42145546
[2024-05-29T08:02:10.085Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.085Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.085Z DEBUG pbstarphase::cyp2d6_caller] Searching A00296:30:HFN2VDSXX:1:2261:27398:14121 at 42132491
[2024-05-29T08:02:10.090Z DEBUG pbstarphase::data_types::cyp2d6_typer] Collapsed calls:
[2024-05-29T08:02:10.090Z DEBUG pbstarphase::cyp2d6_caller] Found 0 regions of interest.
[2024-05-29T08:02:10.091Z DEBUG pbstarphase::cyp2d6_caller] sequence_ids: []
[2024-05-29T08:02:10.091Z WARN  pbstarphase::cyp2d6_caller] No reads found for CYP2D6 consensus generation.
[2024-05-29T08:02:10.091Z DEBUG pbstarphase::cyp2d6_caller] Full diplotype for CYP2D6 => "NO_READS/NO_READS"
[2024-05-29T08:02:10.093Z INFO  pbstarphase] Saving diplotypes to "/home/jovyan/work/sunnybrook/results/HG00436/CYP2D6/actionable/GRCh38/HG00436.final.cram.json"
[2024-05-29T08:02:10.430Z INFO  pbstarphase] Saving PharmCAT diplotypes to "/home/jovyan/work/sunnybrook/results/HG00436/CYP2D6/actionable/GRCh38/pharmcat.tsv"
[2024-05-29T08:02:10.666Z INFO  pbstarphase] Process finished successfully.

I'd appreciate if you could take a look at this. Please let me know if I used the utitliy incorrectly.

holtjma commented 3 months ago

Hello,

I’m on FTO currently, so I won’t be able to look in depth for a little while. However, a couple things come to mind immediately:

Can you verify that it is HiFi data?
Can you verify that it is aligned to GRCh38?

Matt

davidyuyuan commented 3 months ago

Hi Matt,

Thank you for the prompt response.

Here are the answers to both of your questions:

According to ENA, HG00436 in the G1K dataset was sequenced on Illumina NovaSeq 6000: https://www.ebi.ac.uk/ena/browser/view/ERR3241673. It is not PacBio HiFi data.

The CRAM was aligned to GRCh38. It is one of the “90 Han Chinese high coverage genomes”, a subset of "30x GRCh38". You can find its metadata under https://www.internationalgenome.org/data-portal/sample.

Kind regards,

David Yu Yuan

holtjma commented 3 months ago

Yep, that makes sense. StarPhase only support HiFi datasets, so Illumina short reads will not work.

PacificBiosciences / pb-StarPhase

pbstarphase reported NO_READS/NO_READS in HG00436.final.cram in the CYP2D6 gene #15