Open pdpapper opened 3 years ago
Ok, yeah this is unusual. I can see this in a pair-3rad dataset. Here is code to investigate this phenomenon in a vcf file:
invcf = "/path/to/amaranth_outfiles/amaranth.vcf"
vcf_df = pd.read_csv(invcf, skiprows=10, sep="\t")
# Walk through the df rows and populate a dictionary formatted like this:
# {locus_id:[CHROM, MIN_POS, MAX_POS]}
posdict2 = {}
cur_loc = ""
for idx in range(len(vcf_df)):
if not idx % 10000 and idx != 0:
print(idx, end=", ")
this_loc = vcf_df.iloc[idx]["ID"].split("_")[0]
if this_loc == cur_loc:
try:
next_loc = vcf_df.iloc[idx+1]["ID"].split("_")[0]
posdict2[cur_loc][2] = vcf_df.iloc[idx]["POS"]
except:
# Reached the end
posdict2[cur_loc][2] = vcf_df.iloc[idx]["POS"]
else:
cur_loc = this_loc
posdict2[cur_loc] = [vcf_df.iloc[idx]["#CHROM"], vcf_df.iloc[idx]["POS"], 0]
# Find consecutive loci that overlap
keys = list(posdict2.keys())
key_pairs = list(zip(keys, keys[1:]))
for k1, k2 in key_pairs:
# If consecutive loci are on different CHROM then continue
if posdict2[k1][0] != posdict2[k2][0]:
continue
# If loc1 max is greater than loc2 min, then they overlap
if posdict2[k1][2] >= posdict2[k2][1]:
print(k1, k2)
This produces a list of consecutive loci that overlap in some fashion, looks like this:
loc155 loc156
loc171 loc172
loc485 loc486
loc847 loc848
loc864 loc865
loc952 loc953
loc959 loc960
loc967 loc968
This is guaranteed to not be the smartest way to do this, but it works. I don't have any idea why this is happening yet, just wanted to document the way to figure out where it's happening.
Ok, well here's an example from the Amaranthus data. Locus 155 has a large insert size, and locus 156 is a very short locus embedded within it
reference GGCTTTAGGTGCAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAAACTTGAAATCTGGAAGTTAGATCAGATAAAATTAATTGTACTCAATTTTGCAGCAATGATTGTGTACTTACAGTGTTCAATTGTTCATGAACAAAATCAACAAGCTGCTGGCTTGACATGCAGTCCCTTTGTAAAAAACAATAGAGTAATCAGTCCTCAAGTTGTATCATGAATTCATGATAAAAGTTGCAAGTGAGATCAGGAATAAATAACACTGCTTAAGAGGATATAAAGATGCTCAAATATTATCAGTCAAATCATAATCAATTTACCAAGATTGAGCATATATTAAACTCCATCTGGTAATTTGGAGGCAAGATAGAGCATGTATTAGATCTCCATCTTTTATTTGAAGTGTATTAGGTTCTACAAGATCTATGATAAGCTTTAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCGGATAACTTGAATGAACACCTCTTATCATAACTAGGAAAACATGAGTTCACAACTGATCAGATATGGCCTAGCTTGAGCTTTTTCTGCTAAAAGCAGCCCAGTTCATGATCAGATGTTTTGAGCAAGTTGAAACGTATTTTTGCAAGAAGAGTAACTAAATAAAAGCACAGCAGACAAGCACAAAGATTCAAATGTCAAGCAAAGTTCAAAGAATTCAACATTGGAAGGGAAGGCTTGAAGTGCTTACCATATACCATCACAAGCTAGAACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTGAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0007_contemp NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0008_contemp GGCTTTAGGTACAGAGGTATCCTGTTGTAATGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTCACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTAAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0025-contemp NNNNNNNNNNNNNNNGGTATCCTGTTGTATGGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCGGACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0027-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAATGTTCAGACACTGTTAACCAGATTCACTCGAACAATTCTTCATGAACAGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0030-contemp NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCGGTGGAAGGGGCCAAACATCTATCAAGCACTCTCTCGCACACTGCATATAGTTTCGTTTCCTGCAACGTTCAGACGCTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0034-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTCGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTAAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0036-contemp NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTTGTCTCCTGCAACGTTCAGAYACTGTCAACCAGATTTACTCGAACAATTCTTCATSAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0048-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCNAAACATCTRTCAAGCACTCTCTCGCACACTGCAKATAGTTTCGTYTCCTGCAACGTTCAGACRSTGTCAAYCAGATTYACTCGAACAAYTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0055-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTCGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0063-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATKGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCARCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAKAGTTTCGTCTCCTGCAACRTTCAGACACTGTCAACCAGATTTACTCGRACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0067-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTGAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0072-contemp GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0077-contemp GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0080-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAATGTTCAGACACTGTTAACCAGATTCACTCGAACAATTCTTCATGAACAGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0084-contemp NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0086-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTTGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0087-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTYACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0088-contemp GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0092-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTAATGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTCACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTAGCTTTAATTTAAANACGTTTTCTAAANAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAANCAATGTAGACACATGATCCAATTGTGAACCNACCCAAAATCGACCGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0101-contemp NNNNNNNNNNNNNNNGGTATCCTGTTGTATGGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0105-contemp GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0106-contemp NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_3065 GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGRACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACASTGTCAAYCAGATTYACTCGAACAAYTCTTCATSAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_3066 GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCARCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACRTTCAGACACTGTCAACCAGATTYACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
// * - * ** * * - * * * * * * * - * ** * -** * * * - * ** * * - - * |155:Scaffold_10:2294708-2295795|
reference TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0001-restricted TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCATAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0026-contemp TAATTTNAACACNTTTTCTAAATAANTTATACTATGATAAAANGNANTATATTCAACTTCAAAATGANTTTAAAANTATGNAAAACCAATGTAGACACATGATCCAATTGTGAANNAACCNAAAATCGACCG
SLH_AL_0088-contemp TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0090-contemp NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0095-contemp TAATTTAAACACGTTTTCTAAATAAMTTATACNNTGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCRACCCAAAATCGACCG
SLH_AL_0100-contemp TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
// - - - |156:Scaffold_10:2295327-2295459|
Ok, more info, if we look in the amaranth.cat.sorted.bam you can see mapped reads like this:
SLH_AL_0048-contemp_42:1:2511421-2512509 0 Scaffold_10 2511421 0 194M3I122M390I168M77I65M1I68M * 0 1088 CTCTTCGCCTTTTATCAGTGACTCCTTATCATAAACAATCAAAACTGAGCAAGAATAGAAATGGTAAAAGGTTTGTTCTTCAAACCATGACTTAAGCTCCAATAACTGTGCCAAAATGCCCGAAGACCCACCATATATCCTGGAAGAAAATGCACAATCCAAGTCTGTCTTWAACTYCGRTGATTGATTAGAGGNNNCAAATTTCCTCAAAACCAACTTGATATCGTCTGCAGTATATTTAACAGTCTCCTTTCGATTAGGCTTCCAATATCCTGATTCCTGNCCCTCGTAAAACCGCAATCCTGATATCCTAAAACCCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNAGTATTGGCATGATTGTCAACCTTACCTAAAAAATTACCCTATAAATTGTAATATTCCTGCAAAGGAAACAAGATGAATACAAAGTAGTCTTGATGACTTCGAAGGAAAGATATTTCAGGAAAAGCAAGCATCGAGTTAATGAGATAATTGAAGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTCACTCAGGAAAGGGTCAAACTTAACAAAACCAGCTAATCAATCAGGGAAACCAAAATTAACATANAGCCAACCAACGAAAATATTTCTTGCAAAGATAATAAGGCCTATAGAAGTAGACGCAATAGATCCAAT
But after converting with bedtools bamtobed
the bed record for this line is:
Scaffold_10 2511420 2512037 SLH_AL_0048-contemp_42:1:2511421-2512509 0 + 194M3I122M390I168M77I65M1I68M
The start position is the same, but the end position in the bed is 500bp shorter than the end position of the mapped read in the bam. This is because if you look at the cigar string in the bed output, there are a ton of insertions (I
) with respect to the reference, which bedtools doesn't "count", so when doing the bedtools merge
operation it's merging based on genomic coordinates with respect to the reference, so this region and the next region in the bed file look like this:
Scaffold_10 2511074 2512194
Scaffold_10 2512207 2512737
So the call to bamfile.fetch("Scaffold_10", 2511074, 2512194)
inside clustmap_across.build_ref_clusters
will pull in the full region including genomic coordinates up through 2512509, which clearly overlaps with the start position of the next region (2512207). I have no blessed idea how to fix this at this moment.
Edit: How to generate the bed file and the merged bed:
bedtools bamtobed -i amaranth.cat.sorted.bam > amaranth.bed
bedtools merge -d 0 -i amaranth.bed > amaranth.merged\
# Including the cigar string in the bed output can be useful
bedtools bamtobed -i amaranth.cat.sorted.bam -cigar > amaranth.bed.cigar
Another example. Two merged regions in the bed.merged
file:
Scaffold_10 6164105 6164793
Scaffold_10 6164974 6165038
And in the final output loci (just including 1 sequence from each locus):
SLH_AL_0104-contemp ACTCTTTTGCCTCAAGAAAGAGACATAAGCAGTATGAACAAAAGAGTAATGAGCAGCAGCAGTTCTTTCTTGCTCAATCAACTGAACATCCAAAGGATTAGCATGTAACTTAAAAATCAANCTTGTNTTAATATTANNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTCCGNNGCC
CTCCCCNTTGNTTAAGTCTGACTTCCCTTCGCTTCGGGCAGCGGATACATATCATTAGGGTNTTCTTNTTATTTACTTTCTCTCTCTATCAGTAGTCCGCAAGCNNGTAAGTGTAAGACCTAATCCGGCTTTCCGTGCGATATCTCCTTGCTAAAGACCTATCTTA
TGCACATTACAGTAAGGAAGCTA
//|485:Scaffold_10:6164379-6165039|
SLH_AL_3066 CGGCTTTCCGTGCGATATCTCCTTGCTAAAGACCTATCTTATGCACATTACAGTAAGGAAGCTA
//|486:Scaffold_10:6164975-6165039|
The first locus has a large insert size, but when it's bedtools merge
'd it fails to overlap in the reference positions with sequences from the second locus, which appear to be R2 only.
I ran a reference aligned assembly in ipyrad v.0.9.68 with 150bp paired-end ddRAD data and got some partially overlapping loci returned as separate loci and SNPs on those loci are duplicated in the SNP data set.
Here are some examples:
Like the first two shown, there's usually (but not always) one long and one short locus and the short locus is completely or nearly overlapping with the long one. Out of 11476 returned loci, there are about 200 overlapping ones (i.e. 100 overlapping regions).
The same sample is never represented in both of the overlapping loci. Some samples will have data for one and some for the other. Here's an example from my VCF file, which shows that the overlapping portion is made up of only a few samples in one of the two loci. This is the pattern in all the cases I've looked at.
Is there a parameter I can adjust that will resolve these issues during the assembly instead of have to resolve them after the run, which is proving difficult?