dereneaton / ipyrad

Interactive assembly and analysis of RAD-seq data sets
http://ipyrad.readthedocs.io
GNU General Public License v3.0
70 stars 39 forks source link

overlapping loci and duplicated SNPs #442

Open pdpapper opened 3 years ago

pdpapper commented 3 years ago

I ran a reference aligned assembly in ipyrad v.0.9.68 with 150bp paired-end ddRAD data and got some partially overlapping loci returned as separate loci and SNPs on those loci are duplicated in the SNP data set.

Here are some examples:

locus   chrom            posbegin   posend   len   overlap
11323   Scq3eQI_43       8387       9700     1313  TRUE
11324   Scq3eQI_43       9419       9702     283   TRUE
...
11375   Scq3eQI_2020     20929      21721    792   TRUE
11376   Scq3eQI_2020     21499      21723    224   TRUE
...
11406   Scq3eQI_1043     22583      24232    1649  TRUE
11407   Scq3eQI_1043     24205      25477    1272  TRUE

Like the first two shown, there's usually (but not always) one long and one short locus and the short locus is completely or nearly overlapping with the long one. Out of 11476 returned loci, there are about 200 overlapping ones (i.e. 100 overlapping regions).

The same sample is never represented in both of the overlapping loci. Some samples will have data for one and some for the other. Here's an example from my VCF file, which shows that the overlapping portion is made up of only a few samples in one of the two loci. This is the pattern in all the cases I've looked at.

Scq3eQI_43  8423    loc11323_pos36  C   G   13  PASS    NS=18;DP=153    GT:
Scq3eQI_43  8460    loc11323_pos73  A   G   13  PASS    NS=20;DP=154    GT:
Scq3eQI_43  8535    loc11323_pos148 G   A   13  PASS    NS=20;DP=158    GT:
Scq3eQI_43  8576    loc11323_pos189 T   C   13  PASS    NS=88;DP=2496   GT:
Scq3eQI_43  8588    loc11323_pos201 C   G   13  PASS    NS=126;DP=4390  GT:
Scq3eQI_43  8590    loc11323_pos203 G   T   13  PASS    NS=203;DP=12535 GT:
Scq3eQI_43  8592    loc11323_pos205 A   G   13  PASS    NS=201;DP=12535 GT:
Scq3eQI_43  8607    loc11323_pos220 C   A   13  PASS    NS=203;DP=12491 GT:
Scq3eQI_43  8612    loc11323_pos225 T   C   13  PASS    NS=203;DP=12492 GT:
Scq3eQI_43  8616    loc11323_pos229 G   T   13  PASS    NS=202;DP=12487 GT:
Scq3eQI_43  8618    loc11323_pos231 T   C   13  PASS    NS=203;DP=12490 GT:
Scq3eQI_43  8649    loc11323_pos262 T   C   13  PASS    NS=202;DP=12473 GT:
Scq3eQI_43  8690    loc11323_pos303 C   T   13  PASS    NS=203;DP=12483 GT:
Scq3eQI_43  8718    loc11323_pos331 G   A   13  PASS    NS=203;DP=12471 GT:
Scq3eQI_43  8721    loc11323_pos334 G   A   13  PASS    NS=202;DP=12487 GT:
Scq3eQI_43  9481    loc11323_pos1094    A   C   13  PASS    NS=5;DP=1791    GT:
Scq3eQI_43  9484    loc11323_pos1097    C   T   13  PASS    NS=5;DP=1791    GT:
Scq3eQI_43  9528    loc11323_pos1141    A   G   13  PASS    NS=5;DP=1782    GT:
Scq3eQI_43  9541    loc11323_pos1154    A   G   13  PASS    NS=5;DP=1781    GT:
Scq3eQI_43  9421    loc11324_pos2   G   A   13  PASS    NS=154;DP=36045 GT:
Scq3eQI_43  9423    loc11324_pos4   T   A   13  PASS    NS=153;DP=36231 GT:
Scq3eQI_43  9436    loc11324_pos17  A   G   13  PASS    NS=154;DP=36412 GT:
Scq3eQI_43  9440    loc11324_pos21  A   C   13  PASS    NS=154;DP=36416 GT:
Scq3eQI_43  9453    loc11324_pos34  A   G   13  PASS    NS=153;DP=36426 GT:
Scq3eQI_43  9465    loc11324_pos46  A   G   13  PASS    NS=153;DP=36424 GT:
Scq3eQI_43  9480    loc11324_pos61  A   C,T 13  PASS    NS=153;DP=36427 GT:
Scq3eQI_43  9481    loc11324_pos62  A   C   13  PASS    NS=153;DP=36435 GT:
Scq3eQI_43  9482    loc11324_pos63  A   G   13  PASS    NS=154;DP=36438 GT:
Scq3eQI_43  9484    loc11324_pos65  C   T   13  PASS    NS=153;DP=36438 GT:
Scq3eQI_43  9499    loc11324_pos80  T   C   13  PASS    NS=153;DP=36443 GT:
Scq3eQI_43  9527    loc11324_pos108 G   A   13  PASS    NS=154;DP=36377 GT:
Scq3eQI_43  9528    loc11324_pos109 A   G   13  PASS    NS=153;DP=36373 GT:
Scq3eQI_43  9539    loc11324_pos120 A   C   13  PASS    NS=154;DP=36336 GT:
Scq3eQI_43  9540    loc11324_pos121 G   A   13  PASS    NS=154;DP=36335 GT:
Scq3eQI_43  9541    loc11324_pos122 A   G   13  PASS    NS=149;DP=36326 GT:
Scq3eQI_43  9544    loc11324_pos125 T   A   13  PASS    NS=153;DP=36316 GT:
Scq3eQI_43  9550    loc11324_pos131 A   G   13  PASS    NS=152;DP=36292 GT:
Scq3eQI_43  9559    loc11324_pos140 T   C   13  PASS    NS=152;DP=36235 GT:
Scq3eQI_43  9563    loc11324_pos144 G   T   13  PASS    NS=153;DP=36313 GT:
Scq3eQI_43  9574    loc11324_pos155 G   C   13  PASS    NS=154;DP=36409 GT:
Scq3eQI_43  9602    loc11324_pos183 T   C   13  PASS    NS=153;DP=36457 GT:
Scq3eQI_43  9611    loc11324_pos192 A   T   13  PASS    NS=153;DP=36458 GT:
Scq3eQI_43  9635    loc11324_pos216 A   G   13  PASS    NS=153;DP=36464 GT:
Scq3eQI_43  9644    loc11324_pos225 A   G   13  PASS    NS=153;DP=36464 GT:
Scq3eQI_43  9653    loc11324_pos234 A   G   13  PASS    NS=154;DP=36466 GT:

Is there a parameter I can adjust that will resolve these issues during the assembly instead of have to resolve them after the run, which is proving difficult?

isaacovercast commented 3 years ago

Ok, yeah this is unusual. I can see this in a pair-3rad dataset. Here is code to investigate this phenomenon in a vcf file:

invcf = "/path/to/amaranth_outfiles/amaranth.vcf"
vcf_df = pd.read_csv(invcf, skiprows=10, sep="\t")

# Walk through the df rows and populate a dictionary formatted like this:
#   {locus_id:[CHROM, MIN_POS, MAX_POS]}
posdict2 = {}
cur_loc = ""
for idx in range(len(vcf_df)):
    if not idx % 10000 and idx != 0:
        print(idx, end=", ")
    this_loc = vcf_df.iloc[idx]["ID"].split("_")[0]
    if this_loc == cur_loc:
        try:
            next_loc = vcf_df.iloc[idx+1]["ID"].split("_")[0]
            posdict2[cur_loc][2] = vcf_df.iloc[idx]["POS"]
        except:
            # Reached the end
            posdict2[cur_loc][2] = vcf_df.iloc[idx]["POS"]
    else:
        cur_loc = this_loc
        posdict2[cur_loc] = [vcf_df.iloc[idx]["#CHROM"], vcf_df.iloc[idx]["POS"], 0]

# Find consecutive loci that overlap
keys = list(posdict2.keys())
key_pairs = list(zip(keys, keys[1:]))
for k1, k2 in key_pairs:
    # If consecutive loci are on different CHROM then continue
    if posdict2[k1][0] != posdict2[k2][0]:
        continue
    # If loc1 max is greater than loc2 min, then they overlap
    if posdict2[k1][2] >= posdict2[k2][1]:
        print(k1, k2)

This produces a list of consecutive loci that overlap in some fashion, looks like this:

loc155 loc156
loc171 loc172
loc485 loc486
loc847 loc848
loc864 loc865
loc952 loc953
loc959 loc960
loc967 loc968

This is guaranteed to not be the smartest way to do this, but it works. I don't have any idea why this is happening yet, just wanted to document the way to figure out where it's happening.

isaacovercast commented 3 years ago

Ok, well here's an example from the Amaranthus data. Locus 155 has a large insert size, and locus 156 is a very short locus embedded within it

reference                  GGCTTTAGGTGCAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAAACTTGAAATCTGGAAGTTAGATCAGATAAAATTAATTGTACTCAATTTTGCAGCAATGATTGTGTACTTACAGTGTTCAATTGTTCATGAACAAAATCAACAAGCTGCTGGCTTGACATGCAGTCCCTTTGTAAAAAACAATAGAGTAATCAGTCCTCAAGTTGTATCATGAATTCATGATAAAAGTTGCAAGTGAGATCAGGAATAAATAACACTGCTTAAGAGGATATAAAGATGCTCAAATATTATCAGTCAAATCATAATCAATTTACCAAGATTGAGCATATATTAAACTCCATCTGGTAATTTGGAGGCAAGATAGAGCATGTATTAGATCTCCATCTTTTATTTGAAGTGTATTAGGTTCTACAAGATCTATGATAAGCTTTAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCGGATAACTTGAATGAACACCTCTTATCATAACTAGGAAAACATGAGTTCACAACTGATCAGATATGGCCTAGCTTGAGCTTTTTCTGCTAAAAGCAGCCCAGTTCATGATCAGATGTTTTGAGCAAGTTGAAACGTATTTTTGCAAGAAGAGTAACTAAATAAAAGCACAGCAGACAAGCACAAAGATTCAAATGTCAAGCAAAGTTCAAAGAATTCAACATTGGAAGGGAAGGCTTGAAGTGCTTACCATATACCATCACAAGCTAGAACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTGAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0007_contemp        NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0008_contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTAATGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTCACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTAAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0025-contemp        NNNNNNNNNNNNNNNGGTATCCTGTTGTATGGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCGGACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0027-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAATGTTCAGACACTGTTAACCAGATTCACTCGAACAATTCTTCATGAACAGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0030-contemp        NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCGGTGGAAGGGGCCAAACATCTATCAAGCACTCTCTCGCACACTGCATATAGTTTCGTTTCCTGCAACGTTCAGACGCTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0034-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTCGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTAAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0036-contemp        NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTTGTCTCCTGCAACGTTCAGAYACTGTCAACCAGATTTACTCGAACAATTCTTCATSAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0048-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCNAAACATCTRTCAAGCACTCTCTCGCACACTGCAKATAGTTTCGTYTCCTGCAACGTTCAGACRSTGTCAAYCAGATTYACTCGAACAAYTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0055-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTCGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0063-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATKGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCARCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAKAGTTTCGTCTCCTGCAACRTTCAGACACTGTCAACCAGATTTACTCGRACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0067-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGCTTGAAGTGCTTACCATATACCATCACAAGCTAGTACAAGAAAATCATCATCATCACAAAGTTCAACCTATTTGAAAAAGAAAGAAATGGAAGGAAAGGATAA
SLH_AL_0072-contemp        GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0077-contemp        GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0080-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAATGTTCAGACACTGTTAACCAGATTCACTCGAACAATTCTTCATGAACAGCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0084-contemp        NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0086-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTCACTTGAACAATCCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0087-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTYACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0088-contemp        GGCTTTAGATACAGAGGTACCCTGTTGTATGGGTTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCACAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTTACTCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0092-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTAATGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACACTGTCAACCAGATTCACTCGAACAATTCTTCATGAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTAGCTTTAATTTAAANACGTTTTCTAAANAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAANCAATGTAGACACATGATCCAATTGTGAACCNACCCAAAATCGACCGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0101-contemp        NNNNNNNNNNNNNNNGGTATCCTGTTGTATGGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGAGAGTTTCGTCTCCTGCAACGTTCAGACACTGTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0105-contemp        GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCAACCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACATTCAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0106-contemp        NNNNNTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAAYCGAACCAGTATCATTGWCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTYTCCTGCAACRTTYAGACACTGTCAACCAGATTTACTCGAACAATTCTTCATGARCAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_3065                GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGRACCAGTATCATTGTCATGTTGTCGCAGCCTTCACCACCAGCRGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACGTTCAGACASTGTCAAYCAGATTYACTCGAACAAYTCTTCATSAACAGCTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_3066                GGCTTTAGGTACAGAGGTATCCTGTTGTATTGGCTTCTTGAACCGAACCAGTATCATTGTCATGTTGTCGCARCCTTCACCACCAGCAGTGGAAGGGGCCAAACATCTGTCAAGCACTCTCTCGCACACTGCAGATAGTTTCGTCTCCTGCAACRTTCAGACACTGTCAACCAGATTYACTCGAACAATTCTTCATGAACAGCTTAAAATTTGTGCAGAATCAAAAGCTAANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
//                                 * -        *         **  *        *  -             *         *  *              *                    *                        * *     -  *        **  *   -**   *  *      *   - *    **      * *                                                                                                                                                                                                                                                                                                                                                                                                                              -                                                                                                                                                                                                                                                                                                                                                                                                                    -                                      *                             |155:Scaffold_10:2294708-2295795|
reference                  TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0001-restricted     TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCATAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0026-contemp        TAATTTNAACACNTTTTCTAAATAANTTATACTATGATAAAANGNANTATATTCAACTTCAAAATGANTTTAAAANTATGNAAAACCAATGTAGACACATGATCCAATTGTGAANNAACCNAAAATCGACCG
SLH_AL_0088-contemp        TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
SLH_AL_0090-contemp        NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
SLH_AL_0095-contemp        TAATTTAAACACGTTTTCTAAATAAMTTATACNNTGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCRACCCAAAATCGACCG
SLH_AL_0100-contemp        TAATTTAAACACGTTTTCTAAATAACTTATACTATGATAAAATGAATTATATTCAACTTCAAAATGAATTTAAAATTATGCAAAACCAATGTAGACACATGATCCAATTGTGAACCAACCCAAAATCGACCG
//                                                  -                                   -                                                      -               |156:Scaffold_10:2295327-2295459|
isaacovercast commented 3 years ago

Ok, more info, if we look in the amaranth.cat.sorted.bam you can see mapped reads like this:

SLH_AL_0048-contemp_42:1:2511421-2512509        0       Scaffold_10     2511421 0       194M3I122M390I168M77I65M1I68M   *       0       1088    CTCTTCGCCTTTTATCAGTGACTCCTTATCATAAACAATCAAAACTGAGCAAGAATAGAAATGGTAAAAGGTTTGTTCTTCAAACCATGACTTAAGCTCCAATAACTGTGCCAAAATGCCCGAAGACCCACCATATATCCTGGAAGAAAATGCACAATCCAAGTCTGTCTTWAACTYCGRTGATTGATTAGAGGNNNCAAATTTCCTCAAAACCAACTTGATATCGTCTGCAGTATATTTAACAGTCTCCTTTCGATTAGGCTTCCAATATCCTGATTCCTGNCCCTCGTAAAACCGCAATCCTGATATCCTAAAACCCNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNAGTATTGGCATGATTGTCAACCTTACCTAAAAAATTACCCTATAAATTGTAATATTCCTGCAAAGGAAACAAGATGAATACAAAGTAGTCTTGATGACTTCGAAGGAAAGATATTTCAGGAAAAGCAAGCATCGAGTTAATGAGATAATTGAAGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTCACTCAGGAAAGGGTCAAACTTAACAAAACCAGCTAATCAATCAGGGAAACCAAAATTAACATANAGCCAACCAACGAAAATATTTCTTGCAAAGATAATAAGGCCTATAGAAGTAGACGCAATAGATCCAAT 

But after converting with bedtools bamtobed the bed record for this line is:

Scaffold_10     2511420 2512037 SLH_AL_0048-contemp_42:1:2511421-2512509        0       +       194M3I122M390I168M77I65M1I68M

The start position is the same, but the end position in the bed is 500bp shorter than the end position of the mapped read in the bam. This is because if you look at the cigar string in the bed output, there are a ton of insertions (I) with respect to the reference, which bedtools doesn't "count", so when doing the bedtools merge operation it's merging based on genomic coordinates with respect to the reference, so this region and the next region in the bed file look like this:

Scaffold_10     2511074 2512194
Scaffold_10     2512207 2512737

So the call to bamfile.fetch("Scaffold_10", 2511074, 2512194) inside clustmap_across.build_ref_clusters will pull in the full region including genomic coordinates up through 2512509, which clearly overlaps with the start position of the next region (2512207). I have no blessed idea how to fix this at this moment.

Edit: How to generate the bed file and the merged bed:

bedtools bamtobed -i amaranth.cat.sorted.bam > amaranth.bed
bedtools merge -d 0 -i amaranth.bed > amaranth.merged\

# Including the cigar string in the bed output can be useful
bedtools bamtobed -i amaranth.cat.sorted.bam -cigar > amaranth.bed.cigar
isaacovercast commented 3 years ago

Another example. Two merged regions in the bed.merged file:

Scaffold_10     6164105 6164793
Scaffold_10     6164974 6165038

And in the final output loci (just including 1 sequence from each locus):

SLH_AL_0104-contemp        ACTCTTTTGCCTCAAGAAAGAGACATAAGCAGTATGAACAAAAGAGTAATGAGCAGCAGCAGTTCTTTCTTGCTCAATCAACTGAACATCCAAAGGATTAGCATGTAACTTAAAAATCAANCTTGTNTTAATATTANNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNTCCGNNGCC
CTCCCCNTTGNTTAAGTCTGACTTCCCTTCGCTTCGGGCAGCGGATACATATCATTAGGGTNTTCTTNTTATTTACTTTCTCTCTCTATCAGTAGTCCGCAAGCNNGTAAGTGTAAGACCTAATCCGGCTTTCCGTGCGATATCTCCTTGCTAAAGACCTATCTTA
TGCACATTACAGTAAGGAAGCTA
//|485:Scaffold_10:6164379-6165039|
SLH_AL_3066                CGGCTTTCCGTGCGATATCTCCTTGCTAAAGACCTATCTTATGCACATTACAGTAAGGAAGCTA
//|486:Scaffold_10:6164975-6165039|

The first locus has a large insert size, but when it's bedtools merge'd it fails to overlap in the reference positions with sequences from the second locus, which appear to be R2 only.