diff --git a/imgs/coverage.svg b/imgs/coverage.svg
index 6a91c8d4..ea71b13a 100644
--- a/imgs/coverage.svg
+++ b/imgs/coverage.svg
@@ -17,7 +17,7 @@
coverage
- 91%
- 91%
+ 90%
+ 90%
diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa
new file mode 100644
index 00000000..b106611d
--- /dev/null
+++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa
@@ -0,0 +1,145 @@
+>syndip_1_chr20:20320239-20320620
+ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag
+taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat
+atatgtaatatatattatatatatgtaatatatataatatatgtaatatattatatatat
+gtaatatatataatatatgtaatatatattatatatgtaatatatataatatatgtaata
+tatattatatatgtaatata----atatatgtaatatatattatatatgtaatatataat
+atatgtaatatatattatatatgtaatataatatatgtaatatatattatatatgtaata
+tatattacatatattatatatgcaatatatattatatatattatatatgcaatatatatt
+atatatattatatatgcaatatatattatatatgcaatatatattatatatattatatat
+gcaatatatattatatatattacatatgtaatatatattacatatgtaatatataatata
+ttatatattacatatgtaatatataatatattatatattacatatgtaatatataatata
+tattacatatgtaatatataatatatattacatatgtaatatattatatattacatatgt
+aatatattatatattacatatgtaatatattatatattacatatgtaatatattatatat
+tacatatgtaatatattatatattacatatgtaatatatataatatattacatatgtaat
+atataatatattatatatgtaatatatattacatatataatatatataatatatatgtaa
+tatattatatatattatatatgtaatatatattacatatataatatatattatatatatt
+acatatattatatatgtaatatatattacatatgtaatatatgtaatatatattacatat
+gtaatatatattatatatgtaatatatattacatatattatatatgtaatatatattata
+tatattatatatgtaatgtataatatatatattatatatgtaatatatattatatataat
+atatgtaatatatattatatatgtaatgtatattatatatattatatatgtaatgtatat
+tatatataatatatgtaatgtatattatatatgtaatatatattatgtatattatatatg
+taatatatattatatatattatatatgtaatatatattatatatattatatatgtaatat
+atattatatatattatatatgtaatatatattatatatattatatatgtaatatatatta
+tatatattatatatgtaatatatattatatatattatatatgtaatatatattatatata
+ttatatatgtaatatatattatatatattatatatgtaatatatattatatatattatat
+atgtaatatatattatatatattatatatgtaatatatattatatatattatatatgtaa
+tatatattatatatattatatatgtaatatatattatatatattatatatgtaatatata
+ttatatatattatatatgtaatatatatatatttaaaaacagaaccattatcttttagag
+atacatactgaagtgtctggagacatgcttcaagataacccag
+>syndip_2_chr20:20320239-20320620
+ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag
+taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat
+atatgtaatatata---------------------------ttatatatatgtaatatat
+ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata
+tatattatatatgtaatatata--------------------atatatgtaatatataat
+atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata
+tatatatatttaaaaacagaaccattatcttttagagatac-------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----atactgaagtgtctggagacatgcttcaagataacccag
+>p:HG002_1_chr20:20320239-20320620
+ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag
+taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat
+atatgtaatatata---------------------------ttatatatatgtaatatat
+ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata
+tatattatatatgtaatatata--------------------atatatgtaatatataat
+atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata
+tatatatatttaaaaacagaaccattatcttttagagatac-------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----atactgaagtgtctggagacatgcttcaagataacccag
+>p:HG002_2_chr20:20320239-20320620
+ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag
+taaagatggtatttcagatatatagatatatatatat--tatatatgtaatatatataat
+atatgtaatatgta--atatatataatatatgtaatatatattatatatatgtaatatat
+ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata
+tatattatatatgtaatatataatatatgtaatatatatattatatatgtaatatataat
+atatgtaatatatattatatatgtaatataatatatgtaatatatattatatatgtaata
+tatattacatatattatatatgcaatatatattatatatattatatatgcaatatatatt
+atatatattatatatgcaatatatattatatatgcaatatatattatatatattatatat
+gcaatatatattatatatattacatatgtaatatatattacatatgtaatatataatata
+ttatatattacatatgtaatatataatatattatatattacatatgtaatatataatata
+tattacatatgtaatatataatatatattacatatgtaatatattatatattacatatgt
+aatatattatatattacatatgtaatatattatatattacatatgtaatatattatatat
+tacatatgtaatatattatatattacatatgtaatatatataatatattacatatgtaat
+atataatatattatatatgtaatatatattacatatataatatatataatatatatgtaa
+tatattatatatattatatatgtaatatatattacatatataatatatattatatatatt
+acatatattatatatgtaatatatattacatatgtaatatatgtaatatatattacatat
+gtaatatatattatatatgtaatatatattacatatattatatatgtaatatatattata
+tatattatatatgtaatgtataatatatatattatatatgtaatatatattatatataat
+atatgtaatatatattatatatgtaatgtatattatatatattatatatgtaatgtatat
+tatatataatatatgtaatgtatattatatatgtaatatatattatgtatattatatatg
+taatatatattatatatattatatatgtaatatatattatatatattatatatgtaatat
+atattatatatattatatatgtaatatatattatatatattatatatgtaatatatatta
+tatatattatatatgtaatatatattatatatattatatatgtaatatatattatatata
+ttatatatgtaatatatattatatatattatatatgtaatatatattatatatattatat
+atgtaatatatattatatatattatatatgtaatatatattatatatattatatatgtaa
+tatatattatatatattatatatgtaatatatatgtaatatatattatatatgtaatata
+taatatatattatatatgtaatatatatatatttaaaaacagaaccattatcttttagag
+atacatactgaagtgtctggagacatgcttcaagataacccag
+>ref_chr20:20320239-20320620
+ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag
+taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat
+atatgtaatatata---------------------------ttatatatatgtaatatat
+ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata
+tatattatatatgtaatatata--------------------atatatgtaatatataat
+atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata
+tatatatatttaaaaacagaaccattatcttttagagatac-------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----atactgaagtgtctggagacatgcttcaagataacccag
diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa
new file mode 100644
index 00000000..21ba1dec
--- /dev/null
+++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa
@@ -0,0 +1,130 @@
+>syndip_1_chr20:63028776-63029503
+caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg
+agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca
+aacgcacccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcg
+cctccgtgtgcaggtcccccgggcctccgcctctccgtgtgcaggtcccccgggcctccg
+cgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctc
+cgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcc
+tccgcgtctgtgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccggg
+cctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccg
+ggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccc
+cgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcc
+cccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggt
+cccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcag
+gtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgc
+aggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgt
+gcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgt
+gtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctcc
+gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct
+ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc
+ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc
+gcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctcc
+gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct
+ccgcgcctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg
+ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt
+catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca
+t
+>syndip_2_chr20:63028776-63029503
+caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg
+agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca
+aa----------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-------------------------------------------------------cgcac
+ccga--------------------------------------------------------
+------------------------------------------------------------
+--------gtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct
+ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc
+ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc
+gcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcccccgggcctcc
+gcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct
+ccgcgtctccgtgtgcaggtcccccgggcccctgcgtctctgtgtgcaggctcaagtttg
+ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt
+catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca
+t
+>p:HG002_1_chr20:63028776-63029503
+caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg
+agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca
+aa----------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-------------------------------------------------------cgcac
+ccga--------------------------------------------------------
+------------------------------------------------------------
+--------gtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct
+ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc
+ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc
+gcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcccccgggcctcc
+gcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct
+ccgcgtctccgtgtgcaggtcccccgggcccctgcgtctctgtgtgcaggctcaagtttg
+ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt
+catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca
+t
+>p:HG002_2_chr20:63028776-63029503
+caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg
+agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca
+aacgcacccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcg
+cctccgtgtgcaggtcccccgggcctccgcctctccgtgtgcaggtcccccgggcctccg
+cgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctc
+cgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcc
+tccgcgtctgtgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccggg
+cctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccg
+ggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccc
+cgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcc
+cccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggt
+cccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcag
+gtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgc
+aggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgt
+gcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgt
+gtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctcc
+gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct
+ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc
+ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc
+gcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctcc
+gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct
+ccgcgcctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg
+ccaacgtccatgcacgtctcagcctctcagcctggactggacaactcggcttcgggaatt
+catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgaattca
+t
+>ref_chr20:63028776-63029503
+caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg
+agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca
+aa----------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-------------------------------------------------------cgcac
+ccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgt
+gtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctcc
+gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct
+ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc
+ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc
+gcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctcc
+gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct
+ccgcgtctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg
+ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt
+catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca
+t
diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa
new file mode 100644
index 00000000..107a7831
--- /dev/null
+++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa
@@ -0,0 +1,195 @@
+>syndip_1_chr20:56280441-56282014
+aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata
+acatccatatatagatatatctatatatctatctatagctac------------------
+----------------------------------------------atctacagatatct
+atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct
+acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat
+atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat
+ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat
+atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag
+atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt
+atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat
+aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata
+tagatatatatacataaatctatatatatacataaatctatatatacataaatctatata
+gatatatatacataaatctatatagatatatatacataaatctatatagatatatataca
+taaatctatatagatatatatacataaatctatatagatatatacataaatctatataga
+tatatatacataaatctatatagatatatatacataaatctatatagatatatatacata
+aatctatatagatacatatagataaatctatacagatatatagatacatatagataaatc
+tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata
+aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata
+gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca
+tatagatacatctatacagatatatagatacatatagatacatctatacagatatataga
+tacatatagatacatctatacagatatattgatacatatagatacatctatatagatata
+tagat--atatagatacatctatatagatatatagatatatagatacatctatatagata
+tattgatacat--atagatacatctatatagattagatatatatagatacatctatatag
+attagatatatatagatacatctatatagattagatatatatagatacatctatatatag
+atatatagatatatatagatacatctatatatagacatatagatatatatagatacatct
+atatatagatatatagatgtatatagatacatctatat--atagatatatagatgtatat
+agatacatctatatatagatatatagatgtatatagatacatctatatatagatatatag
+atgtatatagatacatctatat--atagatatatagatgtatatagatacatctatatat
+agatatatagatgtatatagatacatctatatatagatatatagatgtatatagatacat
+ctatatatagatatatagatgtatatagatacatctatatatagatatatagatgtatat
+agatacatctatatatagatatatagatgtatatagatacatagatatatatagatacat
+ttatgtatatatatatgtatatatagatatatagatatatatagatacatctacacagag
+agatatatagaaacatctacacagggagatatatagatacatctacatagagagatatat
+agatacatctacatagagagatatatagatacatctacatagagagatatatagatacat
+ctacatagagagatatatagatacatctacacagagagatatatagaaacatctacacag
+ggagatatatagatacatctacacagagagatatatagatacatctacatagagagatat
+atagatacatctacatagagagatatatagatacatctacatagagagatatatagatac
+atctacatagagagatatatagatacatc
+>syndip_2_chr20:56280441-56282014
+aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata
+acatccatatatagatatatctatatatctatctatagctacatctacagatatctatag
+ctacatctacagatatctacagatatctatagctacatctacagatatctacagatatct
+atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct
+acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat
+atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat
+ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat
+atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag
+atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt
+atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat
+aaatctatatagatatataaaatag------------------------ataaatctata
+tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa
+tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca
+taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata
+gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata
+aatctatataga------------------------tatatagatacatatagataaatc
+tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata
+aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata
+gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca
+tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga
+tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata
+ttgatacatatagatacatctatatagatatatagatatatagatacatctata------
+------------------------------------------------------------
+-------------------------------tagatatatatagatacatctatatatag
+acatatagatatatatagatacatctatatatagacatatagatatatatagatacatct
+atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct
+acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag
+agatatatagatacatctatatagagagatatatagatacatctacatagagagatatat
+agatacatctacatagagagatatatagatacatctacatagagagatatatagatacat
+c-----------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-----------------------------
+>p:HG002_1_chr20:56280441-56282014
+aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata
+acatccatatatagatatatctatatatctatctatagctacatctacagatatctatag
+ctacatctacagatatctacagatatctatagctacatctacagatatctacagatatct
+atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct
+acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat
+atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat
+ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat
+atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag
+atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt
+atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat
+aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata
+tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa
+tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca
+taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata
+gatatatacataaatctatatagatatatatacataaatctatatagatatatata----
+----tatatagatatatatacataaatc--------tatatagatacatatagataaatc
+tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata
+aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata
+gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca
+tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga
+tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata
+ttgatacatatagatacatctatatagatatatagatatatagatacatctata------
+------------------------------------------------------------
+-------------------------------tagatatatagatata----tagatacat
+ctatatagatatatatagatacatctatatatagacatatagatatatatagatacatct
+atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct
+acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag
+agatatatagatacatctacatagagagatatatagatacatctacatagagagatatat
+agatacatctacatagagagatatatagatacatc-------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-----------------------------
+>p:HG002_2_chr20:56280441-56282014
+aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata
+acatccatatatagatatatctatatatctatctatagctac------------------
+----------------------------------------------atctacagatatct
+atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct
+acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat
+atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat
+ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat
+atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag
+atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt
+atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat
+aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata
+tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa
+tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca
+taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata
+gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata
+aatctatatagatatatatacataaatctatacagatatatagatacatatagataaatc
+tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata
+aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata
+gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca
+tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga
+tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata
+ttgatacatatagatacatctatatagatatatagatatatagatacatctatatagata
+tatagatatatagatacatacatctatatagattagatatatatagatacatctatatag
+attagatatatatagatacatctatatagattagatatatatagatacatctatatatag
+atatatagatatatatagatacatctatatatagatatatagatatatatagatacatct
+atatatagatatatagatgtatatagatacatctatat--atagatatatagatgtatat
+agatacatctatatatagatatatagatgtatatagatacatctatatatagatatatag
+atgtatatagatacatctatat--atagatatatagatgtatatagatacatctatatat
+agatatatagatgtatatagatacatctatatatagatatatagatgtatatagatacat
+ctatatatagatatatagatgtatatagatacatctatatatagatatatagatgtatat
+agatacatctatatatagatatatagatgtatatagatacatagatatatatagatacat
+ttatgtatatatatatgtatatatagatatatagatatatatagatacatctacacagag
+agatatatagaaacatctacacagggagatatatagatacatctacatagagagctatat
+agatatatatagatacatctatatatagacatatagatatatatagatacatctatatat
+agatatatagatatatatagatacatctacacagagagatatatagaaacatctacacag
+ggagatatatagatacatctacacagagagatatatagatacatctacatagagagatat
+atagatacatctacatagagagatatatagatacatctacatagagagatatatagatac
+atctacatagagagatatatagatacatc
+>ref_chr20:56280441-56282014
+aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata
+acatccatatatagatatatctatatatctatctatagctac------------------
+--------------atctacagatatctatagctacatctacagatatctacagatatct
+atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct
+acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat
+atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat
+ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat
+atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag
+atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt
+atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat
+aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata
+tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa
+tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca
+taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata
+gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata
+aatctatatagatatatatacataaatc--------tatatagatacatatagataaatc
+tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata
+aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata
+gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca
+tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga
+tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata
+ttgatacatatagatacatctatatagatatatagatatatagatacatctata------
+------------------------------------------------------------
+-------------------------------tagatatatagatata----tagatacat
+ctatatagatatatatagatacatctatatatagacatatagatatatatagatacatct
+atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct
+acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag
+agatatatagatacatctacatagagagatatatagatacatctacatagagagatatat
+agatacatctacatagagagatatatagatacatc-------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+-----------------------------
diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa
new file mode 100644
index 00000000..88b78cdc
--- /dev/null
+++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa
@@ -0,0 +1,175 @@
+>syndip_1_chr20:20337185-20337725
+tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg
+atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg
+gatagatgggtgggtggatggatggatggatagatgggtggatggatagatgggtggatg
+gataaatggatggatggatggatggatagatgggtgggtagatggatggatggatggatg
+gatggatggatggatggatggatggatagatgggtgggtgggtggatggatggatggatg
+gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatggatagatagatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatggatggatggatggatggatggatagatggatagatgggtg
+ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatggatggatggatggatagatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatggatggatggatggatggatggatggatggatggata
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatggatagatgggtgggtg
+gatggatggatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg
+gatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtg
+gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatagatgggtgggtgggtggatggatggatggatggatagaat
+aaaaaagaaagctaggacatggttctagtgttcttagcagacg
+>syndip_2_chr20:20337185-20337725
+tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg
+atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtggatggataaatggatg
+gatggatggatggatagatgggtgggtaga----tggatggatggatggatggatggatg
+gatggatggatggatggatagatgggtgggtgggtggatggatggatggatggatggatg
+gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatggataga----------------tgggtgggtggatg
+gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg
+gg----tggatggatggatggatggatggatggatggatggatagatggatagatgggtg
+ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata----
+----------------gatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatg----------------gatggatagatgggtgggtgggtggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtgggtggatggatggatggatggataga--------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----------------------------------------------------------at
+aaaaaagaaagctaggacatggttctagtgttcttagcagacg
+>p:HG002_1_chr20:20337185-20337725
+tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg
+atggatggatggatggacagaatgggtgggtggatggatggatggatagatggatggatg
+gatggatggatggatggatggatggatggatggatagatgggtgggtgggtggatggatg
+gatggatggatggatggatggatggatgga----tggatagatgggtgggtggatggatg
+gatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg
+gatggatggatagatgggtggatggataaatggatggatggatggatggatagatgggtg
+ggtggatggatggatggatggatggatggatggatggatagatggatggatagatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatggatagatggataga----------------tgggtgggtggatg
+gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg
+gg----tggatggatggatggatggatggatggatggatggatagatggatagatgggtg
+ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata----
+----------------gatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatg----------------gatggatagatgggtgggtgggtggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatgggtggatggatggatggatagatgggtgggtgggtggatggatggatg
+gatggatagatgggtgggtgggtggatggatggatggatggataga--------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----------------------------------------------------------at
+aaaaaagaaagctaggacatggttctagtgttcttagcagacg
+>p:HG002_2_chr20:20337185-20337725
+tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg
+atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg
+gatagatgggtgggtggatggatggatggatagatgggtggatggatagatgggtggatg
+gataaatggatggatggatggatggatagatgggtgggtggatggatggatggatggatg
+gatggatggatggatggatagatggatagatgggtgggtggatggatggatggatggatg
+gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatgggtggatggataaatggatggatggatggatggatagatgtgtgggtggatggatg
+gatggatggatggatggatggatggatggatagatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg
+gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg
+gatggatggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatggatggatggatggatggatggatagatggatagatgggtg
+ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg
+ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata
+gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg
+ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg
+ggtgggtggatggatggatggatggatggatagatggatagatgggtgggtggatggatg
+gatggatagatgggtgggtggatagatggatggatggatggatggatggatggatggatg
+gatggatggatagatgggtgggtgggtggatggatggatggatggatggatggatggatg
+gatggatggatagatgggtgggtggatggatggatggatagatggatagatgggtgggtg
+gatggatggatggatagatgggtgggtggatggatggatggatagatgggtggatggata
+aatggatggatggatggatggatagatgggtgggtggatggatggatggatggatggatg
+gatggatggatagatagatgggtgggtggatggatggatggatagatgggtgggtgggtg
+gatggatggatggatggatagatgggtgggtgggtggatggatggatggatggatagaat
+aaaaaagaaagctaggacatggttctagtgttcttagcagacg
+>ref_chr20:20337185-20337725
+tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg
+atggatggatggatggacagaatgggtgggtggatggatggatggatagatggatggatg
+gatggatggatggatggatggatggatggatggatagatgggtgggtgggtggatggatg
+gatggatggatggatggatggatggatgga----tggatagatgggtgggtggatggatg
+gatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg
+gatggatggatagatgggtggatggataaatggatggatggatggatggatagatgggtg
+ggtggatggatggatggatggatggatggatggatggatagat-----------------
+-----gtgggtggatggatggatggatagatgggtgggtgggtggatggatggatggatg
+gatagatgggtgggtgggtggatggatggatggatggataga------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+------------------------------------------------------------
+----------------------------------------------------------at
+aaaaaagaaagctaggacatggttctagtgttcttagcagacg
diff --git a/truvari/collapse.py b/truvari/collapse.py
index c972ec51..787ba837 100644
--- a/truvari/collapse.py
+++ b/truvari/collapse.py
@@ -145,25 +145,25 @@ def collapse_into_entry(entry, others, hap_mode=False):
# We'll populate with the most similar, first
others.sort(reverse=True)
# I have a special case of --hap. I need to allow hets
- replace_gts = ["UNK", "REF", "NON"]
+ replace_gts = [truvari.GT.REF, truvari.GT.NON, truvari.GT.UNK]
if hap_mode:
- replace_gts.append("HET")
+ replace_gts.insert(1, truvari.GT.HET)
# Each sample of this entry needs to be checked/set
n_consolidate = 0
for sample in entry.samples:
- m_gt = truvari.get_gt(entry.samples[sample]["GT"]).name
+ m_gt = truvari.get_gt(entry.samples[sample]["GT"])
if m_gt not in replace_gts:
continue # already set
n_idx = None
for pos, o_entry in enumerate(others):
o_entry = o_entry.comp
- o_gt = truvari.get_gt(o_entry.samples[sample]["GT"]).name
+ o_gt = truvari.get_gt(o_entry.samples[sample]["GT"])
if o_gt not in replace_gts:
n_idx = pos
break # this is the first other that's set
# consolidate
- if hap_mode and m_gt == "HET":
+ if hap_mode and m_gt == truvari.GT.HET:
entry.samples[sample]["GT"] = (1, 1)
n_consolidate += 1
elif n_idx is not None:
@@ -184,6 +184,8 @@ def collapse_into_entry(entry, others, hap_mode=False):
logging.debug("Unshared format %s in sample %s ignored for pair %s:%d %s %s:%d %s",
key, sample, entry.chrom, entry.pos, entry.id, o_entry.chrom,
o_entry.pos, o_entry.id)
+ # pass along phase
+ entry.samples[sample].phased = o_entry.samples[sample].phased
return entry, n_consolidate