diff --git a/imgs/coverage.svg b/imgs/coverage.svg index 6a91c8d4..ea71b13a 100644 --- a/imgs/coverage.svg +++ b/imgs/coverage.svg @@ -17,7 +17,7 @@ coverage - 91% - 91% + 90% + 90% diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa new file mode 100644 index 00000000..b106611d --- /dev/null +++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_34fd267f3c76809107dec2452a21e62a.msa @@ -0,0 +1,145 @@ +>syndip_1_chr20:20320239-20320620 +ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag +taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat +atatgtaatatatattatatatatgtaatatatataatatatgtaatatattatatatat +gtaatatatataatatatgtaatatatattatatatgtaatatatataatatatgtaata +tatattatatatgtaatata----atatatgtaatatatattatatatgtaatatataat +atatgtaatatatattatatatgtaatataatatatgtaatatatattatatatgtaata +tatattacatatattatatatgcaatatatattatatatattatatatgcaatatatatt +atatatattatatatgcaatatatattatatatgcaatatatattatatatattatatat +gcaatatatattatatatattacatatgtaatatatattacatatgtaatatataatata +ttatatattacatatgtaatatataatatattatatattacatatgtaatatataatata +tattacatatgtaatatataatatatattacatatgtaatatattatatattacatatgt +aatatattatatattacatatgtaatatattatatattacatatgtaatatattatatat +tacatatgtaatatattatatattacatatgtaatatatataatatattacatatgtaat +atataatatattatatatgtaatatatattacatatataatatatataatatatatgtaa +tatattatatatattatatatgtaatatatattacatatataatatatattatatatatt +acatatattatatatgtaatatatattacatatgtaatatatgtaatatatattacatat +gtaatatatattatatatgtaatatatattacatatattatatatgtaatatatattata +tatattatatatgtaatgtataatatatatattatatatgtaatatatattatatataat +atatgtaatatatattatatatgtaatgtatattatatatattatatatgtaatgtatat +tatatataatatatgtaatgtatattatatatgtaatatatattatgtatattatatatg +taatatatattatatatattatatatgtaatatatattatatatattatatatgtaatat +atattatatatattatatatgtaatatatattatatatattatatatgtaatatatatta +tatatattatatatgtaatatatattatatatattatatatgtaatatatattatatata +ttatatatgtaatatatattatatatattatatatgtaatatatattatatatattatat +atgtaatatatattatatatattatatatgtaatatatattatatatattatatatgtaa +tatatattatatatattatatatgtaatatatattatatatattatatatgtaatatata +ttatatatattatatatgtaatatatatatatttaaaaacagaaccattatcttttagag +atacatactgaagtgtctggagacatgcttcaagataacccag +>syndip_2_chr20:20320239-20320620 +ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag +taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat +atatgtaatatata---------------------------ttatatatatgtaatatat +ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata +tatattatatatgtaatatata--------------------atatatgtaatatataat +atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata +tatatatatttaaaaacagaaccattatcttttagagatac------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----atactgaagtgtctggagacatgcttcaagataacccag +>p:HG002_1_chr20:20320239-20320620 +ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag +taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat +atatgtaatatata---------------------------ttatatatatgtaatatat +ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata +tatattatatatgtaatatata--------------------atatatgtaatatataat +atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata +tatatatatttaaaaacagaaccattatcttttagagatac------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----atactgaagtgtctggagacatgcttcaagataacccag +>p:HG002_2_chr20:20320239-20320620 +ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag +taaagatggtatttcagatatatagatatatatatat--tatatatgtaatatatataat +atatgtaatatgta--atatatataatatatgtaatatatattatatatatgtaatatat +ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata +tatattatatatgtaatatataatatatgtaatatatatattatatatgtaatatataat +atatgtaatatatattatatatgtaatataatatatgtaatatatattatatatgtaata +tatattacatatattatatatgcaatatatattatatatattatatatgcaatatatatt +atatatattatatatgcaatatatattatatatgcaatatatattatatatattatatat +gcaatatatattatatatattacatatgtaatatatattacatatgtaatatataatata +ttatatattacatatgtaatatataatatattatatattacatatgtaatatataatata +tattacatatgtaatatataatatatattacatatgtaatatattatatattacatatgt +aatatattatatattacatatgtaatatattatatattacatatgtaatatattatatat +tacatatgtaatatattatatattacatatgtaatatatataatatattacatatgtaat +atataatatattatatatgtaatatatattacatatataatatatataatatatatgtaa +tatattatatatattatatatgtaatatatattacatatataatatatattatatatatt +acatatattatatatgtaatatatattacatatgtaatatatgtaatatatattacatat +gtaatatatattatatatgtaatatatattacatatattatatatgtaatatatattata +tatattatatatgtaatgtataatatatatattatatatgtaatatatattatatataat +atatgtaatatatattatatatgtaatgtatattatatatattatatatgtaatgtatat +tatatataatatatgtaatgtatattatatatgtaatatatattatgtatattatatatg +taatatatattatatatattatatatgtaatatatattatatatattatatatgtaatat +atattatatatattatatatgtaatatatattatatatattatatatgtaatatatatta +tatatattatatatgtaatatatattatatatattatatatgtaatatatattatatata +ttatatatgtaatatatattatatatattatatatgtaatatatattatatatattatat +atgtaatatatattatatatattatatatgtaatatatattatatatattatatatgtaa +tatatattatatatattatatatgtaatatatatgtaatatatattatatatgtaatata +taatatatattatatatgtaatatatatatatttaaaaacagaaccattatcttttagag +atacatactgaagtgtctggagacatgcttcaagataacccag +>ref_chr20:20320239-20320620 +ggaaatttgaaacctggagagttaatgatgataagcaattatgattaatttttttagcag +taaagatggtatttcagatatatagatatatatatattatatatatgtaatatatataat +atatgtaatatata---------------------------ttatatatatgtaatatat +ataatatatgtaatatatgtaatatatattatatatgta----atataatatatgtaata +tatattatatatgtaatatata--------------------atatatgtaatatataat +atatgtaatatatattatatatgtaatata-------taatatatattatatatgtaata +tatatatatttaaaaacagaaccattatcttttagagatac------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----atactgaagtgtctggagacatgcttcaagataacccag diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa new file mode 100644 index 00000000..21ba1dec --- /dev/null +++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_a3b02bde8a503aab8bb0da7f33f98a9d.msa @@ -0,0 +1,130 @@ +>syndip_1_chr20:63028776-63029503 +caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg +agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca +aacgcacccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcg +cctccgtgtgcaggtcccccgggcctccgcctctccgtgtgcaggtcccccgggcctccg +cgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctc +cgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcc +tccgcgtctgtgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccggg +cctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccg +ggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccc +cgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcc +cccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggt +cccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcag +gtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgc +aggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgt +gcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgt +gtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctcc +gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct +ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc +ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc +gcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctcc +gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct +ccgcgcctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg +ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt +catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca +t +>syndip_2_chr20:63028776-63029503 +caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg +agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca +aa---------------------------------------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +-------------------------------------------------------cgcac +ccga-------------------------------------------------------- +------------------------------------------------------------ +--------gtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct +ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc +ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc +gcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcccccgggcctcc +gcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct +ccgcgtctccgtgtgcaggtcccccgggcccctgcgtctctgtgtgcaggctcaagtttg +ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt +catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca +t +>p:HG002_1_chr20:63028776-63029503 +caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg +agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca +aa---------------------------------------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +-------------------------------------------------------cgcac +ccga-------------------------------------------------------- +------------------------------------------------------------ +--------gtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct +ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc +ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc +gcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcccccgggcctcc +gcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct +ccgcgtctccgtgtgcaggtcccccgggcccctgcgtctctgtgtgcaggctcaagtttg +ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt +catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca +t +>p:HG002_2_chr20:63028776-63029503 +caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg +agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca +aacgcacccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcg +cctccgtgtgcaggtcccccgggcctccgcctctccgtgtgcaggtcccccgggcctccg +cgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctc +cgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcc +tccgcgtctgtgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccggg +cctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccg +ggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccc +cgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctccgtgtgcaggtcc +cccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggt +cccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcag +gtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctccgtgtgc +aggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgt +gcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgtctgtgt +gtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctcc +gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct +ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc +ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc +gcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctcc +gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct +ccgcgcctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg +ccaacgtccatgcacgtctcagcctctcagcctggactggacaactcggcttcgggaatt +catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgaattca +t +>ref_chr20:63028776-63029503 +caacaatgcacaagtggcttgagtagaagagctgctcctgctgggaggcgcaggaggctg +agcgaggcccaccctgcaggggcgaggccacggtttgtgttatttcccatgatgactcca +aa---------------------------------------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +-------------------------------------------------------cgcac +ccgagtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcctccgt +gtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctccgcgcctcc +gtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgcct +ccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgcgc +ctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcctccgc +gcctccgtgtgcaggtcccccgggcctccgcgtctgtgtgtgcaggtcccccgggcctcc +gcgcctccgtgtgcaggtcccccgggcctccgcgcctccgtgtgcaggtcccccgggcct +ccgcgtctccgtgtgcaggtcccccgggcctctgcgtctctgtgtgcaggctcaagtttg +ccaacgtccatgcacgtctcagcctctcagcctggactggacaactgggcttcgggaatt +catttaaattctacccgctacacgccttccctggattcagggcggcgtccagtgcattca +t diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa new file mode 100644 index 00000000..107a7831 --- /dev/null +++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_ad2c051e81d70fcd18bbddaf87dc9140.msa @@ -0,0 +1,195 @@ +>syndip_1_chr20:56280441-56282014 +aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata +acatccatatatagatatatctatatatctatctatagctac------------------ +----------------------------------------------atctacagatatct +atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct +acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat +atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat +ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat +atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag +atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt +atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat +aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata +tagatatatatacataaatctatatatatacataaatctatatatacataaatctatata +gatatatatacataaatctatatagatatatatacataaatctatatagatatatataca +taaatctatatagatatatatacataaatctatatagatatatacataaatctatataga +tatatatacataaatctatatagatatatatacataaatctatatagatatatatacata +aatctatatagatacatatagataaatctatacagatatatagatacatatagataaatc +tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata +aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata +gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca +tatagatacatctatacagatatatagatacatatagatacatctatacagatatataga +tacatatagatacatctatacagatatattgatacatatagatacatctatatagatata +tagat--atatagatacatctatatagatatatagatatatagatacatctatatagata +tattgatacat--atagatacatctatatagattagatatatatagatacatctatatag +attagatatatatagatacatctatatagattagatatatatagatacatctatatatag +atatatagatatatatagatacatctatatatagacatatagatatatatagatacatct +atatatagatatatagatgtatatagatacatctatat--atagatatatagatgtatat +agatacatctatatatagatatatagatgtatatagatacatctatatatagatatatag +atgtatatagatacatctatat--atagatatatagatgtatatagatacatctatatat +agatatatagatgtatatagatacatctatatatagatatatagatgtatatagatacat +ctatatatagatatatagatgtatatagatacatctatatatagatatatagatgtatat +agatacatctatatatagatatatagatgtatatagatacatagatatatatagatacat +ttatgtatatatatatgtatatatagatatatagatatatatagatacatctacacagag +agatatatagaaacatctacacagggagatatatagatacatctacatagagagatatat +agatacatctacatagagagatatatagatacatctacatagagagatatatagatacat +ctacatagagagatatatagatacatctacacagagagatatatagaaacatctacacag +ggagatatatagatacatctacacagagagatatatagatacatctacatagagagatat +atagatacatctacatagagagatatatagatacatctacatagagagatatatagatac +atctacatagagagatatatagatacatc +>syndip_2_chr20:56280441-56282014 +aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata +acatccatatatagatatatctatatatctatctatagctacatctacagatatctatag +ctacatctacagatatctacagatatctatagctacatctacagatatctacagatatct +atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct +acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat +atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat +ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat +atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag +atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt +atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat +aaatctatatagatatataaaatag------------------------ataaatctata +tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa +tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca +taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata +gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata +aatctatataga------------------------tatatagatacatatagataaatc +tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata +aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata +gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca +tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga +tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata +ttgatacatatagatacatctatatagatatatagatatatagatacatctata------ +------------------------------------------------------------ +-------------------------------tagatatatatagatacatctatatatag +acatatagatatatatagatacatctatatatagacatatagatatatatagatacatct +atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct +acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag +agatatatagatacatctatatagagagatatatagatacatctacatagagagatatat +agatacatctacatagagagatatatagatacatctacatagagagatatatagatacat +c----------------------------------------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------- +>p:HG002_1_chr20:56280441-56282014 +aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata +acatccatatatagatatatctatatatctatctatagctacatctacagatatctatag +ctacatctacagatatctacagatatctatagctacatctacagatatctacagatatct +atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct +acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat +atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat +ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat +atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag +atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt +atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat +aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata +tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa +tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca +taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata +gatatatacataaatctatatagatatatatacataaatctatatagatatatata---- +----tatatagatatatatacataaatc--------tatatagatacatatagataaatc +tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata +aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata +gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca +tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga +tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata +ttgatacatatagatacatctatatagatatatagatatatagatacatctata------ +------------------------------------------------------------ +-------------------------------tagatatatagatata----tagatacat +ctatatagatatatatagatacatctatatatagacatatagatatatatagatacatct +atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct +acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag +agatatatagatacatctacatagagagatatatagatacatctacatagagagatatat +agatacatctacatagagagatatatagatacatc------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------- +>p:HG002_2_chr20:56280441-56282014 +aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata +acatccatatatagatatatctatatatctatctatagctac------------------ +----------------------------------------------atctacagatatct +atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct +acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat +atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat +ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat +atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag +atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt +atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat +aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata +tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa +tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca +taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata +gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata +aatctatatagatatatatacataaatctatacagatatatagatacatatagataaatc +tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata +aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata +gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca +tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga +tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata +ttgatacatatagatacatctatatagatatatagatatatagatacatctatatagata +tatagatatatagatacatacatctatatagattagatatatatagatacatctatatag +attagatatatatagatacatctatatagattagatatatatagatacatctatatatag +atatatagatatatatagatacatctatatatagatatatagatatatatagatacatct +atatatagatatatagatgtatatagatacatctatat--atagatatatagatgtatat +agatacatctatatatagatatatagatgtatatagatacatctatatatagatatatag +atgtatatagatacatctatat--atagatatatagatgtatatagatacatctatatat +agatatatagatgtatatagatacatctatatatagatatatagatgtatatagatacat +ctatatatagatatatagatgtatatagatacatctatatatagatatatagatgtatat +agatacatctatatatagatatatagatgtatatagatacatagatatatatagatacat +ttatgtatatatatatgtatatatagatatatagatatatatagatacatctacacagag +agatatatagaaacatctacacagggagatatatagatacatctacatagagagctatat +agatatatatagatacatctatatatagacatatagatatatatagatacatctatatat +agatatatagatatatatagatacatctacacagagagatatatagaaacatctacacag +ggagatatatagatacatctacacagagagatatatagatacatctacatagagagatat +atagatacatctacatagagagatatatagatacatctacatagagagatatatagatac +atctacatagagagatatatagatacatc +>ref_chr20:56280441-56282014 +aaaaaggtaacatccatatacagatataatatctataacatatatagatatatggatata +acatccatatatagatatatctatatatctatctatagctac------------------ +--------------atctacagatatctatagctacatctacagatatctacagatatct +atagctacatctacagatatctatagctacatctacagatatctacagatatctacagct +acatctacagatatctatagatatctatagctatatctacagatatctatcgatagatat +atctatcgatagatatatccacatagatatctagatatatatggatatatctatagatat +ctatctggatatatctatcgatagatatatagatatatatagataaagctatatagatat +atatagataaacctatatagatacatagatatatagagagaaacctatatacatatatag +atatatagagagaaacctatatagatatatagatatatagagagaaacctatatagatgt +atagataaacctatatagatatatagataaacctatgtagatatatagatatatatagat +aaatctatatagatatataaaatagataaatctatatagatatatatacataaatctata +tagatatatatacataaatctatatagatatatatacataaatctatatatatacataaa +tctatatatacataaatctatatagatatatatacataaatctatatagatatatataca +taaatctatatagatatatatacataaatctatatagatatatatacataaatctatata +gatatatacataaatctatatagatatatatacataaatctatatagatatatatacata +aatctatatagatatatatacataaatc--------tatatagatacatatagataaatc +tatacagatatatagatacatatagataaatctatacagatatatagatacatatagata +aatctatacagatatatagatacatatagataaatctatacagatatatagatacatata +gataaatctatacagatatatagatacatatagataaatctatacagatatatagataca +tatagataaatctatacagatatatagatacatatagatacatctatacagatatataga +tacatatagatacatctatacagatatatagatacatatagatacatctatacagatata +ttgatacatatagatacatctatatagatatatagatatatagatacatctata------ +------------------------------------------------------------ +-------------------------------tagatatatagatata----tagatacat +ctatatagatatatatagatacatctatatatagacatatagatatatatagatacatct +atatatagatatatagatatatatagatacatctacacagagagatatatagaaacatct +acacagggagatatatagatacatctacacagagagatatatagatacatctacatagag +agatatatagatacatctacatagagagatatatagatacatctacatagagagatatat +agatacatctacatagagagatatatagatacatc------------------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------- diff --git a/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa b/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa new file mode 100644 index 00000000..88b78cdc --- /dev/null +++ b/repo_utils/test_files/external/fake_mafft/lookup/fm_f949c02c5b00935cf4bd4b3c660a5ded.msa @@ -0,0 +1,175 @@ +>syndip_1_chr20:20337185-20337725 +tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg +atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg +gatagatgggtgggtggatggatggatggatagatgggtggatggatagatgggtggatg +gataaatggatggatggatggatggatagatgggtgggtagatggatggatggatggatg +gatggatggatggatggatggatggatagatgggtgggtgggtggatggatggatggatg +gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatggatggatggatagatagatggatagatgggtgggtggatggatg +gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatggatggatggatggatggatggatagatggatagatgggtg +ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatggatggatggatggatagatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatggatggatggatggatggatggatggatggatggata +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatggatagatgggtgggtg +gatggatggatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg +gatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtg +gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatagatgggtgggtgggtggatggatggatggatggatagaat +aaaaaagaaagctaggacatggttctagtgttcttagcagacg +>syndip_2_chr20:20337185-20337725 +tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg +atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg +gatggatagatgggtgggtggatggatggatggatagatgggtggatggataaatggatg +gatggatggatggatagatgggtgggtaga----tggatggatggatggatggatggatg +gatggatggatggatggatagatgggtgggtgggtggatggatggatggatggatggatg +gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatggatggatggataga----------------tgggtgggtggatg +gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg +gg----tggatggatggatggatggatggatggatggatggatagatggatagatgggtg +ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata---- +----------------gatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatg----------------gatggatagatgggtgggtgggtggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatagatgggtgggtgggtggatggatggatggatggataga-------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------------------------------------at +aaaaaagaaagctaggacatggttctagtgttcttagcagacg +>p:HG002_1_chr20:20337185-20337725 +tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg +atggatggatggatggacagaatgggtgggtggatggatggatggatagatggatggatg +gatggatggatggatggatggatggatggatggatagatgggtgggtgggtggatggatg +gatggatggatggatggatggatggatgga----tggatagatgggtgggtggatggatg +gatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg +gatggatggatagatgggtggatggataaatggatggatggatggatggatagatgggtg +ggtggatggatggatggatggatggatggatggatggatagatggatggatagatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatgggtggatggataaatggatggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatggatagatggataga----------------tgggtgggtggatg +gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatagatggatagatgggtgggtggatggatggatggatagatgggtg +gg----tggatggatggatggatggatggatggatggatggatagatggatagatgggtg +ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata---- +----------------gatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatg----------------gatggatagatgggtgggtgggtggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatgggtggatggatggatggatagatgggtgggtgggtggatggatggatg +gatggatagatgggtgggtgggtggatggatggatggatggataga-------------- +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------------------------------------at +aaaaaagaaagctaggacatggttctagtgttcttagcagacg +>p:HG002_2_chr20:20337185-20337725 +tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg +atggatggatggatggacagaatgggtgggtggatggatggatggatggatggatggatg +gatagatgggtgggtggatggatggatggatagatgggtggatggatagatgggtggatg +gataaatggatggatggatggatggatagatgggtgggtggatggatggatggatggatg +gatggatggatggatggatagatggatagatgggtgggtggatggatggatggatggatg +gatggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatgggtggatggataaatggatggatggatggatggatagatgtgtgggtggatggatg +gatggatggatggatggatggatggatggatagatggatagatgggtgggtggatggatg +gatggatggatggatggatggatggatggatagatgggtggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +gatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggata +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatggatg +gatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatggatg +gatggatggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatggatggatggatggatggatggatagatggatagatgggtg +ggtggatggatggatggatagatgggtgggtggatggatggatggatagatggatagatg +ggtgggtggatggatggatggatagatggatagatgggtgggtggatggatggatggata +gatgggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatggatggatagatgggtgggtggatggatggatggatagatgggtg +ggtggatggatggatggatagatggatagatgggtgggtggatggatggatggatagatg +ggtgggtggatggatggatggatggatggatagatggatagatgggtgggtggatggatg +gatggatagatgggtgggtggatagatggatggatggatggatggatggatggatggatg +gatggatggatagatgggtgggtgggtggatggatggatggatggatggatggatggatg +gatggatggatagatgggtgggtggatggatggatggatagatggatagatgggtgggtg +gatggatggatggatagatgggtgggtggatggatggatggatagatgggtggatggata +aatggatggatggatggatggatagatgggtgggtggatggatggatggatggatggatg +gatggatggatagatagatgggtgggtggatggatggatggatagatgggtgggtgggtg +gatggatggatggatggatagatgggtgggtgggtggatggatggatggatggatagaat +aaaaaagaaagctaggacatggttctagtgttcttagcagacg +>ref_chr20:20337185-20337725 +tggaaataaggaaacagggtttaggaaggcctcactagacctgttaggatggatgcatgg +atggatggatggatggacagaatgggtgggtggatggatggatggatagatggatggatg +gatggatggatggatggatggatggatggatggatagatgggtgggtgggtggatggatg +gatggatggatggatggatggatggatgga----tggatagatgggtgggtggatggatg +gatggatagatggatagatgggtgggtggatggatggatggatagatgggtgggtggatg +gatggatggatagatgggtggatggataaatggatggatggatggatggatagatgggtg +ggtggatggatggatggatggatggatggatggatggatagat----------------- +-----gtgggtggatggatggatggatagatgggtgggtgggtggatggatggatggatg +gatagatgggtgggtgggtggatggatggatggatggataga------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +------------------------------------------------------------ +----------------------------------------------------------at +aaaaaagaaagctaggacatggttctagtgttcttagcagacg diff --git a/truvari/collapse.py b/truvari/collapse.py index c972ec51..787ba837 100644 --- a/truvari/collapse.py +++ b/truvari/collapse.py @@ -145,25 +145,25 @@ def collapse_into_entry(entry, others, hap_mode=False): # We'll populate with the most similar, first others.sort(reverse=True) # I have a special case of --hap. I need to allow hets - replace_gts = ["UNK", "REF", "NON"] + replace_gts = [truvari.GT.REF, truvari.GT.NON, truvari.GT.UNK] if hap_mode: - replace_gts.append("HET") + replace_gts.insert(1, truvari.GT.HET) # Each sample of this entry needs to be checked/set n_consolidate = 0 for sample in entry.samples: - m_gt = truvari.get_gt(entry.samples[sample]["GT"]).name + m_gt = truvari.get_gt(entry.samples[sample]["GT"]) if m_gt not in replace_gts: continue # already set n_idx = None for pos, o_entry in enumerate(others): o_entry = o_entry.comp - o_gt = truvari.get_gt(o_entry.samples[sample]["GT"]).name + o_gt = truvari.get_gt(o_entry.samples[sample]["GT"]) if o_gt not in replace_gts: n_idx = pos break # this is the first other that's set # consolidate - if hap_mode and m_gt == "HET": + if hap_mode and m_gt == truvari.GT.HET: entry.samples[sample]["GT"] = (1, 1) n_consolidate += 1 elif n_idx is not None: @@ -184,6 +184,8 @@ def collapse_into_entry(entry, others, hap_mode=False): logging.debug("Unshared format %s in sample %s ignored for pair %s:%d %s %s:%d %s", key, sample, entry.chrom, entry.pos, entry.id, o_entry.chrom, o_entry.pos, o_entry.id) + # pass along phase + entry.samples[sample].phased = o_entry.samples[sample].phased return entry, n_consolidate