Error Correction 目录
LoRDEC 目录
LoRDec用简洁的de Bruijn图代表二代数据;比相似的软件快6倍,存储少93%
- LoRDEC纠错原理
先用准确度高的二代数据构建简洁的 DBG 图,然后依次对每条pacbio reads纠错。构图和纠错都能使用多线程,所以运行速度快,用过滤之后的kmer构建DBG图,内存空间较小。因此针对大基因组,是纠错软件的首选
步骤:
-
将weak kmer过滤掉
对二代测序数据统计各个kmer的频率,频率低的称为week kmer,设定一个阈值将week kmer过滤掉,留下来的称为solid kmer
-
用solid kmers构建DBG(de bruijn graph),DBG通过GATB存储
-
依次将每条LR(long reads)遍历DBG进行纠错
参考资料: