Skip to content

Latest commit

 

History

History
74 lines (37 loc) · 2.14 KB

三代测序数据分析.md

File metadata and controls

74 lines (37 loc) · 2.14 KB

目录

三代测序数据分析

三代测序数据分析

Error Correction 目录

LoRDEC 目录

LoRDec用简洁的de Bruijn图代表二代数据;比相似的软件快6倍,存储少93%

  • LoRDEC纠错原理

先用准确度高的二代数据构建简洁的 DBG 图,然后依次对每条pacbio reads纠错。构图和纠错都能使用多线程,所以运行速度快,用过滤之后的kmer构建DBG图,内存空间较小。因此针对大基因组,是纠错软件的首选

步骤:

  • 将weak kmer过滤掉

    对二代测序数据统计各个kmer的频率,频率低的称为week kmer,设定一个阈值将week kmer过滤掉,留下来的称为solid kmer

  • 用solid kmers构建DBG(de bruijn graph),DBG通过GATB存储

  • 依次将每条LR(long reads)遍历DBG进行纠错

    1. Inner error

      考虑到通过第一步过滤得到的solid reads依旧有假阳性,设定多对source、target solid kmer(-t 参数,默认为5)

    2. Head/Tail error

      1. 只有source kmer ,缺少target kmer

      2. 通过source kmer在DBG上查找所有path(直到branch太多或者是末节点)

      3. 按照分数最好选取最优路径,相当于blast比对。

      4. 当inner error找不到source、target solid kmer时,按照Head error的方式纠错

参考资料:

(1) LoRDEC:pacbio纠错软件