我应该使用哪种多重对齐算法?

Four different multiple alignment algorithms are available in Geneious Prime 2020 under Align/Assemble→Multiple Align.选择使用哪个数据集时,请务必考虑数据集的大小。  以下是每种算法的简要概述。 

灵巧的对准器

Geneious aligner是一个渐进的成对aligner,类似于ClustalW(如下)。  它是Geneious中最慢的算法,建议用于小的比对(例如,少于50个序列,长度小于1 kb)。

肌肉(MUSCLE,通过Log-Expectation进行多序列比较) 

MUSCLE 是一种渐进式对齐器,具有使用 k-mer 计数的快速序列距离估计、使用称为对数期望分数的配置文件函数进行渐进式对齐,以及使用依赖于树的序列受限分区进行细化。  The algorithm is described at http://nar.oxfordjournals.org/content/32/5/1792.full.pdf+html and a full manual is available at http://www.drive5.com/muscle/manual/index.html.默认值经过优化以获得最佳准确性。  但是,您可以通过减少最大迭代次数来减少大型路线的运行时间,而不会过多降低准确性。  

  • 适用于最多 1000 个序列的中大型比对。 
  • 不适用于具有低同源性 N 端和 C 端延伸的序列。 

Clustal Omega (在Geneious Prime 2020起取代ClustalW)

Clustal Omega是一种快速,准确的对准器,适用于任何尺寸的对准。它使用 mBed 引导树和基于 HMM 的配对算法,提高了灵敏度和对齐质量。  分子系统生物学论文中提供了对Clustal Omega使用的算法的完整描述,可以使用Clustal Omega 快速,可扩展地生成高质量的蛋白质多序列比对 。Clustal Omega中介绍了 Clustal Omega的最新功能,可对许多蛋白质科学进行精确比对 。  另请参阅 Clustal Omega网站 。  

  • 适用于超过 2000 个序列的超大数据集
  • 多线程更快对齐。
  • 适用于具有长的、低同源性的 N 端或 C 端延伸的序列
  • 不适合具有大内部插入缺失的序列比对

MAFFT (通过转到“工具”->“插件”进行安装)

MAFFT 是一种渐进迭代对齐器,它使用引导树重新估计来获得更准确的距离度量。  有关详细信息,请参见 http://mafft.cbrc.jp/alignment/software/ 。 

  • Fast and accurate, especially suited for large datasets (e.g. up to 30,000 sequences, or fewer long sequences*).
  • 多线程更快对齐。 
  • 适用于具有长的、低同源性的 N 端或 C 端延伸的序列
  • 适用于具有长内部间隙的序列(使用L-ins-i算法)

* For long sequences, the algorithm is faster if sequences are closely related.  对于高度不同的序列,像Mauve或LASTZ这样的全基因组比对仪可能更有效。  

ClustalW (在Geneious Prime 2019和更早版本中提供)

ClustalW是类似于Geneious aligner的渐进式aligner。  有关算法的详细信息,请参见http://www.clustal.org/clustal2/ 。 ClustalW比Geneious快一点,但仍应限于较小的对齐方式。

 

译者水平有限,译文可能有瑕疵,以英文为准!
1 out of 1 found this helpful
以上内容来自互联网,仅供中文用户参考,仍未解决?马上联系中文技术支持→→→提交难题/咨询/报错

购买正版Geneious Prime,享受随时技术支援,免费提供中文操作教程、含正规发票!

立即购买正版Geneious Prime软件(淘宝店铺)