Geneious Prime中预处理NGS读数的最佳实践

对NGS读数进行正确的预处理将提高装配精度,通常也将大大减少完成装配所需的计算量和时间。

如果已将读取的数据配对,则第一步应该始终是“ 设置配对的读取” ,然后进行裁剪,然后根据需要进行其他预处理步骤,如下图所示。

 

Preprocessing_Flow.png

 

导入/配对NGS数据

NGS序列服务提供商通常将以fastq格式将Illumina配对的读取数据作为单独的正向和反向读取列表提供。  通常,将删除标准的Illumina适配器。在大多数情况下,fastq列表将由 gzip (.gz) 压缩 。Geneious可以导入压缩或未压缩的fastq文件。

You can import forward and reverse read files together via menu File → From Multiple files and Geneious will offer to pair the files and create a single paired read list.同样,如果您将成对的读取列表拖放到“ Geneious”窗口中,则可以在导入过程中选择配对。

Geneious将确定可能的读取技术,因此您只需要设置预期的插入大小(预期的平均插入大小,不包括适配器),然后单击 OK即可

If you have already imported your reads as separate lists then you can pair after importing by selecting the lists and going menu Sequence → Set paired reads.

 

NGS修剪

重要的是在组装之前修整读取端。  序列末尾的错误低质量调用可能会阻止正确的组装,并增加执行组装所需的计算量和时间。

Geneious Prime具有BBDuk修剪器,这是一种快速,准确的工具,专门用于修剪和过滤NGS读数。

BBDuk is available as a plugin and can be installed via menu Tools → Plugins.  Once installed BBDuk can be accessed via menu Annotate & Predict → Trim using BBDuk.

BBDuk可以选择:

  • 使用Illumina适配器的预设来识别和修剪适配器
  • 修剪基于质量(Q)
  • 基于配对的读取突出端的修剪适配器
  • 舍弃短读(以及相关的配对伴侣)

我们建议修整最低质量(Q)为13,最好为30的Illumina数据。建议的修整选项如下所示。

Screen_Shot_2020-11-27_at_9.49.33_AM.png

如果根据质量修剪牛津纳米孔读数,则可能需要将阈值设置得较低以表示该技术的错误率较高。我们建议对这些读数使用最低质量分数 7 (Q7)。

对于高级用户,BBDuk可以访问更多的“隐藏”选项。For example, users can use the following "command line" options to filter reads with %G+C content between 25% and 75%: 

mingc = 0.25 maxgc = 0.75

 

单击“更多/更少选项”按钮,然后单击“ 自定义BDDuk选项”旁边的( )按钮了解您可以使用的其他命令行选项。

 

Error correct and Normalize reads (Accessed via menu Sequence → Error correct and normalize reads)

纠错和标准化读取工具利用 BBNorm 。 对于大多数用例,可以关闭纠错功能,并自行运行规范化。  该工具旨在通过对基因组深度区域中的读数进行下采样来对覆盖范围进行归一化,从而实现更均匀的覆盖范围分布。重要的是,规范化不会删除覆盖率较低的区域中的读取。

规范化可以大大减少数据集的大小,随后,对于从头组装,它可以显着减少组装时间和RAM需求。See the de novo assembly tutorial for more information on the use of Normalization.

 

Merge paired Reads (Accessed via menu Sequence → Merge paired reads)

该工具利用 BBMerge ,旨在将两个重叠的成对读取合并为一个读取。该工具可用于通过扩增子测序产生的重叠读数生成共识。

 

Remove duplicate Reads (Accessed via menu Sequence → Remove duplicate reads)

该工具利用 重复数据删除 技术 ,旨在查找和删除读取数据集中的所有包含和重叠序列。

组装之前,必须在读取列表上运行重复数据删除操作。  它不能用于删除程序集文件中的重复读取。

 

Remove Chimeras (Accessed via Sequence → Remove chimeric reads)

该工具将通过与参考数据库进行比较来过滤测序数据中的嵌合读物。您可以在捆绑的公共领域UCHIME算法之间进行选择,或者下载并使用速度更快的 USEARCH 8 。请注意,USEARCH 8的免费版本仅限使用4 GB的RAM,因此无法处理较大的NGS数据集。

 

Barcode splitting (Accessed via menu Sequence → Separate by barcodes)

该工具将多路自定义条形码数据解复用到单独的列表中。该工具具有454个MID条形码预设,或者您可以定义和使用自己的自定义条形码集。

注意: 在使用BBduk进行修整之前,应始终执行 d 多路复用。



译者水平有限,译文可能有瑕疵,以英文为准!
0 out of 0 found this helpful
以上内容来自互联网,仅供中文用户参考,仍未解决?马上联系中文技术支持→→→提交难题/咨询/报错

购买正版Geneious Prime,享受随时技术支援,免费提供中文操作教程、含正规发票!

立即购买正版Geneious Prime软件(淘宝店铺)