0
头像

多序列 GenBank 文件中 Vector NTI 解析器的错误

Hello,

尝试打开包含多个序列的 GenBank 文件时出现错误。

该文件是通过从我们的 LIMS 数据库中选择不同的 GenBank 文件来动态创建的。

一些 GenBank 文件是在 Vector NTI 中创建的,当一个 Vector NTI 序列包含在组合的 GenBank 文件中时,我遇到了问题。

我创建了一个简单的示例(删除序列详细信息和注释),它仍然会产生我所看到的问题

LOCUS test_seq1 1 bp DNA 环状 SYN 15-JUN-2021
定义 -。
访问 -
关键词-。
来源 -。
生物
评论 此文件由 Vector NTI 创建
http://www.invitrogen.com/
COMMENT ORIGDB|GenBank
评论 LSOWNER|
评论 VNTNAME|ABC1.1|
特点位置/预选赛
起源
1 克
//
LOCUS test_seq2 1 bp DNA 环状 UNA 2021 年 6 月 15 日
定义
访问
版本
关键词。
来源
有机体。
起源
1吨
//
LOCUS test_seq3 1 bp DNA 环状 UNA 15-JUN-2021
定义
访问
版本
关键词。
来源
有机体。
起源
1个
//

如果我尝试打开包含 3 个序列的上述 genbank 文件,则会加载第一个序列,然后出现上述错误。

如果包含的序列都没有 Vector NTI 注释,则不会出现错误;如果所有序列都具有 Vector NTI 注释,则不会出现错误。错误似乎只发生在不同来源的序列混合时。

如果我的理论是正确的,你会推荐什么来解决这个问题?

是从 Vector NTI 序列中删除注释还是向非 Vector NTI 序列添加注释,以便它们可以从同一文件加载?

非常感谢,

詹姆士

错误的技术细节如下

com.biomatters.geneious.publicapi.plugin.DocumentImportException
在 com.biomatters.iseek.plugin.fileimport.Da(ImportExceptionData.java:84)
在 com.biomatters.iseek.plugin.fileimport.Ea(Importage.java:266)
在 com.biomatters.iseek.plugin.fileimport.FileImporterManager.a(FileImporterManager.java:683)
在 com.biomatters.iseek.plugin.fileimport.FileImporterManager.a(FileImporterManager.java:650)
在 com.biomatters.iseek.plugin.fileimport.FileImporterManager.a(FileImporterManager.java:535)
在 com.biomatters.iseek.plugin.fileimport.FileImporterManager.a(FileImporterManager.java:388)
在 com.biomatters.iseek.plugin.fileimport.v.run(FileImporterManager.java:309)
在 java.base/java.lang.Thread.run(Thread.java:834)
引起:com.biomatters.geneious.publicapi.plugin.DocumentImportException:已到达作者信息中的文件末尾
在 com.biomatters.iseek.plugin.fileimport.DocumentAggregatingImportCallback.a(DocumentAggregatingImportCallback.java:415)
在 com.biomatters.iseek.plugin.fileimport.Ea(Importage.java:149)
...6 更多
引起:com.biomatters.geneious.publicapi.plugin.DocumentImportException:已到达作者信息中的文件末尾
在 com.biomatters.plugins.fileimportexport.vectorntiimporter.sequenceImporter.aa(AuthorParser.java:119)
在 com.biomatters.plugins.fileimportexport.vectorntiimporter.sequenceImporter.aa(AuthorParser.java:102)
在 com.biomatters.plugins.fileimportexport.vectorntiimporter.sequenceImporter.e.(VectorNtiCommentsParser.java:59)
在 com.biomatters.plugins.fileimportexport.vectorntiimporter.sequenceImporter.VectorNtiSequenceImporter.importDocuments(VectorNtiSequenceImporter.java:80)
在 com.biomatters.geneious.publicapi.plugin.DocumentFileImporter.importDocuments(DocumentFileImporter.java:311)
在 com.biomatters.iseek.plugin.fileimport.DocumentAggregatingImportCallback.a(DocumentAggregatingImportCallback.java:404)
...还有 7 个

 

詹姆斯·莫里斯

官方评论

头像

嗨,詹姆斯, 

你是对的,VNTI 和 Genbank 风格的 gb 文件的一些混合可能会导致问题。
恐怕根据您的特定文件的外观,将 VNTI 注释添加到所有序列中是不安全的,因为如果这些注释块不完整或包含重复数据,解析器可能无法正常工作。

删除以以下任一开头的任何行会更可靠:

评论 Vector_NTI_Display_Data[...]
评论 VNTI[...]

 

此外,如果第一个序列有 FEATURE 部分(并且没有 COMMENT VNTI),它应该将其识别为非 VNTI Genbank 格式并正确导入。

希望有帮助。

乔纳斯·库恩
评论动作 永久链接

4 条评论

0
头像

太好了,我会在加载之前去掉那些 VNTI 线。

非常感谢您的帮助乔纳斯

 

詹姆斯·莫里斯 0 票
评论动作 永久链接
0
头像

你好

我有几个与 VNTI 评论相关的后续问题,希望您能帮助我。

1) 您是否计划进行修复以允许 Geneious 解析包含 VNTI 和非 VNTI 序列混合的文件?

2) 当你解析一个 VNTI 文件时,你使用 VNTI 注释做什么?

3) 从文件中删除所有 VNTI 注释会产生什么后果?是否有任何信息或功能在 Geneious 中加载后会丢失?

非常感谢,

詹姆士

詹姆斯·莫里斯 0 票
评论动作 永久链接
0
头像

嗨,詹姆斯,

你能告诉我们你从哪里得到你的 VNTI 和 Genbank 文件吗?您提供的两个示例看起来都不完整/缺少某些元素,我们认为这些元素应该存在于所有 VNTI 或非 VNTI 文件中。
(如果您不想将它们上传到论坛,请随时联系我们的支持团队 ( support@geneious.com ) 以获取更多详细信息和一些完整文件)

如果根据我们过去观察到的情况,VNTI 和非 VNTI 文件是“完整的”,则应该正确处理序列混合。

Geneious 的最新版本只解析存在于

评论 VNTI[...]

并将它们设置为导入序列的元数据。这些可能包含一些用户定义的字段 (VNTUDF) 和一些预定义的字段(作者、日期、地址等)。

删除这些评论将删除该元数据,但结果应该是相同的。

乔纳斯·库恩 0 票
评论动作 永久链接