[发明专利]基于转录组双端测序数据组装基因组序列的方法和装置有效
申请号: | 201610349039.3 | 申请日: | 2016-05-24 |
公开(公告)号: | CN106055925B | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 李炯棠;朱柏翰;肖军;孙明媛;徐桂彩 | 申请(专利权)人: | 中国水产科学研究院 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘向辉;王凝 |
地址: | 100141 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于转录组双端测序数据组装基因组序列的方法,所述方法包括将转录组双端测序序列比对到基因组上,保留双端测序序列分别仅能比对唯一的不同基因组序列以及基于最多转录组双端测序序列连接证据的基因组序列拼接筛选、形成新的基因组序列等步骤。本发明还提供实现上述方法的装置。利用本发明方法,通过将转录组双端测序序列比对到基因组上,获得基于最多双端测序比对结果的连接证据,从而进行基因组序列的拼接组装,以提升基因组的完整性。转录组双端测序数据既可以是公共数据库中该物种的转录组双端测序序列,也可以是实验产生的转录组双端测序数据。 | ||
搜索关键词: | 基于 转录 组双端测 序数 组装 基因组 序列 方法 装置 | ||
【主权项】:
1.一种基于转录组双端测序数据组装基因组序列的方法,其特征在于,所述方法包括将转录组双端测序序列比对到基因组上,保留双端测序序列分别仅能比对唯一的不同基因组序列以及基于最多转录组双端测序序列连接证据的基因组序列拼接筛选、形成新的基因组序列的步骤;所述方法包括如下步骤:(1)转录组双端测序序列的清洗用SolexaQA软件中的dynamictrim和lengthsort模块分别对转录组双端测序结果fastq文件进行清洗,去除低质量序列以及短片段序列;(2)第一轮转录组双端测序序列的比对将转录组双端测序序列与预先拼接的基因组序列contig进行第一轮序列比对,获得双端测序序列在所有可比对上的contig上的位置信息,保留双端测序序列的任一端都比对到唯一且不同的contig上的结果;(3)第二轮转录组双端测序序列的比对将步骤(2)获得的转录组双端测序序列与预先拼接的基因组序列contig进行第二轮序列比对,过滤掉左端序列和右端序列比对到contig上的序列覆盖度至少90%的结果,且过滤掉双端序列比对到相同contig或者任一端比对到多个contig上的结果;(4)最可靠基因组序列连接的筛选将经过上述两轮比对筛选后,获得的转录组双端测序序列及其比对位置作为contig拼接的连接证据;有后续contig与之连接的序列为起点序列;之前有contig与之连接的序列为终止序列;对于所有作为起点序列的contig,为每个contig选择有最多连接证据的contig,作为终止序列;对于所有作为终止序列的contig,为每个contig选择有最多连接证据的contig,作为起点序列;保留具有最多连接证据的所述起点序列和所述终止序列;将后续连接新contig,而之前没有连接新contig的基因组序列作为起始点,将之前有连接新contig,而后续没有连接新contig的基因组序列作为终结点,将之前既连接新contig,后续又连接新contig的基因组序列作为中间点;(5)新基因组序列的组装根据步骤(4)最终保留的序列,将每个只能作为起始点的基因组片段,分别将其作为起始点,选择后续的中间点,为这个中间点进一步选择新的中间点,直至找到终结点为止,从而形成一条完整的组装通路;根据上述组装通路,将各contig串联组装成更长的基因组序列;所述转录组双端测序序列来源于某物种已公开的转录组双端测序序列,或通过实验方法获得的该物种转录组双端测序序列;所述转录组双端测序序列为:①基于oligo‑dT逆转录获得的RNA‑seq双端测序序列,②基于ribo‑zero方法构建的RNA‑seq双端测序序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国水产科学研究院,未经中国水产科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610349039.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用