[发明专利]一种三代PacBio测序数据的比对方法有效
申请号: | 201610329027.4 | 申请日: | 2016-05-17 |
公开(公告)号: | CN106021997B | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 詹东亮;王军一;郝美荣;何荣军;俞凯成;高金龙;蔡庆乐 | 申请(专利权)人: | 杭州和壹基因科技有限公司 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 唐银益 |
地址: | 310052 浙江省杭州市滨*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种有效降低重复序列造成的比对错误的三代PacBio测序数据的比对方法。它使用二代的Illumina数据建立k‑mer模型,提取unique‑kmer,在三代PacBio测序数据的比对中,使用这个unique‑kmer来作为比对时使用的种子(seed),能大大地降低重复序列的影响,提高比对的速度。 | ||
搜索关键词: | 一种 pacbio 序数 方法 | ||
【主权项】:
1.一种三代PacBio测序数据的比对方法,其特征在于,它包括以下步骤:(1)使用二代Illumina测序数据建立kmer模型,并从中提取出unique‑kmer;(2)使用unique‑kmer把它作为比对的seed,与三代Pacbio测序数据进行比对,筛选出候选reads;(3)对候选reads进行详细比对,包括以下步骤:a. 先对比对上的seed进行聚类,算出最可能的比对范围,方法如下:建立坐标系,横坐标代表read1比对上的位置,纵坐标代表read2上比对上的位置,每个点代表两条read上共有的seed,将这些seed用斜率为1的直线进行聚类,将聚到最多点的直线作为比对上的区域;b. 再将比对范围进行小区域分割,对每一个分割区域,使用LCS算法计算相似度,再对整体进行打分,方法如下:假设将比对范围分为n个区域,相似度大于0.8的区域有b个,这些小区域总体的相似碱基为c个,则区域相似度为b/n,碱基相似度为c/a,最后只保留这两个值都大于0.7的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州和壹基因科技有限公司,未经杭州和壹基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610329027.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种果蔬样品中多农残残留检测的前处理方法
- 下一篇:一种钢丝绳散头抱紧装置