[发明专利]一种转录因子结合位点识别方法有效
申请号: | 201310277169.7 | 申请日: | 2013-07-03 |
公开(公告)号: | CN103390119A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 冯伟兴;董彦生;贺波;陈若雷;王科俊 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明属于分子生物信息检测领域,具体涉及一种基于条件随机场技术,融合ChIP-chip基因芯片数据和ChIP-seq DNA测序数据的转录因子结合位点识别方法。本发明包括:建立条件随机场模型;获取ChIP-chip实验检测值,识别出对应状态值;获取ChIP-seq实验检测值识别出对应状态值;测试条件随机场模型的识别精度;加权融合识别结果的第n个DNA碱基片段识别概率;比较 |
||
搜索关键词: | 一种 转录 因子 结合 识别 方法 | ||
【主权项】:
1.一种转录因子结合位点识别方法,其特征在于: (1)建立条件随机场模型: ![]()
其中,x={x1,x2,…,xn}表示DNA碱基片段的实验检测值;y={y1,y2,…,yn}是DNA碱基片段的对应状态值,1表示是转录因子结合位点,0表示不是转录因子结合位点;tk(yi-1,yi,x,i)表示第i个碱基片段在当前实验检测值序列x下,状态为yi的第i个碱基片段和状态为yi-1的第i-1个碱基片段之间的转移特征函数;sl(yi,x,i)表示在当前实验检测值序列x下,第i个碱基片段的状态是yi的状态特征函数;λk和μl分别是tk(yi-1,yi,x,i)和sl(yi,x,i)对应的权值,表示各特征函数的重要性;Z(x)是规范化因子,使得p(y|x)位于[0,1]之间; (2)获取DNA碱基片段的ChIP-chip实验检测值x={x1,x2,…,xn},根据条件随机场模型,识别出对应的DNA碱基片段的状态值y={y1,y2,…,yn}; (3)获取DNA碱基片段的ChIP-seq实验检测值x={x1,x2,…,xn},根据条件随机场模型,识别出对应的DNA碱基片段的状态值y={y1,y2,…,yn}; (4)测试条件随机场模型的识别精度: ![]()
![]()
其中,敏感性Sn,特异性Sp,准确率Ac,TP代表转录因子结合位点被预测正确的个数;FN表示转录因子结合位点被预测错误的个数;TN表示非转录因子结合位点被预测正确的个数;FP表示非转录因子结合位点被预测错误的个数; (5)对第n个DNA碱基片段,通过ChIP-chip实验检测值识别为转录因子结合位点的概率用
表示,识别为非转录因子结合位点的概率用
表示,通过ChIP-seq实验检测值识别为转录因子结合位点的概率用
表示,识别为非转录因子结合位点的概率用
表示, 加权融合识别结果的第n个DNA碱基片段识别概率表示为:![]()
融合权值w1和w2为与识别结果的识别准确率,w1+w2=1; (6)比较
和
则此碱基片段识别为转录因子结合位点;
则此碱基片段识别为转录因子非结合位点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310277169.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种零序有功分量保护判据
- 下一篇:一种熔模铸造蜡件粘结剂及其制备方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用