[发明专利]一种基于基因表达谱的胃癌预后标志物筛选及分类方法在审
申请号: | 201610856566.3 | 申请日: | 2016-09-27 |
公开(公告)号: | CN106407689A | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 祝让飞 | 申请(专利权)人: | 牟合(上海)生物科技有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F19/20;G06F19/24 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 谈杰 |
地址: | 202150 上海市崇明*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于基因表达谱的胃癌预后标志物筛选及分类方法,包括基因表达谱数据筛选出表达有变化的基因,针对筛选基因建立Cox比例风险模型分析,选取具有统计学显著性的基因作为种子基因,结合病人的临床随访信息数据构建最大似然模型筛选预后关键基因,之后计算每个预后关键基因在病人中的风险系数,根据病人预后关键基因个数进行分类并进行统计学验证,选择最佳的分类方式。本发明能够有效的将高维冗杂的基因表达谱数据降维,从几万个基因中筛选出容易应用于临床检测的关键的几个基因,并通过关键的几个基因的表达情况预测病人的生存和复发风险。 | ||
搜索关键词: | 一种 基于 基因 表达 胃癌 预后 标志 筛选 分类 方法 | ||
【主权项】:
一种基于基因表达谱的胃癌预后标志物筛选及分类方法,其特征在于:包括以下步骤:(1)从GEO数据库获取胃癌病人基因表达谱数据以及病人的临床随访信息数据,且数据样本的数目为N。(2)根据步骤(1)中得到的基因表达谱数据构建病人的基因表达谱矩阵,若出现某个基因在某个样本中未检测到则使用该基因在其他样本中的表达平均值替代,若出现多次检测到则取平均值替代,最终构建无缺失值的矩阵如下表所列: Sample 1Sample 2……Sample NGene 1Exp11Exp12Exp1…Exp1NGene 2Exp21Exp22Exp2…Exp2N……Exp…1Exp…2Exp……Exp…NGene MExpM1ExpM2ExpM…ExpMN(3)根据步骤(2)所得矩阵计算每个基因(i=1,2,3……M)在各样本中的表达水平的中位数Mi,以及在各样本中表达水平的方差Vi,进一步的将所有基因的中位数Mi和方差Vi从大到小排序,分别选取在排序前80%的基因组成两个基因集合,进一步的选取两个基因集合取交集作为预选的有变化的基因。(4)根据步骤(3)中筛选出来的基因的表达水平以及步骤(1)中的病人的临床随访信息数据建立Cox比例风险模型:h(t)=h0(t)*e(β1x1+β2x2+...+βpxp)]]>其中β1,β2,…,βp为偏回归系数,h0(t)为未知数,x1,x2,…,xp为基因的表达水平,h(t)表示t时刻病人死亡的风险率。对Cox模型检验,采用似然比检验,步骤如下:a、假设H0:所有的βi为0,H1:所有的βi不为0;b、将H0和H1条件下的最大似然函数的对数值分别记为LLp(H0)和LLp(H1);c、计算在原假设的条件下统计量χ2=‑2[LLp(H1)‑LLp(H0)]服从自由度为p的χ2分布的显著性p值;最后根据上述a、b、c步骤对每一个基因单独代入Cox模型,分别计算最终的统计学显著性p值,最终筛选显著性p值小于0.05的基因作为种子基因。(5)根据种子基因在病人中表达水平构建新的表达矩阵,结合步骤(1)中的病人的临床随访信息数据构建最大似然模型筛选预后关键基因,步骤如下:Ⅰ、随机将样本分成三份,选择三倍交叉验证,随机选择其中两组作为训练集,另外一组作为检验集。根据训练集可以得到每个基因的参数的估计值,然后这个参数在检验集通过最大似然估计方法评价好坏。Ⅱ、重复第Ⅰ步10次,得到每一个基因的最大似然估计的10个值,选择最大似然估计平均值最大的作为最好的基因;接着搜索下一个最好的基因,评估剩下的每个基因与上次最好的基因的组合模型。Ⅲ、通过不断的向前选择基因的方法得到一系列模型。对每个模型通过Akaike信息论准则(AICs)进行模型的评估,最后选择AIC值最小的那个模型作为最优模型,筛选出最优的基因组合作为预后关键基因。Ⅳ、计算基因i的风险比HR,公式如下:HR=e(βi)]]>(6)根据步骤(5)中筛选出来的每个预后关键基因在病人中的风险比以及这些基因对应病人的表达谱构建新的表达矩阵,然后对矩阵进行离散化,离散方式如下:当预后关键基因i对应风险系数大于1且该基因在样本j中的表达水平排在该基因在所有样本中的表达水平的中位数以上,则在矩阵中将表达水平替换成1。当预后关键基因i对应风险系数小于1且该基因在样本j中的表达水平排在该基因在所有样本中的表达水平的中位数以下,则在矩阵中将表达水平替换成1。不满足以上两个条件的则标记为0。最后得到0‑1矩阵。(7)根据病人预后关键基因的0‑1矩阵,统计每个病人在各预后关键基因中被标记为1的个数Ci,分别根据Ci≥1,Ci≥2.....Ci≥N(N=预后关键基因个数)对病人进行高风险预测归类。(8)根据步骤(7)中N种归类方式,使用Kaplan‑Meier生存函数估计预测为高风险病人与其他病人的生存差异,采用log‑rank检验方式作为统计学检验特征,最终得到每个归类方式下的显著性p值,选择最显著的归类方式作为最终的归类方式对病人进行高风险预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牟合(上海)生物科技有限公司,未经牟合(上海)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610856566.3/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用