[发明专利]一种基于专家系统方法的计算机故障管理系统有效

专利信息
申请号: 201010135370.8 申请日: 2010-03-30
公开(公告)号: CN101833497A 公开(公告)日: 2010-09-15
发明(设计)人: 吴楠;张东 申请(专利权)人: 山东高效能服务器和存储研究院
主分类号: G06F11/34 分类号: G06F11/34
代理公司: 暂无信息 代理人: 暂无信息
地址: 250014 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于专家系统方法的计算机故障管理系统,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器。
搜索关键词: 一种 基于 专家系统 方法 计算机 故障 管理 系统
【主权项】:
一种基于专家系统方法的计算机故障管理系统,其特征在于,该系统包括数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、知识获取模块5)、故障隔离模块6)、故障恢复模块7)、故障预警模块8)、日志服务模块9)、故障管理注册模块10)以及人机交互界面11),系统管理者通过该系统中人机交互界面11)对数据采集器1)、故障事件生成模块2)、故障诊断引擎3)、知识库4)、故障隔离模块5)、故障恢复模块6)、故障预警模块7)、日志服务模块8)进行监视和管理,并通过人机交互界面11访问知识获取模块5)提供的智能编辑器,其中:1)系统中设置若干个独立运行的数据采集器,分别监视目标系统的各主要硬件、操作系统及关键应用程序的运行并采集其运行状态信息,进而通过网络发送至故障事件生成模块;数据采集器通过以下途径获取信息:MCA;S.M.A.R.T.;MCH;PCI-Express AER;ACPI;SMBus;IPMI;AMT;各类传感器;操作系统内核探针;SysFS文件系统;应用程序日志;PTrace技术;嵌入式子系统;网络设备;2)故障事件生成模块,格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障事件的格式如下:[EventSerialNum,DataCollectorID,EventLocation,EventType,EventInfo]3)故障诊断引擎,根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障诊断引擎采用数据驱动控制策略工作流程如下:a)遍历故障诊断后缓冲区,以故障事件特征匹配故障诊断规则,若匹配成功则转至步骤e,否则执行步骤b;b)遍历知识库,以故障事件特征匹配故障诊断规则的条件集;c)生成冲突集和求解冲突;d)确认故障诊断规则,刷新故障诊断后缓冲区,向关联模块输出规则的方法集,以驱动后续故障处理;4)知识库包含以规则形式表达的故障诊断知识,诊断规则由规则描述、匹配条件集和方法集构成,故障诊断规则的格式如下:[RuleDesc,ConditionSet,MethodSet];5)知识获取模块,采用指导注入式的学习策略,通过人机交互界面向领域专家提供智能编辑器,以实现知识库的扩充,知识获取模块的主要工作流程如下:a)前置步骤,领域专家通过智能编辑器创建新的故障诊断规则;b)规则检验,若通过检验执行步骤c;否则转至步骤a;c)冲突分析,若未见冲突执行步骤d;否则转至步骤a;d)向知识库添加新规则;6)故障隔离模块,根据故障诊断模块输出的故障处理策略逻辑地隔离目标系统故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障隔离模块以下列技术和措施为基础对指定故障组件实施隔离:CPU热移除内存热移除Bad/Poisoned Data ContainmentPCI-Express热移除Socket热移除IOH热移除KVM应用容器;停止故障组件运行;7)故障恢复模块,根据故障诊断模块输出的故障处理策略,恢复目标系统故障组件的功能或运行状态;故障恢复模块以下列技术和措施为基础对指定的故障组件实施恢复:CPU锁步;CPU热添加;Parity Protection;Soft-Error Hardened Latches;缓存保护技术;可恢复的MCA;Replay on CRC Error;Lane Failover;ECC;DDDC;Patrol Scrubbing;Demand Scrubbing;DIMM Sparing;内存热添加;MemorySparing;内存镜像;内存迁移;PCI-Express热添加;QPI Link Recovery;QPI LinkSelf-healing;QPI Poison Forwarding;Socket热添加;IOH热添加;操作系统核心多副本;进程迁移;进程检查点技术;进程对技术;由操作系统实现的内存迁移;多路径I/O;虚拟机动态迁移;应用容器动态迁移;数据回滚高可用技术;8)故障预警模块,根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息;故障预警模块的主要工作流程如下:a)从故障事件缓冲区取回未决故障事件b)在故障预警对象链中查找与当前故障事件类型匹配的项c)执行匹配项的计数方法d)执行匹配项的阈值检验方法,若计数达到或大于阈值,则执行步骤e;否则转至步骤a执行匹配项的报警方法;9)日志服务模块,向故障事件生成模块、故障诊断引擎、故障隔离模块、故障恢复模块以及故障预警模块提供基于网络的日志记录接口;日志条目的格式如下:[Time,Subject,Action,Conclusion,Additional];10)故障管理注册模块,包含以下功能:注册与注销数据采集器、注册与注销故障事件类型、注册与注销故障隔离策略、注册与注销故障恢复策略、注册与注销故障预警策略;故障管理注册模块的主要工作流程如下:a)创建新的故障管理设施描述符,包括数据采集器描述符,故障事件类型描述符,或故障隔离/恢复/预警方法描述符;b)根据输入参数设置上述描述符;c)将该描述符加入相应类型的描述符链表中待用;11)人机交互界面是所述系统的重要组成,人机交互界面支持以下访问方式:CLI方式;GUI方式;基于浏览器的网络访问方式;具体管理步骤如下:若干个数据采集器监视目标系统的硬件、操作系统及应用程序的运行并采集其运行状态关键信息,发送至故障事件生成模块;故障事件生成模块格式化数据采集器提交的原始数据,输出故障诊断引擎能够识别的故障事件;故障诊断引擎根据故障事件生成模块输出的故障事件结合知识库中的故障诊断专家知识,采用数据驱动控制策略推理匹配的故障处理规则,继而触发故障隔离模块、故障恢复模块、故障预警模块实施后续的故障处理;故障隔离模块根据故障诊断模块输出的故障处理策略逻辑地隔离指定故障组件,以限制故障扩散范围并作为后续故障处理的前置条件;故障恢复模块根据故障诊断模块输出的故障处理策略,恢复指定故障组件的功能或运行状态;故障预警模块根据故障诊断模块输出的故障处理策略,采用阈值算法对目标系统可能产生的故障进行预测并发送预警信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东高效能服务器和存储研究院,未经山东高效能服务器和存储研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010135370.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top