当前位置: 主页 > 论文库 > 计算机 > 计算机网络 >

浅谈IT服务管理中事件管理过程的实现模型

时间:2009-12-10 09:36 来源:www.lunwen163.com 作者:163论文网 点击:

【摘 要】ITIL(IT Infrastructure Library)是英国国家电脑局(CCTA)于1980年开发的一套IT业界的服务管理标准库,作为IT服务管理领域全球认可的最佳实践框架,从英国国家标准BS15000发展为ISO20000。ITIL包含着实施IT管理基础架构的流程描述,以流程为导向、以客户为中心,关注质量和价值。通过整合IT服务与企业需求,提高企业的IT服务提供和服务支持的水平和能力。并已经被全球大量在不同领域和行业领先的组织不同程度上所使用。
  【关键词】IT服务管理 事件管理 模型
  
  2000年至2004年,ITIL的第二个版本ITILv2出版,在第一个版本的基础上进行了修订,并在一个总的框架下合并至7本核心书籍,包括Service Support, Service Delivery, ICT Infrastructure Management, Planning to Implement Service Management, Application Management, The Business Perspective 以及Security Management,其中前两本即蓝皮的Service Support 和红皮的Service Delivery主要探讨了服务管理,最受IT专业人士的关注。ITIL V2 在全球范围内被广泛采用,成为有效提供IT服务的基础。
  在ITIL v2 中,IT管理活动被归纳为一项管理功能和十个核心流程,分别是服务台,事故管理,问题管理,变更管理,发布管理,配置管理,服务级别管理,财务管理,持续性管理,能力管理,可用性管理。这些总共被分为两类,其中Service Desk和前面5个流程属于Service Support,后面5个流程属于Service Delivery。
  2007年5月,ITIL v3发表,它在v2的基础上,将ITIL的最佳实践和业务的需求都作了更进一步的明确和增强,将原先以服务交付为视角转变为以生命周期(life cycle)为视角。由5本核心书籍构成,即Service Strategy、Service Design、Service Transition、Service Operation、Continual Service Improvement。分别面对是,如何为IT服务管理开发业务驱动的战略;如何设计一个系统去支持已选定的战略;如何将新设计的系统转入生产环境;如何在日常运行中提供支持;如何持续改进流程和运作。它涵盖了从初始的业务需求定义和分析,经过转入现实环境,到现实中的运行维护和改善的IT服务生命周期的各个阶段。
  
  一、事件管理的意义
  
  事件event可以被定义为,发生的任何可发现、可辨别的,对IT基础架构管理、IT服务交付以及服务影响评估有意义的事情。负责管理事件的整个生命周期的流程就是事件管理流程Event Management Process。
  事件管理流程在ITIL v2时还不是一个单独的流程,而可以被认为是涵盖于事故管理Incident Management流程内,在ITIL v3中独立出来。直观一点来说,一个最简单的事件管理的例子就是,Service Desk或其他相关的IT运维部门出2个人,负责关注监控工具的输出和报警,甚至这2个人也可以不是全职负责监控或不是专职技术人员,当发现异常事件发生时,他们要马上联系相关人员并生成相应的incident ticket。
  事故管理中的事故往往是来自多方的输入,包括来自事件管理的输入,但更主要的是来自最终用户的直接反馈。与事故不同,事件的来源则通常是自动化的监控工具、系统,于是IT部门便有可能在最终用户发现之前首先发现问题。监控有两种,主动的和被动的,主动的是指没有报警提示而主动去检查各关键CI (配置项)的状态和可用性;被动监测是在事件被认为已发生的情况下根据相关报警信息去检查可疑CI。
  事故管理相对来说比较倚赖监控工具或系统。其负责的范围包括各类CI,尤其是以下两种:
  1.关键且通常需要稳定维持在常态的CI。例如核心网络设备,端口要求是up的,链路要求是连通的。
  2.状态需要经常改变的CI。由于这种CI状态经常改变,在CMS中的对应更新会牵扯较多精力,事件管理可以帮忙实现CMS自动更新。
  此外,它的范围还可包括:(1)环境条件,如机房状况、温度、湿度、水、火、烟、供电等。(2)安全,机房门禁、入侵检测(网络)等。(3)软件使用状况,是否有非法软件使用、软件使用率和分布等。(4)性能表现,leased line带宽占用率、存储状况、服务器(内存、CPU、硬盘)状况等。
  实际上,监控(monitoring)这个术语所涵盖的范围是大于事件管理的,事件管理是事件驱动的,而监控不仅监控事件,也可以监控那些没有触发事件的状况。
  事件管理的价值很明显。首先,由于它可能先于用户发现问题、先于服务中断就做出响应,将一部分外部失效成本转化为了内部失效成本,减少了对客户造成的影响。其次,事件管理中可以通过对自动化工具的应用实现大部分的监测工作和一部分处理工作,提高响应效率,降低人工成本。此外,事件管理还提供了一个检查现实状态的途径,它所提供的输出可以作为其他流程的输入,为Availability Management、Capacity Management等提供信息,或是用来和设计、基线如SLA等作比较,成为服务报告、保证和改进的重要依据,可以为乃至IT服务管理整体改进提供支持。
  
  二、方法和模型
  
  不同类型的事件对应不同类型的处理方式。事件可以有多种分类方式,按照事件是否符合预期,可以分为三类,正常、例外以及既不属于正常也不属于例外的状况。正常,指已定义为没有问题的情况,比如用户登录了某系统、计划任务运行完成等。例外,指已定义为有问题或不可以的情况,比如用户尝试错误的密码登录系统、CPU占用率超过预定阀值、任务执行中断报错、未授权的软件被安装等。既不属于正常也不属于例外的状况,是指那些没有被明确定义为正确的、允许的,或错误、不允许的情况,这类状况往往需要更进一步的监测,例如网络延迟时间高于正常范围却还没有达到不可接受的程度,CPU或内存占用率长时间维持在预定报警阀值之下一点点等。
  至于事件属于何种情况,正常还是例外,这点在不同的组织、环境、服务级别的要求下也是不同的,没有明确统一的规定,IT组织当自行制定,服务最终分解后的软件、硬件、服务的提供商可以给出一部分参考。以下给出一个Event Management Process的详细例子。过程采用近EPC的方式描述。Event Management的主要输入是源于日常的检查和即时触发的event。
  在Level 2层面,Event Management Process被划分为3个主要活动:
  Eve.01 Receive event,接收事件;
  Eve.02 Response event,事件响应;
  Eve.03 Event closure,事件结束。
  Eve.01 Receive event包括事件的检测和过滤,以及优先级划分。事件的检测主要是通过对应应用系统本身的功能或是专用的监控系统实现,将收到的事件信息与在其他流程中定义的标准相结合,对其进行过滤、分类和优先级的排序。可以将事件划分为例外、警告和