信息传输/软件/信息技术服务
机房运行
维护

机房运行维护


简介

IDC机房运维涉及到方方面面的问题,它不同于其他运维,处理的问题都是比较低沉的问题。在很多公司可能都是将服务器托管的到专门的IDC机房让专业的人士进行维护,还有些大公司建有自己的IDC机房,但管理层面上可能只是网络信息部门的一个子部门,但我们仍要面对很多机房管理的问题。IDC机房运维可以简单的从五个方面来概括:主机监控、信息统计、硬件维护、系统维护、网络维护。处理这些问题就是IDC机房的运维。

评判标准

分类

我认为我们所熟知的计算机能有今天的成就很大一个成功是在于它的模块化设计,以及分层体系,现在我们用的PC的硬件是由CPU、内存、硬盘、主板、输入输出设备等组成。正是这些模块化的构造让人们对计算机的维护更加的方便,快捷。

现在我们正在步入云计算时代,云计算的实施却是阻碍重重。但是云计算是必然的趋势,因为这是人们对信息自由的渴望、是对资源合理利用的迫切需要。所以说云计算的发展也少不了用模块化,分层次的进行设计和优化。

我们来看看云计算的分类 云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。

我觉得我们现在的系统分层多且繁杂,无法体现我们在IDC机房的运维,我认为IDC机房的运维应该根据服务提供的角度去对IDC机房进行维护,从终端角度来看,所有提供网络服务的资源都是一朵朵的网云。我们在IDC机房中的运维都是为了面向终端进行服务。所以说我们应该根据服务来对我们的IDC机房进行运维。

我根据云计算服务的分类认为我们在运维分层的问题上应该和云服务的分类相呼应来进行维护,所以我认为,IDC机房的运维应该分成:基础设施维护,耦合层维护,应用服务维护三个层面。

基础设施维护

基础设施维护顾名思义,指的是对设施设备的维护,包括设备的环境维护,设备的统计等等。在这个层面我们需要保证每一台机器是可以正常连接的,是可以正常使用对外提供服务的,并且我们得保障机器的正常运行并且是可管理的。总的来说基础设施层的维护是为了对耦合层的交付使用而服务的。

耦合层维护

在这个层面我们对设备有了统一的管理,在这个层面有系统性的架构统一的管理系统,指令系统,和监控系统,在这个层面我们可以发现底层的问题,并交由底层处理,并在这个层面保证应用服务的正常运行。在这个层面将会涉及负载均衡和备份等技术。

应用服务维护

在这个层面主要是客户对自己应用的维护,在这个层面里客户对自己运行的运营软件进行维护。

当然这个分层的维护只是个萌生概念,如果有一天这个理论可以被建立,相信会被更加的完善。并且为我们更好的理解运维体系服务。

工作内容

网络设备维护

1、启用VLAN技术:在交换机的端口上定义VLAN,所有连接到这个特定端口的终端都是虚拟网络的一部分,并且整个网络可以支持多个VLAN。VLAN通过建立网络防火墙使不必要的数据流量减至最少,隔离各个VLAN间的传输和可能出现的问题,使网络吞吐量大大增加,减少了网络延迟。在虚拟网络环境中,可以通过划分不同的虚拟网络来控制处于同一物理网段中的用户之间的通信。这样一来有效的实现了数据的保密工作,而且配置起来并不麻烦,管理员可以逻辑上重新配置网络,迅速、简单、有效地平衡负载流量,增加、删除和修改用户,而不必从物理上调整网络配置。

2、机房除尘及环境要求:定期对设备进行除尘处理,清理,调整安保摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备内部。同时检查机房通风、散热、净尘、供电等设施。机房室内温度应控制在+5“C~+35C,相对湿度应控制在10%~80%。

3、UPS及电池维护:根据实际情况进行电池核对性容量测试;;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试,如UPS同市电的切换试验。.

4、消防设备维护:检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。

5、电路及照明电路维护:镇流器、灯管及时更换,开关更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。

6、机房基础维护:静电地板清洗清洁,地面除尘;缝隙调整,损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查; 接地线触点防氧化加固。

7、机房运维管理体系:完善机房运维规范,优化机房运维管理体系。维护人员24小时及时响应。

机房空调日常维护

一、概述

本流程旨在指导工程师现场对精密空调进行日常巡检维护工作,工程师现场维护,需首先注意个人防护的准备及消防安全意识。

二、精密空调日常维护巡检流程

1、运行环境检查及清洁

●检查精密空调送风及回风回路,回路下如有静电地板和走线架,应无阻碍物;

●加湿供水检查应供水正常:如必要清理供水管路过滤器;

●冷凝水排水管路检查.必要时进行清洁处理;

●空调器配电检查各部件配电线缆、开关、连线检查,必要时。重新进行紧固处理;

●检查空调外观及清洁情况,应保持清洁;

●对冷凝器和蒸发器空气过滤器及加湿器定期进行冲洗清洁;

●制冷管道保温检查,应完整无明显破损。

2、空调参数和运行检查

●通过显示屏,查看空调有无异常信息报警、显示参数是否正常,系统时钟是否正常;

●使用红外测温仪,实测送风、回风温度,并与显示屏显示参数比较,是否存在较大误差;

●检查空调器参数配置是否正确;

●测量各部件运行电流,三相电流应正常稳定、平衡;

●检查送风风机运转情况,电流正常噪声正常.无明显震动。

3、空调停机检查

●关闭空调,断开空调输入配电开关;

●打开空调内部盖板.检查各部件连接是否紧固;

●检查开关、继电器应无明显发热和变形、电缆连接无松动; .

●控制板、继电器等部件的插接件应无松动;

●将空调盖板等恢复.重新送电并开启。

4、空调功能测试及检查

●设置空调制冷模式,空调应自动启动压缩机,检查压缩机运行噪声、高低压力、三相电流等正常.检查冷凝器运行情况,冷凝风扇工作正常;

●设置空调加热模式,空调应自动启动加热器(如标配.三相电流工作正常.温升正常;

●设置空调除湿模式,空调应自动启动除湿模式,三相电流正常;

●设置空调加湿模式,空调应自动启动加湿模式(如标配加湿器进水电磁阀工作正常,进水正常加湿罐工作正常;

●设置空调加湿器排水,排水电磁阀应工作正常,排水管路排水正常,接水托盘无渗漏情况;

●将空调设置回正常模式,空调应运行正常。

维护服务质量

1、提供专用电话技术咨询,如果电话技术支持不能解诀问题,将派出技术人员到现场协助解决,根据系统故障的程度提供不同的响 应时间和故障排除时间:

         故障程度                   响应时间                 故障排除时间(工作小时)

          一般故障                   ≤24小时                         ≤4小时

          严重故障                   ≤12小时                         ≤2小时

         系统紧急故障                  立即                           ≤2小时

2、对本项目涉及的设备进行1年4次(即每季度- -次)的定期检测、保养、可预防性的对设备进行检测,涉及到甲方设备出具检修报告及时向甲方汇报设备运行状态,报告由用甲方确认,双方存 底备查。任何故障的维修响应时间为全天24小时。

3、设备或材料产生损坏时,由产权方负责送设备至原厂进行维修或更换,当维修或更换设备所需要的时间超过3个工作日(计算机服务器、网络设备等须在1个工作日内),则必须提供档次不低于送修设备的备件。在维护期间,提供保修服务(保修服务包括维护、检测、设备免费维修和更换,提供的更换件不低于需要维修或现使用的产品档次)。维修工作要求10个工作日内处理完成,确实难以在短期内解决的,可以与对方协商先行使用替代设备或材料,延长处理时间。

4、在用户因其它项目建设,提出协助请求时(如长时间停电、系统切换、调整网络结构、线路迁移等),服务提供方必须派专业技术人员到现场监控设备的运行情况,做好相关配合工作。

5、在服务期内,由运维服务方安排具有相关机房维保资质的服务人员实施定期检查设备状况,对机房出现的故障及时进行检查、提供处理方案,并解诀,消除隐患。

组织结构

部门分工

在机房中我们要面对各种各样的事情,如服务器上架,服务器下架,处理问题服务器等等。在机房运维中我觉得也应该建立起我们的技术体系,从这几方面入手使得我们的机房运营的更加平稳健康。

1、 监控体系,一个健壮的身体里不开每天的观察,我们需要时时刻刻观察我们的机房,看看机房发生的细小问题,所以说强大而有健全的监控体系有利于我们更好的维护我们的机房。

2、 统计体系,在IDC机房我们管理着数以百计的服务器,统计工作可马虎不得,每一台机器的配置,存放位置等等,都关系着数千元的设备的物理安全,其他的还有带宽安全等等。数量少还好,数量一多就有可能出错,如何快速高效的统计,并不出错也是门技术。所以单独为一个体系也是有必要的。

3、 故障管理体系,在机房中我们要处理每一台服务器发生的故障,有些问题很棘手,有些问题很简单,但大多数问题都有相似性,可以参考其他问题的处理过程处理,良好的故障管理体系肯定是有助于我们快速的响应和处理问题的。

4、 自动化体系,太多的手动执行大大影响了我们处理问题的工作效率,机房运维引入自动化的理念开发自动化管理工具可以大幅度的提高我们机房的管理效率。

5、 评估优化体系,正所谓人无完人,在好的东西也有不好的地方,如IPONG待机时间短,建立评估优化体系使得我们可以在定期的时间内发现我们不足的地方,更好的优化我们的不足之处

人员分工

在互联网行业常见的组织架构中,运维与开发,测试都是基本的的技术岗位。从时间环节来讲,开发与测试从事的主要是在软件或服务上线投入使用前的工作,而运维则主要从事上线后的维护工作(运维开发除外)。从运维工作本身又可细分为如下分类:

IT 运维 网络运维 业务运维 运维开发

经营设计

需求分析

目标界定

总体结构设计

详细结构设计

参数设计

设计实施

设计和规划

网络建设

IDC主要是靠其有一个高性能的网络为其客户提供服务,这个高性能的网络包括其- AN、WAN和与Internet接入等方面。 IDC的网络建设主要有:

  1. IDC的- AN的建设,包括其- AN的基础结构,- AN的层次,- AN的性能。
  2. IDC的WAN的建设,即IDC的各分支机构之间相互连接的广域网的建设等
  3. IDC的用户接入系统建设,即如何保证IDC的用户以安全、可靠的方式把数据传到IDC的数据中心,或对存放在IDC的用户自己的设备进行维护,这需要IDC为用户提供相应的接入方式,如拨号接入、专线接入及VPN等。
  4. IDC与Internet互联的建设。
  5. IDC的网络管理建设,由于IDC的网络结构相当庞大而且复杂,要保证其网络不间断对外服务,而且高性能,必须有一高性能的网络管理系统

服务器建设

  1. IDC的服务器建设可分为多个方面,总体上分为基础服务系统服务器和应用服务系统服务器,主要有:
  2. 基础系统服务器:这类服务器是保障IDC为用户提供各种服务的前提,这类服务器有DNS服务器、目录服务器、网络管理服务器、防火墙服务器、各类安全服务器、IDC系统性能监控服务器等等。
  3. 数据库服务器:它是保证IDC可以为用户提供各种应用服务的基础,IDC的数据库服务器必须能支持大容量访问、多种数据库等。
  4. 数据备份服务器:它是IDC为客户提供安全服务的内容之一,保证客户的数据安全可靠。由于IDC的服务器种类繁多、有多种数据库,所以数据备份要支持多机型、多种数据格式等等,而且容量要大。
  5. 应用服务器:是IDC为用户提供相关应用服务的服务器。由于IDC的业务扩展,所以应用服务器应具有很好的扩展性,以及支持各类应用软件的数量要多。
  6. 服务器的负载均衡: 这是IDC提供高性能、高可靠性服务的重要方法之一,服务器的负载均衡可由硬件设备(如网络交换设备)或软件的方法实现。

存储系统的建设

存储系统是IDC的重点建设内容之一,作为一个IDC,其存储系统是相当庞大的,特别是在现在的企业中,数据的容量以由GB级增长到TB级,如此大的数据需要有一个更加安全、可靠的存储系统,由于访问的数量也是相当庞大的,所以对存储系统的效率也有很高的要求;而且存储系统应具有很好的扩展性,以满足IDC的发展的需求。

软件系统的建设

软件系统的建设是IDC需要大量投入的方面,它是在前面网络、服务器和存储系统建设的基础上,IDC开展对外服务的手段。IDC在软件建设的主要有:

  1. Web系统:IDC开展Web-Hosting服务内容之一,Web系统软件应支持在一个系统上能建立为多家企业服务的Web系统功能等。
  2. 电子邮件系统:电子邮件系统应支持多种电子邮件协议,如SMTP、POP3、IMAP4、Web-Mai- 和Voice-Mai- 等,同时电子邮件系统应有很好扩展性等。
  3. 数据库系统:IDC应建立多厂家的数据库系统,如应有Orac- e、Informix、SQL Server、SyBase等厂家的数据库,以满足不同用户的需求。
  4. 安全系统:如防火墙软件(硬件防火墙除外)、防黑客入侵、防病毒软件等。这是保证IDC为用户提供安全服务器的前提。
  5. 数据备份软件:支持多备份设备、多种厂家的机器、多种数据库等等。
  6. 应用开发系统:IDC应提供相应的开发系统平台,提供相应的开发工具,满足用户或IDC开发相应应用的需求。

IDC自身服务系统建设

IDC是靠其优质的服务来占有市场和赢得客户的,为了做到优质高效服务,IDC在其自身服务器系统的建设上也必须有大量的投入。IDC自身服务系统主要有:

  1. 客户关系管理系统(CRM): CRM是IDC与客户建立良好关系的基础服务系统,它为IDC提供的用户的发展动态以及用户的新的需求等。
  2. 计费系统:计费系统是IDC收入的保证。
  3. 网络与服务器管理系统:IDC有庞大的网络和服务器系统,要管理好这些系统,必须有一个功能强大的网络、服务器和应用管理系统,此能保证IDC对外的服务质量。
  4. IDC的内部管理系统:保证IDC内部各部门能够统一协调工作,完成高质量的服务。

机房场地建设

机房场地的建设是IDC前期建设投入最大的部分。由于IDC的用户可能把其重要的数据和应用都存放在IDC的机房中,所以对IDC机房场地环境的要求是非常高的。IDC的机房场地建设主要在如下几个方面:

  1. 机房装修:机房装修主要考虑吊顶、隔断墙、门窗、墙壁和活动地板等。
  2. 供电系统:供电系统是IDC的场地建设重点之一,由于IDC的大量设备需要极大的电力功率,所以供电系统的可靠性建设、扩展性是极其重要的。供电系统建设主要有:供电功率、UPS建设(n+1)、配电柜、电线、插座、照明系统、接地系统、防雷和自发电系统等。
  3. 空调系统:机房的温度、通风方式和机房空气环境等。
  4. 安全系统:门禁系统、消防系统和监控系统。
  5. 布线系统:机房应有完整的综合布线系统,布线系统包括数据布线、语音布线、终端布线。
  6. 通信系统:包括数据线带宽、语音线路数目等。

成本

税费

金融成本

原材料成本

房租成本

能耗成本

人工成本

设备折旧

收益管理

消费曲线

时间分布

空间分布

目标群体

容量控制

风险控制

行业

国内市场

产量

消费量

国际市场

产量

消费量

主要公司

标准

这里存放条目相关的国家标准

文档

这里存放于条目相关的其他文档

编辑成员
4 人

???, 小陈菌, 木又, Ghost

你需要登录发表评论。
回形针手册-icons