微博服务器瘫痪!运维:该拿什么拯救我?
金蝶云社区-天冥异
天冥异
14人赞赏了该文章 1,203次浏览 未经作者许可,禁止转载编辑于2018年10月18日 20:29:28

微博再次宕机,相关的运维们也不得不执行各种紧急扩容预案。那么,运维该如何应对每次的服务保障呢?提前保证运维体系正常运转呢?


头条新闻想必大家都已经知道了吧!是的,没错,我们的颖宝嫁人了,额,,,小编复杂的内心不知该如何形容,不过只要颖宝幸福开心就好!

这固然是件喜事,但是,这事真是几家欢喜几家愁!呵呵。。。没错,毫无意外地,微博瘫痪了(说好的能同时抗住8个明星出轨的誓言呢)!

image.png

赵丽颖微博截图

image.png

image.png

微博瘫痪界面

微博再次宕机,相关的运维们也不得不执行各种紧急扩容预案。那么,运维该如何应对每次的服务保障呢?提前保证运维体系正常运转呢?

云计算设备或者服务器作为企业业务的重要IT支持,承载关键业务数据和流程,Linux运维们欲舒心,服务器安全检查也需要面面俱到。在此列出服务器安全检查的几大注意点,算是个给运维们提个醒。让系统做到最大程度的安全,让运维安心度过每一次网络“地震”吧!

1.对硬件设施进行全面体检

不同的企业对IT设备的运维有不同的标准,有些公司节假日期间可以部分停机,有一些公司必须7*24小时的运行。那么怎么保证系统运行稳定呢?首先让我们对硬件设施进行全面体检吧!

PC机的检测及准备至少应该包括以下几个方面:

(1)、对PC机的硬件进行检查,包括电源、硬盘和网卡等。

(2)、要安装操作系统的最新补丁包,还要对杀毒软件的病毒库进行更新。

(3)、将最新的应用程序和数据做备份。

(4)、做一个最新的DVD Ghost克隆备份。一旦因使用者误删文件或者使用移动存储导致机器染病毒,造成机器瘫痪,拿事先做好的DVD Ghost备份盘恢复系统。

注意点一:UPS不间断电源检查:

电源检查往往是容易被忽视的一环。如今大部分企业的业务需要7*24小时不间断运行,甭管是自动还是手动,反正不能停。那么选用UPS电源习以为常。UPS的新旧或者老化程度如何,能否在服务器出现异常情况时,实现正常关闭服务器的效能。需要对其进行检查,其出现故障的概率有多高,故障的自动应对举措有哪些,都需要预先思考周全。

注意点二:电缆线路与布线情况查看:

对连接服务器的各条线路进行精细查看,关键是检查配线箱,看看插座是否对应插头,不插头与非适配插座乱串。电缆线路正常传输和布线合理与否都将影响到服务器正常运行情况,务必查看清楚。若有异常,最好找电缆线路的承包商来进行修复或优化。

2.服务器的检测及其准备

(1)、在适当的时间对服务器进行进行一次冷关机断点,然后对其电源、硬盘、网卡、风扇等进行检查,确保其性能良好。

(2)、如果服务器做了RAID,一定要检查RAID卡和热插拔硬盘工作状态是否正常。

(3)、清理文件系统的历史数据,要保持文件系统有足够的可用磁盘空间,避免假日期间因文件系统空间不足造成应用故障。

(4)、清理数据库的历史数据,保持数据库有足够的可用空间。

(5)、备份应用程序和相关配置参数。

(6)、检测确保备份服务器,确保其有足够的磁盘空间以备份假日期间的数据资料。

注意点一:系统补丁是否安装完备;

补丁较容易配置而且是免费提供,但有些网管可能会觉得系统运行效果不错,无需为其打补丁。殊不知,没有安装补丁的系统,一旦假期服务器出现问题,企业员工就将面临与自身的文件失去联系危机。网管需要检查服务器系统是否已安装补丁,以防万一。

注意点二:数据备份忘不得;

企业数据一旦丢失是“致命”的,防止数据丢失,对服务器数据进行备份必不可省。别企图在服务器上某一区新建备份文件夹或者建立一个备份区,如果仅仅只做此项工作,如此备份方法仍非常危险,一旦服务器的硬盘区“失火”,那么所有分区的数据就将统统“销声匿迹”,如此备份有后患。建议外置使用专门单独时设备对数据进行二次备份,可使用较普遍的交叉备份方法或者成本较高的磁带。

此外,已备份的数据也有可能发生被盗,建议网管在备份时能够通过密码对备份介质进行保护。

注意点三:强化服务器本地文件格式安全级别;

服务器安全检查有来自自身设备问题,很大一部分来自防范外部攻击。因此有必要在节假日中检查服务器本地文件格式级别是否够高,别给黑客可乘之机。检查服务器操作系统是否已经对用户访问权限进行限制,避免因用户使用统一访问服务器的权限而存在不安全因素。

同时,网管需检查系统是否使用了相关的网络检测软件对企业网络运行情况进行全天候监视。

3.对于交换机/路由器的检测及其准备

(1)、在情况容许的情况下对交换机/路由器进行重启对其功能进行检测,测试的项目诸如接口测试、性能测试、协议一致性测试和网管测试等,测试最好进行远端测试。

(2)、对其进行卫生清洁是非常必要的,最好能够打开交换机/路由器,清除其主板电路上及其外围的灰尘,因灰尘导致的故障也是屡见不鲜。

(3)、备份也是必须的,诸如思科路由器的IOS备份和网络配置备份,最好将其备份到一个固定的地方,例如专门用于备份的某UNIX主机的某个目录下或者某个专用的备份移动硬盘。

4.实时监控掌握系统状况

节日期间,因为无人值守,一旦系统有故障怎么办?实时系统监控成为系统运维人员的定心丸,选择一个能对所有系统进行统一监控的运维平台,能在最大程度上解放运维工程师。

在节日期间,实时监控的运维平台就是运维人员的“眼睛”。因此,在节日前,一定要检测运维平台的安全以及性能,确保在节日期间能及时准确的系统状况的监控。

以以往的经验,运维平台要能监控全面,最好能在一个平台里对整个系统进行监控,把系统中所有可能出现故障的环节都进行监控,并且能设置相关预警,以便运维人员在系统出现异常信号的时候及时处理,防止出现故障后进行补漏。

另外,对于运维平台最少必须能支持实时告警,以短信方式实时将系统中的异常信号发送运维人员,以便运维人员及时准确的掌握系统运行状况。

5.远程维护渠道的畅通

休假在家,常规的远程维护还是必须的。当然,如果网络出现故障,远程维护当然是最快捷、高效的手段了。因此,一定要确保远程维护渠道的畅通。

平常情况下,为了安全一般不建议大家开启远程维护通道,但假日期间又另当别论,只有做好相应的安全措施这样做也未尝不可。首先,要确定需要开启远程维护的设备。

也可以在网络中部署专门的远程维护机器,在网络边界紧开启公网访问远程运维机器,再由该运维机器跳转至需要维护的机器。其次,要选择安全的远程连接方式。比如开通vpn访问等方式,先通过vpn认证,后使用相关软件进行登录。比如pcanywhere/radmin就很不错。

对于防火墙、路由器/交换这样的网络设备,建议大家关闭其Web管理方式,采用安全加密的SSL连接,进行登录管理。最后,记得一定要为其设置足够强大的密码,同时对密码的管理应该做到专人管理。

最后希望这些经验能够对运维们有所帮助。运维内心OS:热点即是运维的痛点啊!(小编内心OS:也是运营的痛点啊。。。)o(╥﹏╥)o


图标赞 14
14人点赞
还没有人点赞,快来当第一个点赞的人吧!
图标打赏
0人打赏
还没有人打赏,快来当第一个打赏的人吧!