Linux下系统或服务排障的最佳实践
2012-05-17 23:40:10 来源:我爱运维网 评论:0 点击:
一、故障表现。首先一个应用或系统不正常,会表现在:1、前端应用/网页显示不正常,出错5XX,4XX或其他错误信息或慢或出不来;2、当前端端...
1、 好用的运维平台。完善的运维架构及说明文档;
2、 全面、及时、准确的监控系统或平台。最好有专门的运维工具开发团队(2-3人),专门负责小工具开发。
3、 变更管理。每一次修改及变更都有记录,操作步骤在执行前有人REVIEW(评估、复查);
4、 故障管理。每一次问题或故障都要设法找到根本原因。如果短时间找不到,要启用及时发现该问题的能力并绕过(如设定健康检测脚本重启服务)。故障与BUG均需要分级管理【P0~P4】。
5、 备份体系。不仅要有本地备份(应用与数据),而且还要有异地备份。任何情况下要做到即使系统全部破坏,我们还可以重建出来。
6、 容量规划。及时发现潜在或即将到来的瓶颈。
7、 架构设计并持续优化。设法排除单点,多机布署及负载均衡。架构的优化是长期的结果,也是最可以省成本的地方。
8、 人员的管理与培训。分享无时无处不在。
上一篇:第一页
下一篇:Nginx升级后导致文件下载不完整或僵死的解决
分享到:
收藏