首页 > 故障排查 > 正文

Linux下系统或服务排障的最佳实践
2012-05-17 23:40:10   来源:我爱运维网   评论:0 点击:

一、故障表现。首先一个应用或系统不正常,会表现在:1、前端应用/网页显示不正常,出错5XX,4XX或其他错误信息或慢或出不来;2、当前端端...
四、长期而坚持要做的:
1、  好用的运维平台。完善的运维架构及说明文档;
2、  全面、及时、准确的监控系统或平台。最好有专门的运维工具开发团队(2-3人),专门负责小工具开发。
3、  变更管理。每一次修改及变更都有记录,操作步骤在执行前有人REVIEW(评估、复查);
4、  故障管理。每一次问题或故障都要设法找到根本原因。如果短时间找不到,要启用及时发现该问题的能力并绕过(如设定健康检测脚本重启服务)。故障与BUG均需要分级管理【P0~P4】。
5、  备份体系。不仅要有本地备份(应用与数据),而且还要有异地备份。任何情况下要做到即使系统全部破坏,我们还可以重建出来。
6、  容量规划。及时发现潜在或即将到来的瓶颈。
7、  架构设计并持续优化。设法排除单点,多机布署及负载均衡。架构的优化是长期的结果,也是最可以省成本的地方。
8、  人员的管理与培训。分享无时无处不在。

相关热词搜索:Linux 系统 故障 排查 实践

上一篇:第一页
下一篇:Nginx升级后导致文件下载不完整或僵死的解决

分享到: 收藏
评论排行