运维常见问题及排查思路

罗晓磊 · May 2, 2020

防患未然

备份

  1. 做任何修改之前一定要备份,方便出问题进行回滚。
  2. 数据库备份,安装程序备份,条件允许最好异地备份。

权限

  1. 需要登录服务器的人,分配可以完成工作的最小权限。
  2. 敏感操作要进行逐级确认之后进行操作。

对症下药

重启大法

  1. 重启应用程序
  2. 重启服务器
  3. 重启数据库服务

查看日志

  1. 检索日志
    grep keyValue foo.log
    
  2. 查看实时打印的日志
    tail -f foo.log
    

系统指标

  1. 硬盘容量(比如日志文件耗尽了硬盘容量)
    df -h
    
  2. 内存使用率(程序出现内存泄漏导致内存溢出)
    free 
    
  3. CPU使用率(死循环耗尽CPU资源)
    top
    

推荐使用gotop插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。

数据库

  1. 与应用分开部署时,需要确定网络是否连通
    ping dataBaseServerIP
    
  2. Oracle表空间不足,扩大表空间
  3. Oracle监听服务死掉,重启监听服务
  4. Oracle安装目录磁盘空间不足,扩容或删除备份文件

网络

  1. 服务器防火墙未设置永久关闭,应用程序安装之后,发生服务器宕机,重启后防火墙默认开启,导致应用无法访问。
  2. 网管平台对防火墙配置了新的规则而未接到通知,尤其涉及到内外网通信,如果发生诡异问题,要优先考虑下网络原因。
  3. 有些服务之间的调用涉及到了IP与域名的映射,必要时候需要修改hosts文件。

其他

  1. 解压备份的文件时最好指定解压到的文件夹,防止误操作覆盖已有的文件
  2. 备份文件要加上备份的日期,必要时候附加说明,多个版本便于恢复。

Twitter, Facebook