记一次服务器崩溃

现象:

  1. 偶尔出现
  2. CPU爆满,硬盘读速爆满,其他接近0
  3. ssh和网站均无法连接
  4. 服务器自动killer OOM或者手动重启后正常
  5. 若干个wp站点只有一个没开CF
  6. 访问量不大(nginx日志每小时1000多)
  7. 平均每三五天出现一次

目前定位问题可能是:

  1. 没开swap,内存爆满(maridb)
  2. 没限制maridb
  3. docker 集群过多,且都没限制内存

解决方法:

开启swap:
fallocate -l 2G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
永久生效:
echo '/swapfile none swap sw 0 0' >> /etc/fstab
确认可以看到2048
free -m
其他:
磁盘监控:
apt update
apt install -y iotop
iotop -o
apt install -y sysstat
iostat -x 1
top   看wa(cpu等待硬盘)是否大于20
docker stats   看BLOCK I/O
swap使用情况:
watch -n 1 free -m

做完这些基本可以保证安全了。