2.5.2 监控及告警

监控中包括系统资源监控、业务运行状况监控、数据监控统计、资源消耗费用统计。系统资源监控包含当前部署使用了多少台云主机、云主机的CPU及内存等指标使用率、云硬盘使用率及读写I/O、对象存储文件数、对象存储桶大小、对象存储文件请求次数、CDN请求数量及命中率、网络带宽、安全攻击事件等。业务运行状况监控包括网站是否能正常访问、响应时间、用户在做实验时提交问题的接口是否有异常、统计报告发送是否异常等。将数据监控统计放在Dashboard中介绍,将资源消耗费用统计放在运营优化中介绍。

除了监控,还需要通过多种方式进行告警通知管理员,包括短信、邮件、语音、微信、钉钉通知等多种方式,接收告警信息的人员通过告警组进行设置,将资源监控异常及业务运行状况告警通知给系统运维人员的告警组A,对于较大业务运行告警则需要升级通知给告警组B,告警组B的人员组成包括告警组A的所有人员及平台负责人。系统告警还可以触发回调函数,回调函数可以是自行编写的脚本或Function Service,如果是云主机宕机事件,则可以自动创建相同镜像的服务器并加入负载均衡中,因为只是先创建服务器支撑服务而没有删除存储故障的服务器,所以可以很好地保留故障现场环境。通过告警触发回调函数快速响应可以实现资源故障自动恢复,及时屏蔽对上层业务的影响,实现业务流程自动化,运维人员后续跟进排查故障原因,查看其他资源是否会发生同类型故障,学习如何避免同类型故障再次发生。