AWS SLA参考指南

什么是AWS SLA?

SLA(Service-Level Agreement,服务等级协议)在AWS PaaS中被定义为一组保持各项服务质量和连续性的指标,其目的在于通过对PaaS资源/服务指标的连续监控和分析,帮助客户的技术团队及时发现服务质量隐患,并为解决或改善问题提供诊断线索。

AWS SLA主要由以下部分组成:

  • 资源(Resource)
  • 指标(Metric)
  • 数据收集(Data Collection)
  • 数据处理(Data Processing)
  • 告警(Monitor & Rule & Alarm)
  • 问题追踪(Tracking)
  • API接口

资源

资源(Resource)是AWS SLA的监控对象,一个资源可以有多个监控指标。主要包括:

  • 计算资源
  • 服务处理
  • 风险

指标

指标(Metric)是AWS SLA监控和处理的最小单元,这些指标被定义在资源上。

数据收集

当AWS的一个节点启动时,数据收集(Data Collection)开始工作。数据收集策略分为两类:

  • Pull(主动监控)
  • Push(被动收集)

数据处理

无论是主动监控还是被动收集,这些指标数据都被存放在一个待处理的数据结构中。由于这些数据无论从数量规模还是时间密度都十分巨大,因此AWS SLA并不会对其直接存储,而是通过增量的数据处理(Data Processing)程序将其处理成分钟、小时、天等维度数据

告警

告警(Alarm)是指当指标取值满足某个条件时,向外界触发一个动作。如果开发者注册了自己的SLA监听器,也可以将告警日志进行自定义处理,如发短信、邮件或记录至外部数据源。

告警被时时(一旦发生)触发。

问题追踪

当指标超过阀值产生告警时,AWS通常会提供进阶的附加概要信息,供运维人员进行问题追踪和诊断。如数据库发生错误时获知相关sql。

API接口

为高级开发者提供一组接口,通过API扩展告警事件,访问SLA的定义和日志记录。



Seven
 010-62962343-690
 liujx@actionsoft.com.cn
感谢您对该文档的关注!如果您对当前页面内容有疑问或好的建议,请与我联系。如果您需要解答相关技术问题请登录AWS客户成功社区