SLA(Service-Level Agreement,服务等级协议)在AWS PaaS中被定义为一组保持各项服务质量和连续性的指标,其目的在于通过对PaaS资源/服务指标的连续监控和分析,帮助客户的技术团队及时发现服务质量隐患,并为解决或改善问题提供诊断线索。
AWS SLA主要由以下部分组成:
资源(Resource
)是AWS SLA的监控对象,一个资源可以有多个监控指标。主要包括:
计算资源
服务处理
风险
指标(Metric
)是AWS SLA监控和处理的最小单元,这些指标被定义在资源上。
当AWS的一个节点启动时,数据收集(Data Collection
)开始工作。数据收集策略分为两类:
无论是主动监控
还是被动收集
,这些指标数据都被存放在一个待处理的数据结构中。由于这些数据无论从数量规模还是时间密度都十分巨大,因此AWS SLA并不会对其直接存储,而是通过增量的数据处理(Data Processing
)程序将其处理成分钟、小时、天等维度数据
。
告警(Alarm
)是指当指标取值满足某个条件时,向外界触发一个动作。如果开发者注册了自己的SLA监听器,也可以将告警日志进行自定义处理,如发短信、邮件或记录至外部数据源。
告警被时时(一旦发生)触发。
当指标超过阀值产生告警时,AWS通常会提供进阶的附加概要信息,供运维人员进行问题追踪和诊断。如数据库发生错误时获知相关sql。
为高级开发者提供一组接口,通过API扩展告警事件,访问SLA的定义和日志记录。