slo-implementation

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

SLO Implementation

SLO实现

Framework for defining and implementing Service Level Indicators (SLIs), Service Level Objectives (SLOs), and error budgets.

用于定义和实现服务水平指标（SLIs）、服务水平目标（SLOs）及错误预算的框架。

Purpose

目标

Implement measurable reliability targets using SLIs, SLOs, and error budgets to balance reliability with innovation velocity.

通过SLIs、SLOs和错误预算设定可衡量的可靠性目标，平衡可靠性与创新速度。

When to Use

适用场景

Define service reliability targets
Measure user-perceived reliability
Implement error budgets
Create SLO-based alerts
Track reliability goals

定义服务可靠性目标
衡量用户感知的可靠性
实施错误预算
创建基于SLO的告警
跟踪可靠性目标

SLI/SLO/SLA Hierarchy

SLI/SLO/SLA 层级

SLA (Service Level Agreement)
  ↓ Contract with customers
SLO (Service Level Objective)
  ↓ Internal reliability target
SLI (Service Level Indicator)
  ↓ Actual measurement

SLA (Service Level Agreement)
  ↓ 与客户的合同
SLO (Service Level Objective)
  ↓ 内部可靠性目标
SLI (Service Level Indicator)
  ↓ 实际测量值

Defining SLIs

定义SLIs

Common SLI Types

常见SLI类型

1. Availability SLI

1. 可用性SLI

promql

undefined

promql

undefined

Successful requests / Total requests

sum(rate(http_requests_total{status!~"5.."}[28d])) / sum(rate(http_requests_total[28d]))

undefined

sum(rate(http_requests_total{status!~"5.."}[28d])) / sum(rate(http_requests_total[28d]))

undefined

2. Latency SLI

2. 延迟SLI

promql

undefined

promql

undefined

Requests below latency threshold / Total requests

sum(rate(http_request_duration_seconds_bucket{le="0.5"}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))

undefined

sum(rate(http_request_duration_seconds_bucket{le="0.5"}[28d])) / sum(rate(http_request_duration_seconds_count[28d]))

undefined

3. Durability SLI

3. 持久性SLI

undefined

undefined

Successful writes / Total writes

sum(storage_writes_successful_total) / sum(storage_writes_total)


**Reference:** See `references/slo-definitions.md`

sum(storage_writes_successful_total) / sum(storage_writes_total)


**参考：** 详见 `references/slo-definitions.md`

Setting SLO Targets

设置SLO目标

Availability SLO Examples

可用性SLO示例

SLO %	Downtime/Month	Downtime/Year
99%	7.2 hours	3.65 days
99.9%	43.2 minutes	8.76 hours
99.95%	21.6 minutes	4.38 hours
99.99%	4.32 minutes	52.56 minutes

SLO百分比	每月停机时间	每年停机时间
99%	7.2小时	3.65天
99.9%	43.2分钟	8.76小时
99.95%	21.6分钟	4.38小时
99.99%	4.32分钟	52.56分钟

Choose Appropriate SLOs

选择合适的SLOs

Consider:

User expectations
Business requirements
Current performance
Cost of reliability
Competitor benchmarks

Example SLOs:

yaml

slos:
  - name: api_availability
    target: 99.9
    window: 28d
    sli: |
      sum(rate(http_requests_total{status!~"5.."}[28d]))
      /
      sum(rate(http_requests_total[28d]))

  - name: api_latency_p95
    target: 99
    window: 28d
    sli: |
      sum(rate(http_request_duration_seconds_bucket{le="0.5"}[28d]))
      /
      sum(rate(http_request_duration_seconds_count[28d]))

考虑因素：

用户期望
业务需求
当前性能
可靠性成本
竞品基准

SLO示例：

yaml

slos:
  - name: api_availability
    target: 99.9
    window: 28d
    sli: |
      sum(rate(http_requests_total{status!~"5.."}[28d]))
      /
      sum(rate(http_requests_total[28d]))

  - name: api_latency_p95
    target: 99
    window: 28d
    sli: |
      sum(rate(http_request_duration_seconds_bucket{le="0.5"}[28d]))
      /
      sum(rate(http_request_duration_seconds_count[28d]))

Error Budget Calculation

错误预算计算

Error Budget Formula

错误预算公式

Error Budget = 1 - SLO Target

Example:

SLO: 99.9% availability
Error Budget: 0.1% = 43.2 minutes/month
Current Error: 0.05% = 21.6 minutes/month
Remaining Budget: 50%

Error Budget = 1 - SLO Target

示例：

SLO：99.9% 可用性
错误预算：0.1% = 每月43.2分钟
当前错误率：0.05% = 每月21.6分钟
剩余预算：50%

Error Budget Policy

错误预算策略

yaml

error_budget_policy:
  - remaining_budget: 100%
    action: Normal development velocity
  - remaining_budget: 50%
    action: Consider postponing risky changes
  - remaining_budget: 10%
    action: Freeze non-critical changes
  - remaining_budget: 0%
    action: Feature freeze, focus on reliability

Reference: See

references/error-budget.md

yaml

error_budget_policy:
  - remaining_budget: 100%
    action: Normal development velocity
  - remaining_budget: 50%
    action: Consider postponing risky changes
  - remaining_budget: 10%
    action: Freeze non-critical changes
  - remaining_budget: 0%
    action: Feature freeze, focus on reliability

参考： 详见

references/error-budget.md