growth-experiment-planner

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Growth Experiment Planner

增长实验规划工具

When to invoke

调用场景

  • "Plan an A/B test for the new onboarding flow."
  • "How long do we need to run this experiment?"
  • "Draft an experiment brief for the pricing page test."
  • "为新用户引导流程规划A/B测试。"
  • "这个实验需要运行多久?"
  • "为定价页面测试草拟实验简报。"

Inputs needed

所需输入

  1. Hypothesis — what change, expected effect, why.
  2. Primary metric — name, baseline rate or mean, variance if known.
  3. Traffic — daily users hitting the surface.
  4. MDE — minimum detectable effect (relative).
  5. Variants — control + N treatments.
  6. Guardrails — metrics that must NOT regress (revenue, errors, latency).
  1. 假设 — 要做出的变更、预期效果及原因。
  2. 核心指标 — 名称、基准转化率或均值,若已知则提供方差。
  3. 流量 — 每日访问该页面的用户数量。
  4. MDE — 最小可检测效果(相对值)。
  5. 变体 — 对照组 + N个实验组。
  6. 防护指标 — 不得出现退化的指标(收入、错误率、延迟)。

Workflow

工作流程

  1. Frame — restate hypothesis in one sentence.
  2. Size — call
    plan.py
    to compute sample size and runtime.
  3. Spec — generate experiment brief: metrics, segments, allocation, stopping rules, guardrails.
  4. Checklist — pre-launch QA, holdout, instrumentation, rollback path.
  5. Hand off — output a Markdown brief ready for LaunchDarkly/Optimizely.
  1. 梳理 — 用一句话重述假设。
  2. 确定规模 — 调用
    plan.py
    计算样本量和运行时长。
  3. 制定规范 — 生成实验简报:指标、用户细分、流量分配、停止规则、防护指标。
  4. 检查清单 — 启动前QA、对照组留存、埋点验证、回滚路径。
  5. 交付 — 输出可直接用于LaunchDarkly/Optimizely的Markdown格式简报。

Output format

输出格式

A complete experiment brief with: Hypothesis, Variants, Metrics, Sample size, Runtime, Allocation, Guardrails, Stopping rules, QA checklist, Rollback plan.
一份完整的实验简报,包含:假设、变体、指标、样本量、运行时长、流量分配、防护指标、停止规则、QA检查清单、回滚方案。

Guardrails

防护规则

  • Always require a primary metric defined before launch (no metric fishing).
  • Require explicit guardrails — at minimum: error rate, p95 latency, revenue per user.
  • Flag if runtime exceeds 4 weeks (novelty + seasonality risk).
  • 启动前必须明确核心指标(禁止事后找指标)。
  • 必须明确防护指标 — 至少包括:错误率、p95延迟、单用户收入。
  • 若运行时长超过4周则标记风险(新奇效应+季节性风险)。

Reference code

参考代码

plan.py
computes two-proportion sample size (Evan Miller formula) or two-sample t-test sample size.
plan.py
使用Evan Miller公式计算双比例样本量,或计算双样本t检验的样本量。