results-analysis

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Results Analysis for ML/AI Research

ML/AI研究实验结果分析

A systematic experimental results analysis workflow connecting experimental data to paper writing.

一套将实验数据与论文写作关联的系统化实验结果分析工作流。

Core Features

核心功能

This skill provides three core capabilities:

Experimental Data Analysis - Read and analyze experimental data in various formats
Statistical Validation - Perform statistical significance tests and performance comparisons
Paper Content Generation - Generate text and visualizations for the Results section

本技能提供三大核心能力：

实验数据分析 - 读取并分析多种格式的实验数据
统计验证 - 执行统计显著性检验与性能对比
论文内容生成 - 生成结果章节所需的文本与可视化内容

When to Use

适用场景

Use this skill when you need to:

Analyze experimental results (CSV, JSON, TensorBoard logs)
Generate the Results section of a paper
Compare performance across multiple models
Perform statistical significance tests
Create publication-quality visualizations
Validate the reliability of experimental results

当你需要完成以下任务时可使用本技能：

分析实验结果（CSV、JSON、TensorBoard日志）
生成论文的结果章节
多模型间的性能对比
执行统计显著性检验
创建符合发表标准的可视化内容
验证实验结果的可靠性

Workflow

工作流程

Standard Analysis Pipeline

标准分析管道

Data Loading → Data Validation → Statistical Analysis → Visualization → Writing → Quality Check

Data Loading → Data Validation → Statistical Analysis → Visualization → Writing → Quality Check

Step 1: Data Loading and Validation

步骤1：数据加载与验证

Supported Data Formats:

CSV files - Tabular data
JSON files - Structured results
TensorBoard logs - Training curves
Python pickle - Complex objects

Data Validation Checks:

Completeness check - Missing values, outliers
Consistency check - Data format, units
Reproducibility check - Random seeds, version info

Select appropriate tools for data loading and preliminary validation based on data format.

支持的数据格式：

CSV 文件 - 表格类数据
JSON 文件 - 结构化结果
TensorBoard 日志 - 训练曲线
Python pickle - 复杂对象

数据验证检查项：

完整性检查 - 缺失值、异常值
一致性检查 - 数据格式、单位
可复现性检查 - 随机种子、版本信息

根据数据格式选择合适的工具完成数据加载与初步验证。

Step 2: Statistical Analysis

步骤2：统计分析

Basic Statistics:

Mean
Standard Deviation
Standard Error
Confidence Interval

Significance Tests:

t-test - Two-group comparison
ANOVA - Multi-group comparison
Wilcoxon test - Non-parametric test
Bonferroni correction - Multiple comparison correction

Select appropriate statistical tests based on data characteristics.

Key Principles:

Report complete statistical information (mean ± std/SE)
Specify the test method and significance level used
Report p-values and effect sizes
Consider multiple comparison issues

See

references/statistical-methods.md

for the complete statistical methods guide.

基础统计量：

均值
标准差
标准误
置信区间

显著性检验：

t-test - 两组对比
ANOVA - 多组对比
Wilcoxon test - 非参数检验
Bonferroni correction - 多重比较校正

根据数据特征选择合适的统计检验方法。

核心原则：

上报完整的统计信息（均值 ± 标准差/标准误）
明确说明使用的检验方法与显著性水平
上报p值与效应量
考虑多重比较问题

完整的统计方法指南可参考

references/statistical-methods.md

。

Step 3: Model Performance Comparison

步骤3：模型性能对比

Comparison Dimensions:

Accuracy/Performance metrics
Training time/Inference speed
Model complexity/Parameter count
Robustness/Generalization ability

Comparison Methods:

Baseline comparison - Compare with existing methods
Ablation study - Validate component contributions
Cross-dataset validation - Test generalization

Systematically compare performance across different methods, ensuring fair comparison.

对比维度：

准确率/性能指标
训练时间/推理速度
模型复杂度/参数量
鲁棒性/泛化能力

对比方法：

基线对比 - 与现有方法对比
消融实验 - 验证各组件的贡献
跨数据集验证 - 测试泛化能力

系统性对比不同方法的性能，确保对比公平性。

Step 4: Visualization

步骤4：可视化

Publication-Quality Visualization Requirements:

Vector format (PDF/EPS)
Colorblind-friendly palette
Clear labels and legends
Appropriate error bars
Readable in black-and-white print

Common Chart Types:

Line chart - Training curves, trend analysis
Bar chart - Performance comparison
Box plot - Distribution display
Heatmap - Correlation analysis
Scatter plot - Relationship display

Use appropriate visualization tools to generate publication-quality figures.

See

references/visualization-best-practices.md

for the visualization guide.

符合发表标准的可视化要求：

矢量格式（PDF/EPS）
支持色盲友好的配色方案
清晰的标签与图例
合适的误差棒
黑白打印下仍可清晰识别

常用图表类型：

折线图 - 训练曲线、趋势分析
柱状图 - 性能对比
箱线图 - 分布展示
热力图 - 相关性分析
散点图 - 关系展示

使用合适的可视化工具生成符合发表要求的图表。

可视化指南可参考

references/visualization-best-practices.md

。

Step 5: Writing the Results Section

步骤5：结果章节写作

Results Section Structure:

markdown

undefined

结果章节结构：

markdown

undefined

Results

结果

Overview of Main Findings

核心发现概览

[1-2 paragraphs summarizing core results]

[1-2个段落总结核心结果]

Experimental Setup

实验设置

[Brief description of experimental configuration; details in appendix]

[简要描述实验配置，详情放在附录中]

Performance Comparison

性能对比

[Comparison with baseline methods, including tables and figures]

[与基线方法的对比，包含表格与图表]

Ablation Study

消融实验

[Validate contributions of each component]

[验证各组件的贡献]

Statistical Significance

统计显著性

[Report statistical test results]

[上报统计检验结果]

Qualitative Analysis

定性分析

[Case studies, visualization examples]


**Writing Principles:**
- Clearly state the hypothesis each experiment validates
- Guide readers to observe key phenomena: "Figure X shows..."
- Report complete statistical information
- Honestly report limitations

See `references/results-writing-guide.md` for the complete writing guide.

[案例研究、可视化示例]


**写作原则：**
- 明确说明每个实验验证的假设
- 引导读者关注核心现象：“图X展示了……”
- 上报完整的统计信息
- 如实说明局限性

完整的写作指南可参考 `references/results-writing-guide.md`。

Step 6: Quality Check

步骤6：质量检查

Common Mistakes and Pitfalls

常见错误与陷阱

Statistical Errors

统计类错误

❌ Wrong approach:

Reporting only the best results (cherry-picking)
Confusing standard deviation and standard error
Not reporting statistical significance
Not correcting for multiple comparisons

✅ Correct approach:

Report all experimental results
Clearly specify whether standard deviation or standard error is used
Perform appropriate statistical tests
Use Bonferroni or similar correction methods

❌ 错误做法：

仅上报最优结果（择优挑选）
混淆标准差与标准误
不上报统计显著性
未做多重比较校正

✅ 正确做法：

上报所有实验结果
明确说明使用的是标准差还是标准误
执行合适的统计检验
使用Bonferroni或同类校正方法

Visualization Errors

可视化类错误

❌ Wrong approach:

Using non-colorblind-friendly palettes
Y-axis not starting from 0 (exaggerating differences)
Missing error bars
Overly complex figures

✅ Correct approach:

Use Okabe-Ito or Paul Tol palettes
Set reasonable axis ranges
Include error bars and confidence intervals
Keep figures clean and clear

❌ 错误做法：

使用不支持色盲友好的配色方案
Y轴不从0开始（夸大差异）
缺失误差棒
图表过于复杂

✅ 正确做法：

使用Okabe-Ito或Paul Tol配色方案
设置合理的坐标轴范围
包含误差棒与置信区间
保持图表简洁清晰

Writing Errors

写作类错误

❌ Wrong approach:

Over-interpreting results
Not describing experimental setup
Hiding negative results
Missing statistical information

✅ Correct approach:

Objectively describe observed phenomena
Provide sufficient experimental details
Honestly report all results
Report complete statistical information

See

references/common-pitfalls.md

for the complete error patterns and fixes.

❌ 错误做法：

过度解读结果
不描述实验设置
隐瞒负面结果
缺失统计信息

✅ 正确做法：

客观描述观测到的现象
提供充足的实验细节
如实上报所有结果
上报完整的统计信息

完整的错误模式与修复方案可参考

references/common-pitfalls.md

。

Integration with Paper Writing

与论文写作的整合

Collaboration with ml-paper-writing Skill

与ml-paper-writing技能的协作

This skill focuses on experimental results analysis and works in tandem with the

ml-paper-writing

skill:

results-analysis handles:

Data analysis and statistical tests
Visualization generation
Results interpretation

ml-paper-writing handles:

Complete paper structure
Citation management
Conference format requirements

Workflow Integration:

Experiments complete → results-analysis analyzes
    ↓
Generate analysis report and visualizations
    ↓
ml-paper-writing integrates into paper
    ↓
Complete Results section

本技能聚焦实验结果分析，可与

ml-paper-writing

技能协同工作：

results-analysis负责：

数据分析与统计检验
可视化生成
结果解读

ml-paper-writing负责：

完整论文结构
引用管理
会议格式要求

工作流整合：

实验完成 → results-analysis分析
    ↓
生成分析报告与可视化内容
    ↓
ml-paper-writing整合到论文中
    ↓
完成结果章节

Output Format

输出格式

After analysis, the following are generated:

Analysis Report (
```
analysis-report.md
```
)
- Statistical summary
- Key findings
- Suggested figures
Visualization Files (
```
figures/
```
)
- PDF format figures
- Standalone figure captions
Results Draft (
```
results-draft.md
```
)
- Text ready for direct use in the paper
- Includes figure references

分析完成后将生成以下内容：

分析报告 (
```
analysis-report.md
```
)
- 统计汇总
- 核心发现
- 建议使用的图表
可视化文件 (
```
figures/
```
)
- PDF格式图表
- 独立的图表说明
结果草稿 (
```
results-draft.md
```
)
- 可直接用于论文的文本
- 包含图表引用

Examples and Templates

示例与模板

Example Files

示例文件

Refer to the

examples/

directory for complete examples:

example-analysis-report.md
- Complete analysis report example
example-results-section.md
- Paper Results section example

完整示例可参考

examples/

example-analysis-report.md
- 完整分析报告示例
example-results-section.md
- 论文结果章节示例

Workflow Overview

工作流概览

The complete analysis pipeline includes:

Data Loading - Read results from experiment output files
Statistical Analysis - Compute basic statistics and perform significance tests
Visualization - Create publication-quality figures
Report Generation - Integrate analysis results and visualizations

See the guides in the

references/

directory for detailed methods and best practices.

完整的分析管道包含：

数据加载 - 从实验输出文件中读取结果
统计分析 - 计算基础统计量并执行显著性检验
可视化 - 创建符合发表标准的图表
报告生成 - 整合分析结果与可视化内容

详细方法与最佳实践可参考

references/

目录下的指南。

Reference Resources

参考资源

Detailed Guides

详细指南

references/statistical-methods.md
- Complete statistical methods guide
references/results-writing-guide.md
- Results section writing standards

references/visualization-best-practices.md
- Visualization best practices

references/common-pitfalls.md
- Common errors and fixes

references/statistical-methods.md
- 完整统计方法指南
references/results-writing-guide.md
- 结果章节写作规范

references/visualization-best-practices.md
- 可视化最佳实践

references/common-pitfalls.md
- 常见错误与修复方案

External Resources

外部资源

Best Practices Summary

最佳实践总结

Data Analysis

数据分析

✅ Recommended:

Run experiments multiple times (at least 3-5 runs)
Report complete statistical information
Use appropriate statistical tests
Check data completeness

❌ Prohibited:

Cherry-picking best results
Ignoring statistical significance
Hiding negative results
Not reporting experimental setup

✅ 推荐做法：

多次运行实验（至少3-5次）
上报完整的统计信息
使用合适的统计检验
检查数据完整性

❌ 禁止做法：

择优挑选最优结果
忽略统计显著性
隐瞒负面结果
不上报实验设置

Visualization

可视化

✅ Recommended:

Use vector format
Colorblind-friendly palettes
Include error bars
Clear labels

❌ Prohibited:

Raster formats (PNG/JPG)
Misleading axis scales
Overly complex figures
Missing legends

✅ 推荐做法：

使用矢量格式
色盲友好的配色方案
包含误差棒
标签清晰

❌ 禁止做法：

栅格格式（PNG/JPG）
具有误导性的坐标轴刻度
过于复杂的图表
缺失图例

Writing

写作

✅ Recommended:

Objectively describe results
Provide sufficient detail
Honestly report limitations
Guide reader attention

❌ Prohibited:

Over-interpretation
Hiding details
Exaggerating effects
Vague descriptions

✅ 推荐做法：

客观描述结果
提供充足的细节
如实上报局限性
引导读者注意力

❌ 禁止做法：

过度解读
隐瞒细节
夸大效果
描述模糊

Summary

总结

This skill provides a systematic experimental results analysis workflow:

Data Loading and Validation - Ensure data quality
Statistical Analysis - Perform appropriate statistical tests
Model Comparison - Systematic performance comparison
Visualization - Publication-quality figures
Writing - Results section content
Quality Check - Ensure reproducibility

Following these principles produces high-quality, reproducible experimental results analysis that meets top conference standards.

本技能提供了一套系统化的实验结果分析工作流：

数据加载与验证 - 确保数据质量
统计分析 - 执行合适的统计检验
模型对比 - 系统性性能对比
可视化 - 符合发表标准的图表
写作 - 结果章节内容
质量检查 - 确保可复现性

遵循这些原则可产出高质量、可复现、符合顶会标准的实验结果分析内容。