scikit-learn

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Scikit-learn

Scikit-learn

Scikit-learn is the gold standard for "Classical ML" (Regression, SVM, Random Forest). v1.6 (2025) adds Array API support (running on GPUs via PyTorch/CuPy).
Scikit-learn是“经典机器学习(Classical ML)”(回归、SVM、随机森林)领域的标杆。2025年发布的v1.6版本新增了Array API支持,可通过PyTorch/CuPy在GPU上运行。

When to Use

适用场景

  • Tabular Data: Random Forests / Gradient Boosting.
  • Preprocessing:
    StandardScaler
    ,
    LabelEncoder
    .
  • Small Data: When Deep Learning is overkill.
  • 表格数据:随机森林 / 梯度提升。
  • 数据预处理
    StandardScaler
    LabelEncoder
  • 小数据集:当深度学习大材小用时。

Core Concepts

核心概念

Estimators

估计器

Everything implements
.fit(X, y)
and
.predict(X)
.
所有组件都实现了
.fit(X, y)
.predict(X)
方法。

Pipelines

流水线

Chaining preprocessing and modeling:
Pipeline([('scaler', StandardScaler()), ('svc', SVC())])
.
将预处理和建模环节串联起来:
Pipeline([('scaler', StandardScaler()), ('svc', SVC())])

Array API

Array API

Passing PyTorch tensors directly to Scikit-learn without converting to NumPy (keeping data on GPU).
可直接将PyTorch张量传入Scikit-learn,无需转换为NumPy数组,从而让数据保留在GPU上。

Best Practices (2025)

2025年最佳实践

Do:
  • Use Pipelines: Prevent data leakage during cross-validation.
  • Use
    HistGradientBoostingClassifier
    : It is much faster than standard extraction implementation (inspired by LightGBM).
Don't:
  • Don't use for Images/Audio: Use PyTorch/DL for unstructured data.
建议
  • 使用流水线:防止交叉验证过程中的数据泄露。
  • 使用
    HistGradientBoostingClassifier
    :它比标准实现快得多(灵感源自LightGBM)。
禁忌
  • 勿用于图像/音频数据:针对非结构化数据,请使用PyTorch或其他深度学习框架。

References

参考资料