scikit-learn

Compare original and translation side by side

🇺🇸

Original

English

🇨🇳

Translation

Chinese

Scikit-learn

Scikit-learn is the gold standard for "Classical ML" (Regression, SVM, Random Forest). v1.6 (2025) adds Array API support (running on GPUs via PyTorch/CuPy).

Scikit-learn是“经典机器学习（Classical ML）”（回归、SVM、随机森林）领域的标杆。2025年发布的v1.6版本新增了Array API支持，可通过PyTorch/CuPy在GPU上运行。

When to Use

适用场景

Tabular Data: Random Forests / Gradient Boosting.
Preprocessing:
```
StandardScaler
```
,
```
LabelEncoder
```
.
Small Data: When Deep Learning is overkill.

表格数据：随机森林 / 梯度提升。
数据预处理：
```
StandardScaler
```
、
```
LabelEncoder
```
。
小数据集：当深度学习大材小用时。

Core Concepts

核心概念

Estimators

估计器

Everything implements

.fit(X, y)

and

.predict(X)

所有组件都实现了

.fit(X, y)

和

.predict(X)

方法。

Pipelines

流水线

Chaining preprocessing and modeling:

Pipeline([('scaler', StandardScaler()), ('svc', SVC())])

将预处理和建模环节串联起来：

Pipeline([('scaler', StandardScaler()), ('svc', SVC())])

。

Array API

Passing PyTorch tensors directly to Scikit-learn without converting to NumPy (keeping data on GPU).

可直接将PyTorch张量传入Scikit-learn，无需转换为NumPy数组，从而让数据保留在GPU上。

Best Practices (2025)

2025年最佳实践

Do:

Use Pipelines: Prevent data leakage during cross-validation.
Use
HistGradientBoostingClassifier
: It is much faster than standard extraction implementation (inspired by LightGBM).

Don't:

Don't use for Images/Audio: Use PyTorch/DL for unstructured data.

建议：

使用流水线：防止交叉验证过程中的数据泄露。
使用
HistGradientBoostingClassifier
：它比标准实现快得多（灵感源自LightGBM）。

禁忌：

勿用于图像/音频数据：针对非结构化数据，请使用PyTorch或其他深度学习框架。

References

参考资料

Scikit-learn Documentation

Scikit-learn官方文档