data-engineering

Compare original and translation side by side

🇺🇸

Original

English
🇨🇳

Translation

Chinese

Data Engineering Skill

数据工程技能

Quick Reference

快速参考

RoleFocusTimelineEntry From
Data EngineerPipelines, Infra12-24 moBackend Dev
ML EngineerModels, Features12-24 moData Scientist
AI EngineerLLMs, Agents6-12 moAny Developer

角色核心方向学习周期入行起点
数据工程师数据管道、基础设施12-24个月后端开发
机器学习工程师模型、特征工程12-24个月数据科学家
人工智能工程师大语言模型(LLM)、Agent6-12个月任意开发背景

Learning Paths

学习路径

Data Engineer

数据工程师

[1] SQL Mastery (4-6 wk)
 │  └─ Window functions, CTEs, optimization
[2] Python for Data (4-6 wk)
 │  └─ Pandas, file formats, scripting
[3] ETL/ELT Pipelines (6-8 wk)
 │  └─ Extract, transform, load patterns
[4] Big Data: Spark (8-12 wk)
 │  └─ PySpark, DataFrames, partitioning
[5] Data Warehouse (4-6 wk)
 │  └─ Star schema, dbt, Snowflake/BQ
[6] Orchestration (4-6 wk)
    └─ Airflow/Prefect, scheduling, monitoring
2025 Stack: Python + Spark + Airflow + dbt + Snowflake/BigQuery

[1] SQL精通 (4-6周)
 │  └─ 窗口函数、公共表表达式(CTEs)、性能优化
[2] 数据处理Python (4-6周)
 │  └─ Pandas、文件格式、脚本编写
[3] ETL/ELT管道 (6-8周)
 │  └─ 抽取、转换、加载模式
[4] 大数据:Spark (8-12周)
 │  └─ PySpark、DataFrames、分区策略
[5] 数据仓库 (4-6周)
 │  └─ 星型模型、dbt、Snowflake/BigQuery
[6] 任务编排 (4-6周)
    └─ Airflow/Prefect、调度、监控
2025技术栈: Python + Spark + Airflow + dbt + Snowflake/BigQuery

ML Engineer

机器学习工程师

[1] Python + NumPy (4-6 wk)
[2] Math Foundations (6-8 wk)
 │  └─ Linear algebra, calculus, statistics
[3] Classical ML (8-12 wk)
 │  └─ scikit-learn, XGBoost, evaluation
[4] Deep Learning (8-12 wk)
 │  └─ PyTorch, CNNs, Transformers
[5] MLOps (6-8 wk)
    └─ MLflow, model serving, monitoring
2025 Stack: Python + PyTorch + scikit-learn + MLflow + W&B

[1] Python + NumPy (4-6周)
[2] 数学基础 (6-8周)
 │  └─ 线性代数、微积分、统计学
[3] 经典机器学习 (8-12周)
 │  └─ scikit-learn、XGBoost、模型评估
[4] 深度学习 (8-12周)
 │  └─ PyTorch、CNN、Transformer
[5] MLOps (6-8周)
    └─ MLflow、模型部署、监控
2025技术栈: Python + PyTorch + scikit-learn + MLflow + W&B

AI Engineer (2025 Hot Path)

人工智能工程师(2025热门路径)

[1] LLM Fundamentals (2-3 wk)
 │  └─ Tokens, embeddings, context windows
[2] Prompt Engineering (2-3 wk)
 │  └─ Few-shot, CoT, structured output
[3] RAG Systems (3-4 wk)
 │  └─ Embeddings, vector DBs, retrieval
[4] AI Agents (4-6 wk)
 │  └─ Tool calling, agent loops, memory
[5] Production Deploy (ongoing)
    └─ Evaluation, guardrails, monitoring
2025 Stack: Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB

[1] LLM基础 (2-3周)
 │  └─ 令牌(Tokens)、嵌入(Embeddings)、上下文窗口
[2] 提示工程 (2-3周)
 │  └─ 少样本学习、思维链(CoT)、结构化输出
[3] RAG系统 (3-4周)
 │  └─ 嵌入、向量数据库、检索逻辑
[4] AI Agent (4-6周)
 │  └─ 工具调用、Agent循环、记忆机制
[5] 生产部署(持续学习)
    └─ 模型评估、安全护栏、监控
2025技术栈: Python + LangChain/LlamaIndex + OpenAI/Anthropic + ChromaDB

2025 Tool Matrix

2025工具矩阵

Data Processing

数据处理

ToolScaleUse Case
Pandas<10GBPrototyping, small data
Polars<100GBFast local processing
Spark>100GBDistributed processing
dbtAnyTransformations, testing
工具适用规模使用场景
Pandas<10GB原型开发、小数据处理
Polars<100GB本地快速处理
Spark>100GB分布式处理
dbt任意规模数据转换、测试

ML Frameworks

机器学习框架

FrameworkBest ForComplexity
scikit-learnClassical MLLow
XGBoostTabular dataLow
PyTorchResearch, flexibilityMedium
TensorFlowProduction, mobileMedium
框架最佳适用场景复杂度
scikit-learn经典机器学习
XGBoost表格数据
PyTorch研究、灵活性需求
TensorFlow生产环境、移动应用

LLM/AI Tools

LLM/AI工具

ToolUse Case
LangChainLLM orchestration
LlamaIndexRAG systems
Claude/OpenAILLM APIs
ChromaDBVector storage

工具使用场景
LangChainLLM编排
LlamaIndexRAG系统构建
Claude/OpenAILLM API调用
ChromaDB向量存储

Algorithm Reference

算法参考

Classical ML

经典机器学习

TypeAlgorithms
RegressionLinear, Ridge, Lasso, ElasticNet
ClassificationLogistic, SVM, Decision Tree
EnsembleRandom Forest, XGBoost, LightGBM
ClusteringK-Means, DBSCAN, Hierarchical
类型算法
回归线性回归、岭回归、Lasso回归、弹性网络
分类逻辑回归、支持向量机(SVM)、决策树
集成学习随机森林、XGBoost、LightGBM
聚类K-Means、DBSCAN、层次聚类

Deep Learning

深度学习

ArchitectureUse Case
CNNImages, vision
RNN/LSTMSequences
TransformerNLP, LLMs
DiffusionImage generation

架构适用场景
CNN图像、计算机视觉
RNN/LSTM序列数据
Transformer自然语言处理、大语言模型
Diffusion图像生成

AI Agent Architecture (2025)

AI Agent架构(2025)

┌─────────────────────────────────────────┐
│            AGENTIC LOOP                  │
├─────────────────────────────────────────┤
│  PERCEIVE → REASON → ACT → REFLECT      │
│      │         │       │       │        │
│      │         │       │       └─► Loop │
│      │         │       └─► Execute tools│
│      │         └─► LLM decides action   │
│      └─► Gather context, observations   │
└─────────────────────────────────────────┘

Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique

┌─────────────────────────────────────────┐
│            AGENTIC LOOP                  │
├─────────────────────────────────────────┤
│  PERCEIVE → REASON → ACT → REFLECT      │
│      │         │       │       │        │
│      │         │       │       └─► Loop │
│      │         │       └─► Execute tools│
│      │         └─► LLM decides action   │
│      └─► Gather context, observations   │
└─────────────────────────────────────────┘

Design Patterns (Anthropic 2025):
• Prompt Chaining - Sequential fixed steps
• Routing - Classify and dispatch
• Parallelization - Concurrent subtasks
• Orchestrator-Workers - Central delegation
• Evaluator-Optimizer - Generate + critique
设计模式(Anthropic 2025): • 提示链 - 固定顺序步骤 • 路由 - 分类与分发 • 并行化 - 并发子任务 • 编排者-工作者 - 集中式委托 • 评估者-优化者 - 生成+评审

Troubleshooting

故障排除

Which path to choose?
├─► Love building infrastructure? → Data Engineer
├─► Love algorithms/math? → ML Engineer
├─► Want fastest AI entry? → AI Engineer
└─► Uncertain? → Start with Python + SQL

Model not performing well?
├─► Data quality issues? → Clean data first
├─► Feature engineering? → Create better features
├─► Wrong algorithm? → Try different models
├─► Overfitting? → More data, regularization
└─► Hyperparameters? → Grid/random search

LLM giving bad answers?
├─► Prompt too vague? → Be more specific
├─► Missing context? → Add relevant info
├─► Hallucinating? → Use RAG, verify facts
└─► Wrong tool? → Improve tool descriptions

该选择哪条路径? ├─► 喜欢构建基础设施?→ 数据工程师 ├─► 热爱算法/数学?→ 机器学习工程师 ├─► 想最快进入AI领域?→ 人工智能工程师 └─► 不确定?→ 从Python + SQL开始
模型表现不佳? ├─► 数据质量问题?→ 先清洗数据 ├─► 特征工程不足?→ 构建更优特征 ├─► 算法选择错误?→ 尝试不同模型 ├─► 过拟合?→ 增加数据、正则化 └─► 超参数问题?→ 网格/随机搜索
LLM输出结果不理想? ├─► 提示过于模糊?→ 描述更具体 ├─► 缺少上下文?→ 添加相关信息 ├─► 产生幻觉?→ 使用RAG、验证事实 └─► 工具选择错误?→ 优化工具描述

Common Failure Modes

常见失败模式

SymptomRoot CauseRecovery
Model fails in prodData driftMonitor distributions
Pipeline always lateUnoptimized queriesProfile, partition
RAG finds wrong docsBad chunkingTune chunk size, overlap
Agent loops foreverNo exit conditionAdd max iterations

症状根本原因解决方法
模型在生产环境失效数据漂移监控数据分布
数据管道总是延迟查询未优化性能分析、分区优化
RAG检索到错误文档切分策略不佳调整切分大小、重叠度
Agent无限循环无退出条件添加最大迭代次数

Portfolio Projects

作品集项目

Data Engineering

数据工程

  1. ETL Pipeline (Airflow + dbt)
  2. Real-time Streaming (Kafka + Spark)
  3. Data Warehouse Design
  1. ETL管道(Airflow + dbt)
  2. 实时流处理(Kafka + Spark)
  3. 数据仓库设计

ML Engineering

机器学习工程

  1. Classification Model (scikit-learn)
  2. Deep Learning Model (PyTorch)
  3. ML Pipeline (MLflow)
  1. 分类模型(scikit-learn)
  2. 深度学习模型(PyTorch)
  3. ML管道(MLflow)

AI Engineering

人工智能工程

  1. RAG Chatbot (LangChain + ChromaDB)
  2. AI Agent with Tools
  3. Multi-Agent System

  1. RAG聊天机器人(LangChain + ChromaDB)
  2. 带工具调用的AI Agent
  3. 多Agent系统

Next Actions

下一步行动

Specify your target role for a detailed learning plan.
指定你的目标角色,获取详细学习计划。