/cv
让你的数据不再让你头疼 — 无论规模多大。
8+ 年跨 AWS、Azure、GCP、Alibaba Cloud 的 500TB–1PB 数据湖经验 — 大概率踩过、并修过你即将要踩的大多数坑。
我交付给你的是确定性: 来自幂等 ETL、平台级数据质量,以及凌晨两点救火电话沉淀下来的那种确定性。
项目制或长期合作都行。我不接的活儿是: 自己没法亲自盯到底的那种。
履历
- 2026 — now
Platform Architect (Azure + Alibaba Cloud) —
Enyquant 一家能源交易方向的 AI-first 创业公司,作为唯一动手架构师负责双区域 Lakehouse(Azure EU + Alibaba Cloud 中国)。100% IaC (CDKTF + Terraform),事件驱动 serverless 管道,跨团队 IAM。搭建了 AI 增强工程实践(交付吞吐 ~3×)。
- 2024 — 2025
Lead Data Engineer (AWS Datalake) —
PVH Corp · 2nd engagement
500+TB AWS 数据湖,90+ 数据源,1000+ 数据集。负责 ETL、平台架构、CI/CD、数据质量。实时 GDPR (反)匿名化服务: 延迟从 2h 降到实时,成本下降 10×。
- 2022 — 2024
Data Engineer & Infra Admin —
VodafoneZiggo 1PB+ 数据湖。从 Oracle DWH 迁移到 Snowflake,CDC 摄取(DMS),AWS IaC (CDK + Terraform)。引入新 CI/CD 流程,为团队节省 60+ 小时。
- 2020 — 2022
Lead Data Engineer (AWS Datalake) —
PVH Corp · 1st engagement
把数据湖从 Hadoop 迁到 AWS。设计了对接 Adobe、Salesforce、SAP 的外部集成。搭建自助式分析平台,TTM 从两周缩到 10 分钟。
- 2018 — 2020
Data DevOps Engineer —
FedEx Digital
AWS 与 GCP 上的 ETL 管道,数据科学模型产品化,Kinesis 流处理。
- 2016 — 2018
Data Engineer / Hadoop Admin —
ABN AMRO
Hadoop 运维,Hive/Spark ETL。
- 2016 — 2018
Data Engineer / Hadoop Admin —
KPN
Hadoop 运维,Hive/Spark ETL,基于 Ansible 与 Jenkins 的自动化。
精选案例
下列案例都是公开信息;如需带姓名的 reference,可以单独提供。
-
2026 — present
Enyquant
— 平台架构师 & 端到端数据工程师 — raw → modeled (Azure + Alibaba Cloud) — 全职 在一家能源交易方向的 AI-first 创业公司,作为唯一动手架构师,负责双区域 Lakehouse(Azure EU + Alibaba Cloud 中国)。完整负责平台、管道、IaC、CI/CD、IAM 和跨区域架构。
- — 基于 ADLS Gen2 + Databricks Unity Catalog 的 Medallion 架构 Lakehouse,dev/prod 对等
- — 100% IaC (CDKTF + Terraform),零 click-ops 偏差
- — 跨两个区域的能源市场数据,事件驱动的 serverless 管道
- — 多团队 IAM、成本分摊,以及安全的跨区域数据访问模型
- — 可复用的多云架构层,实现 EU ↔ 中国一致的部署体验
- — 为 AWS 可移植性而设计(Lambda / Step Functions / API Gateway / S3 等对应组件)
- — 搭建了 AI 增强(Harness Engineering)交付实践 → 个人吞吐 ~3×
Azure (ADLS Gen2, Databricks, ADF, Functions, Key Vault, Entra ID) · Alibaba Cloud (OSS, Function Compute, DataWorks, EMR Spark) · Terraform + CDKTF (TypeScript) · GitHub Actions + OIDC · Python, SQL
-
2024 — 2025 (returned engagement) & 2020 — 2022
PVH Corp (Tommy Hilfiger, Calvin Klein) — 主导数据工程师 — 自由职业
500+TB AWS 数据湖,90+ 数据源,1000+ 数据集的主导工程师。两次合作分别覆盖 Hadoop → AWS 迁移,以及后期平台现代化阶段。
- — 把数据湖从 Hadoop 迁移到 AWS
- — 设计并交付外部集成:Adobe、Salesforce、SAP 等
- — 重构 ETL 层为幂等、配置驱动
- — 修复数据与调度跨时区的长期遗留问题
- — 60+ dashboard 的自助分析平台,CRM 与 C-suite 在用 — TTM 从 2 周降到 10 分钟
- — 实时 GDPR (去)匿名化服务:延迟从 2h 降到实时,成本下降 10×
- — 把负载迁到 Azure Databricks;接入 GCP BigQuery 与 Google Analytics 数据源
- — 以高级平台工程师身份,为 DataOps、IaC 与生产就绪标准提供咨询
AWS (S3, Glue, EMR, ECS, Lambda, API Gateway, Athena, Step Functions) · Spark, Kafka, dbt, Airflow · Terraform, AWS CDK · GitLab CI/CD · PyDeequ for data quality · Azure Databricks, GCP BigQuery (cross-cloud sources)
-
2022 — 2024
VodafoneZiggo
— 数据工程师 & 基础设施管理员 — 自由职业 在 1PB+ 企业级数据湖上,把遗留 DWH 工作负载从 Oracle 迁到 Snowflake。负责 CDC 摄取、IaC,以及整个团队赖以构建的 CI/CD 基础。
- — 支持从遗留 Oracle DWH 到 Snowflake 的迁移
- — 设计并维护基于 CDC 的摄取管道(DMS 实现)
- — 以代码方式管理 AWS 基础设施(CDK + Terraform)
- — 引入 CI/CD 改进,为团队节省 60+ 小时手工操作
- — 在 1PB+ 数据湖上交付 ETL 管道与内部数据工程框架
- — 为数据科学与分析团队提供可靠的数据集支持
Snowflake · AWS · Terraform, AWS CDK (TypeScript) · Python, SQL, Spark · AWS DMS for CDC · GitLab CI/CD
技术栈
- Cloud
- AWS (deepest), Azure, Alibaba Cloud, GCP
- Lakehouse
- Databricks, Snowflake, Unity Catalog, Iceberg, DuckDB
- ETL
- Spark, dbt, Glue, Kafka, AWS DMS (CDC)
- Languages
- Python, SQL, TypeScript, Scala, Shell, Solidity, Cython
- Orchestration
- Airflow, ADF, Step Functions, DataWorks, Oozie
- IaC
- Terraform, AWS CDK, CDKTF, Ansible
- CICD
- GitHub Actions, GitLab CI/CD, Jenkins
- Quality
- PyDeequ, Great Expectations
认证
- — AWS Certified Solutions Architect — Associate
- — Databricks Certified Associate Developer for Apache Spark
- — Databricks Certified Data Engineer Associate
- — Certified Associate in Python Programming
教育背景
通信与信息系统硕士 — 西安电子科技大学,中国。IDW 学历评估: 等同于荷兰 MSc Computing Science。