Dewei Zhai

/cv

让你的数据不再让你头疼 — 无论规模多大。

8+ 年跨 AWS、Azure、GCP、Alibaba Cloud 的 500TB–1PB 数据湖经验 — 大概率踩过、并修过你即将要踩的大多数坑。

我交付给你的是确定性: 来自幂等 ETL、平台级数据质量,以及凌晨两点救火电话沉淀下来的那种确定性。

项目制或长期合作都行。我不接的活儿是: 自己没法亲自盯到底的那种。

履历

  1. 2026 — now

    Platform Architect (Azure + Alibaba Cloud) Enyquant

    一家能源交易方向的 AI-first 创业公司,作为唯一动手架构师负责双区域 Lakehouse(Azure EU + Alibaba Cloud 中国)。100% IaC (CDKTF + Terraform),事件驱动 serverless 管道,跨团队 IAM。搭建了 AI 增强工程实践(交付吞吐 ~3×)。

  2. 2024 — 2025

    Lead Data Engineer (AWS Datalake) PVH Corp · 2nd engagement

    500+TB AWS 数据湖,90+ 数据源,1000+ 数据集。负责 ETL、平台架构、CI/CD、数据质量。实时 GDPR (反)匿名化服务: 延迟从 2h 降到实时,成本下降 10×。

  3. 2022 — 2024

    Data Engineer & Infra Admin VodafoneZiggo

    1PB+ 数据湖。从 Oracle DWH 迁移到 Snowflake,CDC 摄取(DMS),AWS IaC (CDK + Terraform)。引入新 CI/CD 流程,为团队节省 60+ 小时。

  4. 2020 — 2022

    Lead Data Engineer (AWS Datalake) PVH Corp · 1st engagement

    把数据湖从 Hadoop 迁到 AWS。设计了对接 Adobe、Salesforce、SAP 的外部集成。搭建自助式分析平台,TTM 从两周缩到 10 分钟。

  5. 2018 — 2020

    Data DevOps Engineer FedEx Digital

    AWS 与 GCP 上的 ETL 管道,数据科学模型产品化,Kinesis 流处理。

  6. 2016 — 2018

    Data Engineer / Hadoop Admin ABN AMRO

    Hadoop 运维,Hive/Spark ETL。

  7. 2016 — 2018

    Data Engineer / Hadoop Admin KPN

    Hadoop 运维,Hive/Spark ETL,基于 Ansible 与 Jenkins 的自动化。

精选案例

下列案例都是公开信息;如需带姓名的 reference,可以单独提供。

技术栈

Cloud
AWS (deepest), Azure, Alibaba Cloud, GCP
Lakehouse
Databricks, Snowflake, Unity Catalog, Iceberg, DuckDB
ETL
Spark, dbt, Glue, Kafka, AWS DMS (CDC)
Languages
Python, SQL, TypeScript, Scala, Shell, Solidity, Cython
Orchestration
Airflow, ADF, Step Functions, DataWorks, Oozie
IaC
Terraform, AWS CDK, CDKTF, Ansible
CICD
GitHub Actions, GitLab CI/CD, Jenkins
Quality
PyDeequ, Great Expectations

认证

教育背景

通信与信息系统硕士 — 西安电子科技大学,中国。IDW 学历评估: 等同于荷兰 MSc Computing Science。