AWS & Apache HUDI 动手训练营

要完成整个实验，大约需要4小时。

嗨，您好！欢迎来到Apache Hudi动手训练营

Apache Hudi用于在Apache Hadoop分布式文件系统（HDFS）或Amazon S3云存储上使用流处理原语（例如插入增量数据或变更的数据流）来管理PB级数据湖。Hudi能为数据湖提供新鲜的数据，比传统批处理效率高一个数量级。 2020年6月，Apache Hudi正式成为Apache顶级项目。

在本动手训练营中，您将学习使用Apache Hudi和Amazon EMR增量处理Amazon S3 Data Lake上的数据，除了通过概念解读技术，您还将进行以下实验：

1，源数据库到数据湖的增量数据复制（CDC）

2，在Hudi上消费流式的增量数据

3，满足GDPR要求的客户私密数据删除