AWS & Apache HUDI 动手训练营

navigation

要完成整个实验,大约需要4小时。

嗨,您好!欢迎来到Apache Hudi动手训练营

Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或Amazon S3云存储上使用流处理原语(例如插入增量数据或变更的数据流)来管理PB级数据湖。Hudi能为数据湖提供新鲜的数据,比传统批处理效率高一个数量级。 2020年6月,Apache Hudi正式成为Apache顶级项目。

在本动手训练营中,您将学习使用Apache Hudi和Amazon EMR增量处理Amazon S3 Data Lake上的数据,除了通过概念解读技术,您还将进行以下实验:

1, 源数据库到数据湖的增量数据复制(CDC)

2, 在Hudi上消费流式的增量数据

3, 满足GDPR要求的客户私密数据删除

反馈您遇到的问题 联系本页面作者 了解更多的AWS动手训练营 访问英文版Hudi动手训练营(Visit English version Workshop)