要完成整个实验,大约需要4小时。
Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或Amazon S3云存储上使用流处理原语(例如插入增量数据或变更的数据流)来管理PB级数据湖。Hudi能为数据湖提供新鲜的数据,比传统批处理效率高一个数量级。 2020年6月,Apache Hudi正式成为Apache顶级项目。
在本动手训练营中,您将学习使用Apache Hudi和Amazon EMR增量处理Amazon S3 Data Lake上的数据,除了通过概念解读技术,您还将进行以下实验:
1, 源数据库到数据湖的增量数据复制(CDC)
2, 在Hudi上消费流式的增量数据
3, 满足GDPR要求的客户私密数据删除

