使用Hudi,您可以在S3上执行拥有版本记录的数据插入,更新和删除。创建数据集和表,然后Hudi管理基础数据格式。 Hudi使用Apache Parquet和Apache Avro进行数据存储,同时Hudi与Spark,Hive和Presto内置集成,使您能够使用正在使用的工具来查询Hudi数据集,几乎实时地访问新鲜的数据。这些功能使Hudi适用于以下用例:
使用来自传感器和其他需要特定数据插入和更新事件的物联网(IoT)设备的流数据。
选择删除用户部分隐私数据或修改其使用数据方式的应用程序,以便遵守数据隐私法规。
部署在变更数据获取(CDC)系统,使您可以随时间将更改应用于数据集。
随Amazon EMR 5.28.0默认安装的Hudi版本为0.5.0-incubating。