
Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个开源数据管理框架,用于简化增量数据处理和数据管道开发。 Apache Hudi使您能够在Amazon S3中以版本记录形式管理数据,以简化变更数据捕获(CDC)和流式数据提取,并提供了一个框架以版本记录的形式处理需要更新和删除的隐私数据。由Apache Hudi管理的数据集使用开放存储格式存储在S3中,并且与Presto,Apache Hive,Apache Spark和AWS Glue数据目录的集成使您可以使用熟悉的工具近乎实时地访问更新的数据。
Hudi与可以与Apache Spark,Apache Hive和Presto集成在一起。在Amazon EMR 5.28.0版和更高版本中,Amazon EMR默认在安装Spark,Hive或Presto时安装Hudi组件。您可以使用Spark或Hudi DeltaStreamer程序来创建或更新Hudi数据集。您可以使用Hive,Spark或Presto交互式地查询Hudi数据集,也可以使用增量拉取构建数据处理管道。增量提取是指仅提取两次操作之间发生变化的数据的能力。 简单来说,Apache Hudi用于在Apache Hadoop分布式文件系统(HDFS)或云存储上使用流处理原语(例如插入更新和增量更改流)来管理PB级数据湖。Hudi数据湖提供了新鲜的数据,比传统批处理效率高一个数量级。核心功能包括:
可插拔式的索引支持快速Upsert / Delete。
事务提交/回滚数据。
支持捕获Hudi表的变更进行流式处理。
支持Apache Hive,Apache Spark,Apache Impala和Presto查询引擎。
内置数据提取工具,支持Apache Kafka,Apache Sqoop和其他常见数据源。
通过管理文件大小,存储布局来优化查询性能。
基于行存快速提取模式,并支持异步压缩成列存格式。
用于审计跟踪的时间轴元数据。