Hudi的视图

Hudi提供了三种逻辑视图来访问数据

  • 读优化视图/Read-optimized view–提供CoW表中最新的提交数据集和MoR表中最新的压缩数据集。该视图仅将最新文件切片中的基本/列文件暴露给查询,并保证与非Hudi列式数据集相比,具有相同的列式查询性能。

  • 增量视图/Incremental view–对该视图的查询只能看到从某个提交/压缩后写入数据集的新数据,以馈送下游作业或是提取,转换,加载(ETL)工作流。

  • 实时视图/Real-time view–在此视图上的查询将查看某个增量提交操作中数据集的最新的版本。该视图通过动态合并最新的基本文件(例如parquet)和增量文件(例如avro)来提供近实时数据集(几分钟的延迟)。

权衡要素 读优化 实时
数据延迟 更高 更低
查询延迟 更低(等同于原始列式性能) 更高(合并列式 + 基于行的增量)