
众所周知,Apache Spark为我们提供了一个优秀的的框架,她可以帮助我们构建数据处理管道,该框架几乎可以作为任何数据处理工作负载的基础架构核心。而时至今日,我们的需求不能局限于传统的批流处理框架,我们开始考虑如何建设一个增量数据处理管道。例如,从联机事务处理(OLTP)数据库中提取的事务数据,为我们的业务展示近实时的数据指标。 在本研讨会中,我们将带您逐步构建和优化基于Apache Spark的数据处理管道,并在管道中使用Apache HUDI支撑增量数据的处理。我们从基本流程开始,然后通过实际示例逐步介绍每个新概念。请准备好您的笔记本电脑,以便您可以自己构建数据处理管道。