批流一体 最近一两年中和实时数仓一样火的概念是批流一体”那么到底什么是批流一体”?在业界中很多人认为批和流在开发层面上都统一到相同的SQL上处理是批流一体也有一些人认为在计算引擎层面上批和流可以集成在同一个计算引擎是批流一体比如:Spark/SparkStreaming/Structured Streaming/Flink框架在计算引擎层面上实现了批处理和流处理集成。 以上无论是在业务SQL使用上统一还是计算引擎上的统一都是批流一体的一个方面除此之外批流一体还有一个最核心的方面就是存储层面上的统一。
这个方面上也有一些流
行的技术:delta/hudi/iceberg,存储一旦能够做 墨西哥电话号码数据 到统一例如:一些大型公司使用Iceberg作为存储那么Kappa架构中很多问题都可以得到解决Kappa架构将变成个如下模样: 这条架构中无论是流处理还是批处理数据存储都统一到数据湖Iceberg上这一套结构将存储统一后解决了Kappa架构很多痛点解决方面如下: 可以解决Kafka存储数据量少的问题。目前所有数据湖基本思路都是基于HDFS之上实现的一个文件管理系统所以数据体量可以很大。
层数据依然可以支持
查询。同样数据湖基于HDFS之上实现只需 法国电话号码列表 要当前的OLAP查询引擎做一些适配就可以进行OLAP查询。 批流存储都基于Iceberg/HDFS存储之后就完全可以复用一套相同的数据血缘数据质量管理体系。 实时数据的更新。 上述架构也可以认为是Kappa架构的变种也有两条数据链路一条是基于Spark的离线数据链路一条是基于Flink的实时数据链路通常数据都是直接走实时链路处理而离线链路则更多的应用于数据修正等非常规场景。