Kappa架构也有一定的缺点其缺点例如:Kappa架构由于采集的数据格式不统一每次都需要开发不同的Streaming程序导致开发周期长。更多Kappa架构的问题在实时数仓发展趋势中讨论。 混合结构 传统离线大数据架构已经不能满足一些公司中实时业务需求因为随着互联网及物联网发展越来越多的公司多多少少涉及一些流式业务处理场景。由Lambda离线数仓+实时数仓架构到Kappa实时数仓架
构都涉及到实时数仓开
发那么现实业务开发中到底使用Lambda架构还是Kappa架构?我们可以先看下以上三个架构之间的区别: 通过以上对比来看三者对比结果如下:从架构上来看三套架构有比较明 日本电话号码数据 显区别真正的实时数仓以Kappa架构为主而离线数仓以传统离线大数据架构为主Lambda架构可以认为是两者的中间态。目前在业界中所说的实时数仓大多是Lambda架构这是由需求决定的。 从建设方法上来看实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论产出事实宽表。另外实时数仓中实时流数据的join有隐藏时间语义在建设中需注意。
从数据保障上来看
实时数仓因为要保证实时性所以对数 加纳电话号码列表 据量的变化较为敏感在大促等场景下需要提前做好压测和主备保障工作这是与离线数仓较为明显的一个区别。 目前在一些没有实时数据处理场景公司中使用传统离线大数据架构居多在这些公司中离线大数据架构性价比高比较实用。 在一些涉及到实时业务场景的公司在实际工作中到底选择哪种架构需要根据具体业务需求来决定。很多时候并不是完全规范的Lambda架构或者Kappa架构可以是两者的混合比如大部分实时指标统计使用Kappa架构完成计算少量关键指标使用Lambda架构用批处理重新计算增加一次校对过程。