经历多年的发展Lambda架构优点是稳定对于实时计算部分的计算成本可控批量处理可以用晚上的时间来整体批量计算这样把实时计算和离线计算高峰分开但是它也有一些致命缺点: )同样的需求需要开发两套一样的代码 这是Lambda架构最大的问题针对同一个需求需要开发两套代码一个在批处理引擎上实现一个在流处理引擎上实现在写好代码后还需构造数据测试保证两者结果一致另外两套
代码对于后期
维护也非常麻烦一旦需求变更两套代码都 印度尼西亚电话号码数据 需要修改并且两套代码也需同时上线。 )集群资源使用增多 同样的逻辑需要计算两次整体占用资源会增多。虽然离线部分是在凌晨运行但是有可能任务多在凌晨时造成集群资源使用暴增报表产出效率就有可能下降报表延迟对后续展示也有影响。 )离线结果和实时结果不一致 在此架构中经常我们看到次日统计的结果比昨晚的结果要少原因就在于次日统计结果和昨日统计结果走了两条线的计算方式:次日统计结果是按照批处理得到了更为准确的批量处理结果。
昨晚看的结果是通过
流式运行的结果依靠实时链路 印度电话号码列表 统计出的实时结果(实时结果统计累加)牺牲了部分准确性。对于这种来自批量和实时的数据结果对不上的问题无解。 )批量计算T+可能计算不完 随着物联网时代的到来一些企业中数据量级越来越大经常发现夜间运行批量任务已经无法完成白天多个小时累计的数据保证早上上班前准时出现数据已成为部分大数据团队头疼的问题。)服务器存储大 由于批流两个过程都需要将数据存储在集群中并且中间也会产生大量临时数据会造成数据急速膨胀加大服务器存储压力。