大数据技术与平台架构演进之一
1.1.2 MapReduce编程模型
1.1.3 MapReduce缺点
1)不擅长实时计算
MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。
2)不擅
内存计算的演进1.1 MapReduce1.1.1 MapReduce核心思想 1.1.2 MapReduce编程模型 1.1.3 MapReduce缺点 1)不擅长实时计算 MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。 2)不擅长流式计算 流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。 3)不擅长DAG(有向无环图)计算 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。 1.2 Spark SparkDAG(有向无环图,Directed Acyclic Graph) 1.3 Flink Flink 核心模型 1.4Flink 与Spark对比 数据库到数据仓库的演进2.1离线数据仓库 2.2实时数据仓库 大数据平台架构演进3.1 Lambda架构 Nathan Marz针对通用的,可扩展的和容错的数据处理架构提出了术语Lambda Architecture。它是一种旨在通过利用批处理和流处理这两者的优势来处理大量数据的数据处理架构。 Lambda架构的数据仓库数据Merge成本高? 3.2 Kappa架构 Kappa 架构是LinkedIn的Jay Kreps结合实际经验和个人体会大数据技术架构,针对Lambda架构进行深度剖析,分析其优缺点并采用的替代方案。 Kappa架构的核心思想: (编辑:湘西站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |