乐虎游戏|乐虎国际登录|欢迎你

秒懂Hadoop和Spark联系与区别

日期:2020-01-16编辑作者:计算机资讯

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。

解决问题的层面不一样

解决问题的层面不一样

首先,Hadoop 和 Apache Spark 两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop 实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

同时,Hadoop 还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

两者可合可分

两者可合可分

Hadoop 除了提供为大家所共识的 HDFS 分布式数据存储功能之外,还提供了叫做 MapReduce 的数据处理功能。所以这里我们完全可以抛开 Spark,使用 Hadoop 自身的 MapReduce 来完成数据的处理。

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。

相反,Spark 也不是非要依附在 Hadoop 身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择 Hadoop 的 HDFS,也可以选择其他的基于云的数据系统平台。但 Spark 默认来说还是被用在 Hadoop 上面的,毕竟,大家都认为它们的结合是最好的。

相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。

以下是天地会珠海分舵从网上摘录的对 MapReduce 的最简洁明了的解析:

以下是从网上摘录的对MapReduce的最简洁明了的解析:

我们要数图书馆中的所有书。你数 1 号书架,我数 2 号书架。这就是“Map”。我们人越多,数书就更快。

我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

Spark 数据处理速度秒杀 MapReduce

本文由乐虎游戏发布于计算机资讯,转载请注明出处:秒懂Hadoop和Spark联系与区别

关键词:

分享一些非常实用的 Vim 命令

分享一些非常实用的 Vim 命令 我明确地说,我是一个 Vim的粉丝。所以在你们中的某些人向我扔石头之前,我先向你们...

详细>>

Python判定变量是不是早就定义的主意,python决断变量定义

Python判断变量是否已经定义的方法,python判断变量定义 Python判断变量是否已经定义是一个非常重要的功能,本文就来...

详细>>

Ubuntu 16.04安装7zip

在 Debian、Ubuntu 或 Linux Mint 系统中安装 7zip 在基于的 Debian 的发布系统中存在有三种 7zip 的软件包。 p7zip: 包含 7zr(最...

详细>>

Python内置的字符串处理函数详细整理(覆盖日常所用),python内置

Python内置的字符串处理函数详细整理(覆盖日常所用),python内置 str='python String function' 生成字符串变量str='python Strin...

详细>>