大数据之Spark基础环境

2023-04-07 08:06 数据库作者：敲键盘的杰克

前言

本篇文章开始介绍Spark基础知识，包括Spark诞生的背景，应用环境以及入门案例等，还是Spark学习之旅前，得先安装Spark环境才行，具体安装步骤可以看Spark环境搭建，让我们接着往下聊。

一、Spark概述

（一）Spark是什么

Spark是Apache顶级的开源项目，主要用于处理大规模数据的分析引擎，该引擎的核心数据结构是RDD弹性分布式数据集，这是一种分布式内存抽象，程序员可以使用RDD在大规模集群中做内存运算，并具有一定的容错方式；

Spark保留了MapReduce的分布式并行计算的优点，还改进了其较为明显的缺陷，中间数据存储在内存中，大大提高了运行速度，同时还提供了丰富的API，提高了开发速度。

大数据之Spark基础环境

（二）Spark的四大特点

Spark底层使用Scala语言，是一种面向对象、php函数式编程语言，能够像操作本地集合一样轻松的操作分布式数据集，Spark具有运行速度快、易用性好、通用性强和随处运行等特点；

（1）速度快，Spark支持内存计算，并且通过DAG有向无环图执行引擎支持无环数据流，相对MapReduce来说，Spark处理数据时，可以将中间处理结果数据存储到内存中，Spark每个任务以线程方式执行，并不是像MapReduce以进程方式执行，线程的启动和销毁相对于进程来说比较快；

（2）易于使用，Spark 支持Java、Scala、python 、R和SQL语言等多种语言；

（3）通用型强，Spark 还提供包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库，可以在同一个应用中无缝地使用这些工具库；

（4）运行方式多，Spark 支持多种运行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的独立运行模式，同时也可以运行在云Kubernetes上，获取数据的方式也很多，支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据开发者_Mysql。

（三）Spark的风雨十年

Spark的发展主要经历过几大阶段：

（1）2009年Spark起源于加州伯克利分校；

（2）2013年被捐赠给Apache；

（3）2014年称为Apache顶级项目；

（4）2016年Spark2.0发布

（5）2019年Spark3.0发布

大数据之Spark基础环境

（四）Spark框架模块

大数据之Spark基础环境

整个Spark 框架模块包含：Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib，大部分模块的能力都在建立在其核心引擎之上；

（1）Spark Core，该模块的数据结构是RDD，实现了Spark的基本功能，包括RDD、任务调度、内存管理、错误恢复以及与存储系统交互等；

（2）Spark SQL，该模块的数据结构主要是DataFrame，是Spark用来操作结构化数据的程序包，通过该模块，可以直接使用SQL操作数据；

（3）Spark Streaming，其主要的数据结构是DStream离散化编程流，是Spark对实时数据进行流式计算的组件；

（4）Spark GraphX，该模块的数据结构为RDD或者DataFrame，是Spark中用于图计算的组件，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法；

（5）Spark MLlib，该模块的数据结构也是RDD或者DataFrame，主要用于机器学习，提供了常见的机器学习功能的程序库，包括分类、回归、聚类等，同时也支持模型评估和数据导入等功能。

（五）Spark通信框架

整个Spark 框架通信模块为Netty，Spark 1.6版本引入了Netty，在Spark 2.0之后，完全使用Netty，并移除了akka。

总结

Spark保留了MapReduce的分布式计算，基于内存计算，提高的数据的计算能力；

其主要模块有SparvyBAyGzhyck Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spapythonrk MLlib，不仅可以通过SQL的方式操作数据，还可以对实时数据进http://www.devze.com行流式计算，同时也支持机器学习；

Spark的特点主要是计算速度快，支持多种编程语言，并且提供了众多友好的API，使得Spark的学习成本大大降低了。

以上就是大数据之Spark基础环境的详细内容，更多关于Spark基础环境的资料请关注我们其它相关文章！

继续阅读：Spark基础环境大数据Spark基础环境

大数据之Spark基础环境

目录

前言

一、Spark概述

（一）Spark是什么

（二）Spark的四大特点

（三）Spark的风雨十年

（四）Spark框架模块

（五）Spark通信框架

总结

更多精彩内容

精彩评论

最新数据库

Redis的哨兵模式工作流程及原理详解

SQL Server查询所有表数据量的代码实例

MySQL分库分表的实践示例

MySQL中On duplicate key update的实现示例

Python与MySQL实现数据库实时同步的详细步骤

数据库排行榜

Hadoop Key Management Server (KMS)配置及测试

spark报错ERROR ObjectStore: Version information found in metastore differs 2.1.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.schema.verification so setting version.

Navicat连接Oracle数据库的详细步骤与注意事项

解决Navicat远程连接MySQL出现 10060 unknow error的方法

redis-cluster集群调优之cluster-require-full-coverage参数