每日分享 Spark
一、简述什么是spark?
- spark是一个计算引擎;
- spark是基于内存运算的,比传统的hadoop计算引擎速度要快;
- spark支持多种部署模式,单机部署、独立部署模式、yarn、mesos、k8s等;
- spark可以读取多种数据存储系统或者组件数据,例如hdfs、hbase、hive等;
首先描述spark的简介,一句话概括。其次描述其特点,最后理论到实践,描述其应用场景。
简介 → 特点 → 应用场景
- 简介:spark由scala语言构建的、内存计算引擎,针对大规模数据集和复杂的数据处理任务,提供了高效的数据处理能力。
- 特点:
- 易用:
- (数据介质自由)它可以和任何存储系统进行连接,如本地存储系统、HDFS、Hive、Hbase等;
- (资源管理器自由)资源管理器可选本地模式、独立部署模式、yarn、mesos、k8s等;
- (编程语言自由)spark提供了丰富的api和易于使用的编程模型;
- 快速:
- 源于其利用内存进行计算和基于RDD的弹性数据集模型;
- 通用:(神通广大)
- 批处理、流处理、交互式查询(spark sql)、机器学习(MLlib)
- 应用场景:
- 大规模数据处理:适用于PB级别的数据,可以快速执行复杂的数据转换和分析任务。
- 实时数据处理:spark streaming 处理实时流数据,支持低时延的数据处理需求。
- 机器学习:MLlib提供了一系列机器学习算法,可用于大规模数据的建模和预测。
- 数据探索和可视化:通过spark sql 和 dataframe api 可以进行交互式的数据探索和分析,支持复杂的查询和可视化操作。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 爱影客!

