一、简述什么是spark?

  1. spark是一个计算引擎;
  2. spark是基于内存运算的,比传统的hadoop计算引擎速度要快;
  3. spark支持多种部署模式,单机部署、独立部署模式、yarn、mesos、k8s等;
  4. spark可以读取多种数据存储系统或者组件数据,例如hdfs、hbase、hive等;

首先描述spark的简介,一句话概括。其次描述其特点,最后理论到实践,描述其应用场景。

简介 → 特点 → 应用场景

  • 简介:spark由scala语言构建的、内存计算引擎,针对大规模数据集和复杂的数据处理任务,提供了高效的数据处理能力。
  • 特点:
    • 易用:
      • (数据介质自由)它可以和任何存储系统进行连接,如本地存储系统、HDFS、Hive、Hbase等;
      • (资源管理器自由)资源管理器可选本地模式、独立部署模式、yarn、mesos、k8s等;
      • (编程语言自由)spark提供了丰富的api和易于使用的编程模型;
    • 快速:
      • 源于其利用内存进行计算和基于RDD的弹性数据集模型;
    • 通用:(神通广大)
      • 批处理、流处理、交互式查询(spark sql)、机器学习(MLlib)
  • 应用场景:
    • 大规模数据处理:适用于PB级别的数据,可以快速执行复杂的数据转换和分析任务。
    • 实时数据处理:spark streaming 处理实时流数据,支持低时延的数据处理需求。
    • 机器学习:MLlib提供了一系列机器学习算法,可用于大规模数据的建模和预测。
    • 数据探索和可视化:通过spark sql 和 dataframe api 可以进行交互式的数据探索和分析,支持复杂的查询和可视化操作。