博学谷 > 资讯 > 大数据 > 科普Spark,什么是Spark?

原创 科普Spark,什么是Spark?

发布时间:2019-07-09 12:04:57 浏览 740 来源:博学谷资讯 作者:照照

    Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

     

     

    科普Spark,什么是Spark?

     

     

    一、’什么是 Spark

     

    Spark 是基于内存计算大数据分析引擎,提高了在大数据环境下数据处理的实时性。Spark 仅仅只涉及到数据的计算,没有涉及到数据的存储。

     

    二、Spark HA 高可用部署

     

    *Spark HA 解决 Master 单点故障的两种方案:

     

    1.基于文件系统的单点恢复(主要用于开发或测试环境)

     

    2.基于 zookeeper 的 Standby Masters(用于生产模式)

     

    *基于 zookeeper 的 Spark HA 高可用集群部署

     

    (1)im spark-env.sh

     

    注释掉 export SPARK_MASTER_HOST=hdp-node-01

     

    (2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,内容如下:

     

    spark.deploy.recoveryMode:

     

    恢复模式(Master 重新启动的模式)有三种:

     

    (1)ZooKeeper

     

    (2) FileSystem

     

    (3)NONE

     

    spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址

     

    spark.deploy.zookeeper.dir:保存集群元数据信息的文件、目录。包括 Worker,Driver 和 Application。

     

    注意:

     

    在普通模式下启动 spark 集群,只需要在主机上面执行 start-all.sh 就可以了。在高可用模式下启动 spark 集群,先需要在任意一台节点上启动 start-all.sh命令。然后在另外一台节点上单独启动 master。命令 start-master.sh。

     

    三、Spark-Shell

     

    读取本地文件

     

    1.运行 spark-shell --master local[N](N 表线程数)

     

    2.编写 scala 代码

     

    sc.textFile("file:///root///words.txt")

     

    .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

     

    读取 HDFS 上数据

     

    1.整合 spark 和 HDFS,修改配置文件 spark-env.sh

     

    export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

     

    2.启动 hdfs,然后重启 spark 集群

     

    3.向 hdfs 上传个文件

     

    4.在 spark shell 中用 scala 语言编写 spark 程序指定具体的 master 地址

     

    1.执行启动命令:

     

    spark-shell \

     

    --master spark://hdp-node-01:7077 \

     

    --executor-memory 1g \

     

    --total-executor-cores 2

     

    若没指定 master 地址则默认本地模式

     

    2.编写 scala 代码

     

    以上就是“科普Spark,什么是Spark”的全部内容,大家都了解了吗?

上一篇:大数据面试:数据仓库工具hive面试题集锦 下一篇:大数据面试题 Hadoop/MapReduce,Spark,Strom,Hive 的特点及适用场景

相关推荐 更多

最新文章

扫描二维码,回复"大数据"获取20G资料包

4887铁算结果开奖结果小说