分类目录归档:技术

大数据集群自启动脚本

由于集群需要在启动的时候启动各种服务,而服务如果由master启动的话,则比较不好控制,所以由每个节点独立启动,好处如下:

  1. 可以单独重启一个节点,不需要操作master上的启动脚本
  2. 新加的节点可以使用同样的流程进行操作
  3. 该方案不依赖master中的slavers列表

master启动序列

  1. 启动zk
    ${ZOOKEEPER_HOME}/bin/zkServer.sh start ${ZOOKEEPER_HOME}/conf/zoo.cfg;
  2. 启动namenode
    ${HADOOP_HOME}/sbin/hadoop-daemon.sh –config $HADOOP_CONF_DIR start namenode;
  3. 启动resourcemanager
    ${HADOOP_HOME}/sbin/yarn-daemon.sh –config $YARN_CONF_DIR start resourcemanager
  4. 启动hbase-master
    ${HBASE_HOME}/sbin/hbase-daemon.sh start master
  5. 启动spark-master
    ${SPARK_HOME}/sbin/start-master.sh

slaver启动序列

  1. 启动zk
    ${ZOOKEEPER_HOME}/bin/zkServer.sh start ${ZOOKEEPER_HOME}/conf/zoo.cfg;
  2. 启动datanode
    ${HADOOP_HOME}/sbin/hadoop-daemon.sh –config $HADOOP_CONF_DIR start datanode;
  3. 启动nodemanager
    ${HADOOP_HOME}/sbin/yarn-daemon.sh –config $YARN_CONF_DIR start nodemanager
  4. 启动hbase-regionserver
    ${HBASE_HOME}/sbin/hbase-daemon.sh start regionserver
  5. 启动spark-worker
    ${SPARK_HOME}/sbin/start-slave.sh spark://${SPARK_MASTER_HOST}:${SPARK_MASTER_PORT} -h `hostname`

另外,有一些服务是常驻进行但没有相应的daemon服务管理,此处使用supervisor进行管理

  1. hiveserver2
    ${HIVE_HOME}/bin/hive –service hiveserver2
  2. hivemetastore

    ${HIVE_HOME}/bin/hive –service hivemetastore

kylin-2.1.0装配

Aapache Kylin-2.1.0 装配

系统环境


  • Apache Hive 2.1.1
  • Apache Hadoop 2.7.2
  • Apache HBase 1.2.4
  • Apache Spark 2.0.1
  • Oracle JDK 1.8.0
  • Scala 2.11.8

安装操作


  1. 下载解压 apache-kylin-2.1.0-bin-hbase1x.tar.gz
  2. 创建hadoop_conf_dir,包含文件
    • core-site.xml
    • hdfs-site.xml
    • mapred-site.xml
    • yarn-site.xml
    • hbase-site.xml
    • hive-site.xml
  3. 分发该配置目录到所有节点
  4. 按需修改配置文件
  5. 修改conf/setenv.sh
    增加 export HIVE_LIB=${HIVE_HOME}/lib
  6. 复制hive-beeline依赖到ext/目录下(可以直接复制整个${HIVE_HOME}/lib/*)

Spark及Hadoop环境装配(2)-网络配置

如果有条件的同学,请使用自己部署的DNS服务,如无,则配置/etc/hosts文件,并不影响使用实际效果。

    1. 核心网络节点
      hdfs-namenode
      spark-master
      mr-master
      yarn-master
    2. 子网络节点为各个节点进行命名,并配置hosts。

      各个的hosts应当一致并分发到各个节点上

    3.  Master到各个节点之间的免密登录配置,注意第一次登录时需要输入ssh指纹

 

 

Spark及Hadoop环境装配(1)-基本语言环境配置

 

  • 版本选择

环境依赖清单:

  1. Java在Spark与Hadoop生产中,一般使用Oracle JDK,版本选择是1.8
  2. ScalaScala在Spark 2.0+时选用2.11,Spark 2.0以下时选用2.10
  • JDK部署
  1. 下载Oracle JDK下载链接:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
  2. 解压缩二进制包到/usr/local下的指定目录
  3. 使用软链接将指定目录依序/usr/local/jdk-1.8.xxx  >>  /usr/local/jdk-1.8  >>  /usr/local/jdk此处定义这种方法为本文中安装包软链接方案,这种方案有一些很灵异的好处,当你需要变更版本的时候,可以仅改变软链接就可以了。
  4. 设置环境变量在/etc/profile文件下添加以下内容:
    export JAVA_HOME=/usr/local/jdk
    export PATH=$JAVA_HOME/bin:$PATH
    export CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/jre/lib:$JAVA_HOME/lib
  • Scala部署
  1. 下载Scala语言包下载链接:http://www.scala-lang.org/download/
  2. 解压缩二进制包到/usr/local下的指定目录
  3. 使用软链接将指定目录依序/usr/local/scala-2.x.xxx  >>  /usr/local/scala-2.x  >>  /usr/local/scala
  4. 在/etc/profile文件下添加以下内容:
    export SCALA_HOME=/usr/local/scala
    export PATH=$SCALA_HOME/bin:$PATH
  • 生效与测试
  1. 使配置生效命令行执行:source /etc/profile
  2. 测试java在命令行执行:java

    当不提示找不到命令则证明配置成功

  3. 测试scala测试方式与java相似当执行scala时,出现scala-shell内容则证明成功