Hadoop详解

Hadoop 概述

Hadoop 简介

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop 相关
  • Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
  • HDFS:Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System)
  • MapReduce:并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
  • Apache HBase:分布式NoSQL列数据库,类似谷歌公司BigTable。
  • Apache Hive:构建于hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。
  • Apache Mahout:机器学习算法软件包。
  • Apache Sqoop:结构化数据(如关系数据库)与Apache Hadoop之间的数据转换工具。
  • Apache ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。
  • Apache Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
Hadoop 优点
  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop 环境搭建(单机模式)

下载hadoop解压到 /usr/hadoop/hdfs 目录下

$ tar zxvf hadoop-2.6.0.tar.gz
$ mv hadoop-2.6.0 /usr/hadoop/hdfs
$ chmod 777 /home/hadoop/hdfs

配置环境变量

export HADOOP_HOME=/usr/hadoop/hdfs/hadoop-2.8.4
export PATH=$PATH:$HADOOP_HOME/bin

生效配置文件

. /etc/profile

验证是否安装成功

hadoop version

创建输入的数据,暂时采用/etc/protocols文件作为测试

$ cd /usr/hadoop/hdfs/hadoop-2.8.4
$ mkdir input
$ cp /etc/protocols ./input

测试 wordcount

hadoop jar /usr/hadoop/hdfs/hadoop-2.8.4/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.4-sources.jar org.apache.hadoop.examples.WordCount input output

Hadoop 伪分布式部署

注意: 在单机模式的前提下进行安装

修改core-site.xml
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
   </property>
</configuration>

常用配置项说明:

  • fs.defaultFS这是默认的HDFS路径。当有多个HDFS集群同时工作时,用户在这里指定默认HDFS集群,该值来自于hdfs-site.xml中的配置。
  • fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。
  • hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在/tmp/hadoop-${user.name}这个路径中。
  • 更多说明请参考core-default.xml,包含配置文件所有配置项的说明和默认值。
修改hdfs-site.xml:
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

常用配置项说明:

  • dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用,它应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)
  • dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的,因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
  • dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
  • 更多说明请参考hdfs-default.xml,包含配置文件所有配置项的说明和默认值。
修改mapred-site.xml:
$ cp /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml.template /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

常用配置项说明:

  • mapred.job.trackerJobTracker的主机(或者IP)和端口。
  • 更多说明请参考mapred-default.xml,包含配置文件所有配置项的说明和默认值
修改yarn-site.xml:
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/yarn-site.xml
<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

常用配置项说明:

  • yarn.nodemanager.aux-services通过该配置,用户可以自定义一些服务
  • 更多说明请参考yarn-default.xml,包含配置文件所有配置项的说明和默认值
修改 hadoop-env.sh:
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/hadoop-env.sh 

修改 JAVA_HOME 如下:

export JAVA_HOME=/usr/hadoop/java/jdk1.8.0_171
export HADOOP_CONF_DIR=/usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop
格式化HDFS文件系统
hadoop namenode -format
Hadoop集群启动

进入hadoop sbin 目录下

启动hdfs守护进程,分别启动NameNode和DataNode

./ start-dfs.sh

启动yarn,使用如下命令启ResourceManager和NodeManager:

./ start-yarn.sh

检查是否运行成功

可能出现的问题及调试方法:
启动伪分布后,如果活跃节点显示为零,说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format重新格式化仍然无法正常启动,原因是/tmp中的文件没有清除,则需要先清除/tmp/hadoop/*再执行格式化,即可解决hadoop datanode无法启动的问题。具体步骤如下所示:
# 删除hadoop:/tmp
$ hadoop fs -rmr /tmp
# 停止hadoop
$ stop-all.sh
# 删除/tmp/hadoop*
$ rm -rf /tmp/hadoop*
# 格式化
$ hadoop namenode -format
# 启动hadoop
$ start-all.sh
伪分布式测试wordcount

把文件拷贝到hdfs

$ hadoop dfs -mkdir -p /user/hadoop/input

创建输入的数据,采用/etc/protocols文件作为测试

$ hadoop dfs -put /etc/protocols /user/hadoop/input

执行Hadoop WordCount应用(词频统计)

 hadoop jar /usr/hadoop/hdfs/hadoop-2.8.4/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.4-sources.jar org.apache.hadoop.examples.WordCount /user/hadoop/input output

关闭服务

$ stop-dfs.sh
$ stop-yarn.sh

hadoop hdfs dfs基本操作

查询

​ 使用命令:

hdfs dfs -ls / 这条执行会列出/目录下的文件和目录

hdfs dfs -ls -R /这条会列出/目录下的左右文件,由于有-R参数,会在文件夹和子文件夹下执行ls操作

添加文件夹

​ 使用命令;

hdfs dfs -mkdir -p /xytest/testdata001/

这里需要注意的是,root用户是否拥有hdfs 的权限,如果有,我们可以继续操作,如果没有,我们可以直接使用hdfs用户,默认安装完cdh后,用户hdfs拥有所有的权限 http://blog.csdn.net/wild46cat/article/details/69664376

增加文件

​ 使用命令:

hdfs dfs -copyFromLocal ~/123.txt /xytest/testdata001/

查看hdfs文件中的内容

​ 使用命令:

hdfs dfs -cat /xytest/testdata001/123.txt

删除文件

使用命令:

hdfs dfs -rm -f /xytest/testdata001/123.txt

删除文件夹

​ 使用命令:

hdfs dfs -rm -r /xytest/testdata001

参考文档

http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html#ls


  转载请注明: Hi 高虎 Hadoop详解

 上一篇
Storm详解与集群环境搭建 Storm详解与集群环境搭建
strom 概述Apache Strom 是自由开源的分布式实时计算系统 擅长处理海量数据 适用于数据实时处理而非批处理(比如Hadoop) 分布式系统,可以充分利用计算机集群资源 模型简单,易于适用 Strom 有以下几个核心概念:
2018-05-21
下一篇 
Java8中的Streams API详解 Java8中的Streams API详解
什么是流 Stream 不是集合元素,它不是数据结构并不保存数据,它是有关算法和计算的,它更像一个高级版本的 Iterator。原始版本的 Iterator,用户只能显式地一个一个遍历元素并对其执行某些操作;高级版本的 Stream,用户只
2018-05-01
  目录