Hadoop详解 | Hi 高虎

发布日期: 2018-05-21

作者: 高虎

文章字数: 2.4k

阅读时长: 10 分

阅读次数:

Hadoop 概述

Hadoop 简介

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。

Hadoop的框架最核心的设计就是：HDFS和MapReduce.HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Hadoop 相关

Hadoop Common：在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common
HDFS：Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）
MapReduce：并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API
Apache HBase：分布式NoSQL列数据库，类似谷歌公司BigTable。
Apache Hive：构建于hadoop之上的数据仓库，通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。
Apache Mahout：机器学习算法软件包。
Apache Sqoop：结构化数据（如关系数据库）与Apache Hadoop之间的数据转换工具。
Apache ZooKeeper：分布式锁设施，提供类似Google Chubby的功能，由Facebook贡献。
Apache Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

Hadoop 优点

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比，hadoop是开源的，项目的软件成本因此会大大降低。

Hadoop 环境搭建(单机模式)

下载hadoop解压到　/usr/hadoop/hdfs 目录下

$ tar zxvf hadoop-2.6.0.tar.gz
$ mv hadoop-2.6.0 /usr/hadoop/hdfs
$ chmod 777 /home/hadoop/hdfs

配置环境变量

export HADOOP_HOME=/usr/hadoop/hdfs/hadoop-2.8.4
export PATH=$PATH:$HADOOP_HOME/bin

生效配置文件

. /etc/profile

验证是否安装成功

hadoop version

创建输入的数据，暂时采用/etc/protocols文件作为测试

$ cd /usr/hadoop/hdfs/hadoop-2.8.4
$ mkdir input
$ cp /etc/protocols ./input

测试 wordcount

hadoop jar /usr/hadoop/hdfs/hadoop-2.8.4/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.4-sources.jar org.apache.hadoop.examples.WordCount input output

Hadoop 伪分布式部署

注意：在单机模式的前提下进行安装

修改core-site.xml

$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/core-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
   </property>
</configuration>

常用配置项说明：

fs.defaultFS这是默认的HDFS路径。当有多个HDFS集群同时工作时，用户在这里指定默认HDFS集群，该值来自于hdfs-site.xml中的配置。
fs.default.name这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号)，集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。
hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在/tmp/hadoop-${user.name}这个路径中。
更多说明请参考core-default.xml，包含配置文件所有配置项的说明和默认值。

修改hdfs-site.xml:

$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/hdfs-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

常用配置项说明：

dfs.replication它决定着系统里面的文件块的数据备份个数。对于一个实际的应用，它应该被设为3（这个数字并没有上限，但更多的备份可能并没有作用，而且会占用更多的空间）。少于三个的备份，可能会影响到数据的可靠性(系统故障时，也许会造成数据丢失)
dfs.data.dir这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同，因为每台机器的环境很可能是不一样的。但如果每台机器上的这个路径都是统一配置的话，会使工作变得简单一些。默认的情况下，它的值为file://${hadoop.tmp.dir}/dfs/data这个路径只能用于测试的目的，因为它很可能会丢失掉一些数据。所以这个值最好还是被覆盖。
dfs.name.dir这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效，DataNode并不需要使用到它。上面对于/temp类型的警告，同样也适用于这里。在实际应用中，它最好被覆盖掉。
更多说明请参考hdfs-default.xml，包含配置文件所有配置项的说明和默认值。

修改mapred-site.xml:

$ cp /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml.template /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml
$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

常用配置项说明：

mapred.job.trackerJobTracker的主机（或者IP）和端口。
更多说明请参考mapred-default.xml，包含配置文件所有配置项的说明和默认值

修改yarn-site.xml:

$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

常用配置项说明：

yarn.nodemanager.aux-services通过该配置，用户可以自定义一些服务
更多说明请参考yarn-default.xml，包含配置文件所有配置项的说明和默认值

修改 hadoop-env.sh:

$ vim /usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop/hadoop-env.sh

修改 JAVA_HOME 如下：

export JAVA_HOME=/usr/hadoop/java/jdk1.8.0_171
export HADOOP_CONF_DIR=/usr/hadoop/hdfs/hadoop-2.8.4/etc/hadoop

格式化HDFS文件系统

hadoop namenode -format

Hadoop集群启动

进入hadoop sbin 目录下

启动hdfs守护进程，分别启动NameNode和DataNode

./ start-dfs.sh

启动yarn,使用如下命令启ResourceManager和NodeManager:

./ start-yarn.sh

检查是否运行成功

输入：http://localhost:8088进入ResourceManager管理页面
输入：http://localhost:50070进入HDFS页面

可能出现的问题及调试方法：
启动伪分布后，如果活跃节点显示为零，说明伪分布没有真正的启动。原因是有的时候数据结构出现问题会造成无法启动datanode。如果使用hadoop namenode -format重新格式化仍然无法正常启动，原因是/tmp中的文件没有清除，则需要先清除/tmp/hadoop/*再执行格式化，即可解决hadoop datanode无法启动的问题。具体步骤如下所示：

# 删除hadoop:/tmp
$ hadoop fs -rmr /tmp
# 停止hadoop
$ stop-all.sh
# 删除/tmp/hadoop*
$ rm -rf /tmp/hadoop*
# 格式化
$ hadoop namenode -format
# 启动hadoop
$ start-all.sh

伪分布式测试wordcount

把文件拷贝到hdfs

$ hadoop dfs -mkdir -p /user/hadoop/input

创建输入的数据，采用/etc/protocols文件作为测试

$ hadoop dfs -put /etc/protocols /user/hadoop/input

执行Hadoop WordCount应用（词频统计）

 hadoop jar /usr/hadoop/hdfs/hadoop-2.8.4/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.8.4-sources.jar org.apache.hadoop.examples.WordCount /user/hadoop/input output

关闭服务

$ stop-dfs.sh
$ stop-yarn.sh

hadoop hdfs dfs基本操作

查询

使用命令：

hdfs dfs -ls / 这条执行会列出/目录下的文件和目录

hdfs dfs -ls -R /这条会列出/目录下的左右文件，由于有-R参数，会在文件夹和子文件夹下执行ls操作

添加文件夹

使用命令；

hdfs dfs -mkdir -p /xytest/testdata001/

这里需要注意的是，root用户是否拥有hdfs 的权限，如果有，我们可以继续操作，如果没有，我们可以直接使用hdfs用户，默认安装完cdh后，用户hdfs拥有所有的权限 http://blog.csdn.net/wild46cat/article/details/69664376

增加文件

使用命令：

hdfs dfs -copyFromLocal ~/123.txt /xytest/testdata001/

查看hdfs文件中的内容

使用命令：

hdfs dfs -cat /xytest/testdata001/123.txt

删除文件

使用命令：

hdfs dfs -rm -f /xytest/testdata001/123.txt

删除文件夹

使用命令：

hdfs dfs -rm -r /xytest/testdata001

参考文档

http://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-common/FileSystemShell.html#ls

转载请注明: Hi 高虎 Hadoop详解

Storm详解与集群环境搭建

Storm是一个分布式的,可靠的,容错的数据流处理系统,本节介绍Storm与集群环境搭建.

2018-05-21 大数据

Storm

Java8中的Streams API详解

Stream就如同一个迭代器,单向,数据只能遍历一次,遍历过一次后即用尽了.好比流水从面前流过

2018-05-01 Java

Java

Hadoop 概述

Hadoop 简介

Hadoop 相关

Hadoop 优点

Hadoop 环境搭建(单机模式)

Hadoop 伪分布式部署

修改core-site.xml

修改hdfs-site.xml:

修改mapred-site.xml:

修改yarn-site.xml:

修改 hadoop-env.sh:

格式化HDFS文件系统

Hadoop集群启动

伪分布式测试wordcount

hadoop hdfs dfs基本操作

查询

添加文件夹

增加文件

查看hdfs文件中的内容

删除文件

删除文件夹

你的赏识是我前进的动力!