Hadoop教程

集群的构建和安装

硬件备齐之后,下一步就是装配设备,从零开始安装需要的软件以运行Hadoop。

安装和配置Hadoop有多种方式。本章介绍如何使用Apache Hadoop分发包安装 Hadoop,同时也介绍用户在安装过程中需要仔细思考的一些背景知识。此外,如 果用户想用RPM或Debian包来管理Hadoop安装,则要先安装Cloudera’s Distribution for Hadoop。

用户可以采用自动安装的方式来减轻在各节点上安装和维护相同软件的负担,例如 Red Hat Linux 的 Kickstart 或 Debian 的 Fully Automatic Installation 等。这些工具通 过记录问答环节中用户给出的答案(例如磁盘分区设置)、待安装的包列表等信息, 实现自动化安装。更为关键的是,这些工具还提供钩子(hook),可在安装过程末期 运行某些脚本。这些脚本并不包含在标准安装程序中,但对调整和定制最终系统非 常重要。

下面几个小节将描述运行Hadoop所需的一些个性化设置,这些内容需要添加到安 装脚本之中。

安装Java

运行Hadoop需要Java 6或更新版本。尽管很多厂商的Java分发包可能也会正常 工作,但是首选方案是采用最新稳定的Sun JDK。下列指令检查Java是否已被正 确安装:

% java -versionjava version "1.6.0_12"]ava(TM) SE Runtime Environment (build 1.6.0_12-b04)]ava HotSpot(TM) 64-Bit Server VM (build 11.2-b01, mixed mode)

创建Hadoop用户

最好创建特定的Had00p用户帐号以区分 Hadoop和本机上的其他服务。

有一些集群管理员选择将这个新用户的home目录设在一个NSF挂载的驱动器 上,以辅助55只密钥分布(参见以下讨论)。一般而言,NFS服务器在Hadoop集群 之外。如果用户选择使用NSF,则有必要考虑autofs,它提供按需挂载NFS文件 系统的功能,即系统访问它时才挂载。autofs也提供一些措施来应对NFS服务器 发生故障的情况——发生故障时会切换到复制之后的文件系统。同时也需要关注 NFS的其他特性,例如UID和GID的同步。有关在Linux系统上搭建NFS的其他 信息,可参见http://nfs.sowceforge.net/nfi-howto/index.htmh


安装Hadoop

从 Apache Hadoop 的发布页面{http://hadoop.apache.org/core/releases.htmV)下载 Hadoop,并在某一本地目录解压缩发布包,例如/usr/local(/opt是另一标准选项)。 注意,Hadoop并没有安装在hadoop用户的home目录下,最好是在某一 NFS挂 载的目录上:

% cd /usr/local% sudo tar xzf hadoop-x.y.z.tar.gz

此外,还需将Hadoop文件的拥有者改为Hadoop用户和组:

% sudo chown -R hadoop:hadoop hadoop-x.y.z

测试安装

准备好安装文件之后,用户就可以在集群的主机上进行安装、测试。鉴于安装文件 之间存在一些相互依赖性,整个过程可能会多次反复。系统正常启动之后,用户可 进一步配置Hadoop并且试运行。这个过程将在后续章节中详细描述。

关注微信获取最新动态