全分布式HADOOP集群搭建教程

Hadoop完全分布式搭建

\1. 集群规划

(1) IP地址分配

① Master 192.168.xxx.101

② Slave1 192.168.xxx.102

③ Slave2 192.168.xxx.103

(2) 进程划分

① Master namenode secondarynamenode resourcemanager

② Slave1 datanode nodemanager

③ Slave2 datanode nodemanager

\2. 安装虚拟机

(1) 分区:

① /boot 引导操作系统启动,300mb

② Swap 交换分区,大小设置为内存的两倍

③ / 根目录,剩余空间全部分配给根目录

\3. 配置网卡配置文件

Cd /etc/sysconfig/network-scripts

Vi ifcfg-ens33

修改的内容:

Bootproto=dhcp

Onboot = yes

文末添加:

IPADDR=192.168.XXX.101

NETMASK=24

GATEWAY=192.168.XXX.2

DNS1=114.114.114.114

保存并退出

重启网卡:

Systemctl restart network

测试网络连通性:

Ping www.163.com

\4. 使用远程连接工具连接虚拟机

(1) Finalshell

(2) Mobaxterm

(3) Xshell — xftp

\5. 修改主机名称

(1) 临时性修改主机名称:hostname 主机名

(2) 永久修改主机名:hostnamectl set-hostname 主机名

(3) 查看主机名称:hostname

示例:hostnamectl set-hostname master

Bash : root@localhost root@master

reboot重启主机

\6. 关闭并且禁用防火墙

(1) 关闭防火墙:systemctl stop firewalld

(2) 禁用防火墙:systemctl disable firewalld

(3) 查看防火墙状态:systemctl status firewalld

\7. 修改主机名与ip地址的映射关系。

Vi /etc/hosts

文末添加:

192.168.xxx.101 master

192.168.xxx.102 slave1

192.168.xxx.103 slave2

保存并退出

\8. 创建工作目录

(1) Mkdir /opt/data /opt/module /opt/software

\9. 安装jdk

(1) 将压缩包上传至工作目录/opt/software

(2) 解压

Tar -zxvf jdk-8u221-linux-x64.tar.gz -C /opt/module

(3) 配置环境变量

Vi /etc/profile

文末添加:

Export JAVA_HOME=/opt/module/jdk1.8.0_221

Export PATH=$PATH:$JAVA_HOME/bin

\10. 安装hadoop

(1) 将压缩包上传至工作目录/opt/software

(2) 解压

Tar -zxvf /opt/software/hadoop-3.3.4.tar.gz -C /opt/module

(3) 配置环境变量

Export HADOOP_HOME=/opt/module/hadoop-3.3.4

Export PATH=$PATH:$HADOOP_HOME/bin

Export PATH=$PATH:$HADOOP_HOME/sbin

\11. 重置环境变量。

(1) Source /etc/profile

\12. 验证环境变量配置是否成功:

(1) 验证jdk的安装情况:java -version

(2) 验证hadoop的安装情况:hadoop version

\13. 克隆两台主机

(1) 创建完整克隆(创建链接克隆)

\14. 修改slave1 slave2的ip地址,重启网卡,修改slave1 slave2的主机名称

\15. 配置免密登录

(1) 创建密钥

① Ssh-keygen

② 生成密钥:Ssh-keygen -t rsa,每台机器执行一次。

(2) 发送密钥

① Cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

② Ssh-copy-id 主机名

\1) Ssh-copy-id master–slave1—slave2

​ 总共执行9次命令

\16. 配置Hadoop的配置文件。

Cd $HADOOP_HOME/etc/hadoop

(1) Hadoop-env.sh

Vi hadoop-env.sh

头部添加:

Export JAVA_HOME=/opt/module/jdk1.8.0_221

Export HDFS_NAMENODE_USER=root

Export HDFS_SECONDARYNAMENODE_USER=root

Export HDFS_DATANODE_USER=root

Export YARN_RESOURCEMANAGER_USER=root

Export YARN_NODEMANAGER_USER=root

保存并退出。

(2) Core-site.xml

Vi core-site.xml

fs.defaultFS

hdfs://master:9000

hadoop.temp.dir

/usr/local/hadoop

/opt/data/hadoop

(3) Hdfs-site.xml

dfs.replication

3

(4) Mapred-site.xml

mapreduce.framework.name

yarn

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=/opt/module/hadoop-3.3.4

mapreduce.map.env

HADOOP_MAPRED_HOME=/opt/module/hadoop-3.3.4

mapreduce.reduce.env

HADOOP_MAPRED_HOME=/opt/module/hadoop-3.3.4

(5) Yarn-site.xml

yarn.nodemanager.aux-services

mapreduce_shuffle

(6) Workers

Vi workers
使用 “DD” 删除原始内容,添加:

Slave1

Slave2

保存并退出。

\17. 远程分发:

(1) Scp [-r] 本地路径 用户名@主机名:目标路径

递归

(2) Scp -r /opt/module/hadoop-3.3.4/etc/hadoop root@slave1/2:

/opt/module/hadoop-3.3.4/etc/

\18. 格式化名称节点:

Hdfs namenode -format

\19. 启动结群。


全分布式HADOOP集群搭建教程
http://example.com/2025/10/17/全分布式HADOOP集群搭建教程/
作者
Qianwei
发布于
2025年10月17日
许可协议