School Work
ubuntu server需要安装好ssh客户端,在/etc/ssh/sshd_config
里修改permissionrootlogin参数为yes
这样就可以使用root账户直接登录了
将准备好的jdk和hadoop安装包使用winscp上传到ubuntu里
解压缩jdk安装包,使用命令tar -zxvf jdk1.8.0_121.tar.gz
我解压到的是/home/hadoop/jdk1.8.0_121
路径
此处图片
添加jdk环境变量
打开文件vim /etc/profile
在末尾加上
export JAVA_HOME="/home/hadoop/jdk1.8.0_121"
export PATH=$JAVA_HOME/bin:$PATH
保存并退出,source /etc/profile
使其生效
这时输入java -version
即可查看到版本信息表示jdk安装成功
解压缩hadooptar -zxvf hadoop-2.6.4.tar.gz
创建存放hadoop文件的目录sudo mkdir /opt/modules
将hadoop文件夹的所有者指定为hadoop用户sudo chown -R hadoop:hadoop /opt/modules
配置Hadoop环境变量vim /etc/profile
末尾加上
export HADOOP_HOME="/home/hadoop/hadoop.2.6.4"
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
保存并退出,source /etc/profile
使其生效
配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数
编辑
vim ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
vim ${HADOOP_HOME}/etc/hadoop/mapred-env.sh
vim ${HADOOP_HOME}/etc/hadoop/yarn-env.sh
创建临时目录:
sudo mkdir -p /opt/data/tmp
将临时目录的所有者修改为hadoop
sudo chown –R hadoop:hadoop /opt/data/tmp
注:默认的hadoop.tmp.dir是/tmp/hadoop-${user.name},此时有个问题就是NameNode会将HDFS的元数据存储在这个/tmp目录下,如果操作系统重启了,系统会清空/tmp目录下的东西,导致NameNode元数据丢失,是个非常严重的问题,所有我们应该修改这个路径。
配置 core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/tmp</value>?????????
</property>
<property>
<name>fs.defaultFS</name>????????????
<value>hdfs://hadoopm:9000</value>
</property>
</configuration>
配置、格式化、启动HDFS
vim ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml
添加片段
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
dfs.replication配置是HDFS存储时的备份数量,伪分布式环境只有一个节点,所以这里设置为1。
格式化HDFS
hdfs namenode –format
格式化后,查看core-site.xml里hadoop.tmp.dir(本例是/opt/data目录)指定的目录下是否有了dfs目录,如果有,说明格式化成功。
启动NameNode
/sbin/hadoop-daemon.sh start namenode
启动DataNode
/sbin/hadoop-daemon.sh start datanode
启动SecondaryNameNode
sbin/hadoop-daemon.sh start secondarynamenode
JPS命令查看是否已经启动成功,有结果就是启动成功了
配置、启动YARN
默认没有mapred-site.xml文件,但是有个mapred-site.xml.template配置模板文件。复制模板生成mapred-site.xml
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
添加配置如下:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata-senior01.chybinmy.com</value>
</property>
启动Resourcemanager
sbin/yarn-daemon.sh start resourcemanager
启动nodemanager
sbin/yarn-daemon.sh start nodemanager
可以看到ResourceManager、NodeManager已经启动成功了。