Hadoop大数据通用处理平台

发布时间：2019-03-23 15:34:59 所属栏目：教程来源：Java的小本家

导读：副标题#e# Hadoop是一款开源的大数据通用处理平台，其提供了分布式存储和分布式离线计算，，适合大规模数据、流式数据(写一次,读多次)，不适合低延时的访问、大量的小文件以及频繁修改的文件。 *Hadoop由HDFS、YARN、MapReduce组成。如果想学习Java工程化

编辑etc/hadoop/hadoop-env.sh文件，修改JAVA_HOME配置项为本地JAVA的HOME目录，此文件是Hadoop启动时加载的环境变量。

编辑/etc/hosts文件，添加主机名与IP的映射关系。

2.配置Hadoop公共属性(core-site.xml)

<configuration>  
 <!-- Hadoop工作目录,用于存放Hadoop运行时产生的临时数据 -->  
 <property>  
 <name>hadoop.tmp.dir</name>  
 <value>/usr/hadoop/hadoop-2.9.0/data</value>  
 </property>  
 <!-- NameNode的通信地址,1.x默认9000,2.x可以使用8020 -->  
 <property>  
 <name>fs.default.name</name>  
 <value>hdfs://192.168.1.80:8020</value>  
 </property>  
</configuration>

3.配置HDFS(hdfs-site.xml)

<configuration>  
 <!--指定block的副本数量(将block复制到集群中备份数-1个节点的DataNode中)-->  
 <property>  
 <name>dfs.replication</name>  
 <value>1</value>  
 </property>  
 <!-- 关闭HDFS的访问权限 -->  
 <property>  
 <name>dfs.permissions.enabled</name>  
 <value>false</value>  
 </property>  
</configuration>

4.配置YARN(yarn-site.xml)

<configuration> 
 <!-- 配置Reduce取数据的方式是shuffle(随机) --> 
 <property> 
 <name>yarn.nodemanager.aux-services</name> 
 <value>mapreduce_shuffle</value> 
 </property> 
</configuration>

5.配置MapReduce(mapred-site.xml)

<configuration>  
 <!-- 让MapReduce任务使用YARN进行调度 -->  
 <property>  
 <name>mapreduce.framework.name</name>  
 <value>yarn</value>  
 </property>  
</configuration>

6.配置SSH

由于在启动hdfs、yarn时都需要对用户的身份进行验证，因此可以配置SSH设置免密码登录。

//生成秘钥 
ssh-keygen -t rsa  
//复制秘钥到本机 
ssh-copy-id 192.168.1.80

3.3 启动HDFS

1.格式化NameNode

2.启动HDFS，将会启动NameNode、DataNode、SecondaryNameNode三个进程，可以通过jps命令进行查看。

*若启动时出现错误，则可以进入logs目录查看相应的日志文件。

当HDFS启动完毕后，可以访问http://localhost:50070进入HDFS的可视化管理界面，可以在此页面中监控整个HDFS集群的状况并且进行文件的上传以及下载。

*进入HDFS监控页面下载文件时，会将请求重定向，重定向后的地址的主机名为NameNode的主机名，因此客户端本地的host文件中需要配置NameNode主机名与IP的映射关系。

3.4 启动YARN

（编辑：西安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/10

首页

尾页