1、安装JDK
从官方网站下载最新的JDK:
http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html
我是64位的Fedora15系统,下载的jdk-7-linux-x64.tar.gz。
解压缩到本地文件夹,环境变量稍后跟hadoop一起配置。
2、安装hadoop
从官方网站下载hadoop的最新版本:
http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-0.21.0/
我下载的Hadoop0.21.0版本,hadoop-0.21.0.tar.gz。
解压缩到本地文件夹。
修改/conf/hadoop-env.sh文件,添加JAVA_HOME,注意去掉前面的注释符号#
export JAVA_HOME="/home/wuxiaochao/PFiles/jdk1.7.0"
3、配置环境变量
修改profile文件
sudo vi /etc/profile
添加如下内容:
JAVA_HOME=/home/wuxiaochao/PFiles/jdk1.7.0
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
HADOOP_INSTALL=/home/wuxiaochao/PFiles/hadoop-0.21.0
PATH=$JAVA_HOME/bin:$PATH:$HADOOP_INSTALL/bin
export JAVA_HOME
export CLASSPATH
export HADOOP_INSTALL
export PATH
验证:
查看jdk版本信息:java -version
查看hadoop版本信息:hadoop version
4、安装ssh
sudo yum install openssh
设置不用密码登录
ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证:
ssh localhost
错误:ssh: connect to host localhost port 22: Connection refused
可能是sshd服务没有启动,执行:service sshd start
若要配置ssh开机自动启动,可以修改rc.local文件
sudo vi rc.local
添加service sshd start即可
5、配置xml文件
1)gedit conf/core-site.xml,添加内容如下:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/hadoop-/${user.name}</value>
</property>
</configuration>
2)gedit conf/hdfs-site.xml,内容如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)gedit mapred-site.xml,内容如下:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
6、启动hadoop服务
1)格式化hadoop:
hadoop namenode -format
错误:java.net.UnknownHostException,解决办法如下:
查看host名称,执行:hostname
这里Hadoop在格式化HDFS的时候,通过hostname命令获取到的主机名是wuxiaochao,然后在/etc/hosts文件中进行映射的时候,没有找到,看下我的/etc/hosts内容:
127.0.0.1 localhost.localdomain localhost
::1 localhost6.localdomain6 localhost6
也就说,通过wuxiaochao根本无法映射到一个IP地址,所以报错了。
此时,我们查看一下/etc/sysconfig/network文件:
NETWORKING=yes
HOSTNAME=wuxiaochao
修改/etc/sysconfig/network中HOSTNAME的值为localhost,保证localhost在/etc/hosts文件中映射为正确的IP地址,然后重新启动网络服务:
service network restart
2)启动hadoop服务
bin/start-all.sh
3)查看服务状态
管理页面:http://localhost:50030/jobtracker.jsp
或者执行jps命令,会列出所有已启动的东西。
7、运行wordcount
1)准备测试文件
新建文本文件,随便输入英文内容,保存
2)将准备的测试文件上传到dfs文件系统中的firstTest目录下
hadoop fs -copyFromLocal /home/wuxiaochao/input-dir firstTest/input-dir
警告:hadoop dfs命令已经废弃,请使用hdfs命令,使用hdfs时提示hadoop common not found
解决办法,参照HADOOP-6953官方解释,添加HADOOP_HOME环境变量即可
于是修改/etc/profile添加HADOOP_HOME环境变量,内容和HADOOP_INSTALL一致
重新加载/etc/profile:source /etc/profile
查看HADOOP_HOME环境变量是否配置成功:export |grep HADOOP_HOME
停止Hadoop服务:/bin/stop-all.sh
启动Hadoop服务:/bin/start-all.sh
3)执行wordcount
hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount firstTest result
此语句意为“对firstTest下的所有文件执行wordcount,将统计结果输出到result文件夹中”,若result文件夹不存在则会自动创建一个
4)查看结果
hadoop fs -cat result/part-r-00000
结果文件默认是输出到一个名为“part-r-*****”的文件中的,可用指令“hadoop dfs -ls result”查看result目录下包含哪些文件
分享到:
相关推荐
文档详细介绍了hadoop在单节点工作模式下的配置,以及hadoop具有的测试用例对安装的hadoop进行测试
本指导经过本人亲自搭建安装,配置测试
Hadoop单节点伪分布式搭建中文版 个人翻译的Hadoop搭建文档,这里只是翻译了伪分布式搭建。 如果是测试、学习hadoop,伪分布式足够了。
NULL 博文链接:https://onway417.iteye.com/blog/2195023
Hadoop平台搭建(单节点,伪分布,分布式文件系统及其上MapReduce程序测试) 原创,保证质量,辛苦了很多天,故3分!
在master主节点,使用 root 用户登录,然后切换为 hadoop用户 [root@master ~]# su – hadoop --从root用户切换为hadoop身份 [hadoop@master ~]$ 创建新文件:wc.input 作为 MapReduce输入文件,输入以下内容,然后...
hadoop-serverspec 一组用于评估 Hadoop 节点运行状况的 Serverspec 测试。
假定有 3 台机器,机器上均按照了 Ubuntu 操作系统: 192.168.1.138 hadoop-master //作为 Hadoop 的主机用 192.168.1.140 hadoop-node1 //作为 Hadoop 的数据节点用 192.168.1.141 hadoop-node2 //作为 Hadoop 的...
hadoop调度机制改进,性能方向的优化尝试,源码修改等
07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库mysql方式安装配置.avi 03-hive的使用.avi 04-hive的常用...
在master主节点,使用 root 用户登录,然后切换为 hadoop用户 [root@master ~]# su – hadoop --从root用户切换为hadoop身份 [hadoop@master ~]$ 创建新文件:wc.input 作为 MapReduce输入文件,输入以下内容,然后...
本文通过对 Hadoop 的...为了解决集群中节点时间不同步的问题,设计并实 现了 TSS 时间同步子系统。最后,通过具体的测试用例对系统进行功能测试和性能测试,并 对测试结果进行了分析,验证了系统的可行性和正确性。
1•Local (Standalone) Mode(单节点的本地模式)Linux的文件系统就是hadoop的存储系统运行在单个的jvm环境,它使用linux的文件系统,适用于开发、测试、调试环境 运行案例 2•Pseudo-Distributed Mode(伪分布式...
利用基准测试程序测试Hadoop集群 Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 ...
和的,两种配置也很相似唯一不同地方是无法区分伪布式 和的,两种配置也很相似唯一不同地方是无法区分伪布式 和的,两种配置也很相似唯一不同地方是在单机器上配置,数据节点和名字均一个。 是在单机器上配置,数据...
利用基准测试程序测试Hadoop集群 Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常...
讲解Hadoop的集群所需的环境、配置、集成,一个主机三个节点测试
手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 从零学习Kerberos安全认证机制,并和Hadoop、YARN、HIVE进行集成,通过知识点 + ...第七章 最终集成测试验收成果
针对空间科学大数据的快速...基于Hadoop基础架构设计了NSSC-Hadoop系统,通过多组试验数据测试算法效率,并与直接基于Hadoop无索引遍历数据方式相比较,数据检索效率提高了将近50倍,随着数据量的增大,算法优势会更加明显。
6.1 Hadoop概述 6.2 HDFS 6.2.1 HDFS文件系统的原型GFS 6.2.2 HDFS文件的基本结构 6.2.3 HDFS的存储过程 6.3 MapReduce编程框架 6.3.1 MapReduce的发展历史 ...6.5.7 在Hadoop系统上运行测试程序WordCount