Hadoop安装部署

pzksw

浏览: 1599 次
性别:
来自: 成都

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-10 ( 2)
更多存档...

博客分类：

linux

hadoop java 云计算 linux

Hadoop实战-初级部分之 Hadoop安装部署
浏览(2228)|评论(22)   交流分类：Java|笔记分类: Hadoop实战-初……

私塾在线《深入浅出学 Hadoop- 初级部分》   —— 系列精品教程
视频课程地址》》》 http://sishuok.com/product/481
整体课程概览
第一部分：开始云计算之旅
第二部分：初识Hadoop
第三部分：Hadoop 环境安装部署
第四部分：Hadoop Shell 基本操作介绍
第五部分：Hadoop 分布式文件系统1
第五部分：Hadoop 分布式文件系统2
第五部分：Hadoop 分布式文件系统3
第六部分：MapReduce 开发1
第六部分：MapReduce 开发2
第七部分：Hadoop集群的安装

本节课程概览
Hadoop 在windows 上伪分布式的安装过程
Hadoop 在linux 上单节点伪分布式的安装过程
集成Eclipse 开发环境
Hadoop UI 介绍
运行WordCounter 事例

第一部分：Hadoop 在windows 上伪分布式的安装过程
安装JDK
1.下载JDK
       http://www.oracle.com/technetwork/java/javaee/downloads/java-ee-sdk-6u3-jdk-6u29-downloads-523388.html
2.解压
   或者直接运行.exe安装
后面根据项目的实际需要来进行调整。
安装 Cygwin
1.下载Cygwin
    网址： http://www.cygwin.com/setup.exe
2.安装Cygwin
1. Net Category 下的OpenSSL
2.    Base Category 下的sed
3.Editors Category 下的vim
4.Devel Category 下subversion
后面根据项目的实际需要来进行调整。

配置环境变量
1.配置JAVA 环境变量
    PATH 和JAVA_HOME：
        JAVA_HOME 指向JDK安装目录；
        PATH 指向JDK的bin

启动 SSHD 服务
1.安装SSHD
   ssh-host-config
2. 启动SSHD
    net start sshd
ssh 的安装和配置
实现ssh无密码登陆
$ssh-keygen -t rsa
直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对
出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

安装 Hadoop
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
配置 Hadoop
1. 配置hadoop-env.sh
2 .配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件
概念
HDFS:
      NameNode ：管理节点
      DataNode   ：数据节点
      SecondaryNamenode : 数据源信息备份整理节点

MapReduce
       JobTracker ：任务管理节点
       Tasktracker ：任务运行节点

配置文件
       core-site.xml   common属性配置
       hdfs-site.xml    HDFS属性配置
       mapred-site.xml MapReduce属性配置
       hadoop-env.sh     hadooop 环境变量配置
修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25
core-site.xml

java代码：
查看复制到剪贴板打印

    <configuration>
    <property>
           <name>fs.default.name</name>
           <value>hdfs://localhost:9000</value>
    </property>
    <property>
           <name>hadoop.tmp.dir</name>
            <value>/hadoop</value>
         </property>
    </configuration>

hdfs-site.xml

java代码：
查看复制到剪贴板打印

    <configuration>
       <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
    </configuration>

mapred-site.xml
java代码：
查看复制到剪贴板打印

    <configuration>
        <property>
             <name>mapred.job.tracker</name>
             <value>localhost:9001</value>
        </property>
    </configuration>

启动 Hadoop
1.格式化文件系统
      hadoop namenode –format
2. 启动hadoop
      启动所有任务start-all.sh/stop-all.sh
      启动关闭HDFS: start-dfs.sh/stop-dfs.sh
      启动关闭MapReduce: start-mapred.sh/stop-mapred.sh
3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

第二部分：Hadoop 在linux 上单节点伪分布式的安装过程
安装 JDK
$chmod +x jdk-6u27-linux-i586.bin
$./jdk-6u27-linux-i586.bin
安装完后设置java 环境变量如下
命令：/home路径下
$vi .bashrc
然后添加如下语句
export JAVA_HOME=/home/test/ jdk1.6.0_27
export PATH =/bin:$JAVA_HOME/bin:/usr/bin:$PATH:.
然后. .bashrc使其生效

ssh 的安装和配置
$实现ssh无密码登陆
$sudo apt-get install ssh
$ssh-keygen
直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。这两个是成对
出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys
$cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys完成后可以实现无密码登录本机

Hadoop 安装
1.下载Hadoop
   http://labs.mop.com/apache-mirror/hadoop/common/hadoop-1.0.0/
2.解压Hadoop
         tar xzvf hadoop-0.21.0.tar.gz
3. 添加Hadoop Bin到环境变量中

修改 hadoop-env.sh
配置JDK即可
export JAVA_HOME=/cygdrive/d/java/jdk1.6.0_25

conf/core-site.xml

java代码：
查看复制到剪贴板打印

    <configuration>
        <property>
              <name>fs.default.name</name>
              <value>hdfs://localhost:9000</value>
          </property>
          <property>
               <name>hadoop.tmp.dir</name>
               <value>/hadoop</value>
           </property>
    </configuration>

conf/hdfs-site.xml

java代码：
查看复制到剪贴板打印

    <configuration>
       <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
    </configuration>

conf/mapred-site.xml

java代码：
查看复制到剪贴板打印

    <configuration>
         <property>
             <name>mapred.job.tracker</name>
             <value>localhost:9001</value>
        </property>
    </configuration>

启动 Hadoop
1.格式化文件系统
      hadoop namenode –format
2. 启动hadoop
     启动关闭所有服务 start-all.sh/stop-all.sh
     启动关闭HDFS: start-dfs.sh/stop-dfs.sh
     启动关闭MapReduce: start-mapred.sh/stop-mapred.sh
3. 用jps命令查看进程,确保有   namenode,dataNode,JobTracker,TaskTracker

第三部分：Hadoop UI 介绍
Hadoop 重要的端口
1.Job Tracker 管理界面：50030
2.HDFS 管理界面：50070
3.HDFS通信端口：9000
4.MapReduce通信端口：9001
常用访问页面
1. HDFS 界面
        http://hostname:50070
2. MapReduce 管理界面
        http://hostname:50030

第四部分：运行Word Count 示例
相关步骤及命令
1.先在本地磁盘上建立两个文件file1和file2
      $ echo ”Hello world Bye world" > >~/input/file1
      $ echo ”hello hadoop bye hadoop” > >~/input/file2
2.在HDFS上建立一个input目录
       $ hadoop fs -mkdir /tmp/input
3.将file1和file2拷贝到hdfs的input目录下
       $ hadoop fs -put input/* /tmp/input
4.检查hdfs上有没有file1,file2
     $ hadoop fs -ls /tmp/input
5.执行wordcount
   hadoop jar hadoop-examples-1.0.0.jar wordcount /tmp/input /tmp/output
6.运行完成，查看结果
   hadoop fs -cat /output/part-r-00000

第五部分：集成 Eclipse 开发环境
通过 Eclipse 编写 Hadoop 程序
1.导入hadoop-core.jar及hadoop/lib下所有Jar包
2.加入Hadoop配置文件，包括conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml,并修改相应参数。
本节课程小结
掌握了在Windows ,Linux(ubuntu)上安装Hadoop 单节点伪分布式安装
初次体验了Hadoop运行的WordCounter程序
了解了Hadoop UI
掌握了Hadoop 集成到 Eclipse的情况
私塾在线学习网原创内容，转载请注明出处【 http://sishuok.com/forum/blogPost/list/0/5337.html】

分享到：