Hadoop介绍

Hadoop是一个能对大量数据进行分布式处理的软件框架。其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapReduce而开发的一系列上层应用软件。

hdfs是在一个网络中以流式数据访问模式来存储超大文件的跨越多台计算机的分布式文件系统。目前支持的超大文件的范围为从MB级至PB级。

MapReduce是一种可用于数据处理的编程模型,基于MapReduce模型的程序本质上都是并行运行的。基于MapReduce编程模型的程序包括完成数据提取的map函数,对中间结果进行处理的merge函数(merge函数一般是可选的),以及生成最终处理结果的reduce函数。经过map函数和merge函数进行处理后的数据将是经过排序和分组的key-value,经过reduce对这些中间结果处理后生成最终的计算结果。其中map函数都是并行运行的,每个map函数负责处理大文件的一个文件块,因此对于基于hdfs文件系统的大文件来说,map函数可以充分利用多台计算机的处理能力,快速计算并出中间结果。

The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

The project includes these modules:

Hadoop Common: The common utilities that support the other Hadoop modules.

Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

Hadoop YARN: A framework for job scheduling and cluster resource management.

Hadoop MapReduce: A YARN-based system for parallel processing of large data sets. www.169it.com

Hadoop最新稳定版Hadoop 2.4.1下载地址

Hadoop 2.4.1(2.X系列稳定版)下载地址:  Hadoop 2.4.1下载

hadoop 2.4.1 虚拟机安装-单节点安装步骤

1 安装java及java 环境变量的设置

2 设置账户,主机的hostname /etc/hosts

用户的.bash_profile 中加入如下内容

1
2
3
4
5
export JAVA_HOME=/usr/java/jdk1.7.0_60
export HADOOP_PREFIX=/home/hadoop/hadoop-2.4.1
export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH"
export PATH="$JAVA_HOME/:$HADOOP_PREFIX/bin:$PATH"
export HADOOP_PREFIX PATH CLASSPATH

3 设置 无密码登陆

先确保所有主机的防火墙处于关闭状态。

1
2
3
4
$cd ~/.ssh
$ssh-keygen -t rsa    #然后一直按回车键,就会按照默认的选项将生成的密钥保存在.ssh/id_rsa文件中。
$cp id_rsa.pub authorized_keys
sudo service sshd restart

4 hadoop2.4.1 的配置

进入hadoop2.4.1文件夹,配置etc/hadoop中的文件。

1
2
hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.7.0_60

另外可选的添加上:

1
2
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_PREFIX}/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_PREFIX/lib"

5 配置hadoop2.4.1的core-site.xml

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
<configuration>
       <property>
                <name>fs.default.name</name>
                <value>hdfs://localhost:9000</value>
       </property>
       <property>
                <name>io.file.buffer.size</name>
                <value>131072</value>
        </property>
       <property>
               <name>hadoop.tmp.dir</name>
               <value>file:/home/hadoop/tmp</value>
       </property>
        <property>
                <name>dfs.namenode.name.dir</name>
               <value>file:/home/hadoop/hadoop-2.4.1/dfs/name</value>
       </property>
       <property>
               <name>dfs.datanode.data.dir</name>
               <value>file:/home/hadoop/hadoop-2.4.1/dfs/data</value>
       </property>
</configuration>
hdfs-site.xml 
<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
               <value>file:/home/hadoop/hadoop-2.4.1/dfs/name</value>
       </property>
       <property>
               <name>dfs.datanode.data.dir</name>
               <value>file:/home/hadoop/hadoop-2.4.1/dfs/data</value>
       </property>
       <property>
               <name>dfs.replication</name>
               <value>1</value>
       </property>
</configuration>
mapred-site.xml
<configuration>
       <property>
               <name>mapreduce.jobtracker.address</name>
               <value>hdfs://localhost:9001</value>
       </property>
</configuration>
yarn-site.xml
<configuration>
       <property>
               <name>mapreduce.framework.name</name>
               <value>yarn</value>
       </property>
       <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
       </property>
</configuration>

经过以上五步,hadoop2.4.1单机环境配置都已经完成了,下面启动:

./bin/hadoop namenode –format    格式化结点信息

bin/start-all.sh.     新版本的hadoop其实不建议这么直接start-all,建议一步步来,先start-dfs,然后在start-map

./bin/hadoop dfsadmin -report

http://localhost:50070

本文来源:Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装

Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装的更多相关文章

  1. hibernate解读之session--基于最新稳定版5.2.12

    前言 hibernate是一个实现了JPA标准的,用于对象持久化的orm框架.博主近一年开发都在使用. 前段时间在工作中遇到了一个hibernate的问题,从数据库查找得到对象后,修改了其中部分字段值 ...

  2. Android Studio最新稳定版下载 - 百度网盘(更新于2017年7月14日)

    Android Studio是一个为Android平台开发程序的集成开发环境,其包含用于构建Android应用所需的所有工具.Android Studio 2.3.3为最新稳定版(截止到2017年7月 ...

  3. 一、hadoop单节点安装测试

    一.hadoop简介 相信你或多或少都听过hadoop这个名字,hadoop是一个开源的.分布式软件平台.它主要解决了分布式存储(hdfs)和分布式计算(mapReduce)两个大数据的痛点问题,在h ...

  4. Genymotion配置及使用教程(最新最完整版附各部分下载地址)

    Genymotion配置及使用教程(最新最完整版附各部分下载地址) FROM:http://blog.csdn.net/beiminglei/article/details/13776013 早都听说 ...

  5. Ubuntu 14.04 安装最新稳定版Nginx 1.6.0

    如果已经安装,请先卸载sudo apt-get remove nginx最新的稳定版Nginx 1.6.0在ubuntuupdates ppa库中提供,网址http://www.ubuntuupdat ...

  6. nvm安装最新稳定版node

    安装当前最新的稳定版. nvm install stable

  7. 【大数据系列】hadoop单节点安装官方文档翻译

    Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms R ...

  8. Hadoop学习笔记(一)Hadoop的单节点安装

    要想深入学习Hadoop分布式文件系统,首先需要搭建Hadoop的实验环境,Hadoop有两种安装模式,即单节点集群模式安装(也称为伪分布式)和完全分布式模式安装,本节只介绍单节点模式的安装,参考官方 ...

  9. 查阅Springboot官方文档方式----------------Springboot2.0.2最新稳定版

    1.登录官方网址: https://spring.io/ 如图所示: 2.选择PROJECTS,就可以看到spring所有的相关项目了. 点开后:其中就包括了Spingboot 3.版本选择,红圈部分 ...

随机推荐

  1. 【codevs1380】没有上司的舞会

    题目描述 Ural大学有N个职员,编号为1~N.他们有从属关系,也就是说他们的关系就像一棵以校长为根的树,父结点就是子结点的直接上司.每个职员有一个快乐指数.现在有个周年庆宴会,要求与会职员的快乐指数 ...

  2. hive函数 -- split 字符串分割函数

    hive字符串分割函数 split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 secon ...

  3. JPush (极光推送) For Xamarin.Android

    官方教程上讲的是 GCM (Google Cloud Messaging) , 不过 GFW 是 GCM 过不去的坎. 极光推送 JPush 是国内的一个不错的替代方案. JPush 提供的 API ...

  4. request.ServerVariables获取环境变量

    Request.ServerVariables("HTTP_X_FORWARDED_FOR")  透过代理服务器取得客户端的真实IP地址,有些用此方法读取到的仍然是代理服务器的IP ...

  5. java.lang.NoClassDefFoundError: com.umeng.analytics.MobclickAgent

    07-24 09:58:23.239: E/AndroidRuntime(29487): FATAL EXCEPTION: main 07-24 09:58:23.239: E/AndroidRunt ...

  6. 使用Sidecar将Node.js引入Spring Cloud

    网上看到的一篇文章,觉得写得挺好,现转载于此,以方便需要的网友查阅. 该文章介绍了非JAVA语言提供的应用集成到Spring Cloud的这样一个实现,以便我们使用其他语言作为参考. 感谢原作者分享, ...

  7. Linux基础知识梳理

    Linux基础知识梳理 Linux内核最初只是由芬兰人林纳斯?托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的.Linux是一套免费使用和自由传播的类Unix操作系统,是 ...

  8. UISplitViewController使用

    分割控制器UISplitViewController <1>功能:它也是ipad的一个新特性,在屏幕上可以同时显示两个控制器,左边一个,右边一个:左边的为主控制器,右边的为详细控制器,主控 ...

  9. Tomcat启动特慢之SecureRandom问题解决

    tomcat启动日志: 08-Jun-2018 09:23:00.445 WARNING [localhost-startStop-1] org.apache.catalina.util.Sessio ...

  10. Windows Phone本地数据库(SQLCE):3、[table]attribute(翻译) (转)

    这是“windows phone mango本地数据库(sqlce)”系列短片文章的第三篇. 为了让你开始在Windows Phone Mango中使用数据库,这一系列短片文章将覆盖所有你需要知道的知 ...