简介Hadoop
Hadoop 简介
Hadoop 是什么
Hadoop 是一个提供分布式存储和计算的开源软件框架,它具有无共享、高可用(HA)、弹性可扩展的特点,非常适合处理海量数量。
- Hadoop 是一个开源软件框架
- Hadoop 适合处理大规模数据
- Hadoop 被部署在一个可扩展的集群服务器上
Hadoop 三大核心组件
- HDFS(分布式文件系统) -—— 实现将文件分布式存储在集群服务器上
- MAPREDUCE(分布式运算编程框架) —— 实现在集群服务器上分布式并行运算
- YARN(分布式资源调度系统) —— 帮用户调度大量的 MapReduce 程序,并合理分配运算资源(CPU和内存)
Hadoop 优点
高可靠性
Hadoop 维护存储多个数据副本,增加数据冗余,避免数据丢失
高扩展性
Hadoop 集群可以方便地扩展更多的集群节点
高效性
Hadoop 能够在集群节点之间动态地移动数据,并保证各个节点数据的动态平衡,以并行的方式工作,处理速度非常快
高容错性
Hadoop 维护存储多个数据副本,并且能够自动将失败的任务重新分配
低成本
Hadoop 是开源框架,项目的软件成本会大大降低。 Hadoop 使用 Java 语言编写,可以跨平台运行
Hadoop 生态圈
Hadoop 生态圈是指围绕 Hadoop 软件框架为核心而出现的越来越多的相关软件框架,这些软件框架和 Hadoop 框架一起构成了一个生机勃勃的 Hadoop 生态圈。在特定场景下,Hadoop 有时也指代 Hadoop 生态圈。
Hadoop 生态圈的架构图
- Hadoop Common:Hadoop 体系最底层的一个模块,是其他模块的基础设施
- HDFS:Hadoop 分布式文件系统,是 Hadoop 的基石
- YARN:另一种资源协调器,是统一资源管理和调度平台
- MapReduce:是一种编程模型,非常适合进行分布式计算
- Spark:新一代计算框架,和 MapReduce 相比性能大幅度提升
- HBase:是一个分布式的、面向列族的数据库(底层依赖 HDFS)
- Hive:是一个基于 Hadoop 的数据仓库工具(SQL 语句)
- Pig:与Hive 类似,也是对大型数据集进行分析和评估的工具
- Impala:与 Hive 类似,可以对存储在 HDFS、HBase的海量数据提交交互式 SQL 查询的工具
- Mahout:是一个机器学习和数据挖掘库,可以实现经典的机器学习算法
- Flume:是一个高可用、高可靠、分布式的海量日志采集框架
- Sqoop:是一个关系型数据库与 Hadoop 之间进行数据相互转换的工具
- Kafka:是一种高吞吐量的分布式发布/订阅消息系统
大数据处理平台及核心技术
Hadoop 与云计算
什么是云计算
云计算是一种可以通过网络方便地接入共享资源池、按需获取计算资源(如网络、服务器、存储、应用、服务等)的服务模型。
之所以称之为”云“,是因为云计算在某些地方和现实中的云非常符合,云的规模可以动态伸缩,边界模糊,飘忽不定,无法确定具体位置,但它确实存在于某处。
云计算的特点
- 按需提供服务(如租用云服务器,用户可以按需申请配置,如CPU 核数、内存大小等)
- 宽带网络访问(用户可以利用各种终端设备随时随地通过互联网访问云计算服务)
- 资源池化(资源以共享资源池的方式统一管理,利用虚拟化技术将资源分享给不同用户)
- 高可伸缩性(服务的规模可快速伸缩,如云盘扩容)
- 可量化的服务(可以通过监控软件监控用户的使用情况,根据资源的使用情况对服务计费,如云盘的流量)
- 大规模(如 google 云计算中心具有 100 多万台服务器)
云计算的类型
云计算按照服务类型大致分为3类
基础设施即服务(IaaS):提供用户硬件设备(云服务器)
平台即服务(PaaS):提供用户应用程序的应用环境(不需要维护服务器,只需上传应用程序即可)
软件即服务(SaaS):提供用户应用程序(云盘、云笔记)
国内云计算技术走在前列的有华为公司、阿里巴巴集团、百度等,主要以互联网企业巨头和系统集成提供商为主
Hadoop 仅是云计算技术的一种实现,但云计算的概念则更为广阔,并不局限于某种技术。
简介Hadoop的更多相关文章
- NO.1 hadoop简介
第一次接触这个时候在网上查了很多讲解,以下很多只是来自网络. 1.Hadoop (1)Hadoop简介 Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层 ...
- Hadoop简介与分布式安装
Hadoop的基本概念和分布式安装: Hadoop 简介 Hadoop 是Apache Lucene创始人道格·卡丁(Doug Cutting)创建的,Lucene是一个应用广泛的文本搜索库,Hado ...
- 1 预备知识--Hadoop简介
1 预备知识--Hadoop简介 Hadoop是Apache的一个开源的分布式计算平台,以HDFS分布式文件系统和MapReduce分布式计算框架为核心,为用户提供了一套底层透明的分布式基础设施Had ...
- Hadoop简介(1):什么是Map/Reduce
看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了. Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Red ...
- Hadoop学习(一)生态体系之简介
Hadoop 系列(一)基本概念 一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群 ...
- Hadoop多节点集群安装配置
目录: 1.集群部署介绍 1.1 Hadoop简介 1.2 环境说明 1.3 环境配置 1.4 所需软件 2.SSH无密码验证配置 2.1 SSH基本原理和用法 2.2 配置Master无密码登录所有 ...
- 环境搭建 Hadoop+Hive(orcfile格式)+Presto实现大数据存储查询一
一.前言 Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关 ...
- 实战CentOS系统部署Hadoop集群服务
导读 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高 ...
- 一步步教你Hadoop多节点集群安装配置
1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesys ...
- Storm简介
Storm特性 1. 低延迟和高性能 在一个小集群中,每个节点每秒可以处理数以百万计的消息. 2. 可扩展 在Storm集群中主要有三个实体:工作进程.线程和任务.Storm集群中每台机器上都可以运行 ...
随机推荐
- android audiorecord初始化失败相关资料收集
We're also struggling with audio recording on some Samsung Android Devices. Unfortunately it seems t ...
- jdbc中druid连接池遇到的问题和jdbcTemplate
无效的源发行版11 这是jdk版本不一致,去项目结构里排查一下 严重: init datasource error com.mysql.jdbc.exceptions.jdbc4.MySQLNonTr ...
- 改变Jupyter notebook默认浏览器
1. prompt 输入命令"jupyter notebook --generate-config" 找到jupyter_notebook_config.py所在位置(可能在&qu ...
- 使用layui+jQuery实现点击数据修改,即点即改。
使用layui+jQuery实现点击数据修改即可修改 首先要用到layui的官网手册 地址:https://www.layui.com/ 注意1. 此功能是在使用layui展示数据的基础上实现 3. ...
- Install Chia Blockchain on Ubuntu
Install Chia Blockchain on Ubuntu Posted on May 4, 2021 Chia is a new kinda of Crypto Currency that ...
- 日志参数 %n 引起的coredump
今天测试发现一段代码 coredump,居然是一行日志输出.看参数都乱了,以为是内存溢出造成的.查了半天,也没发现问题 最后把前边的函数调用都注释掉,只运行这一段日志输出,依然挂掉 仔细一看: TRA ...
- ARM-THUMB procedure call standard(ATPCS是ARM-Thumb过程调用标准的简称)
为了使单独编译的c语言和汇编程序之间能够相互调用,必须为子程序之间的调用规定一定的规则.ATPCS就是ARM程序和Thumb程序中子程序的基本规则. 基本ATPCS规定了在子程序调用时的一些基本规则, ...
- 向mysql插入数据是出现Incorrect string value错误
在向Mysql中添加中文数据时,报错(incorrect string value ) 字符转换不正确 插入语句:mysql> insert into user1 (name,password ...
- 三星电子的KNOX安全技术难以满足企业BYOD控管需求
不可否认的是三星在智能手机领域里的辉煌战绩,三星最近推出了端到端的基于Android平台的解决方案KNOX,并且宣称可以提供从硬件到应用层的多重安全加固. KNOX是否能够延续其在企业领域里辉煌呢?相 ...
- IEC104
IEC10X协议源码 https://github.com/airpig2011/IEC104 一.源码编译 下载源代码并解压 进入文件夹下test目录,对main.c进行修改 我们使用套接字来实现服 ...