推荐专题：

糖尿病康复 > Hadoop学习（1）--Hadoop介绍

Hadoop学习（1）--Hadoop介绍

时间：2020-01-16 11:52:01

相关推荐

Hadoop学习（1）--Hadoop介绍

1. Hadoop的简单介绍

1.1 狭义

Hadoop指的是Apache软件基金会的一款开源软件，允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

Hadoop核心组件

Hadoop HDFS（分布式文件存储系统）：解决海量数据存储。

Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度。

Hadoop MapReduce（分布式计算框架）：解决海量数据计算。

1.2 广义

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

1.3 现状

HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

2. Hadoop特性

实际应用场景

Yahoo

支持广告系统

用户行为分析

支持Web搜索

反垃圾邮件系统Facebook

存储处理数据挖掘和日志统计

构建基于Hadoop数据仓库平台（Apache Hive来自FB）IBM

蓝云基础设施构建

商业化Hadoop发行、解决方案支持百度

用户搜索表征的需求数据、阿拉丁爬虫数据存储

数据分析和挖掘竞价排名阿里巴巴

为电子商务网络平台提供底层的基础计算和存储服务

交易数据、信用数据腾讯

用户关系数据

基于Hadoop、Hive构建TDW（腾讯分布式数据仓库）华为

对Hadoop的HA方案，以及HBase领域有深入研究

3. Hadoop发行版本

3.1 Hadoop 1.0

HDFS（分布式文件存储）

MapReduce（资源管理和分布式数据处理）

3.2 Hadoop 2.0

HDFS（分布式文件存储）

MapReduce（分布式数据处理）

YARN（集群资源管理、任务调度）

3.3 Hadoop 3.0

架构组件和Hadoop 2.0类似，3.0着重于性能优化。

通用方面

精简内核、类路径隔离、shell脚本重构Hadoop HDFS

EC纠删码、多NameNode支持Hadoop MapReduce

任务本地化优化、内存参数自动推断Hadoop YARN

Timeline Service V2、队列配置

如果觉得《Hadoop学习（1）--Hadoop介绍》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

Hadoop学习总结（1）——大数据以及Hadoop相关概念介绍

2022-06-25

Hadoop学习笔记一简要介绍

2024-01-15

Hadoop学习笔记—1.基本介绍与环境配置

2022-05-22

大数据学习（09）--Hadoop2.0介绍

2021-09-20

最近发布

探索糖尿病治疗方案：专家给出建议

2024-08-11

Diabetes：特殊免疫细胞亚群或促进1型糖尿病发展

2024-08-11

狗狗得了糖尿病该怎么办柴犬哪里买好柴犬

2024-08-11

糖尿病型牙周炎如何诊断鉴别

2024-08-11

冬梅糖尿病中医工作室：关注健康与糖尿病

2024-08-11

了解1型糖尿病：常见症状及表现

2024-08-11

探索喝醋对血糖的影响和血糖高饮食注意事项

2024-08-11

糖尿病如何预防糖尿病足很重要

2024-08-11

糖尿病运动带来的好处有降血糖效果但忽视运动处方风险也带来风险

2024-08-11

治疗糖尿病最好的药是什么

2024-08-10

推荐专题

糖尿病舌头发红怎么治好糖尿病肾病的中医专家是静静糖尿病糖尿病烤鸡糖尿病喝麦趣尔纯牛奶腌咸菜糖尿病糖尿病为啥早上容易血糖高糖尿病可以随便吃圆枣子吗宝宝早期糖尿病糖尿病年轻症状糖尿病二型生活习惯糖尿病春夏水果糖尿病脸部发黑腿肿怎么办糖尿病者视力模糊怎么办韶关日报糖尿病