问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
你好,欢迎来到懂视!登录注册
当前位置: 首页 - 正文

什么是大数据分析Hadoop?

发布网友 发布时间:2022-04-22 03:28

我来回答

2个回答

热心网友 时间:2023-06-24 14:56

  要了解什么是Hadoop,我们必须首先了解与大数据和传统处理系统有关的问题。前进,我们将讨论什么是Hadoop,以及Hadoop如何解决与大数据相关的问题。我们还将研究CERN案例研究,以突出使用Hadoop的好处。

  在之前的博客“ 大数据教程”中,我们已经详细讨论了大数据以及大数据的挑战。在此博客中,我们将讨论:

  1、传统方法的问题

  2、Hadoop的演变

  3、Hadoop的

  4、Hadoop即用解决方案

  5、何时使用Hadoop?

  6、什么时候不使用Hadoop?

一、CERN案例研究

  大数据正在成为组织的机会。现在,组织已经意识到他们可以通过大数据分析获得很多好处,如下图所示。他们正在检查大型数据集,以发现所有隐藏的模式,未知的相关性,市场趋势,客户偏好和其他有用的业务信息。

  这些分析结果正在帮助组织进行更有效的营销,新的收入机会,更好的客户服务。他们正在提高运营效率,与竞争对手组织相比的竞争优势以及其他业务利益。

  
什么是Hadoop –大数据分析的好处

  因此,让我们继续前进,了解在兑现大数据机会方面与传统方法相关的问题。

二、传统方法的问题

  在传统方法中,主要问题是处理数据的异构性,即结构化,半结构化和非结构化。RDBMS主要关注于银行交易,运营数据等结构化数据,而Hadoop则专注于文本,视频,音频,*帖子,日志等半结构化,非结构化数据。RDBMS技术是一种经过验证的,高度一致,成熟的系统许多公司的支持。另一方面,由于大数据(主要由不同格式的非结构化数据组成)对Hadoop提出了需求。

  现在让我们了解与大数据相关的主要问题是什么。因此,继续前进,我们可以了解Hadoop是如何成为解决方案的。

  
什么是Hadoop –大数据问题

  第一个问题是存储大量数据。

  无法在传统系统中存储大量数据。原因很明显,存储将仅限于一个系统,并且数据正在以惊人的速度增长。

  第二个问题是存储异构数据。

  现在,我们知道存储是一个问题,但是让我告诉您,这只是问题的一部分。由于我们讨论了数据不仅庞大,而且还以各种格式存在,例如:非结构化,半结构化和结构化。因此,您需要确保您拥有一个系统来存储从各种来源生成的所有这些种类的数据。

  第三个问题是访问和处理速度。

  硬盘容量正在增加,但磁盘传输速度或访问速度并未以相似的速度增加。让我以一个示例为您进行解释:如果您只有一个100 Mbps I / O通道,并且正在处理1TB数据,则大约需要2.91个小时。现在,如果您有四台具有一个I / O通道的计算机,则对于相同数量的数据,大约需要43分钟。因此,与存储大数据相比,访问和处理速度是更大的问题。

  在了解什么是Hadoop之前,让我们首先了解一下Hadoop在一段时间内的发展。

  Hadoop的演变



  2003年,道格·切特(Doug Cutting)启动了Nutch项目,以处理数十亿次搜索并为数百万个网页建立索引。2003年10月下旬– Google发布带有GFS(Google文件系统)的论文。2004年12月,Google发布了MapRece论文。在2005年,Nutch使用GFS和MapRece进行操作。2006年,雅虎与Doug Cutting及其团队合作,基于GFS和MapRece创建了Hadoop。如果我告诉您,您会感到惊讶,雅虎于2007年开始在1000个节点的群集上使用Hadoop。

  2008年1月下旬,雅虎向Apache Software Foundation发布了Hadoop作为一个开源项目。2008年7月,Apache通过Hadoop成功测试了4000个节点的集群。2009年,Hadoop在不到17小时的时间内成功整理了PB级数据,以处理数十亿次搜索并为数百万个网页建立索引。在2011年12月,Apache Hadoop发布了1.0版。2013年8月下旬,发布了2.0.6版。

  当我们讨论这些问题时,我们发现分布式系统可以作为解决方案,而Hadoop提供了相同的解决方案。现在,让我们了解什么是Hadoop。

三、什么是Hadoop?

  Hadoop是一个框架,它允许您首先在分布式环境中存储大数据,以便可以并行处理它。 Hadoop中基本上有两个组件:

  1、大数据Hadoop认证培训

  2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程

  
什么是Hadoop – Hadoop框架

  第一个是用于存储的HDFS(Hadoop分布式文件系统),它使您可以在集群中存储各种格式的数据。第二个是YARN,用于Hadoop中的资源管理。它允许对数据进行并行处理,即跨HDFS存储。

  让我们首先了解HDFS。

  HDFS

  HDFS创建一个抽象,让我为您简化一下。与虚拟化类似,您可以在逻辑上将HDFS视为用于存储大数据的单个单元,但是实际上您是在分布式方式下跨多个节点存储数据。HDFS遵循主从架构。

  
什么是Hadoop – HDFS

  在HDFS中,名称节点是主节点,数据节点是从节点。 Namenode包含有关存储在Data节点中的数据的元数据,例如哪个数据块存储在哪个数据节点中,数据块的复制位置在哪里等 。实际数据存储在Data Nodes中。

  我还想补充一下,实际上我们复制了数据节点中存在的数据块,默认复制因子是3。 由于我们使用的是商用硬件,并且我们知道这些硬件的故障率很高,所以如果其中一个DataNodes失败,HDFS将仍然具有那些丢失的数据块的副本。 您还可以根据需要配置复制因子。您可以阅读HDFS教程,详细了解HDFS。

四、Hadoop即解决方案

  让我们了解Hadoop如何为刚刚讨论的大数据问题提供解决方案。

  
什么是Hadoop – Hadoop即解决方案

  第一个问题是存储大数据。

  HDFS提供了一种分布式大数据存储方式。您的数据存储在整个DataNode的块中,您可以指定块的大小。基本上,如果您拥有512MB的数据,并且已经配置了HDFS,那么它将创建128MB的数据块。 因此,HDFS将数据分为512/128 = 4的4个块,并将其存储在不同的DataNode上,还将在不同的DataNode上复制数据块。现在,由于我们正在使用商品硬件,因此存储已不是难题。

  它还解决了缩放问题。它着重于水平缩放而不是垂直缩放。您始终可以根据需要随时在HDFS群集中添加一些额外的数据节点,而不是扩展DataNodes的资源。让我为您总结一下,基本上是用于存储1 TB的数据,您不需要1 TB的系统。您可以在多个128GB或更少的系统上执行此操作。

  下一个问题是存储各种数据。

  借助HDFS,您可以存储各种数据,无论是结构化,半结构化还是非结构化。由于在HDFS中,没有预转储模式验证。并且它也遵循一次写入和多次读取模型。因此,您只需写入一次数据,就可以多次读取数据以寻找见解。

  Hird的挑战是访问和处理数据更快。

  是的,这是大数据的主要挑战之一。为了解决该问题,我们将处理移至数据,而不是将数据移至处理。这是什么意思?而不是将数据移动到主节点然后进行处理。在MapRece中,处理逻辑被发送到各个从属节点,然后在不同的从属节点之间并行处理数据。然后,将处理后的结果发送到主节点,在该主节点上合并结果,并将响应发送回客户端。

  在YARN架构中,我们有ResourceManager和NodeManager。ResourceManager可能会或可能不会与NameNode配置在同一台机器上。 但是,应该将NodeManager配置在存在DataNode的同一台计算机上。

  YARN通过分配资源和安排任务来执行您的所有处理活动。

  什么是Hadoop – YARN

  它具有两个主要组件,即ResourceManager和NodeManager。

  ResourceManager再次是主节点。它接收处理请求,然后将请求的各个部分相应地传递到相应的NodeManager,什么是大数据分析Hadoop在此进行实际处理。NodeManager安装在每个DataNode上。它负责在每个单个DataNode上执行任务。

  我希望现在您对什么是Hadoop及其主要组件有所了解。让我们继续前进,了解何时使用和何时不使用Hadoop。

  何时使用Hadoop?

  Hadoop用于:

  1、搜索 – Yahoo,亚马逊,Zvents

  2、日志处理 – *,雅虎

  3、数据仓库 – *,AOL

  4、视频和图像分析 –纽约时报,Eyealike

  到目前为止,我们已经看到了Hadoop如何使大数据处理成为可能。但是在某些情况下,不建议使用Hadoop。

热心网友 时间:2023-06-24 14:56

大数据分析相关的基本解决方案,主要包括Hadoop简介、大数据分析概述、基于MapRece的大数据处理、Python-Hadoop科学计算和大数据分析、R-Hadoop统计数据计算、Apache Spark批处理分析、Apache Spark实时数据分析、Apache Flink批处理分析、Apache Flink流式处 理、大数据可视化技术、云计算简介、使用亚马逊Web服务等内容。
什么是大数据分析Hadoop?

Hadoop是一个框架,它允许您首先在分布式环境中存储大数据,以便可以并行处理它。 Hadoop中基本上有两个组件: 1、大数据Hadoop认证培训 2、讲师指导的课程现实生活中的案例研究评估终身访问探索课程 什么是Hadoop – Hadoop框架 第一个是用于存储的HDFS(Hadoop分布式文件系统),它使您可以在集群中存储各种格式的数据。第二...

大数据是什么?大数据和Hadoop之间有什么联系?

它是通过分布式的方式处理大数据的,因为开元的原因现在很多的企业或多或少的在运用hadoop的技术来解决一些大数据的问题,在数据仓库方面hadoop是非常强大的。但在数据集市以及实时的分析展现层面,hadoop也有着明显的不足,现在一个比较好的解决方案是架设hadoop的数据仓库而数据集市以及实时分析展现层面使用永洪...

什么是大数据分析?

分布式处理技术使得多台计算机通过网络连接,共同完成信息处理任务。这种技术能够将数据和计算任务分散到不同的地点和设备上,提高处理效率。例如,Hadoop就是一个流行的分布式处理框架。二、云技术 云技术为大数据分析提供了强大的计算能力。它通过将数据和计算任务分布到大量的计算机上,实现高效处理。云计算就...

大数据与Hadoop

Hadoop是一个分布式批量处理系统,旨在处理大规模数据集。它由Hadoop Distributed File System(HDFS)、HadoopMapReduce编程模型和Hadoop Common三部分组成。Hadoop平台对于操作大型数据集来说是一个强大的工具。为简化Hadoop编程模型的复杂性,出现了多个在Hadoop之上运行的应用开发语言,如Pig、Hive和Jaql。用户...

做大数据分析一般用什么软件?

大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。下面整理了一些大数据分析能用到的工具,助力大家更好的应用大数据技术。一、hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩...

大数据开发是什么意思

大数据分析是指对规模巨大的数据进行分析。大数据可以概括为4个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)。大数据开发其实分两种,第一类是编写一些Hadoop、Spark的应用程序,第二类是对大数据处理系统本身进行开发。第一类工作感觉更适用于data analyst这种职位吧,而且现在Hive...

大数据与Hadoop之间是什么关系

大数据是一系列技术的统称,经过多年的发展,大数据已经形成了从数据采集、整理、传输、存储、安全、分析、呈现和应用等一系列环节,这些环节涉及到诸多大数据工作岗位,这些工作岗位与物联网、云计算也都有密切的联系。大数据技术的三个重点:Hadoop、spark、storm。Hadoop本身就是大数据平台研发人员的工作成果...

hadoop是做什么的

Hadoop是一个开源的分布式计算框架,用于存储和处理大规模数据集。它通过将大量数据分散存储在集群中的多个计算节点上,并通过并行处理来加速数据处理。Hadoop被广泛应用于大数据分析、机器学习、数据挖掘等领域。它具有高容错性和可靠性,可以处理PB级别的数据,并且适用于低成本硬件的部署。Hadoop由HDFS(...

大数据分析一般用什么工具分析?

在大数据处理分析过程中常用的六大工具: 1、Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的...

大数据分析一般用什么工具分析

1.HadoopHadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快...

声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:11247931@qq.com
蛋糕在冰箱可以放多久 最正宗的普洱茶泡法是怎样泡的 泡茶方法和步骤 怎么区分英语中宾语的补语和状语? 句子是什么从句(英语)请个个举例。定状时表名词性等, 最主要的就是怎么... 如何分辨英语的定语从句呢? 如何分辨是什么从句 为什么1156平台像非主流? TCL电视机不能开机怎么办? 29寸TCL彩电开机刚亮又自动关机 GBase 8a对非结构化数据支持怎么样?如何存储和访问? hadoop的核心是什么 hadoop为什么在处理非结构化的数据方面有优势 hadoop是做什么的? Hadoop如何处理非结构化数据 请问肉皮怎么做才好吃 猪皮怎么做才好吃? 烤猪皮怎么做如何做好吃 新鲜猪皮怎么做好吃 猪皮小吃怎么做好吃 猪皮怎样做好吃视频 猪皮如何做好吃? 新鲜猪皮怎么做出来比较好吃 猪皮怎么做好吃 猪皮怎么做好吃? 猪皮怎样做比较好吃 颈椎疼痛,肿胀是什么引起的 颈椎肿恶性瘤疼痛怎么办 落枕了按摩后脖子肿了该怎么办 颈椎痛,而且颈椎肿大怎么回事?有什么好办法吗? Gbase 8a 数据加载工具有什么优点? 有了hadoop还需要关系数据库了吗 Hbase与HDFS是个什么关系 hadoop如何做到数据时 坐动车需提前多少时间到车站 试比较hadoop中的数据库hbase和传统关系数据库的不同 动车高铁提前几天买票 hadoop 结构化数据 高铁票可提前多久买票 2020春运高铁票可以提前几天买 高铁票可以提前几天买 平时高铁票可以提前多少时间买票? 生吃大蒜的味道那么大,为什么还有人爱吃生蒜呢? 为什么大蒜这么味啊? 蒜头的味道怎样清除? 蒜味道为什么这么大呀 大蒜的味道为何挥之不去? 吃蒜头后的味道怎么才能除去? 昨天做了一个奇怪的梦,那位高手帮解一下~ 可追加分 火锅鸡的制作方法视频
  • 焦点

最新推荐

猜你喜欢

热门推荐