Hadoop 大数据概述
-
大数据概述
全球数据的90%是在最近十年中产生的。
由于诸如社交网站之类的新技术,设备和通信手段的出现,人类每年产生的数据量正在迅速增长。从开始到2003年,我们产生的数据量为50亿千兆字节。如果以磁盘形式堆积数据,则可能会占用整个足球场。2011年每两天和2013年每十分钟创建一次相同的数量。这个速度仍在极大地增长。尽管产生的所有这些信息都是有意义的,并且在处理时可能会有用,但是却被忽略了。 -
什么是大数据?
大数据是无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架。 -
大数据之下是什么?
大数据涉及不同设备和应用程序产生的数据。以下是大数据领域的一些领域。- 黑匣子数据 - 它是直升机,飞机和喷气式飞机等的组成部分。它捕获飞行机组人员的声音,麦克风和耳机的录音以及飞机的性能信息。
- 社交媒体数据 - 诸如Facebook和Twitter,微信之类的社交媒体拥有信息以及全球数百万人发布的观点。
- 证券交易所数据 -证券交易所数据包含有关客户在不同公司股份中做出的“购买”和“出售”决策的信息。
- 电网数据 -电网数据保存特定节点相对于基站消耗的信息。
- 运输数据 -运输数据包括车辆的型号,容量,距离和可用性。
- 搜索引擎数据 -搜索引擎从不同的数据库中检索大量数据。
因此,大数据包括海量,高速和可扩展的各种数据。其中的数据将分为三种类型。- 结构化数据-关系数据。
- 半结构化数据-XML数据。
- 非结构化数据-Word,PDF,文本,媒体日志。
-
大数据的好处
- 利用像微信这样的社交网络中保存的信息,营销机构正在了解有关其活动,促销和其他广告媒介的响应。
- 产品公司和零售组织利用社交媒体中的信息(如消费者的喜好和产品认知度)来计划生产。
- 利用有关患者先前病史的数据,医院将提供更好,更快捷的服务。
-
大数据技术
大数据技术对于提供更准确的分析至关重要,这可能导致更具体的决策制定,从而提高运营效率,降低成本并降低业务风险。为了利用大数据的功能,您需要一个可以实时管理和处理大量结构化和非结构化数据并保护数据隐私和安全性的基础架构。市场上有来自不同供应商(包括Amazon,IBM,Microsoft等)的各种技术来处理大数据。在研究处理大数据的技术时,我们研究了以下两类技术-运营大数据这包括像MongoDB这样的系统,这些系统为实时的交互式工作负载提供操作功能,在这些工作负载中主要捕获和存储数据。NoSQL大数据系统旨在利用过去十年中出现的新云计算体系结构,以允许廉价,高效地运行大规模计算。这使操作性大数据工作负载更易于管理,更便宜且实现更快。某些NoSQL系统可以以最少的编码即可基于实时数据洞察模式和趋势,而无需数据科学家和其他基础架构。分析大数据这些系统包括大规模并行处理(MPP)数据库系统和MapReduce之类的系统,它们为可能涉及大部分或全部数据的追溯和复杂分析提供了分析功能。MapReduce提供了一种新的分析数据的方法,该方法可以补充SQL提供的功能,并且可以基于MapReduce的系统将其从单个服务器扩展到数千台高端和低端计算机。这两类技术是互补的,并且经常一起部署。 -
大数据挑战
与大数据相关的主要挑战如下-- 捕获数据
- 策展
- 存储
- 搜寻
- 分享中
- 转让
- 分析
- 介绍
为了应对上述挑战,组织通常会利用企业服务器的帮助。 -
大数据解决方案 - 传统方法
通过这种方法,企业将拥有一台用于存储和处理大数据的计算机。出于存储目的,程序员将选择Oracle,IBM等数据库供应商。在这种方法中,用户与应用程序进行交互,而应用程序则负责处理数据存储和分析的一部分。局限性这种方法适用于那些处理少量数据的应用程序,这些数据可以由标准数据库服务器容纳,或者不超过处理数据的处理器的限制。但是,当涉及处理大量可伸缩数据时,通过单个数据库瓶颈处理此类数据是一项繁重的任务。 -
大数据解决方案 - Google的解决方案
Google使用称为MapReduce的算法解决了这个问题。该算法将任务分为几部分,然后将它们分配给许多计算机,并从中收集结果,这些结果整合后便形成结果数据集。 -
大数据解决方案 - Hadoop解决方案
使用Google提供的解决方案,Doug Cutting及其团队开发了一个名为HADOOP的开源项目。Hadoop使用MapReduce算法运行应用程序,其中数据与其他数据并行处理。简而言之,Hadoop用于开发可以对大量数据执行完整统计分析的应用程序。