Flink 大数据
-
大数据平台
在过去的十多年中,数据的发展是巨大的。这产生了一个术语“大数据”。没有固定大小的数据,您可以将其称为大数据。传统系统(RDBMS)无法处理的任何数据都是大数据。大数据可以采用结构化,半结构化或非结构化格式。最初,数据具有三个维度-体积,速度,多样性。尺寸现在已经超出了三个V。现在,我们添加了其他Vs-准确性,有效性,漏洞,价值,可变性等。大数据导致出现了许多有助于存储和处理数据的工具和框架。有一些流行的大数据框架,例如Hadoop,Spark,Hive,Pig,Storm和Zookeeper。它还提供了在多个领域(如医疗保健,金融,零售,电子商务等)创建下一代产品的机会。无论是跨国公司还是新兴企业,每个人都在利用大数据来存储和处理大数据并做出更明智的决策。 -
大数据处理方式
在大数据方面,有两种处理类型-- 批量处理
- 实时处理
基于一段时间收集的数据进行的处理称为批处理。例如,一家银行经理想要处理过去一个月的数据(随着时间的推移而收集),以了解过去1个月中被取消的支票数量。基于即时数据的即时结果处理称为实时处理。例如,发生欺诈交易(即时结果)后,银行经理立即收到欺诈警报。下表列出了批处理和实时处理之间的区别-批量处理 实时处理 静态文件 事件流 按分钟,小时,天等定期处理 立即处理,纳秒 磁盘存储中的过去数据 在内存中 示例-账单生成 示例-ATM交易警报 如今,每个组织中都在大量使用实时处理。欺诈检测,医疗保健中的实时警报和网络攻击警报等用例需要实时处理即时数据。即使是几毫秒的延迟也会产生巨大的影响。这种实时用例的理想工具是可以输入数据流而不是批处理的工具。Apache Flink是该实时处理工具。