Flume 教程

  • Flume 简介

    Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。
    Flume是一种标准,简单,健壮,灵活且可扩展的工具,用于将数据从各种数据生产者(Web服务器)提取到Hadoop中。在本教程中,我们将使用简单的说明性示例来解释Apache Flume的基础知识以及如何在实践中使用它。
    Apache Flume是一种工具/服务/数据摄取机制,用于收集各种流数据(例如日志文件,事件(等))的聚合并将其从各种来源传输到集中式数据存储。Flume是一种高度可靠,分布式和可配置的工具。它主要用于将流数据(日志数据)从各种Web服务器复制到HDFS。
    flume
  • Flume 的应用

    假设电子商务Web应用程序要分析特定区域的客户行为。为此,他们需要将可用的日志数据移入Hadoop进行分析。Apache Flume在这里为我们提供了帮助。
    Flume用于将应用程序服务器生成的日志数据以更高的速度移入HDFS。
  • Flume 的优点

    这是使用Flume的优点-
    • 使用Apache Flume,我们可以将数据存储到任何集中存储(HBase,HDFS)中。
    • 当传入数据的速率超过可以将数据写入目的地的速率时,Flume充当数据生产者和集中存储之间的中介,并在它们之间提供稳定的数据流。
    • Flume提供了上下文路由功能。
    • Flume中的事务是基于通道的,其中为每个消息维护两个事务(一个发送者和一个接收者)。它保证了可靠的消息传递。
    • Flume是可靠的,容错的,可扩展的,可管理的和可定制的。
  • Flume 的特点

    Flume的一些显着功能如下-
    • Flume有效地将来自多个Web服务器的日志数据提取到集中存储(HDFS,HBase)中。
    • 使用Flume,我们可以将来自多个服务器的数据立即放入Hadoop。
    • 除日志文件外,Flume还用于导入由社交网站(如Facebook和Twitter)以及电子商务网站(如Amazon和Flipkart)生成的大量事件数据。
    • Flume支持大量的源和目标类型。
    • Flume支持多跳流,扇入扇出流,上下文路由等。
    • Flume可以水平缩放。
  • 听众

    本教程适用于所有希望学习使用Apache Flume将日志和流数据从各种Web服务器传输到HDFS或HBase的过程的专业人员。要充分利用本教程,您应该对HadoopHDFS命令的基础知识有很好的了解。