数据挖掘 - 分类与预测

  • 简述

    有两种形式的数据分析可用于提取描述重要类别的模型或预测未来的数据趋势。这两种形式如下 -
    • 分类
    • 预测
    分类模型预测分类类标签;和预测模型预测连续值函数。例如,我们可以建立一个分类模型来将银行贷款申请分类为安全或风险,或者建立一个预测模型来预测潜在客户在给定收入和职业的情况下在计算机设备上的支出(以美元计)。
  • 什么是分类?

    以下是数据分析任务是分类的案例示例 -
    • 银行信贷员想要分析数据,以了解哪些客户(贷款申请人)是有风险的,哪些是安全的。
    • 公司的营销经理需要分析具有给定资料的客户,该客户将购买一台新计算机。
    在上述两个示例中,都构建了模型或分类器来预测分类标签。这些标签对于贷款申请数据是有风险或安全的,对于营销数据是是或否。
  • 什么是预测?

    以下是数据分析任务是预测的案例示例 -
    假设营销经理需要预测给定客户在其公司的销售期间将花费多少。在这个例子中,我们很难预测一个数值。因此,数据分析任务是数值预测的一个例子。在这种情况下,将构建一个模型或一个预测器来预测一个连续值函数或有序值。
    Note− 回归分析是一种最常用于数值预测的统计方法。
  • 分类是如何工作的?

    借助我们上面讨论的银行贷款申请,让我们了解分类的工作。数据分类过程包括两个步骤 -
    • 构建分类器或模型
    • 使用分类器进行分类

    构建分类器或模型

    • 这一步是学习步骤或学习阶段。
    • 在此步骤中,分类算法构建分类器。
    • 分类器是从由数据库元组及其相关类标签组成的训练集构建的。
    • 构成训练集的每个元组被称为一个类别或类。这些元组也可以称为样本、对象或数据点。
    构建分类器或模型

    使用分类器进行分类

    本步骤使用分类器进行分类。这里使用测试数据来估计分类规则的准确性。如果认为准确度可以接受,则可以将分类规则应用于新的数据元组。
    使用分类器
  • 分类和预测问题

    主要问题是为分类和预测准备数据。准备数据涉及以下活动 -
    • 数据清洗− 数据清洗包括去除噪声和处理缺失值。通过应用平滑技术去除噪声,并通过用该属性最常出现的值替换缺失值来解决缺失值问题。
    • 相关性分析− 数据库也可能具有不相关的属性。相关性分析用于了解任何两个给定属性是否相关。
    • 数据转换和缩减− 数据可以通过以下任何一种方法进行转换。
      • 正常化− 使用归一化转换数据。规范化涉及缩放给定属性的所有值,以使它们落在一个小的指定范围内。当在学习步骤中使用神经网络或涉及测量的方法时,使用归一化。
      • 概括− 数据也可以通过将其推广到更高的概念来进行转换。为此,我们可以使用概念层次结构。
    注意− 数据也可以通过小波变换、分箱、直方图分析和聚类等其他方法进行缩减。
  • 分类和预测方法的比较

    这是比较分类和预测方法的标准 -
    • 准确性− 分类器的准确性是指分类器的能力。它正确地预测了类标签,预测器的准确性是指给定的预测器对新数据的预测属性值的猜测程度。
    • 快速− 这是指生成和使用分类器或预测器的计算成本。
    • 健壮的− 它是指分类器或预测器根据给定的噪声数据做出正确预测的能力。
    • 可扩展性− 可扩展性是指有效构建分类器或预测器的能力;给定大量数据。
    • 可解释性− 指分类器或预测器的理解程度。