机器学习 - 无监督

  • 简述

    到目前为止,您所看到的是让机器学会找出我们目标的解决方案。在回归中,我们训练机器预测未来值。在分类中,我们训练机器将未知对象分类到我们定义的类别之一中。简而言之,我们一直在训练机器,以便它可以预测我们的数据 X 的 Y。给定一个庞大的数据集并且不估计类别,我们很难使用监督学习来训练机器。如果机器可以查找和分析运行到数 GB 和 TB 的大数据并告诉我们这些数据包含这么多不同的类别怎么办?
    例如,考虑选民的数据。通过考虑来自每个选民的一些输入(这些在 AI 术语中称为特征),让机器预测有这么多选民会投票给 X 政党,有这么多人会投票给 Y,等等。因此,一般来说,我们在给定大量数据点 X 的情况下询问机器,“关于 X,你能告诉我什么?”。或者可能是诸如“我们可以从 X 中组成的五个最佳组是什么?”之类的问题。或者甚至可以像“在 X 中哪三个特征一起出现的频率最高?”。
    这正是无监督学习的全部内容。
  • 无监督学习算法

    现在让我们讨论一种在无监督机器学习中广泛使用的分类算法。

    k-均值聚类

    美国 2000 年和 2004 年的总统选举非常接近——非常接近。任何候选人获得的普选票最高百分比为 50.7%,最低为 47.9%。如果一定比例的选民改变立场,选举结果就会不同。有一小部分选民,如果得到适当的呼吁,就会改变立场。这些群体可能并不庞大,但在如此接近的比赛中,它们可能大到足以改变选举结果。您如何找到这些人群?您如何在预算有限的情况下吸引他们?答案是聚类。
    让我们了解它是如何完成的。
    • 首先,无论是否同意,您都会收集有关人们的信息:任何类型的信息都可能提供一些线索,说明什么对他们很重要以及什么会影响他们的投票方式。
    • 然后你把这些信息放入某种聚类算法中。
    • 接下来,对于每个集群(首先选择最大的集群是明智之举),您制作一条能够吸引这些选民的信息。
    • 最后,您交付活动并衡量它是否有效。
    聚类是一种无监督学习,可以自动形成相似事物的集群。这就像自动分类。您几乎可以对任何东西进行聚类,并且聚类中的项目越相似,聚类就越好。在本章中,我们将研究一种称为 k-means 的聚类算法。之所以称为 k-means,是因为它找到了“k”个唯一的集群,每个集群的中心是该集群中值的平均值。

    集群识别

    聚类识别告诉算法,“这里有一些数据。现在将类似的事情归为一类,然后告诉我这些群体的情况。” 与分类的主要区别在于,在分类中你知道你在寻找什么。而在集群中情况并非如此。
    聚类有时被称为无监督分类,因为它产生与分类相同的结果,但没有预定义的类。
    现在,我们对有监督和无监督学习都很满意。要了解其余的机器学习类别,我们必须首先了解人工神经网络 (ANN),我们将在下一章中学习。