大数据分析 - 数据可视化
-
简述
为了理解数据,将其可视化通常很有用。通常在大数据应用程序中,兴趣在于发现洞察力,而不仅仅是制作漂亮的图。以下是使用绘图理解数据的不同方法的示例。要开始分析航班数据,我们可以从检查数值变量之间是否存在相关性开始。此代码也可在bda/part1/data_visualization/data_visualization.R文件。此代码生成以下相关矩阵可视化 -我们可以在图中看到,数据集中的一些变量之间存在很强的相关性。例如,到达延迟和离开延迟似乎高度相关。我们可以看到这一点,因为椭圆显示了两个变量之间的几乎线性关系,但是,从这个结果中找到因果关系并不容易。我们不能说因为两个变量是相关的,所以一个变量对另一个变量有影响。此外,我们在图中发现飞行时间和距离之间存在很强的相关性,这是相当合理的预期,因为距离越远,飞行时间应该会增加。我们还可以对数据进行单变量分析。可视化分布的一种简单有效的方法是box-plots. 以下代码演示了如何使用 ggplot2 库生成箱线图和格子图。此代码也可在bda/part1/data_visualization/boxplots.R文件。