大数据分析 - 数据探索
-
简述
Exploratory data analysis是由 John Tuckey (1977) 提出的一个概念,它包含一个新的统计视角。Tuckey 的想法是,在传统统计中,数据并没有被图形化地探索,只是被用来检验假设。开发工具的第一次尝试是在斯坦福完成的,该项目称为prim9。该工具能够在九个维度上可视化数据,因此它能够提供数据的多变量视角。最近几天,探索性数据分析是必须的,并且已包含在大数据分析的生命周期中。强大的 EDA 能力推动了发现洞察力并能够在组织中进行有效沟通的能力。基于 Tuckey 的想法,贝尔实验室开发了S programming language为了提供一个用于统计的交互式界面。S 的想法是通过易于使用的语言提供广泛的图形功能。在当今世界,在大数据的背景下,R这是基于S编程语言是最流行的分析软件。以下程序演示了探索性数据分析的使用。以下是探索性数据分析的示例。此代码也可在part1/eda/exploratory_data_analysis.R文件。代码应生成如下图像 -