大数据分析 - 清理数据
-
简述
一旦收集到数据,我们通常会拥有具有不同特征的不同数据源。最直接的步骤是使这些数据源同质化并继续开发我们的数据产品。但是,这取决于数据的类型。我们应该问自己,同质化数据是否可行。可能数据来源完全不同,如果来源同质化,信息损失会很大。在这种情况下,我们可以考虑替代方案。一个数据源可以帮助我建立回归模型,而另一个数据源可以帮助我建立分类模型吗?是否有可能利用我们的优势利用异质性,而不仅仅是丢失信息?做出这些决定使分析变得有趣和具有挑战性。在评论的情况下,可以为每个数据源使用一种语言。同样,我们有两个选择 --
Homogenization− 它涉及将不同的语言翻译成我们拥有更多数据的语言。翻译服务的质量是可以接受的,但如果我们想用 API 翻译大量数据,成本会很高。有可用于此任务的软件工具,但这也很昂贵。
-
Heterogenization− 是否有可能为每种语言开发解决方案?由于检测语料库的语言很简单,我们可以为每种语言开发一个推荐器。这将涉及根据可用语言的数量调整每个推荐器方面的更多工作,但如果我们有几种可用的语言,这绝对是一个可行的选择。
-
-
推特迷你项目
在本例中,我们需要首先清理非结构化数据,然后将其转换为数据矩阵,以便对其应用主题建模。一般来说,当从 twitter 获取数据时,有几个字符是我们不感兴趣的,至少在数据清理过程的第一阶段是这样。例如,在获得推文后,我们会得到这些奇怪的字符:“<ed><U+00A0><U+00BD><ed><U+00B8><U+008B>”。这些可能是表情符号,因此为了清理数据,我们将使用以下脚本将它们删除。此代码也可在 bda/part1/collect_data/cleaning_data.R 文件中找到。数据清理迷你项目的最后一步是清理文本,我们可以将其转换为矩阵并应用算法。从存储在clean_tweets向量,我们可以很容易地将其转换为词袋矩阵并应用无监督学习算法。