Python - 文本处理教程
-
简述
Python 编程可用于处理文本数据,以满足各种文本数据分析的需求。python的这种文本处理能力的一个非常重要的应用领域是NLP(自然语言处理)。NLP 用于搜索引擎、报纸提要分析,最近还用于 Siri 和 Alexa 等基于语音的应用程序。Python 的自然语言工具包 (NLTK) 是一组可用于创建此类文本处理系统的库。本教程专为计算机科学专业的毕业生以及愿意使用 Python 作为编程语言以简单易行的步骤学习文本处理的软件专业人士而设计。在继续本教程之前,您应该具备使用 Python 编程语言编写代码、使用任何 Python IDE 和执行 Python 程序的基本知识。如果您对 python 完全陌生,那么请参阅我们的Python 教程以充分了解该语言。 -
简述
文本处理直接应用于自然语言处理,也称为 NLP。NLP 旨在处理人类在相互交流时所说或书写的语言。这与计算机与人类之间的通信不同,后者的通信是由人类编写的计算机程序或人类的某种手势,例如在某个位置单击鼠标。NLP 试图理解人类所说的自然语言并将其分类,并在需要时对其进行分析。Python 拥有丰富的库来满足 NLP 的需求。自然语言工具包 (NLTK) 是一套此类库,可提供 NLP 所需的功能。下面是一些使用 NLP 和间接使用 python 的 NLTK 的应用程序。 -
总结
很多时候,我们需要获取新闻文章、电影情节或大故事的摘要。它们都是用人类语言编写的,如果没有 NLP,我们必须依靠另一个人的解释和向我们呈现这样的摘要。但是在 NLP 的帮助下,我们可以编写程序来使用 NLTK 并使用各种参数总结长文本,例如我们想要在最终输出中的文本百分比,选择用于摘要的正面和负面词等。在线新闻提要依赖使用此类摘要技术来呈现新闻见解。 -
基于语音的工具
苹果 Siri 或亚马逊 Alexa 等基于语音的工具依靠 NLP 来理解与人类的疯狂互动。他们有大量的单词、句子和语法训练数据集来解释来自人类的问题或命令并对其进行处理。虽然它是关于语音的,但它也间接地被翻译成文本,并通过 NLP 系统将语音生成的文本形式用于产生结果。 -
信息提取
Web 抓取是使用 Python 代码从网页中提取数据的常见示例。在这里,它可能不是严格基于 NLP,但它确实涉及文本处理。例如,如果我们只需要提取 html 页面中的标题,那么我们会在页面结构中查找 h1 标签,并找到一种方法来仅提取这些标签之间的文本。这需要来自python的文本处理程序。 -
垃圾邮件过滤
通过分析主题行中的文本以及邮件内容,可以识别和消除电子邮件中的垃圾邮件。由于垃圾邮件通常是批量发送给许多收件人,即使他们的主题和内容几乎没有变化,也可以匹配和标记以将它们标记为垃圾邮件。再次,它需要使用 NLTK 库。 -
语言翻译
计算机语言翻译在很大程度上依赖于 NLP。随着在线平台中使用的语言越来越多,自动化从一种人类语言到另一种语言的翻译变得很有必要。这将涉及处理翻译所涉及语言的词汇、语法和上下文标记的编程。同样,NLTK 用于处理此类要求。 -
情绪分析
要了解对电影表演的整体反应,我们可能需要阅读数千条来自观众的反馈帖子。但这也可以通过单词和句子分析使用正面和负面反馈的分类来自动化。然后测量正面和负面评论的频率,以找出观众的整体情绪。这显然需要对观众编写的人类语言进行分析,并且这里大量使用 NLTK 来处理文本。