Lucene - 分析
-
简述
在我们之前的一章中,我们已经看到 Lucene 使用IndexWriter使用Analyzer分析文档,然后根据需要创建/打开/编辑索引。在本章中,我们将讨论分析过程中使用的各种类型的 Analyzer 对象和其他相关对象。了解分析过程和分析器的工作原理将使您深入了解 Lucene 如何索引文档。以下是我们将在适当时候讨论的对象列表。序号 类别和描述 1 Token 令牌表示文档中的文本或单词,具有相关的详细信息,如元数据(位置、开始偏移量、结束偏移量、令牌类型及其位置增量)。2 TokenStream TokenStream 是分析过程的输出,它由一系列令牌组成。它是一个抽象类。3 Analyzer 这是每种分析器类型的抽象基类。4 WhitespaceAnalyzer 该分析器根据空格拆分文档中的文本。5 SimpleAnalyzer 该分析器根据非字母字符拆分文档中的文本并将文本置于小写。6 StopAnalyzer 该分析器的工作方式与 SimpleAnalyzer 一样,并删除了诸如 'a', 'an', 'the', 等等。7 StandardAnalyzer 这是最复杂的分析器,能够处理姓名、电子邮件地址等。它将每个标记小写并删除常用词和标点符号(如果有)。