Apache Solr - 索引数据
-
简述
v class="col-sm-12 col-md-8 col-xl-6 rounded-3 tutorial-content" id="mainContent">一般来说,indexing是系统地排列文件或(其他实体)。索引使用户能够定位文档中的信息。-
索引收集、解析和存储文档。
-
编制索引是为了在查找所需文档时提高搜索查询的速度和性能。
-
-
Apache Solr 中的索引
在 Apache Solr 中,我们可以索引(添加、删除、修改)各种文档格式,例如 xml、csv、pdf 等。我们可以通过多种方式将数据添加到 Solr 索引中。在本章中,我们将讨论索引 -- 使用 Solr Web 界面。
- 使用任何客户端 API,如 Java、Python 等。
- 使用post tool.
在本章中,我们将讨论如何使用各种接口(命令行、Web 界面和 Java 客户端 API)将数据添加到 Apache Solr 的索引中 -
使用 Post 命令添加文档
Solr 有一个post命令在其bin/目录。使用此命令,您可以在 Apache Solr 中索引各种格式的文件,例如 JSON、XML、CSV。浏览binApache Solr 目录并执行–h optionpost 命令,如以下代码块所示。执行上述命令后,您将获得一个选项列表post command, 如下所示。例子
假设我们有一个名为sample.csv具有以下内容(在bin目录)。Student ID First Name Lasst Name Phone City 001 Rajiv Reddy 9848022337 Hyderabad 002 Siddharth Bhattacharya 9848022338 Kolkata 003 Rajesh Khanna 9848022339 Delhi 004 Preethi Agarwal 9848022330 Pune 005 Trupthi Mohanty 9848022336 Bhubaneshwar 006 Archana Mishra 9848022335 Chennai 上述数据集包含学生 ID、名字、姓氏、电话和城市等个人详细信息。数据集的 CSV 文件如下所示。在这里,您必须注意您需要提及架构,并记录其第一行。您可以在名为的核心下索引此数据sample_Solr使用post命令如下 -在执行上述命令时,给定的文档在指定的核心下被索引,生成以下输出。使用以下 URL 访问 Solr Web UI 的主页 -http://localhost:8983/选择核心Solr_sample. 默认情况下,请求处理程序是/select查询是“:”。不做任何修改,点击ExecuteQuery页面底部的按钮。在执行查询时,您可以观察到 JSON 格式(默认)的索引 CSV 文档的内容,如下面的屏幕截图所示。Note− 同理,您可以索引其他文件格式,例如 JSON、XML、CSV 等。 -
使用 Solr Web 界面添加文档
您还可以使用 Solr 提供的 Web 界面索引文档。让我们看看如何索引以下 JSON 文档。步骤1
使用以下 URL 打开 Solr Web 界面 -http://localhost:8983/Step 2选择核心Solr_sample. 默认情况下,Request Handler、Common Within、Overwrite 和 Boost 字段的值分别为 /update、1000、true 和 1.0,如下图所示。现在,从 JSON、CSV、XML 等中选择您想要的文档格式。在文本区域中键入要索引的文档,然后单击Submit Document按钮,如下图所示。 -
使用 Java 客户端 API 添加文档
以下是将文档添加到 Apache Solr 索引的 Java 程序。将此代码保存在名称为的文件中AddingDocument.java.通过在终端中执行以下命令来编译上述代码 -执行上述命令后,您将获得以下输出。