什么是全文检索

file

全文检索技术被广泛的应用于搜索引擎，查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。

对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

什么是全文检索呢？先看一下百度百科的专业定义。

file

为了能更好的理解，我们先看一个简单的例子。

案例

实现一个文件的搜索功能，通过关键字搜索文件，凡是文件名或文件内容包括关键字的文件都需要找出来。还可以根据中文词语进行查询，并且需要支持多个条件查询。

本案例中的原始内容就是磁盘上的一些示例文件，如下图：

file

如果用数据库实现的话，数据库中的搜索很容易实现，通常都是使用sql语句进行查询，而且能很快的得到查询结果。

为什么数据库搜索很容易？

因为数据库中的数据存储是有规律的，有行有列而且数据格式、数据长度都是固定的。

但是，我们生活中的数据总体是分为两种的：结构化数据和非结构化数据。

结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。

非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件

结构化数据的查询我们可以通过sql搞定，那么非结构化的呢？

非结构化数据的查询方法

非结构化数据查询有两种办法：

（1）顺序扫描法(Serial Scanning)

所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。

（2）全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。

那么如何实现全文检索呢？

Lucene

提到全文检索，不得不提到的一个技术就是Lucene，Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。我们所熟知的全文检索引擎Solr和ES都是基于Lucene的。

file

1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：

确定原始内容即要搜索的内容->采集文档->创建文档->分析文档->索引文档

2、红色表示搜索过程，从索引库中搜索内容，搜索过程包括：

用户通过搜索界面->创建查询->执行搜索，从索引库搜索->渲染搜索结果

创建索引

也就是对文档索引的过程，将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。

比如刚才的这些文档：

file

我们要分析其中所有的单词，将单词、文档名建立映射关系。

（对于单词的切分包括了对原始文档提取单词、去除停用词等过程，这个过程被称为分词）

我们分析其中的一篇文档Lucene.txt：

原文档内容：

Lucene is a Java full-text search engine. Lucene is not a complete

application, but rather a code library and API that can easily be used

to add search capabilities to applications.

我们可以分析后得到语汇单元：

lucene、java、full、search、engine。。。。

另一个文档flink.txt加入几个单词：

java flink kakfa

我们也可以得到语汇单元：

java flink kakfa

这样我们就建立了映射关系，lucene、java、full、search在Lucene.txt中，而flink不在Lucene.txt中，但是在flink.txt中。java即在Lucene.txt中，也在flink.txt中。

file

那当我们查找lucene这个词，就在Lucene.txt中，但是查找java时可以获悉其在这两个文件中。

创建索引是对语汇单元索引，通过词语找文档，这种索引的结构就叫做叫倒排索引结构。

传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。

倒排索引结构是根据内容（词语）找文档，如下图：

file

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

有倒排索引，对应肯定，有正向索引。正向索引其实就是顺序扫描所有文件，这样本身效率是极低的。

查询索引

查询索引也是搜索的过程。搜索就是用户输入关键字，从索引（index）中进行搜索的过程。根据关键字搜索索引，根据索引找到对应的文档，从而找到要搜索的内容（这里指磁盘上的文件）。

我们这里就是通过查询索引表，找到文档所在的位置，就完成了查询，但其他的场景可以灵活的把查询出来的结果展示出去，比如我们的百度搜索时，为我们展示的是相关网页。

file

开发一个自己的全文检索

手动去开发建立索引和查询索引的功能需要大量的工作，好在lucene已经帮我们完成了大量的工作，只需要调用java api就可以完成相关工作。

但是Lucene的API过于底层，并不简单易用，而且缺乏企业级的管理工具对其进行监控管理，于是企业级的全文检索引擎就应运而生了，目前最流行的两个就是：Solr和ES。他们都是建立在Lucene之上的。

Solr

Solr是Apache Lucene项目的开源企业搜索平台。Solr是高度可扩展的，并提供了分布式搜索和索引复制。

file

Solr由Java开发，运行在Servlet容器中，是一个独立的全文搜索服务器。并具有强大的API和外部配置功能，使得无需编码，便可对其调整以适应多种类型应用。

2010年Apache Lucene与Apache Solr项目合并，所以Lucene/Solr成为了Apache一个项目。

由此可见，Solr的优势就是：

有一个成熟的开发者社区;本省比较稳定;支持多种格式的索引。

但是由于底层机制的限制，Solr的缺点也很明显：

建立索引时，搜索效率下降；实时索引搜索效率不高。

ES

ES也就是Elasticsearch，是一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。

file

由于Lucene过于复杂，不方便使用。Elasticsearch使用Lucene作为内部引擎，但是Elasticsearch做搜索引擎时，只需要使用同一的API就可以，而不需要了解复杂的Lucene原理。

而且Elasticsearch不仅仅可以做全文搜索功能，在企业中可以作为：

分布式实时文件存储；
实时分析的分布式搜索引擎；

Elasticsearch的Restful API友好而且简单，特别容易上手。

目前包括维基百科、Stackoverflow、Github等都是用Elasticsearch作为其搜索引擎。

ES简单体验

这里我们简单使用一个ES完成一个全文检索功能。

1、下载

首先在官网下载，官网地址：https://www.elastic.co/products/elasticsearch

下载地址如下：https://www.elastic.co/cn/dow...

选择自己系统的我们这选择WIndows版本。

file

同时我们可以下载kibana，kibana是配合ES的一个可视化工具。

2、安装部署

解压放在d盘

随后我们在命令行启动：

C:\Users\JN>d:
D:>cd 
D:\elasticsearch-6.4.0>cd bin
D:\elasticsearch-6.4.0\bin>elasticsearch.bat

kibana也是

C:\Users\JN>d:
D:>cd kibana-6.4.0-windows-x86_64
D:\kibana-6.4.0-windows-x86_64>cd bin
D:\kibana-6.4.0-windows-x86_64\bin>kibana.bat

部署成功：可以通过localhost:9200访问es

file

localhost:5601访问kibana

file

3、简单使用

我们简单体验一下ES，打开kibana的DevTools工具。

分别插入两条数据，并进行搜索。

使用编程语言调用ES也与这个类似，简单易用。

file

参考文档：

lucene in action

Elasticsearch权威指南

更多ES,Flink,Kafka等实时流式计算的博文，欢迎关注实时流式计算：

file

本文由博客一文多发平台 OpenWrite 发布！

案例

非结构化数据的查询方法

Lucene

创建索引

查询索引

开发一个自己的全文检索

Solr

ES

ES简单体验

1、下载

2、安装部署

3、简单使用

推荐阅读

实时计算

目录