我将会从下面四个方面去介绍 Elasticsearch。
目录
一、Elasticsearch是什么?
二、Elasticsearch全文检索的原理是什么?
三、Elasticsearch的核心数据类型有哪些?
四、怎么判断搜索准确性?
一、Elasticsearch是什么?
Elasticsearch是一个实时的分布式搜索分析引擎,它可以使你以前所未有的速度和规模,去探索你的数据。
它被用来做全文检索,结构化搜索,分析以及这三个功能的组合:
- Wikipedia使用Elasticsearch提供了高亮片段的全文搜索,还有search-as-you-type和did-you-mean的建议。
- 卫报使用Elasticsearch将其社交媒体提供给公众有关新文章的实时反馈。
- Stack Overflow将定位查询整合到全文检索中去,并使用more-like-this接口去查找相关的问题和回答。
- GitHub使用Elasticsearch对1300亿行代码进行查询。
(这是官方的简介)
ES的生态圈
ES生态圈主要包含这几个好基友。
ES的用途
(1)用作搜索系统数据存储
- 应用程序将数据写入到mysql或其他数据库当中
- mysql把数据同步到ES中
- 应用程序查询数据时,从ES中搜索数据
(2)用作日志分析
- 日志通过kafka传到Logstash进行日志数据聚合
- Logstash将日志存储到ES中
- 通过Grafna或者Kibana对数据进行监控和分析
ES的特点和优势
- 分布式实时文件存储,可将每一个字段存入索引,使其可以被检索到
- 实时分析的分布式搜索引擎,分布式,索引拆分成多个分片,集群中的数据节点可以承载一个或多个分片,并且协调和处理各种操作,负载再平衡和路由大多数情况下自动完成。
- 可以扩张到上百台服务器,处理PB级别的结构化和非结构化数据,也可以运行在单台PC上。
- 支持插件机制,分词插件、同步插件、Hadoop插件、可视化插件。
几个重要概念
文档
- Elasticsearch 是面向文档的,文档是所有可搜索数据的最小单位
- Elasticsearch里面的文档是以 JSON 的格式保存。
- 每个文档都有一个唯一的 Doc ID
文档相当于关系型数据库的一行记录
举例:下图的JSON格式数据就是一个文档
索引(index)
索引是文档的容器,是一类文档的集合
索引需要定义Mapping和Settings
- Mapping定义文档字段的类型
- Settings定义不通的字段分布,比如说你的索引需要多少个分片
索引相当于关系型数据库的一个表
举例:下面的结构是一个索引
分词
分词是把全文本转换成一系列单词的过程。
分词器是处理分词的模块。
分词器的处理过程可以分为三个步骤:
- Character Filters 处理原始文本,比如说去除html标签
- Tokenizer 按照一些规则,将文本切分成一个个单词
- Token Filters 将切分后的单词进行加工,例如:单词转小写、过滤停用词、增加同义词等
处理中文分词的第三方插件:analysis-icu、IK、THULAC
安装 analysis-icu 插件的方式
elasticsearch-plugin install analysis-icu
REST API
ES支持http协议访问数据,增删改查都提供了相应的REST API
集群(Cluster)
Elasticsearch是分布式架构,一个集群可以有一个或多个节点。
分布式架构的好处
- 方便对存储水平扩容
- 提高系统高可用性,部分节点停止服务,整个集群的服务不受影响
集群配置有两种方式:
(1)配置文件
vim config/elasticsearch.yml
cluster.name: dmall_xxx
(2)命令行指定
在命令行启动ES时,指定参数 -E cluster.name=xxx 进行设定。
节点(node)
节点是Elasticsearch的一个实例,本质上是一个java进程。
一台机器可以运行多个Elasticsearch进程,但生产环境中一般建议一台机器只运行一个es实例。
节点配置有两种方式:
(1)配置文件
vim config/elasticsearch.yml
node.name: dmall_xxx_node1
(2)命令行指定
在命令行启动ES时,指定参数 -E node.name=node1 进行设定。
每个节点启动之后,会分配一个UID,保存在data目录下。
分片(shard)
主分片(Primary Shard)
分片是一个运行的 Lucene 实例,ES可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上,构成分布式搜索。这个过程对用户来说是透明的。
主分片在索引创建时指定,后续不允许修改,除非 Reindex。
使用分片有两个优点:
- 可以水平扩展。
- 可以并发提高性能。
副本(Replica Shard)
用以解决数据高可用的问题。副本是对主分片的拷贝。
- 副本分片数,可以同台调整
- 增加副本数,还可以在一定程度上,提高服务的高可用性(读取的吞吐)
二、Elasticsearch全文检索的原理是什么?
这里先解释什么是正排索引,什么是倒排索引。
正排索引
好比一本书的目录。
我们通过书本的目录,找到相关内容的页码,再去查询该页码下,我们想要查找的内容。
图片来源于网络
倒排索引
主要是为了解决:你想知道某个关键词,在书中的哪一页出现过,这类的问题。
倒排索引需要把文本拆分成一个一个单词,并且标记这个单词在文本中的位置,当我们想查找与某个关键词相关的文本内容时,我们通过倒排索引查找,就可以很轻易找到我们想要查找的内容。
图片来源于网络
全文搜索引擎也是通过倒排索引去实现的。
例如:通过百度搜索“倒排索引”,我们的关键词是“倒排索引”。
百度搜索引擎就可以将与“倒排索引”相关的网页内容进行聚合,并且对查询到的结果集合中的每一个网页进行相关性打分,分值高的会排在前面。
三、Elasticsearch的核心数据类型有哪些?
四、怎么判断搜索准确性?
下图的图示中,
绿色的圆圈,表示应该被返回的结果
橙色的三角形,表示不应该被返回的结果
True Positive(TP):应该返回的结果,被返回
False Positive(FP):不应该返回的结果,被返回
True Negatives(TN):应该返回的结果,不被返回
False Negatives(FN):不应该返回的结果,不被返回