Elasticsearch基本概念_波斯_辣椒_elasticsearch

网络投稿 02-07 682

本文主要是对ES基本概念进行整合，理论先行，夯实对ES的基本概念，在知道“是什么”，才能提高学习效率，保姆级学习教程请移步： ES入门笔记.

一、前文介绍

Elasticsearch（简称ES）是一个基于Apache Lucene?的开源搜索引擎，无论在开源还是专有领域，Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。注意，Lucene 只是一个库。想要发挥其强大的作用，你需使用 Java 并要将其集成到你的应用中。

Lucene 非常复杂，你需要深入的了解检索相关知识来理解它是如何工作的，就跟学习 springmvc 之前先从 servlet 开始，繁琐复杂的工作，Solor、Elasticsearch 应由而生，其使用 Java 编写并使用 Lucene 来建立索引并实现搜索功能，但是它的目的是通过简单连贯的 RESTful API 让全文搜索变得简单并隐藏 Lucene 的复杂性。

重要特性：

1、分布式的实时文件存储，每个字段都被索引并可被搜索 2、实时分析的分布式搜索引擎 3、可以扩展到上百台服务器，处理PB级结构化或非结构化数据

基本概念：

索引（indices）-------------------Databases 数据库类型（type）----------------------Table 数据表文档（Document）---------------Row 行字段（Field）---------------------Columns 列

详细说明：

概念说明索引库（indices)indices是index的复数，代表许多的索引，类型（type）类型是模拟mysql中的table概念，一个索引库下可以有不同类型的索引，比如商品索引，订单索引，其数据格式不同。不过这会导致索引库混乱，因此未来版本中会移除这个概念文档（document）存入索引库原始的数据。比如每一条商品信息，就是一个文档字段（field）文档中的属性映射配置（mappings）字段的数据类型、属性、是否索引、是否存储等特性

二、经典倒排索引

案例：背诵诗词，静夜思，原本用诗名检索全文，现在没有索引的情况让你说去带“前”的诗句只能将大脑中所有诗词进行遍历；

所以可以取诗句中的字当作索引快速获取数据；当然反向索引的建立数据量激增，文章越长，索引越长

所以这个时候可以做一个压缩，既然已经可以用诗名来获取诗句；那就没必要索引到诗句了，直接索引到诗名就可以了

value现在不存诗句，改存诗名，这样数据量会减少很多；同时这里的诗名可以看作是正向索引；当然这还是只有一首诗的情况，多首诗还会形成索引矩阵：

捋一下他们的关系

则可以根据情况来建立索引

其实像百度、谷歌等搜索引擎的原理，和刚刚背诗是一样的，最核心的都是建立倒排索引！

三、分词

搜索引擎都是对文章分词之后，再根据关键字建立倒排索引搜索引擎三大过程：爬取内容、进行分词、建立反向索引

四、使用

比如一首诗，有诗题、作者、朝代、字数、诗内容等字段，那么首先，我们可以建立一个名叫 Poems 的索引，然后创建一个名叫 Poem 的类型，类型是通过 Mapping 来定义每个字段的类型。

类型相当于表结构的描述，描述每个字段的类型，文档以json形式描述一行数据 Keyword和text虽然都死字符串；但是涉及到分词的问题，keyword类型是不会分词的，直接用其中的内容建立反向索引；Text 类型在存入 Elasticsearch 的时候，会先分词，然后根据分词后的内容建立反向索引

建立索引

Elasticsearch 把操作都封装成了 HTTP 的 API，我们只要给 Elasticsearch 发送 HTTP 请求就行。比如使用 curl -XPUT ‘http://ip:port/poems’，就能建立一个名为 Poems 的索引，其他操作也是类似的。

五、Elasticsearch 分布式原理

Elasticsearch 也是会对数据进行切分，同时每一个分片会保存多个副本，其原因和 HDFS （hadoop分布式文件系统）是一样的，都是为了保证分布式环境下的高可用。

绿色表示数据块，其实elasticsearch中数据块也是备份存储至多个节点中的；所以elasticsearch也是master-slave（主从）框架；在 Elasticsearch 中，节点是对等的，节点间会通过自己的一些规则选取集群的 Master，Master 会负责集群状态信息的改变，并同步给其他节点。

如图所示，建立索引的请求先发到master，master建立索引后，然后这个信息再同步给其他节点（将集群状态同步至slave），建立mapping也是类似的

六、ELK系统

Elasticsearch除了做搜索引擎，还有一些其他典型的应用场景；很多公司都用 Elasticsearch 搭建 ELK 系统，也就是日志分析系统。其中 E 就是 Elasticsearch，L 是 Logstash，是一个日志收集系统，K 是 Kibana，是一个数据可视化平台。

Logstash采集业务系统日志，存储到es中，通过kibana展现给运维人员分析。分析日志的用处很大，假如一个分布式系统有 1000 台机器，系统出现故障时，我要看下日志，还得一台一台登录上去查看，非常麻烦;但是如果日志接入了 ELK 系统就不一样。比如系统运行过程中，突然出现了异常，在日志中就能及时反馈，日志进入 ELK 系统中，我们直接在 Kibana 就能看到日志情况。如果再接入一些实时计算模块，还能做实时报警功能。

问题

写入性能会不会很低？

注意：只有建立索引和类型需要经过 Master，数据的写入有一个简单的 Routing 规则，可以 Route 到集群中的任意节点，所以数据写入压力是分散在整个集群的。