当前位置：首页 > 科技 > 软件

近期，几个典型 Elasticsearch 8.X 问题及方案探讨

来源：责编：时间：2024-02-01 12:50:54 337观看

导读问题1：max_expansions 设置大了会报错，什么原因？大佬们问个问题，我在使用match_phrase_prefix时候，设置了一个比较大的max_expansions，比如10000。这个时候会报错：too_many_clauses: maxClauseCount is set to 1024。我搜了

问题1：max_expansions 设置大了会报错，什么原因？

大佬们问个问题，我在使用match_phrase_prefix时候，设置了一个比较大的max_expansions，比如10000。

这个时候会报错：too_many_clauses: maxClauseCount is set to 1024。我搜了下 maxClauseCount 这是控制搜索条件数量的，但我这只是改了个 max_expansions 就这样了，这2者有什么联系呀？

根本原因：

如果你设置了一个很高的值（ 10000），Elasticsearch 会尝试生成所有可能的匹配项，直到达到这个限制。

而进行 match_phrase_prefix 查询时，每个可能的匹配项都会被视为一个子句。

如果生成的匹配项数量超过 maxClauseCount 的限制，就会出现 too_many_clauses 错误。

可行的解决方案：

选择一个更合理的 max_expansions 值，以保持生成的查询子句数量在 maxClauseCount 的限制范围内。

问题2：集群数据迁移能不能直接拷贝文件？

各位大佬，同版本的es集群间数据迁移，假设两个集群节点数相同，是不是可以通过直接拷贝数据文件来进行啊？

去年年底咱们就讨论过：腊月27日凌晨的一个紧急 Elasticsearch 线上问题复盘

一句话，非必要不要直接拷贝文件。

官方文档在集群备份部分有过强调如下：

you cannot back up an Elasticsearch cluster by making copies of the data directories of its nodes. There are no supported methods to restore any data from a filesystem-level backup. If you try to restore a cluster from such a backup, it may fail with reports of corruption or missing files or other data inconsistencies, or it may appear to have succeeded having silently lost some of your data.

中文释义：

你无法通过复制其节点的数据目录来备份 Elasticsearch 集群。
不支持从文件系统级备份恢复任何数据的方法。
如果你尝试从此类备份恢复集群，则可能会失败，并报告损坏或丢失文件或其他数据不一致的情况，或者可能看似已成功，但悄无声息地丢失了一些数据。

https://discuss.elastic.co/t/why-are-we-told-to-copy-the-data-folder-when-upgrading/168951

https://www.elastic.co/guide/en/elasticsearch/reference/current/snapshot-restore.html

问题3：全局超时如何设置？

除了每个search可以配置自己的timeout，集群有没有参数可以配置一个统一的timeout，针对所有search都生效额？

建议：看看这个参数: search.default_search_timeout。

To set a cluster-wide default timeout for all search requests, configure search.default_search_timeout using the cluster settings API. This global timeout duration is used if no timeout argument is passed in the request. If the global search timeout expires before the search request finishes, the request is cancelled using task cancellation. The search.default_search_timeout setting defaults to -1 (no timeout).

集群层面设置解决方案如下：

图片

PUT /_cluster/settings{  "persistent": {    "search.default_search_timeout": "30s"  }}

要为所有搜索请求设置集群范围内的默认超时时间，可以使用集群设置 API 配置 search.default_search_timeout。

如果请求中没有传递超时参数，则使用这个全局超时持续时间。

如果全局搜索超时在搜索请求完成之前到期，请求将通过任务取消被取消。

search.default_search_timeout 设置的默认值为 -1（无超时）。

https://www.elastic.co/guide/en/elasticsearch/reference/8.12/search-your-data.html#search-timeout

问题4：自定义ID如何自动设置为 MD5呢？

铭毅老师你好，想请问一下，往es索引里面插入文档分为指定文档id和自动生成文档id，目前有一个需求在插入文档的时候，将文档的id值取插入的文档中的一个字段。

比如我插入的是一个关于文件的相关信息的文档，字段有md5值，大小，文件类型等等信息，此时我希望插入的这个文档的ID是这个文件的md5值，不太明白怎么设置这样的关系，谢谢！

题目来源：https://t.zsxq.com/16mobA3PV

实践参考：

Elasticsearch “指纹”去重机制，你实践中用到了吗？

方案：

使用 fingerprint 预处理器，借助已有的多个字段构建 MD5值，然后将目标字段设置为 _id 即可。

图片

PUT _ingest/pipeline/id-fingerprint{  "processors": [    {      "fingerprint": {        "fields": ["file_name", "file_size"],        "target_field": "_id",        "method": "MD5"      }    }  ]}DELETE test_01128PUT test_01128{  "settings": {    "default_pipeline": "id-fingerprint"  },  "mappings": {    "properties": {      "file_name": {        "type": "keyword"      },      "id-fingerprint": {        "type": "keyword"      }    }  }}POST test_01128/_bulk{"index":{}}{"file_name":"abc","file_size":"3kb"}{"index":{}}{"file_name":"bcd","file_size":"1kb"}{"index":{}}{"file_name":"abc","file_size":"3kb"}

小结

以上都是实战环境遇到的典型问题，如果你也有类似问题，欢迎发出来，咱们一起讨论解决！

本文链接：http://www.28at.com/showinfo-26-70445-0.html近期，几个典型 Elasticsearch 8.X 问题及方案探讨

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：看图聊算法：为什么排序算法还是不够快？

下一篇：前端性能优化 — 保姆级 Performance 工具使用指南

标签：

热门焦点

小米平板5 Pro 12.4简评：多专多能兼顾影音娱乐的大屏利器

疫情带来了网课，网课盘活了安卓平板，安卓平板市场虽然中途停滞了几年，但好的一点就是停滞的这几年行业又有了新的发展方向，例如超窄边框、高刷新率、多摄镜头组合等，这就让安卓
三言两语说透设计模式的艺术-单例模式

写在前面单例模式是一种常用的软件设计模式，它所创建的对象只有一个实例，且该实例易于被外界访问。单例对象由于只有一个实例，所以它可以方便地被系统中的其他对象共享，从而减少
梁柱接棒两年，腾讯音乐闯出新路子

文丨田静出品丨牛刀财经（niudaocaijing）7月5日，企鹅FM发布官方公告称由于业务调整，将于9月6日正式停止运营，这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
新电商三兄弟，“抖快红”成团！

来源：价值研究所作者：Hernanderz 随着内容电商的概念兴起，抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力，给阿里、京东、拼多多带去了巨大压
小米MIX Fold 3配置细节曝光：搭载领先版骁龙8 Gen2+罕见5倍长焦

这段时间以来，包括三星、一加、荣耀等等有不少品牌旗下的最新折叠屏旗舰都得到了不少爆料，而小米新一代折叠屏旗舰——小米MIX Fold 3此前也屡屡被传
三星显示已开始为AR设备研发硅基LED微显示屏

7月18日消息，据外媒报道，随着苹果首款头显产品Vision Pro在6月份正式推出，AR/VR/MR等头显产品也就将成为各大公司下一个重要的竞争领域，对显示屏这一关
iQOO Neo8 Pro即将开售：到手价3099元起安卓性能最强旗舰

5月23日，iQOO如期举行了新品发布会，全新的iQOO Neo8系列也正式与大家见面，包含iQOO Neo8和iQOO Neo8 Pro两个版本，其中标准版搭载高通骁龙8+，而Pro版更
英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

据10 月 30 日外媒 TheVerge 消息报道，英特尔 Xe HPG Arc Alchemist 的正面实被曝光，不仅拥有 512 EU 版显卡，还拥有 128EU 的单风扇版本。另外，这款显卡 PCB
北京：科技教育体验基地开始登记

　　北京“科技馆之城”科技教育体验基地登记和认证工作日前启动。首批北京科技教育体验基地拟于2023年全国科普日期间挂牌，后续还将开展常态化登记。　　北京科技教育体验基

近期，几个典型 Elasticsearch 8.X 问题及方案探讨

问题1：max_expansions 设置大了会报错，什么原因？

根本原因：

可行的解决方案：

问题2：集群数据迁移能不能直接拷贝文件？

问题3：全局超时如何设置？

问题4：自定义ID如何自动设置为 MD5呢？

实践参考：

方案：

小结

小米平板5 Pro 12.4简评：多专多能兼顾影音娱乐的大屏利器

三言两语说透设计模式的艺术-单例模式

梁柱接棒两年，腾讯音乐闯出新路子

新电商三兄弟，“抖快红”成团！

小米MIX Fold 3配置细节曝光：搭载领先版骁龙8 Gen2+罕见5倍长焦

三星显示已开始为AR设备研发硅基LED微显示屏

iQOO Neo8 Pro即将开售：到手价3099元起安卓性能最强旗舰

英特尔Xe HPG游戏显卡：拥有512EU，单风扇版本

北京：科技教育体验基地开始登记

最新推荐

猜你喜欢

热门推荐

相关资讯