从基础到实践,回顾Elasticsearch 向量检索发展史


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从基础到实践,回顾Elasticsearch 向量检索发展史

1.引言

向量检索已经成为现代搜索和推荐系统的核心组件。

通过将复杂的对象(例如文本、图像或声音)转换为数值向量,并在多维空间中进行相似性搜索,它能够实现高效的查询匹配和推荐。

从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_elasticsearch

Elasticsearch 作为一款流行的开源搜索引擎,其在向量检索方面的发展也一直备受关注。本文将回顾 Elasticsearch 向量检索的发展历史,重点介绍各个阶段的特点和进展。以史为鉴,方便大家建立起 Elasticsearch 向量检索的全量认知。

2. 初步尝试:简单向量检索的引入

Elasticsearch 最初并未专门针对向量检索进行设计。然而,随着机器学习和人工智能的兴起,对于高维向量空间的查询需求逐渐增长。

在 Elasticsearch 的 5.x 版本中,Elastic 爱好者们开始尝试通过插件和基本的数学运算实现简单的向量检索功能。如:一些早期的插件如 elasticsearch-vector-scoring、fast-elasticsearch-vector-scoring 就是为了满足这样的需求。

https://www.php.cn/link/7a677bb4477ae2dd371add568dd19e23

https://www.php.cn/link/7684e5225ab986f6b32ed950eec5621d

这一阶段的向量检索主要用于基本的相似度查询,例如文本相似度计算。虽然功能相对有限,但为后续的发展奠定了基础。

扩展说明:关于机器学习功能,如果大家对 Elasticsearch 版本更迭感兴趣,印象中当时 6.X 版本推出,非常振奋人心。不过受限于非开源功能,国内的真实受众还相对较少。

3. 官方支持:进一步发展

到 Elasticsearch 7.0 版本,正式开始增加对向量字段的支持,例如通过 dense_vector 类型。这标志着 Elasticsearch 正式进入向量检索领域,不再只依赖于插件。

dense_vector 最早的发起时间:2018 年 12 月 13 日,7.6 版本标记为 GA。

https://www.php.cn/link/648f4baa45889f9c5f4f7add35862841

https://www.php.cn/link/ac10ff1941c540cd87c107330996f4f6

关于 dense_vector 类型的使用,推荐阅读:高维向量搜索:在 Elasticsearch 8.X 中利用 dense_vector 的实战探索。

这一阶段的主要挑战是如何有效地在传统的倒排索引结构中支持向量检索。通过与现有的全文搜索功能相结合,Elasticsearch 能够提供一种灵活而强大的解决方案。

从最初的插件和基本运算,到后来的官方支持和集成,这一阶段为 Elasticsearch 在向量检索方面的进一步创新和优化奠定了坚实的基础。

4.专门优化:增强的相似度计算

随着需求的增长,Elasticsearch 团队开始深入研究并优化向量检索性能。这涉及了引入更复杂的相似度计算方法,例如余弦相似度、欧几里得距离等,以及对查询执行的优化。

从 Elasticsearch 7.3 版本开始,官方引入了更复杂的相似度计算方法。特别是 script_score 查询的增强,使用户可以通过 Painless 脚本自定义更丰富的相似度计算。

/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#vector-functions

核心功能在于允许通过向量之间的夹角计算相似度,用 k 最近邻 (k-NN) 的余弦相似度距离指标,从而为相似度搜索引擎提供支持。广泛用于文本分析和推荐系统。

主要用于解决:复杂相似度需求,提供了更灵活和强大的相似度计算选项,能够满足更多的业务需求。

应用场景体现在:

(1)个性化推荐:通过余弦相似度分析用户的行为和兴趣,提供更个性化的推荐内容;(2)图像识别和搜索:使用欧几里得距离快速检索与给定图像相似的图像;(3)声音分析:在声音文件之间寻找相似模式,用于语音识别和分析。

值得一提的是:初始的时候,向量检索支持的维度为:1024,直到 Elasticsearch 8.8 版本,支持维度变更为:2048(这是呼声很高的一个需求)。

https://www.php.cn/link/1bda7493c968ded9800b3a754fc07e5c

/t/vector-knn-search-with-more-than-1024-dimensions/332819

Elasticsearch 7.x 版本的增强相似度计算功能标志着向量检索能力的显著进展。通过引入更复杂的相似度计算方法和查询优化,Elasticsearch 不仅增强了其在传统搜索场景中的功能,还为新兴的机器学习和 AI 应用打开了新的可能性。

但,这个时候你会发现,如果要实现复杂的向量搜索功能,自己实现的还很多。如果把后面马上提到的深度学习的集成和大模型的出现比作:飞行的汽车,当前的阶段还是 “拉驴车”,功能是有的,但用起来很费劲。


从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_Elastic_02

5.深度学习集成与未来展望

大模型时代,向量检索和多模态搜索成为 “兵家” 必争之地。

多模态检索是一种综合各种数据模态(如文本、图像、音频、视频等)的检索技术。换句话说,它不仅仅是根据文字进行搜索,还可以根据图像、声音或其他模态的输入来搜索相关内容。

为了更通俗地理解多模态检索,我们可以通过以下比喻和示例来加深认识:想象你走进一个巨大的图书馆,这里不仅有书籍,还有各种图片、录音和视频。你可以向图书馆员展示一张照片,她会为你找到与这张照片相关的所有书籍、音频和视频。或者,你可以哼一段旋律,图书馆员能找到相关的资料,或者提供类似的歌曲或视频。这就是多模态检索的魔力!

随着深度学习技术的不断发展和应用,Elasticsearch 已开始探索将深度学习模型直接集成到向量检索过程中。这不仅允许更复杂、更准确的相似度计算,还开辟了新的应用领域,例如基于图像或声音的搜索。尤其在 Elasticsearch 的 8.x 版本,这一方向得到了显著的推进。

5.1 向量化是前提

如下图所示,先从左往右看是写入,图像、文档、音频转化为向量特征表示,在 Elasticsearch 中通过 dense_vector 类型存储。

从右往左看是检索,先将检索语句转化为向量特征表示,然后借助 K 近邻检索算法(在 Elasticsearch 中借助 Knn search 实现),获取相似的结果。

看中间,Results 部分就是向量检索的结果。

Voicepods Voicepods

Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。

Voicepods 142 查看详情 Voicepods

综上,向量检索打破了传统倒排索引仅支持文本检索的缺陷,可以扩展支持文本、语音、图像、视频多种模态。

从基础到实践,回顾Elasticsearch 向量检索发展史图片来自:Elasticsearch 官方文档


相信你到这里,应该理解了向量检索和多模态。没有向量化的这个过程,多模态检索无从谈起。

5.2 模型是核心

深度学习模型集成总共可分为三步:

第一步:模型导入和管理:Elasticsearch 8.x 支持导入预训练的深度学习模型,并提供相应的模型管理工具,方便模型的部署和更新。第二步:向量表示与转换:通过深度学习模型,可以将非结构化数据如图像和声音转换为向量表示,从而进行有效的检索。第三步:自定义相似度计算:8.x 版本提供了基于深度学习模型的自定义相似度计算接口,允许用户根据实际需求开发和部署专门的相似度计算方法。

关于深度学习,可以是自训练模型,也可以是第三方模型库中的模型,举例:咱们图搜图案例中就是用的 HuggingFace 里的:clip-ViT-B-32-multilingual-v1 模型。

从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_Elastic_04

Elasticsearch 支持的第三方模型列表:

从基础到实践,回顾Elasticsearch 向量检索发展史

包括如下的 Hugging Face 模型库也都是支持的。

从基础到实践,回顾Elasticsearch 向量检索发展史从基础到实践,回顾Elasticsearch 向量检索发展史_elasticsearch_05

模型是 Elasticsearch 与深度学习集成的核心,它能将复杂的数据转化为 “指纹” 向量,使搜索更高效和智能。借助模型,Elasticsearch 可以理解和匹配各种非结构化数据,如图像和声音,提供更为准确和个性化的搜索结果,同时适应不断变化的数据和需求。“没有了模型,我们还需要黑暗中摸索很久”。

第三方模型官网介绍:/guide/en/machine-learning/8.9/ml-nlp-model-ref.html#ml-nlp-model-ref-text-embedding

值得一提的是:Elasticsearch 导入大模型需要专属 Python 客户端工具 Eland。

Eland 是一个 Python Elasticsearch 客户端,让用户能用类似 Pandas 的 API 来探索和分析 Elasticsearch 中的数据,还支持从常见机器学习库上传训练好的模型到 Elasticsearch。

Eland 是为了与 Elasticsearch 协同工作而开发的库。它不是 Elasticsearch 的一个特定版本产物,而是作为一个独立的项目来帮助 Python 开发者更方便地在 Elasticsearch 中进行数据探索和机器学习任务。

Eland 更多参见:

/guide/en/elasticsearch/client/eland/current/index.html

https://www.php.cn/link/47e57c4836ae0c44f774f9d8497e0b4f

5.3 ESRE 是 Elastic 的未来

前一段时间在分别给两位阿里云、腾讯云大佬聊天的时候,都提到了 Elasticsearch Relevance Engine (ESRE) 才是 Elastic 未来。

ESRE 官方介绍如下:——Elasticsearch Relevance Engine 将 AI 的最佳实践与 Elastic 的文本搜索进行了结合。ESRE 为开发人员提供了一整套成熟的检索算法,并能够与大型语言模型 (LLM) 集成。借助 ESRE,我们可以应用具有卓越相关性的开箱即用型语义搜索,与外部大型语言模型集成,实现混合搜索,并使用第三方或我们自己的模型。

ESRE 集成了高级相关性排序如 BM25f、强大的矢量数据库、自然语言处理技术、与第三方模型如 GPT-3 和 GPT-4 的集成,并支持开发者自定义模型与应用。其特点在于提供深度的语义搜索,与专业领域的数据整合,以及无缝的生成式 AI 整合,让开发者能够构建更吸引人、更准确的搜索体验。

在 Elasticsearch 8.9 版本上新了:Semantic search 语义检索功能,对官方文档熟悉的同学,你会发现如下截图内容,早期版本是没有的。

语义搜索不是根据搜索词进行字面匹配,而是根据搜索查询的意图和上下文含义来检索结果。

更进一步讲:语义搜索不仅仅是匹配你输入的关键字,而是试图理解你的真正意图,给你带来更准确、更有上下文的搜索结果。简单来说,如果你在英国搜索 “football”,系统知道你可能想要搜橄榄球,而不是足球(在美国 football 是足球)。

这种智能搜索方式,得益于强大的文本向量化等技术背景,使我们的在线搜索体验更加直观、方便和满意。

在文本里检索 connection speed requirement, 这点属于早期的倒排索引检索方式,或者叫全文检索中的短语 match_phrase 检索匹配 或者分词 match 检索匹配。这种可以得到结果。但是,中后半段视频显示,要是咱们要检索:“How fast should my internet be” 怎么办?

其实这里转换为向量检索,fast 和 speed 语义相近,should be 和 required、needs 语义相近,internet 和 connection、wifi 语义相近。所以依然能召回结果。

这突破了传统同义词的限制,体现了语义检索的妙处!

更进一步,我们给出语义检索和传统分词检索的区别,以期望大家更好的理解语义搜索。

从基础到实践,回顾Elasticsearch 向量检索发展史

总体而言,深度学习集成已经成为 Elasticsearch 向量检索能力的有力补充,促使它在搜索和分析领域的地位更加牢固,同时也为未来的发展提供了广阔的空间。

6.小结

Elasticsearch 的向量检索从最初的简单实现发展到现在的高效、多功能解决方案,反映了现代搜索和推荐系统的需求和挑战。随着技术的不断演进,我们可以期待 Elasticsearch 在向量检索方面将继续推动创新和卓越。

说一下最近的感触,向量检索、大模型等新技术的出现有种感觉 “学不完,根本学不完”,并且很容易限于 “皮毛论”(我自创的词)——所有技术都了解一点点,但经不起提问;浅了说,貌似啥都懂,深了说,一问三不知。

这种情况怎么办?我目前的方法是:以实践为目的去深入理解理论,必要时理解算法,然后不定期将所看、所思、所想梳理成文,以备忘和知识体系化。这个过程很慢、很累,但我相信时间越长、价值越大。

欢迎大家就向量检索等问题进行留言讨论交流,你的问题很可能就是下一次文章的主题哦!

7.参考

1、/cn/blog/text-similarity-search-with-vectors-in-elasticsearch

2、/guide/en/elasticsearch/reference/7.3/query-dsl-script-score-query.html#vector-functions-cosine

3、https://www.php.cn/link/8b0bb3eff8c1e5bf7f206125959921d7

以上就是从基础到实践,回顾Elasticsearch 向量检索发展史的详细内容,更多请关注其它相关文章!


# 计算方法  # 江苏网站建设系统服务  # 电子商务工作seo  # 辽宁网站优化模式开发  # 招商最好的网站优化  # 昌平营销型网站推广  # 河北关键词排名哪个好  # 2021黑帽SEO教程  # 宁波整站优化网站  # 新源营销推广全托管  # 2016天猫店铺seo  # 的是  # 深度学习  # 我们可以  # 门店  # 转换为  # 自定义  # 多模  # 第三方  # 开源  # 这一  # hugging face  # elasticsea 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 实践J*a开发,构建高性能的MongoDB数据迁移工具  掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  微软大牛加入ZOOM,AI人才大战打响  数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念  Meta 人工智能业务落后竞争对手,研究人员大量离职成重要原因  AI会帮我们把活干完吗?  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?  赋能选题探索:AI助手在经济学专业中的应用指南  DeepMind推惊世排序算法,C++库忙更新!  人工智能在服务优化方面优缺点有哪些  GPT-4是如何工作的?哈佛教授亲自讲授  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?  《上古卷轴5》AI高清材质包优化游戏中所有怪物  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人  微软推出人工智能模型 CoDi,可互动和生成多模态内容  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  金山办公:AI是重要的产品战略之一  零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作  小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练  AI大模型,将为智慧城市带来哪些新变化?  WHEE功能介绍  2025“春晖杯”人工智能专场对接活动举办  研究预测HPC支持的人工智能增长迅速  AI创作广告文案等同2.47年工作经验,且消费者无法区分|AI营销前沿  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  实现MySQL数据锁定策略:解决并发冲突的J*a解决方案  Moka AI产品后观察:HR SaaS迈进AGI时代  AI绘画,还需要懂数学?  海南省公安机关警用无人机培训班结业并举行警航比武演练  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  基于预训练模型的金融事件分析及应用  马斯克称人类是半机器人,记忆外包给了电脑  出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案  月薪6万,哪些AI岗位在抢人?  无人机协助盐城交通执法的协同训练  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  人工智能赋能无人驾驶:商业化进程再提速  WHEE安装教程  掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单  7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动  B站内测 AI 搜索功能,输入“?”即可体验  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  美图设计室2.0什么时候上线  焊接协作机器人或将成为26届埃森展最大看点  探索人工智能在物联网领域的影响与改变  Nature封面:量子计算机离实际应用还有两年 

 2023-10-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.