1、向量数据库是如何检索的?
Embedding是分析非结构化数据的重要方式,当我们将图片、声音编码为向量后,这些数据依旧能够保留原始数据(图片、声音等)的详细信息。然而,我们很难直接对这些编码后的向量中的数字与原始数据建立联系,想要弄清楚向量构成的空间到底意味着什么就更是难上加难了。
本篇文章,我们将以向量 Embedding 场景中最重要的应用 “以图搜图” 为例,通过使用开源工具 Feder来剖析相似性检索场景中的向量空间到底是怎样的,以及介绍最常用的向量索引 IVF_FLAT 在空间中的结构表现、它的数据检索过程是如何进行的。
向量检索常见场景:“以图搜图”
日常网络数据中,图片、视频等非结构化数据越来越多。“以图搜图”这种新型信息检索方式,也变得越来越常见。以图搜图,通常也被称作“反向图像搜索”,它的工作流程非常简单:我们向搜索引擎提交一张图片,搜索引擎从数据库中返回最相似的几张图片结果给我们。
原作者:Zilliz
更多回帖