faiss用于大数据量的向量检索

发表于 2025-12-30 05:48:55

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

配景：10亿（Billion级别）的数据应该是一个很大的数据了，尤其是维度在768+级别（尚有1024,1536等），这个数据量我做了一个实行，shape为（1kw，768）的array（numpy）占内存为30G（float32格式），假如能低沉为float16更好不外，但好像faiss没有这种方法大概精度有所丧失。
那么对于5亿级别的数据（vectors），占内存则为1500G，我信赖现在好像没有这么大的呆板，我只见过500G，700G，以致900G的呆板，而且是8卡GPU的服务器才有的内存。这已经超出了一样平常的数据量了。
固然也可接纳ES集群摆设，但是感觉有点费资源。维护也是须要的，大概会宕机。
愿我们终有相逢之时，而你还记得我们曾经讨论的话题。

Q group 868373192
Q second group 277356808
下面是代码分享：

import faiss # make faiss available
index = faiss.IndexFlatL2(d) # build the index, d=size of vectors
# here we assume xb contains a n-by-d numpy matrix of type float32
index.add(xb) # add vectors to the index
print index.ntotal

复制代码

# xq

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

faiss用于大数据量的向量检索

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

梦见你的名字