faiss用于大数据量的向量检索

[复制链接]
发表于 2025-12-30 05:48:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
配景:10亿(Billion级别)的数据应该是一个很大的数据了,尤其是维度在768+级别(尚有1024,1536等),这个数据量我做了一个实行,shape为(1kw,768)的array(numpy)占内存为30G(float32格式),假如能低沉为float16更好不外,但好像faiss没有这种方法大概精度有所丧失。
那么对于5亿级别的数据(vectors),占内存则为1500G,我信赖现在好像没有这么大的呆板,我只见过500G,700G,以致900G的呆板,而且是8卡GPU的服务器才有的内存。这已经超出了一样平常的数据量了。
固然也可接纳ES集群摆设,但是感觉有点费资源。维护也是须要的,大概会宕机。
愿我们终有相逢之时,而你还记得我们曾经讨论的话题。

Q group 868373192
Q second group 277356808
下面是代码分享:
  1. import faiss                   # make faiss available
  2. index = faiss.IndexFlatL2(d)   # build the index, d=size of vectors
  3. # here we assume xb contains a n-by-d numpy matrix of type float32
  4. index.add(xb)                  # add vectors to the index
  5. print index.ntotal
复制代码

  1. # xq
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表