马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
配景:10亿(Billion级别)的数据应该是一个很大的数据了,尤其是维度在768+级别(尚有1024,1536等),这个数据量我做了一个实行,shape为(1kw,768)的array(numpy)占内存为30G(float32格式),假如能低沉为float16更好不外,但好像faiss没有这种方法大概精度有所丧失。
那么对于5亿级别的数据(vectors),占内存则为1500G,我信赖现在好像没有这么大的呆板,我只见过500G,700G,以致900G的呆板,而且是8卡GPU的服务器才有的内存。这已经超出了一样平常的数据量了。
固然也可接纳ES集群摆设,但是感觉有点费资源。维护也是须要的,大概会宕机。
愿我们终有相逢之时,而你还记得我们曾经讨论的话题。
Q group 868373192
Q second group 277356808
下面是代码分享:
- import faiss # make faiss available
- index = faiss.IndexFlatL2(d) # build the index, d=size of vectors
- # here we assume xb contains a n-by-d numpy matrix of type float32
- index.add(xb) # add vectors to the index
- print index.ntotal
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |