Spring Boot框架使用chromadb向量库

打印 上一主题 下一主题

主题 966|帖子 966|积分 2898

引入maven依靠

  1. <!-- 这个是向量库的包 -->
  2. <dependency>
  3.     <groupId>io.github.amikos-tech</groupId>
  4.     <artifactId>chromadb-java-client</artifactId>
  5.     <version>0.1.7</version>
  6. </dependency>
  7. <!-- 这个是阿里的包 -->
  8. <dependency>
  9.     <groupId>com.alibaba</groupId>
  10.     <artifactId>dashscope-sdk-java</artifactId>
  11.     <version>2.16.10</version>
  12. </dependency>
复制代码
默认嵌入函数

  1. 下面是人家写好的例子,可以直接用,我复制过来的,文章最后是源码地址和文档地址
复制代码
  1. package tech.amikos;
  2. import tech.amikos.chromadb.*;
  3. import tech.amikos.chromadb.Collection;
  4. import tech.amikos.chromadb.embeddings.DefaultEmbeddingFunction;
  5. import java.util.*;
  6. public class Main {
  7.     public static void main(String[] args) {
  8.         try {
  9.             Client client = new Client(System.getenv("CHROMA_URL"));
  10.             client.reset();
  11.             EmbeddingFunction ef = new DefaultEmbeddingFunction();
  12.             Collection collection = client.createCollection("test-collection", null, true, ef);
  13.             List<Map<String, String>> metadata = new ArrayList<>();
  14.             metadata.add(new HashMap<String, String>() {{
  15.                 put("type", "scientist");
  16.             }});
  17.             metadata.add(new HashMap<String, String>() {{
  18.                 put("type", "spy");
  19.             }});
  20.             collection.add(null, metadata, Arrays.asList("Hello, my name is John. I am a Data Scientist.", "Hello, my name is Bond. I am a Spy."), Arrays.asList("1", "2"));
  21.             Collection.QueryResponse qr = collection.query(Arrays.asList("Who is the spy"), 10, null, null, null);
  22.             System.out.println(qr);
  23.         } catch (Exception e) {
  24.             System.out.println(e);
  25.         }
  26.     }
  27. }
复制代码
重写嵌入函数,使用自界说的嵌入模子,这里我用的是阿里的文本向量模子

由于chromadb是国外的,默认的嵌入函数对中文不是那么友好,向量中文的内容,查询出来的结果不是那么理想,以是这里我使用阿里的文本向量模子,对中文进行向量转换,然后使用chromadb的向量模子进行存储,查询。当然,文章最后的链接文档中也有使用别的向量模子,比如“OpenAI、Cohere ”等,大家可以根据自己的需求进行选择。我这里只是阿里的文本向量模子例子,不多说,上代码:


  • 1.界说了一个名为 LingJiEmbeddingFunction 的类,实现 EmbeddingFunction 接口,
  1. public class LingJiEmbeddingFunction implements EmbeddingFunction {
  2.     private static String key0 = "你自己的阿里key";
  3.     private static String model = "text-embedding-v1"; // 阿里模型名称
  4.     private TextEmbedding textEmbedding;
复制代码


  • 2.实现下面 EmbeddingFunction接口的方法
  1.     Embedding embedQuery(String query) throws EFException;
  2.     List<Embedding> embedDocuments(List<String> documents) throws EFException;
  3.     List<Embedding> embedDocuments(String[] documents) throws EFException;
复制代码
算了,第一次写文章,直接上代码吧,这里就不一一表明白,代码中有注释,大家看代码吧,有题目可以留言,我尽量复兴:
  1.     public LingJiEmbeddingFunction() {
  2.         // 初始化灵积的TextEmbedding客户端
  3.         this.textEmbedding = new TextEmbedding();
  4.     }
  5.     @Override
  6.     public Embedding embedQuery(String query) throws EFException {
  7.         try {
  8.             TextEmbeddingParam param = TextEmbeddingParam
  9.                     .builder()
  10.                     .apiKey(key0)
  11.                     .model(model)
  12.                     .texts(Arrays.asList(query))
  13.                     .build();
  14.             TextEmbeddingResult result = textEmbedding.call(param);
  15.             return extractEmbedding(result.getOutput().getEmbeddings().get(0));
  16.         } catch (ApiException | NoApiKeyException e) {
  17.             throw new EFException(e);
  18.         }
  19.     }
  20.     @Override
  21.     public List<Embedding> embedDocuments(List<String> documents) throws EFException {
  22.         try {
  23.             TextEmbeddingParam param = TextEmbeddingParam
  24.                     .builder()
  25.                     .apiKey(key0)
  26.                     .model(model)
  27.                     .texts(documents)
  28.                     .build();
  29.             TextEmbeddingResult result = textEmbedding.call(param);
  30.             return result.getOutput().getEmbeddings().stream()
  31.                     .map(this::extractEmbedding)
  32.                     .collect(Collectors.toList());
  33.         } catch (ApiException | NoApiKeyException e) {
  34.             throw new EFException(e);
  35.         }
  36.     }
  37.     @Override
  38.     public List<Embedding> embedDocuments(String[] documents) throws EFException {
  39.         // 直接委托给List<String>版本的实现
  40.         return embedDocuments(Arrays.asList(documents));
  41.     }
  42.     private Embedding extractEmbedding(TextEmbeddingResultItem embeddingItem) {
  43.         List<Double> vector = embeddingItem.getEmbedding();
  44.         return new Embedding(vector);
  45.     }
复制代码
上面就是自界说使用阿里的文本向量模子了,下面是怎么使用写好的自界说模子去处量文本入库,我这只是简单使用,复杂的自己点开看sdk的接口可以实现什么:
  1. @Slf4j
  2. public class ChromaDBDiseaseUtils {
  3.     private static final String CHROMA_URL = "http://127.0.0.1:31282"; // 你安装的ChromaDB地址,我这是安装在我自己电脑
  4.     private static final String collectionName = "collectionNameTest"; // 自己定义集合名称,相对于mysql中的表名称,我是这样理解的
  5.     private static Client client;
  6.     private static Collection collection;
  7.     static {
  8.         try {
  9.             // 创建 ChromaDB 客户端
  10.             client = new Client(CHROMA_URL);
  11.             // 创建自定义嵌入函数实例
  12.             LingJiEmbeddingFunction customEF = new LingJiEmbeddingFunction();
  13.             // 创建集合
  14.             collection = client.createCollection(collectionName, null, true, customEF);
  15.         } catch (Exception e) {
  16.             log.error("初始化ChromaDB客户端或集合失败: {}", e.getMessage());
  17.         }
  18.     }
  19.     /**
  20.      * 向向量库中添加文档
  21.      * @param documents
  22.      * @param metadata
  23.      * @param ids
  24.      */
  25.     public static void addDocuments(List<String> documents, List<Map<String, String>> metadata, List<String> ids) {
  26.         try {
  27.             // 向集合中添加文档
  28.             collection.add(null, metadata, documents, ids);
  29.         } catch (Exception e) {
  30.             log.error("ChromaDB库添加文档失败: {}", e.getMessage());
  31.         }
  32.     }
  33.     /**
  34.      * 根据查询条件查询文档
  35.      * @param query 查询语句
  36.      * @param nResults 返回结果数量
  37.      * @param where 查询条件(元数据的查询条件)
  38.      * @return
  39.      */
  40.     public static Collection.QueryResponse queryDocuments(String query, Integer nResults, Map<String, Object> where) {
  41.         try {
  42.             // 查询文档
  43.             return collection.query(Arrays.asList(query), nResults, where, null, null);
  44.         } catch (Exception e) {
  45.             log.error("ChromaDB库查询单据失败: {}", e.getMessage());
  46.             return null;
  47.         }
  48.     }
  49.     /**
  50.      * 删除集合
  51.      * @return
  52.      */
  53.     public static Collection deleteCollection(){
  54.         try {
  55.             // 删除集合
  56.             return client.deleteCollection(collectionName);
  57.         } catch (Exception e) {
  58.             log.error("ChromaDB库删除集合失败: {}", e.getMessage());
  59.             return null;
  60.         }
  61.     }
  62. }
复制代码
工具写好了,那么下面就是怎么使用了:
  1. public static void main(String[] args) {
  2.         // 向量文本内容
  3.         List<String> documents = new ArrayList<>();
  4.         // 元数据(这个相对于mysql的查询条件,可以用也可以不用,如果你想精确的查询到某一条就需要这个了)
  5.         List<Map<String, String>> metadata = new ArrayList<>();
  6.         // 文档id
  7.         List<String> ids = new ArrayList<>();
  8.         documents.add("测试文本1");
  9.         Map<String, String> meta = new HashMap<>();
  10.         meta.put("id", "id1");
  11.         metadata.add(meta);
  12.         ids.add("1");
  13.         ChromaDBDiseaseUtils.addDocuments(documents, metadata, ids);
  14.         
  15.         // 查询
  16.         Collection.QueryResponse qr = ChromaDBDiseaseUtils.queryDocuments("文本", 3,null);
  17.         // 我是查询3条,这边是打印查询出来的接口,
  18.         qr.getDocuments().get(0).stream().forEach(System.out::println);
  19.         qr.getMetadatas().get(0).stream().forEach(System.out::println);
  20.         qr.getDistances().get(0).stream().forEach(System.out::println);
  21.         // 删除集合
  22.         // ChromaDBDiseaseUtils.deleteCollection();
  23.     }
复制代码
这样就可以使用chromadb了,当然,这只是简单的使用,如果需要更复杂的操纵,可以参考chromadb的官方文档。
参考文献:GitHub - amikos-tech/chromadb-java-client: A thin client for Chroma Vector DB implemented in Java
感谢大佬们的无私奉献,才有我们这些小白可以快速上手。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

水军大提督

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表