知识构建阶段:知识库是各种泉源文档的集合,假设N个文档, 遵照chase方法将每一个文档分割为多个片断P,同时建立相应的索引,通过一个神经编码器 f k e y f_{key} fkey 将每一个片断转换为embedding vector,此外,除了现有的向量库知识表现,如图3,DB-GPT还引入了倒置索引和图形索引技术,可以更准确找到上下文下干系的数据。 知识检索阶段:当从用户传来一个语言Query,通过另一个编码器 f q u e r y f_{query} fquery将其转换为Embedding vector q,并且检索选择知识库中前Top k 个干系片断,k是一个超参数。DB-GPT支持各种检索模子,如:
● EmbeddingRetriever ,通过余弦相似度进行检索。ie. q t e ∥ q ∣ ∣ ∥ e ∣ ∣ \frac{q^te}{\|q||\|e||}