马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
择要
本文介绍了一种新型的基于协同大型语言模型(CLLM4Rec)的保举系统,该系统将传统的基于ID的保举系统范式与基于大型语言模型(LLM)的范式相结合,旨在办理自然语言与保举任务之间语义差异的问题。通过引入用户/项目ID标记和创新的软+硬提示策略,CLLM4Rec可以或许有用地学习用户和项目的协同和内容语义,从而提高保举的准确性和效率。
相关工作
保举系统
保举系统(RS)是在线服务平台的紧张构成部分,主要分为基于ID的保举系统和基于内容的保举系统。基于ID的保举系统通过学习用户和项目的ID嵌入来表现其语义相似性,如矩阵分解和双塔模型等方法。而基于内容的保举系统则通过分析用户和项目的文本特征来举行保举。
大型语言模型
比年来,大型语言模型(LLM)在自然语言处理范畴取得了显著希望。比方,GPT、T5和LLaMA等模型在大规模语料库上举行预训练,展现出对自然语言的深刻明白和逻辑推理本事。然而,将LLM应用于保举系统仍面临诸多挑衅,如自然语言与用户/项目语义之间的语义差异等。
CLLM4Rec模型
模型布局
CLLM4Rec模型的核心在于将用户和项目的ID标记引入到预训练的LLM中,以更好地捕捉用户和项目的协同和内容语义。模型布局如下:
- 词汇扩展:在LLM的词汇表中添加用户和项目的ID标记,如<user_i>和<item_j>。
- 标记嵌入:为新引入的用户和项目标记学习嵌入向量,这些嵌入向量与词汇表空间对齐,以准确表现用户和项目的协同和内容语义。
- 软+硬提示策略:将文档分解为包含软(用户/项目)标记和硬(词汇)标记的提示部分,以及由同质项目标记或词汇标记构成的正文部分,以促进稳固有用的语言建模。
输入输出转变
- 输入:CLLM4Rec的输入包括用户和项目的交互历史以及用户和项目的文本特征。比方,用户与项目的交互历史可以表现为<user_i> has interacted with <item_j> <item_k>,而项目的文本特征可以表现为<item_j> is a computer。
- 输出:模型的输出是基于输入提示生成的项目推测,如推测用户大概感爱好的下一个项目。
方法介绍
互惠正则化预训练
CLLM4Rec采取互惠正则化策略举行预训练,以学习用户和项目的协同和内容标记嵌入。具体步骤如下:
- 协同LLM:通过语言建模学习用户和项目的协同信息,将用户与交互项目的标记嵌入推向相互靠近。
- 内容LLM:通过语言建模学习用户和项目的内容信息,将用户和项目的文本特征编码到内容标记嵌入中。
- 互惠正则化:协同LLM和内容LLM相互引导,协同LLM从用户/项目内容中捕获与保举相关的信息,而内容LLM则引入辅助信息以支持协同过滤。
保举导向的微调
在预训练的底子上,CLLM4Rec进一步举行保举导向的微调,以提高保举的效率和准确性。具体步骤如下:
- 掩码提示:随机掩码用户交互历史中的部分项目,生成保举导向的提示和目标。
- 多项式推测头:在预训练的协同LLM底子上添加新的项目推测头,采取多项式似然举行保举生成。
创新点
- 软+硬提示策略:通过将文档分解为软(用户/项目)标记和硬(词汇)标记的提示部分,以及同质项目标记或词汇标记的正文部分,CLLM4Rec可以或许有用地举行语言建模,提高模型的稳固性和有用性。
- 互惠正则化预训练:协同LLM和内容LLM相互引导,协同LLM从用户/项目内容中捕获与保举相关的信息,而内容LLM则引入辅助信息以支持协同过滤,从而提高保举的准确性和效率。
- 保举导向的微调:通过掩码提示和多项式推测头,CLLM4Rec可以或许在单次前向传播中高效地生成保举,避免了幻觉问题。
实行
数据集
实利用用了四个公共数据集(Amazon Beauty、Amazon Toys、Amazon Sports和Yelp)以及LinkedIn的工作保举数据集。数据集的统计信息如下表所示:
数据集#Int.#Users#ItemsSparsity#Feat.AM-Beauty94,14810,5536,08699.85%70,604AM-Toys95,42011,2687,30999.88%70,784AM-Sports185,71822,68612,30199.93%137,618Yelp292,01728,33018,77599.94%224,825LinkedIn90,17322,3911,07199.62%23,362 实行结果
实行结果表明,CLLM4Rec在各个数据集上的性能均优于现有的基于ID和基于LLM的保举系统。比方,在Amazon Beauty数据集上,CLLM4Rec的Recall@20、Recall@40和NDCG@100指标分别为0.1656、0.2323和0.1118,显著高于其他基线模型。
结论
CLLM4Rec作为一种新型的保举系统,通过将基于ID的保举系统范式与基于LLM的范式相结合,有用地办理了自然语言与保举任务之间的语义差异问题。通过引入用户/项目ID标记和创新的软+硬提示策略,CLLM4Rec可以或许准确地捕捉用户和项目的协同和内容语义,从而提高保举的准确性和效率。实行结果表明,CLLM4Rec在多个数据集上的性能均优于现有的保举系统,具有广泛的应用远景。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |