WWW2025 多模态对话体系意图识别挑衅赛方案总结

王柳 · 2025-1-22 10:53:06

WWW2025 多模态对话体系意图识别挑衅赛方案

代码实现：https://github.com/klayc-gzl/incent_internvl_2.5_8b
最终成绩：

大赛背景

互联网已成为提供客户服务的重要沟通渠道。网络客户服务面对的一个关键挑衅是服务对话中多模态意图的高效识别。通过使用先进的AI和大型语言模子（LLM）技术，准确识别客户在多次互动中的意图可以大大提升客户体验和服务质量，同时支持公司的贸易智能计划。本次比赛由淘天集团、WWW2025和天池团结主办，提供了涵盖高出40个消费者图像场景和意图分类任务的数据集。目标是在电子商务领域的多模态对话场景中推动意图识别技术的发展。
数据处理

数据格式转换

将数据集转换为 LLaVA 数据集常用的 JSON 格式，用于练习。
修改描述部分，重点解决以下难分类问题：
- 外部 APP 截图
- 支付页面
- 商品头图

数据样例格式

示例数据如下：

{
"id": "57454dee-9c36-4b76-b6c6-1d5d36c812fd",
"instruction": "Picture 1: <image>\n你是淘宝和菜鸟APP的电商领域识图专家,可以理解消费者上传的软件截图或实物拍摄图。现在,请你对消费者上传的图片进行分类。以下是可以参考的分类标签: [...]",
"input": "请严格按照以下三个部分的特定格式进行回答：<图像描述>、<推理>和<结论>。格式示例如下：\n\n<图像描述>[简要描述图像中与问题相关的关键信息和细节。]</图像描述>\n<推理>[解释分类的依据，请确保理由充分、清晰，并紧密结合问题或图片的相关细节。]</推理>\n<结论>[直接给出最终答案。]</结论>",
"output": "<图像描述>图片显示了一张商品的主图，背景为绿色草地，前景是一把军绿色的折叠椅。图片上方有“工厂直销性价比”的字样，下方有商品的详细信息，包括价格、优惠信息和发货信息。</图像描述>\n<推理>这张图片展示的是商品的主图，通常用于商品页面的顶部，以吸引消费者的注意力并提供商品的基本信息。图片中包含了商品的主要特点和价格信息，符合商品头图的特征。</推理>\n<结论>商品头图</结论>",
"image": [
"data/mire_train/images/b2a45fbf-08c4-4cf1-9d08-21aedc7ed4a2-268-0.jpg"
]
}
{
"id": "e573a802-ddbf-4b91-86f3-d097320bd9a1-1405",
"image": "/root/incent_internvl_2.5_8b/xtuner/mire_data/train/images/e573a802-ddbf-4b91-86f3-d097320bd9a1-1405-0.jpg",
"conversations": [
{
"from": "human",
"value": "Picture 1: <image>\n你是一名电商领域的顶级识图专家，专注于分类消费者上传的软件截图或实物拍摄图片。你的任务是基于图像内容进行精准分类。作为淘宝和菜鸟应用的资深专家，请特别注意以下规则：如果图像中包含京东、微信、拼多多、短信或手机系统相关内容，请分类为“外部APP截图”。如果图像中出现“已付X元”或“费用详情”等支付相关字样，即使包含“订单详情”，也应归类为“支付页面”。如果底部有“立即购买”且上方有商品图归“商品头图”。请根据用户上传的图片，对其进行场景分类。分类结果必须从以下列表中选择，并仅输出一个标签：["实物拍摄(含售后)","商品分类选项","商品头图","商品详情页截图","下单过程中出现异常（显示购买失败浮窗）","订单详情页面","支付页面","评论区截图页面","物流页面-物流列表页面","物流页面-物流跟踪页面","物流页面-物流异常页面","退款页面","退货页面","换货页面","购物车页面","店铺页面","活动页面","优惠券领取页面","账单/账户页面","投诉举报页面","平台介入页面","外部APP截图","其他类别图片"]。"
},
{
"from": "gpt",
"value": "换货页面"
}
]
}

复制代码

特别注意规则
- 包含京东、微信、拼多多等内容的图像归类为“外部 APP 截图”。
- 包含“已付 X 元”或“费用详情”字样的图片归类为“支付页面”。
- 底部有“立刻购买”且上方有商品图归类为“商品头图”。

模子练习

模子与练习框架

使用 InternLV_2.5_8B 模子。
练习框架：xtuner。
微调方法：LoRA 微调。

多任务微调策略

电商图像分类任务微调
- 使用 700 条电商图像分类数据，微调模子并天生 LoRA 权重。
- 该步调帮助模子更好地识别图像特性。
意图识别任务微调
- 在第一步微调天生的模子权重底子上，微调 300 条对话意图识别数据。
- 得到新的模子权重，适配对话意图识别任务。
权重融合 (Adapter-Fusion)
- 在最新模子权重的底子上，针对原始数据集进行练习。
- 实现微调融合结果，提升模子的泛化能力。

模子部署

部署工具

使用 lmdeploy 进行部署。

推理策略

启发式搜索，设置 temperature=0.6，天生多样性结果。
接纳 三次推理联合投票机制：
- 选择出现次数最多的答案作为最闭幕果。
- 若三次推理结果均不在要求的分类范围：
  - 意图识别：随机选择一个标签。
  - 电商图片分类：默认选择“其他类别图片”。

通过以上策略，保证分类和意图识别的准确性，同时满意赛题的推理次数限定。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

WWW2025 多模态对话体系意图识别挑衅赛方案总结

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块