得物基于AIGC天生测试用例的探索与实践

打印 上一主题 下一主题

主题 967|帖子 967|积分 2903

一、背景

随着人工智能技术的快速发展,尤其是在自然语言处置惩罚(NLP)、盘算机视觉和天生对抗网络(GANs)等范畴,AIGC(AI Generated Content)得到了广泛应用,这一技术的进步使得内容创作变得更加高效与多样化,推动了各个行业的创新与变革。对于测试而言,基于AI举行测试用例天生也逐渐从梦想变成现实。
传统问题

如今我们在编写测试用例时,大部分依赖人工编写,在实际编写过程中主要存在以下问题:

  • 用例编写量大:传统的测试用例编写方法通常会泯灭测试人员大量的时间和精力,编写服从不高;
  • 编写颗粒度粗:由于时间有限,手工编写测试用例可能存在部分测试场景的遗漏,如边界场景、异常场景等;
  • 维护本钱高:不同测试同学编写习惯不同,导致部分用例的可读性较差,增长后期维护本钱。
因此,借助AI技术自动天生开端的测试用例,随后由测试人员举行考核和优化,可以明显缩短用例的准备时间,提高测试工作的服从。
目的

利用AI技术自动天生测试用例,缩短编写测试用例的时间;
通过AI辅助天生测试用例,提升测试用例的覆盖范围和可读性。
二、方案

技术实现


“RAG:指的是检索增强天生(Retrieval-Augmented Generation),这是一种结合了信息检索和文本天生的技术,通过检索相关信息来增强天生模子的能力,提高天生文本的相关性和准确性。”
“LLM:指的是“大型语言模子”(Large Language Model),这些模子是基于深度学习技术构建的,专注于自然语言处置惩罚(NLP),可以或许处置惩罚和天生自然语言文本数据。”
核心功能先容


整个AI天生测试用例的功能主要分为三个方面:

  • 用户输入:提供AI对话框,可供用户从需求PRD中复制粘贴功能点,实现快速输入;
  • 测试点分析整合:提供智能提取测试点和专家履历介入的能力,用户可以对AI天生的测试点举行机动调整;
  • 用例天生:基于调整好的测试点自动天生对应的测试用例,并可一键同步至平台,方便后续的管理和利用。
利用流程


需求输入

1.选择相关需求的用例模块,点击“AI天生用例”按钮跳转至AI天生用例交互页面:

2.从需求PRD复制功能点,粘贴到输入框并发送:

完善测试点

1.评估AI提取出的测试点,选择可用的测试点并采纳到左侧的测试点列表中;
2.手动增/删/改左侧测试点列表中的测试点:

天生用例

1.点击天生测试用例按钮,等候测试用例天生;
2.测试用例天生成功后,可直接对天生的用例举行增/删/改,点击保存用例按钮将天生的用例保存;点击同步平台按钮将天生的用例同步至用例平台:
3.用例同步至平台采取的增量同步方式,不会将平台已有的用例覆盖。

三、探索实践

实践策略


我们订定了以上4种实践策略,分别在A业务域和B业务域举行功能的试用,探索AI辅助天生测试用例的落地方案,具体包括以下内容:
“A业务域主要面向公司的客户服务团队,包括一线客服、技术支持人员以及管理层等,提供了包括工单管理、实时谈天、知识库和客户反馈分析等多种功能,以提升客户支持的服从和服务质量,确保客户始终可以或许获得优质的服务体验。当前已上线的产品主要涉及Web端、PC端和APP端。
B业务域主要致力于运用产品、技术、数据等手段,全面提升公司的服从,该业务域的用户群体涵盖了公司各个部门的员工,规模量级庞大,涉及上万名员工的日常工作需求,如今已上线的产品主要集中在Web端,包括项目管理、内部协同和沟通、办公服从等多种功能。”

  • 小范围试点:分别在A业务域和B业务域内开展小范围试点工作,评估AI天生测试用例的有用性和全面性,以满足不同业务域的实际业务需求;
  • 持续推进:采取“以点带面”的策略,根据不同的业务场景和用户需求,分阶段推进AI天生测试用例的应用,逐步扩大应用范围,优化用户体验,确保AI工具可以或许适应多样化的业务需求;
  • 迭代复盘:在试用过程中,定期举行迭代复盘,通过收集迭代数据和用户反馈并分析,探究后续改进和优化的方向,并持续验证优化结果;
  • 多维度指标量化:订定准确度、覆盖度、利用率等多个维度的评价指标,分析这些指标的变革趋势,全面权衡AI天生测试用例的潜伏表现,确保其可以或许满足日常利用需求。
交互标准

需求分类和预处置惩罚

不同复杂度的需求其用例天生结果存在差异,根据需求的复杂程度,建立简单需求/复杂需求划分标准,对比不同需求的用例天生结果,优先选取天生结果较好的简单需求举行功能的利用。参考需求划分标准如下:
简单需求:研发资源<=7人日、测试资源<=1人日的需求
复杂需求:研发资源>=7人日、测试资源>=1人日的需求
其次,部分需求的PRD文档存在功能点描述简单、暗昧不清等情况,直接复制这些功能点举行AI用例天生,用例天生的准确性和全面性都较差。因此,可以先对这种情况的输入举行预处置惩罚,列举出具体的功能点和预期结果,再输入到AI举行测试用例天生,提升用例天生的结果,具体示例如下:

持续分批对话

AI天生用例时,可以分点输入功能点,以天生更多、更具体的测试点,包括一些边界、异常场景等,提高采纳率和覆盖率。具体的对比结果如下:


  • 全部功能点输入:



  • 功能点分点输入:

专家履历输入



  • **输入下令自动调整测试点:**如今平台支持用户输入下令并结合上文信息对天生的测试点举行调整,在初始天生的测试点基础上,输入一些简单的下令,例如“帮我拓展一下测试点X”、“合并测试点XX”等,优化AI天生测试点的天生结果。




  • **手动调整测试点:**如今AI天生的测试点无法做到完全覆盖全部的功能点,可能存在天生的测试点不全或测试点描述禁绝确的情况,可以在AI天生的测试点基础上,人工介入增补遗漏的测试点以及修改描述禁绝确的测试点,提升AI天生用例的结果。


关键项推进

量化天生结果

问题描述:AI天生的评价指标只有采纳率,难以全面评估AI天生测试用例的具体结果。
解决方案:在已有采纳率的基础上,新增覆盖率、需求利用率两个评价指标,分别刻画AI天生用例的实际覆盖程度以及各域AI天生用例功能的具体利用情况,其具体盘算公式如下:


  • 需求利用率 = 利用AI天生用例的需求 / 子域总需求 * 100%(研发自测需求除外)
  • 采纳率 = 评估后采纳用例 / AI天生用例 * 100%
  • 覆盖率 = 评估后采纳用例 / 人工调整扩充后的总用例 * 100%

后续改进:如今仍然无法权衡具体的提效结果,后续会共同平台探究更多的评价数据和指标,例如单需求的用例天生时间、用例编写理论提效时间等。
低落天生时长

问题描述:测试点较多时,AI天生测试用例时间太长,偶尔界面卡死,一直表现正在天生中。

解决方案:更换新的AI,切换为GPT-4o-mini,优化了AI天生用例的时间,一般天生时间不凌驾1min;同时解决了因平台革新机制导致的界面卡死无法实时革新的问题。
提高天生精度

问题描述:AI天生的测试用例准确度较低,且存在较多重复用例。
解决方案:引入RAG技术,将业务域的历史存量用例作为AI的背景知识库信息,检索天生更准确的测试用例。同一需求接入RAG前后的天生结果对比如下:


  • 需求1:
接入RAG前:AI总结测试点5条,AI天生11条用例,采纳8条用例,采纳率:72%;
接入RAG后:AI总结测试点6条,AI天生14条用例,采纳12条用例,采纳率:85%;
接入RAG前:

接入RAG后:



  • 需求2:
接入RAG前:AI总结测试点7条,AI天生23条用例,采纳12条用例,采纳率:52%;
接入RAG后:AI总结测试点8条,AI天生17条用例,采纳16条用例,采纳率:94%;
接入RAG前:

接入RAG后:

优化交互体验

问题描述:如今用例平台所利用的AI自由prompt的能力太差,无法联系上文信息持续举行下令提示,优化所天生的测试点。
解决方案:平台对功能举行优化,修复了AI丢失上下文关联的缺陷,支持自由prompt,AI可以或许根据用户输入下令结合上文信息对天生的测试点举行调整:
初始输入

输入下令,结合上文信息拓展测试点:

四、实践结论

在上述行动标准的实施和关键项推进的同时,我们对A业务域和B业务域持续多个迭代的AI天生测试用例数据举行了梳理整合,评估AI天生用例的目的告竣情况 。
数据对比

迭代维度



  • A业务域与B业务域1-6迭代的需求利用率、采纳率、覆盖率统计如下:



  • A、B业务域各迭代需求利用率、采纳率、覆盖率的变革趋势:



需求维度



  • 简单需求和复杂需求AI天生测试用例的采纳率、覆盖率,以及总体的利用人数、利用需求数的数据统计如下:


结论

通过分析对比需求维度和迭代维度的数据图表,可以得出以下几点结论:

  • 服从提升明显:如今对简单需求利用AI天生用例的平均采纳率和覆盖率维持在较高水平,可以或许覆盖核心功能点和场景,测试同学只需要增补一些异常/非功能分析的用例即可,根本可以节约40%的用例编写时间;
  • 天生准确率高:AI天生测试用例的采纳率提升尤为明显,最近迭代两域的采纳率在90%以上,这表明AI天生的功能用例绝大部分都是可用且有用的;
  • 天生全面性不足:各迭代的平均覆盖率还有较大提升空间,AI天生的测试用例难以覆盖全部业务场景,仍然需要测试人员手动增补覆盖;
  • 复杂需求天生结果差:A业务域在试用初期引入了一些较为复杂的需求举行实验,导致采纳率有所降落,从侧面反映出如今AI在复杂需求上的用例天生结果还有待提升。
五、总结&规划

总结

综上所述,本文的探索成功实现了得物基于AIGC在质量保障方面的创新应用,通过这种AI天生测试用例的方式,我们可以或许明显低落人工编写用例的时间和本钱,提升测试用例的准确性和规范性。后续我们会不断优化AI天生测试用例的功能,确保其可以或许天生更准确的用例,覆盖更广的测试场景,在未来的测试工作中发挥更大的代价。
未来规划


  • AI天生准确性和全面性提升:针对数据对比结论所反映出的复杂需求采纳率和覆盖率偏低的问题,后续可以从以下两个方向举行优化:


  • 接入不同的AI对比用例天生结果,供用户自由切换选择;
  • 增长输入途径,充分结合技术文档、需求评审、技术评审等渠道,提升用例天生的准确性和全面性。

  • 研发自测需求功能推广:研发同学可以利用AI快速天生可靠的测试用例,减少自测的时间和人力本钱,让研发可以或许更专注于业务逻辑的开发,同时提升自测的有用性和全面性;
  • 历史存量用例相似度匹配检索:分析历史用例,盘算相似度并举行匹配,以便天生新测试用例时推荐出最相关的存量用例,同时提供可视化界面,帮助测试人员直观地查看和选择存量相似用例,以提高用例的复用率;
  • 支持多模态数据输入:支持从不同类型的数据源(如文本、图像、视频等)获取需求信息,增强AI天生测试用例的结果,天生与视觉交互相关的测试用例;
  • 纪任命户操纵持续反哺大模子:建立用户行为分析机制,纪任命户对AI天生用例的增编削操纵,分析用户的实际需求和偏好,利用用户的反馈数据来不断训练和优化模子,天生更贴适用户编写习惯的用例,提升天生质量。
文 / 南瓜&齐
关注得物技术,每周更新技术干货
要是觉得文章对你有帮助的话,欢迎评论转发点赞~
未经得物技术答应严禁转载,否则依法追究法律责任。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

拉不拉稀肚拉稀

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表