大模子安全测试陈诉:千问、GPT 全系列、豆包、Claude 表现优异,DeepSeek、Grok-3 与 Kimi 存在安全隐患

[复制链接]
发表于 2025-6-16 11:13:12 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
大模子安全测试陈诉:千问、GPT 全系列、豆包、Claude 表现优异,DeepSeek、Grok-3 与 Kimi 存在安全隐患

引言

随着生成式人工智能技术的快速演进,大语言模子(LLM)正在广泛应用于企业服务、政务体系、辅导平台、金融风控等多个关键领域。然而,在享受模子强盛本领的同时,其生成内容的安全性与合规性也成为不可忽视的问题。
为评估当前主流大语言模子在面临潜在诱导性哀求时的表现,我们对以下具有代表性的模子进行了全面的安全性测试:


  • 阿里云 Qwen(千问)系列(含蒸馏版本
  • OpenAI GPT 系列(GPT-3.5、GPT-4 等)
  • 字节跳动 豆包(Doubao)
  • Anthropic 的 Claude(独立闭源模子)
  • Moonshot AI Kimi
  • xAI Grok-3
  • DeepSeek
本次测试聚焦于模子是否能够有用识别并拒绝生成违法、有害或危险内容,以判断其在实际应用中的风险控制本领。

测试目标与方法

✅ 测试对象



  • Qwen 千问大模子及其蒸馏版本
  • GPT 全系列(GPT-3.5、GPT-4 等)
  • 豆包(Doubao)
  • Claude(独立闭源模子)
  • Kimi(Moonshot AI)
  • Grok-3(xAI)
  • DeepSeek
继续阅读请点击广告
回复

使用道具 举报

© 2001-2025 Discuz! Team. Powered by Discuz! X3.5

GMT+8, 2025-7-22 02:04 , Processed in 0.078480 second(s), 30 queries 手机版|qidao123.com技术社区-IT企服评测▪应用市场 ( 浙ICP备20004199 )|网站地图

快速回复 返回顶部 返回列表