在上个月的2024年亚马逊云科技“环球春晚” - re:Invent大会上,亚马逊云科技人工智能产品副总裁Swami介绍了AI模子管理平台Amazon Bedrock上用于构建安全的AI应用的功能 - Guardrails新增了支持图像的多模态有害内容检测功能。这个功能让Guardrails,不光可以检测和过滤文本中的不良内容,还能识别和拦截图像中的不良内容,帮助开辟者在亚马逊云科技上构建安全、负责任的多模态AI应用,下面请跟随小李哥一起体验下这次的新功能在应用开辟过程中的使用效果吧。
Amazon Bedrock Guardrails是什么?
Amazon Bedrock Guardrails的重要功能是为我们在云端构建天生式AI应用提供多重保障,包括过滤不良内容、删除个人身份信息(PII),以及提拔内容的安全性和隐私性。开辟者们可以根据具体使用场景和负责任的 AI 策略,设置多样的安全策略,包括禁止回复话题、内容过滤、词语过滤器、PII(个人敏感信息)删除、上下文验证的正确性检查以及根据预定回复策略文档的自动推理检查。
除了以上的文字内容过滤外,Amazon Bedrock Guardrails还可以检测并拦截以下类别的有害图像内容:如仇恨(Hate)、侮辱(Insults)、色情(Sexual)和暴力(Violence)。我们可以根据应用需求设置检测阈值,数值从低(对应宽松检测)到高(严格检测)举行灵活调整。
目前图像内容查察功能适用于Amazon Bedrock上天生图片的所有底子模子(FMs),大概开辟者们自己经过微调的自界说模子。Guardrails就相当于在模子输出和应用返回之间加了一个多模态保护层,帮助我们在构建负责任的AI应用时更加便捷高效。
怎样设置和使用Amazon Bedrock Guardrails?
创建和使用Amazon Bedrock Guardrails的方式可以有两种,可以既可以在亚马逊云科技控制台中创建防护规则,并针对文本或图像数据设置内容过滤器,还可以使用亚马逊云科技提供的SDK将集成到的应用步伐中举行过滤。
1)创建防护规则
1. 我们登录亚马逊云科技控制台,导航到Amazon Bedrock并选择Guardrails功能。
2. 在界面中选择创建一个新的防护规则。大概使用现有的内容过滤器,设置规则以检测并拦截图像数据以及文本数据中的不良内容。创建防护规则的步调如下。
我们可以看到图片中图片过滤类别包括四类:仇恨(Hate)、侮辱(Insults)、色情(Sexual)、暴力(Violence)。这些类别可以用于对文本、图像内容或两者同时举行设置。同时可以看到文本过滤相对于图片过滤,有·不当举动(Misconduct)和提示攻击(Prompt attacks)额外两个类别。我们可以通过灵活的设置选项,根据具体的应用需求调整过滤策略,更好地保护天生式AI应用步伐免受不良内容的影响。
2) 通过API测试Guardrails功能
在我们创建好Guardrails过滤器后,我们可以在控制台中测试新的防护规则,选择该规则并点击“测试”(Test)即可开始测试。我们可以用过两种方式举行测试
1. 直接选择并并将Guardrail加载,通过向模子提问来测试防护规则。
2. 使用Amazon Bedrock Guardrails独立的ApplyGuardrail API测试防护规则,而无需调用模子。
通过ApplyGuardrail API,我们可以在应用开辟流程中的任意环节验证内容,在向终端用户展示结果之前举行处置惩罚。该API还可以用于评估任何我们自己预训练的模子或第三方底子模子的输入和输出。好比我们可以使用该API评估托管在 Amazon SageMaker上的开源Meta Llama 3.2模子,大概运行在我们本地Jupyter Notebook上的Mistral NeMo模子。ApplyGuardrail API的调用脚本如下:
- response = client.apply_guardrail(
- guardrailIdentifier='string',
- guardrailVersion='string',
- source='INPUT'|'OUTPUT',
- content=[
- {
- 'text': {
- 'text': 'string',
- 'qualifiers': [
- 'grounding_source'|'query'|'guard_content',
- ]
- },
- 'image': {
- 'format': 'png'|'jpeg',
- 'source': {
- 'bytes': b'bytes'
- }
- }
- },
- ]
- )
复制代码
在AI应用中验证Guardrails的多模态过滤效果
下面我们就详细给各人介绍下怎样通过这两种方式验证我们设置好的Guardrails功能。
通过向模子提问测试回复中的多模态防护效果
首先我们选择一个支持图像输入或输出的模子,例如Anthropic的Claude 3.5 Sonnet。验证是已开启提示和相应过滤器。接下来,我们输入一个提示语“形容一下这个图片”,上传一个图像文件,并选择“运行”(Run)。
在下图中,我们可以看到Amazon Bedrock Guardrails检测到了有害内容,并举行了干预(intervened)。我们嫩选择“查看跟踪”(View trace)查看详细的干预信息。点击后我们可以看到,防护规则跟踪提供了关于交互期间怎样应用图片防护安全措施的记载。它分别显示了Amazon Bedrock Guardrails是否举行了干预(test result显示阻止),以及对输入(提示语)和输出(模子相应)举行了哪些评估(侮辱性检测)。在该示例中,内容过滤器阻止了输入提示,因为它在图像中以高置信度检测到了侮辱性内容。
通过API测试模子测试防护规则
接下来我们通过前面提到的ApplyGuardrail API,不调用模子天生回复测试防护规则。
在亚马逊云科技Bedrock控制台中,我们勾选Use Guardrails independent API,通过独立的API测试防护规则而无需调用模子。选择对输入提示或模子天生输出的过滤规则。然后重复之前的步调,确认过滤器已对图像内容启用,提供须要验证的图片内容,输入提示词,并选择“运行”(Run)。
在检测结果中我们可以看到,我们上传了相同的图像,输入了相同提示词,Amazon Bedrock Guardrails再次举行了干预。选择“查看跟踪”(View trace)查看详细信息,可以看到这次得到相同的阻止记载。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |