使用文心一言进行图像内容理解

莱莱  论坛元老 | 2024-10-4 18:28:48 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1866|帖子 1866|积分 5598

接上篇文章,这期使用文心一言图像辨认API,对本地图片以及在线视频图片进行内容理解。
该请求用于图像内容理解,支持输入图片和提问信息,可对输入图片进行理解,输出对图片的一句话描述,同时可针对图片内的主体/文字等进行检测与辨认,支持返回图片内多主体/文字的内容、位置等信息。图像内容理解服务涉及 2 个子接口,分别为:


  • 图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
  • 图像内容理解-获取效果:在任务乐成创建后,支持传入任务ID,检察任务处置处罚的状态、获取处置处罚完成后返回的效果。
前期准备

        需要到百度AI开放平台(百度AI开放平台-环球领先的人工智能服务平台),创建用于图像辨认的应用,获取对应功能的API_KEY以及API_SCRET。下图所示。

图像内容理解-提交请求

请求参数要求使用json格式的布局体来描述一个请求的具体内容,参数详情如下:
参数是否必选范例可选值范围阐明image和 url 二选一string-图片数据,base64 编码后进行 urlencode,要求 base64 编码和 urlencode 后巨细不超过 4M,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式
优先级:image > url,当 image 字段存在时,url 字段失效url和 image 二选一string-图片完备 url,url 长度不超过 1024 字节,要求 base64 编码和 urlencode 后巨细不超过 4M,最短边至少 15px,最长边最大 4096px,支持 jpg/jpeg/png/bmp 格式
优先级:image > url,当 image 字段存在时,url 字段失效
请注意关闭URL防盗链question是string-提问信息,如“这张图片里有什么?”、“这张图片里有几只鸟”
限制 100 个字符之内output_CHN否booltrue/false是否以中文输出描述 description 和拼接语句 description_to_llm ,可选值包括:
- true:以中文输出
- false:不以中文输出,默认为 false 请求返回参数:
log_iduint64唯一的log id,用于题目定位
resultobject返回效果列表
+ task_idstring该请求生成的task_id,后续使用该task_id获取辨认效果
  1. def get_access_token(key,scret):
  2.     """
  3.     使用 AK,SK 生成鉴权签名{Access Token)
  4.     :return: access_token,或是None(如果错误)
  5.     """
  6.     url = "https://aip.baidubce.com/oauth/2.0/token"
  7.     params = {"grant_type": "client_credentials", "client_id": key, "client_secret": scret}
  8.     return str(requests.post(url, params=params).json().get("access_token"))
  9. def show_cam_image():
  10.     try:
  11.         # 尝试打开摄像头
  12.         stream = cv2.VideoCapture(0)
  13.         
  14.         # 检查是否成功打开
  15.         if not stream.isOpened():
  16.             print("未成功打开摄像头")
  17.             return
  18.         # 读取一帧图像
  19.         ret, frame = stream.read()
  20.         
  21.         # 如果成功读取帧
  22.         if ret:
  23.             # 保存图片
  24.             image_path = "/home/lxj/chat_robot/camera.jpeg"
  25.             cv2.imwrite(image_path, frame)
  26.             # 将帧从BGR转换为RGB
  27.             rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
  28.             # 将帧编码为JPEG格式
  29.             jpeg_frame = cv2.imencode('.jpg', rgb_frame)[1]
  30.             # 将JPEG格式的帧转换为Base64编码
  31.             base64_encoded_frame = base64.b64encode(jpeg_frame).decode('utf-8')
  32.             return base64_encoded_frame
  33.         else:
  34.             print("未能读取到图像帧")
  35.    
  36.     except Exception as e:
  37.         print(f"摄像头操作出错:{e}")
  38.     finally:
  39.         # 确保释放摄像头资源
  40.         stream.release()
  41. def ask_to_question():
  42.     url_1 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request?access_token=" + get_access_token(Image_API_KEY,Image_SECRET_KEY)
  43.    
  44.     #本地图像
  45.     # image_data = get_file_content_as_base64("/home/lxj/chat/水果.jpeg")
  46.     #相机图像
  47.     image_data = show_cam_image()
  48.     payload = json.dumps({
  49.         "image": image_data,
  50.         "question": "图像中有什么",
  51.         "output_CHN": True
  52.     })
  53.     headers = {
  54.         'Content-Type': 'application/json'
  55.     }
  56.    
  57.     response = requests.request("POST", url_1, headers=headers, data=payload)
  58.     response_json = response.json()  # 将响应文本解析为JSON对象
  59.     result = response_json.get("result")['task_id'] # 提取result字段,'task_id'里面的值
  60.     return result
复制代码
 图像内容理解-获取效果:

请求参数,要求使用json格式的布局体来描述一个请求的具体内容,参数详情如下:
参数是否必选范例可选值范围阐明task_id是string-调用提交请求接口时,返回的task_ 返回参数:
字段范例阐明log_iduint64唯一的log id,用于题目定位resultobject返回效果列表+ task_idstring该效果对应请求的task_id+ ret_codeint辨认状态,0:处置处罚乐成;1:处置处罚中;若发生错误,将返回其他错误码,详情可参考 图像辨认-错误码+ ret_msgstring辨认状态信息:sucess:处置处罚乐成;processing:处置处罚中;若发生错误,将返回其他错误信息,详情可参考 图像辨认-错误码+ descriptionstring针对图片的一句话描述,当 output_CHN= true 时,该字段输出为中文+ description_to_llmstring拼接一句话描述、OCR 及图像辨认效果、提问信息后的语句,将该语句输入大模型后,大模型将基于图像内容与提问,给出相应答案
当 output_CHN= true 时,该字段输出为中文;当 output_CHN= false 时,该字段输出为中英混淆+ subject_resultarray图片内主体检测的信息++ namestring图片主体标签++ locationobject图片内主体的检测框位置信息+ classify_resultarray图片内目标分类的信息+ ocr_resultarray当图片中存在文字时,该参数有返回++ wordstring文字辨认效果字符串++ rectarray文字辨认效果位置信息+++ leftuint32位置的长方形左上极点的水平坐标+++ topuint32位置的长方形左上极点的垂直坐标+++ widthuint32位置的长方形的宽度+++ heightuint32位置的长方形的高度
  1. def get_result():
  2. # 构建URL
  3.         url_2 = "https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result?access_token=" + get_access_token(Image_API_KEY, Image_SECRET_KEY)
  4.         
  5.         # 构建payload,使用提取到的task_id
  6.         payload = json.dumps({
  7.             "task_id": "前面请求得到的task_id"
  8.         })
  9.         headers = {
  10.             'Content-Type': 'application/json'
  11.         }
  12.         
  13.         response = requests.request("POST", url_2, headers=headers, data=payload)
  14.         response_json = response.json()  # 将响应文本解析为JSON对象
  15.         # 提取字段的值
  16.         subject_result = response_json.get('result', {}).get('subject_result', [])
  17.         description = response_json.get('result', {}).get('description', [])
  18.         # 打印提取的结果
  19.         print(subject_result)
  20.         print("图片描述:", description)
复制代码
!!!二者结适时需要注意,提交请求返回task_id后需要等几秒再去获取效果,否则会返回图像正在处置处罚中,得不到效果。

 {"ret_msg":"processing","ret_code":1,"task_id":"1787461990977925034"},"log_id":1787461997975067066}


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

莱莱

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表