谷歌推出PaliGemma 2 mix:用于多使命的视觉语言模型,开箱即用。 ...

打印 上一主题 下一主题

主题 897|帖子 897|积分 2691

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含差别大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言使命和范畴举行微调,比方图像分割、短视频字幕、科学问答和文本相干使命,并实现高性能。


2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种使命举行调解的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。
PaliGemma 2 mix 有什么新功能?



  • 一个模型可完成多项使命:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符辨认 (OCR)、图像问答、对象检测和分割等使命。
  • 适合开辟职员的尺寸:借助差别的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。
  • 与您喜好的框架一起使用:利用您喜好的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。
假如已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需举行任何更改。该模型根据提示方式实验差别的使命。
效果展示

检测



  • 使命:检测(PaliGemma-2-3b-mix-224)
  • 输入:“detect android\n”

效果



多物体检测



  • 使命:多目的检测(PaliGemma-2-3b-mix-224)
  • 输入:“检测椅子;桌子\n”


效果





  • 餐厅内物品的多物体检测


效果:



光学字符辨认 (OCR)



  • 使命:多目的检测(PaliGemma-2-3b-mix-224)
  • 输入-“ocr\n”


效果:



分割



  • 使命:分割 (PaliGemma-2-3b-mix-224)
  • 输入-“segment cat\n”

效果



问答



  • 使命:问答 (PaliGemma2-mix-3b-448)
  • 输入:“答案 en 牛站在哪里?\n”


效果

beach
字幕



  • 输入:“caption en\n”


效果

a cow standing on a beach next to a sign that says warning dangerous rip current.
光学字符辨认 (OCR)



效果:



  • WARNING
  • DANGEROUS
  • RIP CURRENT
立即开始



  • 试用:https://huggingface.co/spaces/google/paligemma2-10b-mix
  • 模型:https://www.kaggle.com/models/google/paligemma-2/
  • 运行:https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
  • 部署:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

饭宝

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表