谷歌推出PaliGemma 2 mix：用于多使命的视觉语言模型，开箱即用。 ...

饭宝 · 昨天 18:26

去年 12 月，谷歌推出了 PaliGemma 2 ，这是Gemma系列中的升级版视觉语言模型。该版本包含差别大小（3B、10B 和 28B 参数）的预训练检查点，可轻松针对各种视觉语言使命和范畴举行微调，比方图像分割、短视频字幕、科学问答和文本相干使命，并实现高性能。

2月19日，谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种使命举行调解的模型，允许直接探索模型功能并将其开箱即用，用于常见用例。
PaliGemma 2 mix 有什么新功能？

一个模型可完成多项使命：PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符辨认 (OCR)、图像问答、对象检测和分割等使命。
适合开辟职员的尺寸：借助差别的模型尺寸（3B、10B 和 28B 参数）和分辨率（224px 和 448px），使用最适合您需求的模型。
与您喜好的框架一起使用：利用您喜好的工具和框架，包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

假如已经在使用原始的 PaliGemma 混合检查点，则可以直接升级到 PaliGemma 2，而无需举行任何更改。该模型根据提示方式实验差别的使命。
效果展示

检测

效果

多物体检测

效果

效果：

光学字符辨认 (OCR)

效果：

分割

效果

问答

效果

beach
字幕

效果

a cow standing on a beach next to a sign that says warning dangerous rip current.
光学字符辨认 (OCR)

效果：

立即开始

试用：https://huggingface.co/spaces/google/paligemma2-10b-mix
模型：https://www.kaggle.com/models/google/paligemma-2/
运行：https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
部署：https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复