ToB企服应用市场:ToB评测及商务社交产业平台

标题: 体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能 [打印本页]

作者: 曂沅仴駦    时间: 2025-1-5 14:06
标题: 体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能
Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技能为核心,速率比 1.5 Pro快两倍,关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成相应,具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手,谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型,展如今编程、数据分析等范畴的应用潜力。Gemini 2.0 Flash 及API目前免费提供,基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用,每分钟最多15个提问,每天最多1500个提问。

一、核心功能特点

之前的你能信赖?Google最新的Gemini-exp-1206模型免费了_exp1206-CSDN博客已经先容过基本使用,本日分享一下它的原生多模态体验:
二、打开体验网址

Gemini 2.0 Flash Multimodal Live API Client

点击Get API Key链接到谷歌申请本身的API Key

将申请好的Key填入并点击Save API Key生存,会看到下图

点击Connect按钮

首次使用发话器和摄像头必要给浏览器弹出的对话框授权,设置完成绩可以体验了

语音对话反应挺快的


摄像头和屏幕分享互动也不错,可以正常中文提问,都能几乎完美的辨认视频中的内容,作为口语练习,代码找BUG等都是不错的,唯一遗憾就是目前官方提供的Puck等5个语音中临时没有中文语音,体验不够完美,可以借助Chrome内置的翻译功能,参看使用Chrome谷歌浏览器中内置翻译功能-CSDN博客
以上,点赞收藏 一起玩AI

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4