ToB企服应用市场:ToB评测及商务社交产业平台

标题: 体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能 [打印本页]

作者: 曂沅仴駦 时间: 2025-1-5 14:06
标题: 体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能
Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技能为核心，速率比 1.5 Pro快两倍，关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入，提供文本、音频和图像的集成相应，具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手，谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型，展如今编程、数据分析等范畴的应用潜力。Gemini 2.0 Flash 及API目前免费提供，基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用，每分钟最多15个提问，每天最多1500个提问。

一、核心功能特点

原生多模态能力
- 支持图像、视频和音频等多种输入情势
- 可生成图文混淆内容
- 提供可控的多语言文本转语音（TTS）功能
- 支持实时音视频流处理
增强的工具集成
- 原生集成 Google Search
- 支持代码实时执行
- 可调用第三方自定义函数
- 提供完备的 API 生态系统
高级推理与分析
- 支持复杂主题的多步骤推理
- 处理高级数学方程
- 提供多模态查询能力
- 增强的代码理解与生成

之前的你能信赖？Google最新的Gemini-exp-1206模型免费了_exp1206-CSDN博客已经先容过基本使用，本日分享一下它的原生多模态体验：
二、打开体验网址

Gemini 2.0 Flash Multimodal Live API Client

点击Get API Key链接到谷歌申请本身的API Key

将申请好的Key填入并点击Save API Key生存，会看到下图

点击Connect按钮

首次使用发话器和摄像头必要给浏览器弹出的对话框授权，设置完成绩可以体验了

语音对话反应挺快的

摄像头和屏幕分享互动也不错，可以正常中文提问，都能几乎完美的辨认视频中的内容，作为口语练习，代码找BUG等都是不错的，唯一遗憾就是目前官方提供的Puck等5个语音中临时没有中文语音，体验不够完美，可以借助Chrome内置的翻译功能，参看使用Chrome谷歌浏览器中内置翻译功能-CSDN博客
以上，点赞收藏一起玩AI

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)