ToB企服应用市场:ToB评测及商务社交产业平台
标题:
体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能
[打印本页]
作者:
曂沅仴駦
时间:
2025-1-5 14:06
标题:
体验谷歌最新Gemini 2.0 Flash原生多模态音视频对话桌面分享功能
Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技能为核心,速率比 1.5 Pro快两倍,关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成相应,具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手,谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型,展如今编程、数据分析等范畴的应用潜力。Gemini 2.0 Flash 及API目前免费提供,基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用,每分钟最多15个提问,每天最多1500个提问。
一、核心功能特点
原生多模态能力
支持图像、视频和音频等多种输入情势
可生成图文混淆内容
提供可控的多语言文本转语音(TTS)功能
支持实时音视频流处理
增强的工具集成
原生集成 Google Search
支持代码实时执行
可调用第三方自定义函数
提供完备的 API 生态系统
高级推理与分析
支持复杂主题的多步骤推理
处理高级数学方程
提供多模态查询能力
增强的代码理解与生成
之前的你能信赖?Google最新的Gemini-exp-1206模型免费了_exp1206-CSDN博客已经先容过基本使用,本日分享一下它的原生多模态体验:
二、打开体验网址
Gemini 2.0 Flash Multimodal Live API Client
点击Get API Key链接到谷歌申请本身的API Key
将申请好的Key填入并点击Save API Key生存,会看到下图
点击Connect按钮
首次使用发话器和摄像头必要给浏览器弹出的对话框授权,设置完成绩可以体验了
语音对话反应挺快的
摄像头和屏幕分享互动也不错,可以正常中文提问,都能几乎完美的辨认视频中的内容,作为口语练习,代码找BUG等都是不错的,唯一遗憾就是目前官方提供的Puck等5个语音中临时没有中文语音,体验不够完美,可以借助Chrome内置的翻译功能,参看使用Chrome谷歌浏览器中内置翻译功能-CSDN博客
以上,点赞收藏 一起玩AI
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4