ToB企服应用市场:ToB评测及商务社交产业平台
标题:
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言
[打印本页]
作者:
张裕
时间:
2025-1-8 16:53
标题:
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言
来源:HsuDan
0
1 Meta 开源 Llama3.3 专注文本天生,70B 媲美 405B 性能
美东时间12月6日,Meta 在 X 平台公布推出最新开源大型语言模型
Llama-3.3-70B
。
Llama 3.3
采用优化的 transformer 架构,融合了监视式微调(SFT)和基于人类反馈的强化学习(RLHF)等先辈技术。支持 128K tokens的上下文长度,约等于 400 页文本。
在多个行业基准测试中,
Llama-3.3-70B
的体现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。
虽然
Llama 3.3
只有 700亿 参数,但在性能上已与参数到达 4050亿 的 Llama 3.1 相当,而推理、摆设本钱却降低了很多。例如,输入本钱降低了 10 倍,输出本钱降低了近 5 倍。
Llama 3.3 性能体现
具体来看:
在
指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)
等领域,Llama-3.3-70B 都超过了 Llama-3.1-405B。
在
语言(MMLU)、代码(HumanEval)、长文本和多语种能力
上,Llama-3.3-70B 也和 Llama-3.1-405B 比力接近。
在
工具使用(BFCL)
上,Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。
与前代模型相比,
Llama 3.3
对硬件资源的要求大幅降低。例如,在推理过程中,Llama 3.3 的 GPU 内存需求最低仅为 4GB,而 Llama 3.1 则需高达 1944GB。这一改进不但让中小型开发者能够负担起运行本钱,也大幅淘汰了 AI 模型的摆设复杂性。
目前
Llama 3.3
支持 8 种语言,包罗
英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)
。
在
多语言推理测试(MGSM)
中的正确率到达 91.1%,充实证明了其在跨语言对话与推理任务中的优势。
Llama 3.3
采用 128k 长上下文窗口,可处理大规模文本任务,实用于多种实际场景。
对话式AI
合成数据天生
多语言处理
研究与创新应用
Llama-3.3-70B
采用了先辈的
后练习
技术,通过整合分组查询留意力(GQA)机制,Llama 3.3 提拔了推理时的可扩展性和性能,进一步优化了模型的应用能力。
模型文件:
huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Meta 已通过 Hugging Face、GitHub 等平台提供
Llama 3.3
的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。
0
2 谷歌新一代视觉语言模型PaliGemma 2,能辨认人类感情!
12月6日,谷歌发布了新一代视觉语言模型(VLM)
PaliGemma 2
,并宣称该模型具有
情感辨认
的能力。谷歌表示,
PaliGemma 2
不但能够分析图像并天生详细的图片描述,还能辨认图像中人物的情感状态。
技术陈诉:
https://arxiv.org/pdf/2412.03555
PaliGemma 2 架构
PaliGemma 2
结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。
具体来看,
PaliGemma 2
基于双塔设计(Vision 和 Language 模块)的架构:
视觉模块
(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块天生特定的嵌入(embedding),终极提取图像的团体语义。
语言模块
(Language Tower):这是一个基于 Gemma 模型的解码器结构,专注于天生与输入内容相关的文本。
PaliGemma 2
引入了一个特殊功能,即
情感辨认
。这个功能允许模型天生详细且与上下文相关的图片说明,涵盖动作、情感以及团体场景的叙述。
PaliGemma 2
提供了 3B、10B 和 28B 参数的预练习版本,支持多种输入分辨率,实用于多种下游任务。
医学影像分析:自动分析和解读各种影像数据,天生医学陈诉。
化学与药物研发:辨认和剖析化学公式、分子结构。
自动化内容天生:根据图像天生描述、标题或文章。
教育与培训:提供互动式学习工具。
电商与客户服务:分析产品图像并天生描述。
智能监控与安防:实时监控安全视频,辨认非常举动。
创意与艺术天生:根据图像天生艺术性的文本描述或创意内容。
PaliGemma 2
允许重新分发、商业使用、微调和创建模型衍生品。
与初代模型相比,
PaliGemma 2
更为强大,支持长文本字幕天生,而且在辨认曲谱、化学公式、空间推理和胸部 X 光陈诉天生方面体现更佳
。
PaliGemma 2
与其他主流多模态模型的对比:
0
3 Fish Audio 发布 Fish Speech 1.5 新增5种语言,将上线实时无缝对话功能
官网地址:
https://fish.audio/zh-CN/
项目地址:
https://github.com/fishaudio/fish-speech
近来,Fish Audio 发布
Fish Speech 1.5
,这款全新的语音合成模型(TTS)在正确性、稳定性和跨语言能力上,取得了显著进步。
Fish Speech 1.5
不但支持五种新增语言,还具备实时无缝对话功能,用户可以更方便地进行互动。
Fish Speech 1.5
的语音克隆功能延长时间不到 150 毫秒。
Fish Speech 1.5
经过超过 100 万小时的多语言练习,能够天生高质量的语音合成输出,并在匿名 TTS-Arena 中获得第二名的好成绩(以「Anonymous Sparkle」身份)。
Fish Speech 1.5 重要特点:
零样本和少样本语音合成
:只需 10 到 30 秒的声音样本即可天生高质量语音。
多语言 & 跨语言支持
:支持多达 13 种语言,包罗
英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语
等,突破语言障碍!
无音素依赖
:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何笔墨表示的语言。
高正确率
:在 5 分钟的英文文本上,到达了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速
:通过 fish-tech 加快,在 Nvidia RTX 4060 条记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
官方也提供了两种可以体验
Fish Speech 1.5
的体验站点。
第一个就是已上线的官网首页 fish.audio,特殊多人在用。
其次是在抱抱脸(HuggingFace)上摆设的简易版。
欢迎各位关注我的微信公众号:
HsuDan
,我将分享更多自己的学习心得、避坑总结、口试经验、AI最新技术资讯。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4