IT评测·应用市场-qidao123.com技术社区

标题: 最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言 [打印本页]

作者: 张裕 时间: 2025-1-8 16:53
标题: 最新开源：Meta 开源 Llama 3.3：更小规模、更高性能！谷歌新一代视觉语言
来源：HsuDan
01 Meta 开源 Llama3.3 专注文本天生，70B 媲美 405B 性能

美东时间12月6日，Meta 在 X 平台公布推出最新开源大型语言模型 Llama-3.3-70B。
Llama 3.3 采用优化的 transformer 架构，融合了监视式微调（SFT）和基于人类反馈的强化学习（RLHF）等先辈技术。支持 128K tokens的上下文长度，约等于 400 页文本。
在多个行业基准测试中，Llama-3.3-70B 的体现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro，展现出了强大的竞争力。
虽然 Llama 3.3 只有 700亿参数，但在性能上已与参数到达 4050亿的 Llama 3.1 相当，而推理、摆设本钱却降低了很多。例如，输入本钱降低了 10 倍，输出本钱降低了近 5 倍。

Llama 3.3 性能体现
具体来看：

在指令遵循（IFEval）、数学（MATH）、推理（GPQA Diamond）等领域，Llama-3.3-70B 都超过了 Llama-3.1-405B。
在语言（MMLU）、代码（HumanEval）、长文本和多语种能力上，Llama-3.3-70B 也和 Llama-3.1-405B 比力接近。
在工具使用（BFCL）上，Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。

与前代模型相比，Llama 3.3 对硬件资源的要求大幅降低。例如，在推理过程中，Llama 3.3 的 GPU 内存需求最低仅为 4GB，而 Llama 3.1 则需高达 1944GB。这一改进不但让中小型开发者能够负担起运行本钱，也大幅淘汰了 AI 模型的摆设复杂性。
目前 Llama 3.3 支持 8 种语言，包罗英文、德语、西语、葡语、义语、法语、泰文和北印度语（Hindi）。
在多语言推理测试（MGSM）中的正确率到达 91.1%，充实证明了其在跨语言对话与推理任务中的优势。
Llama 3.3 采用 128k 长上下文窗口，可处理大规模文本任务，实用于多种实际场景。

对话式AI
合成数据天生
多语言处理
研究与创新应用

Llama-3.3-70B 采用了先辈的后练习技术，通过整合分组查询留意力（GQA）机制，Llama 3.3 提拔了推理时的可扩展性和性能，进一步优化了模型的应用能力。

模型文件：huggingface.co/meta-llama/Llama-3.3-70B-Instruct

Meta 已通过 Hugging Face、GitHub 等平台提供 Llama 3.3 的下载，模型采用社区许可证，用户可以合法地使用、复制、分发和修改该模型及其输出。

02 谷歌新一代视觉语言模型PaliGemma 2，能辨认人类感情！

12月6日，谷歌发布了新一代视觉语言模型（VLM） PaliGemma 2，并宣称该模型具有情感辨认的能力。谷歌表示，PaliGemma 2 不但能够分析图像并天生详细的图片描述，还能辨认图像中人物的情感状态。

技术陈诉：https://arxiv.org/pdf/2412.03555

PaliGemma 2 架构
PaliGemma 2 结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。
具体来看，PaliGemma 2 基于双塔设计（Vision 和 Language 模块）的架构：

视觉模块（Vision Tower）：基于 Siglip Vision Transformer，它通过将图像分割为 14×14 的小块（称为图像 patch），并为每块天生特定的嵌入（embedding），终极提取图像的团体语义。
语言模块（Language Tower）：这是一个基于 Gemma 模型的解码器结构，专注于天生与输入内容相关的文本。

PaliGemma 2 引入了一个特殊功能，即情感辨认。这个功能允许模型天生详细且与上下文相关的图片说明，涵盖动作、情感以及团体场景的叙述。

PaliGemma 2 提供了 3B、10B 和 28B 参数的预练习版本，支持多种输入分辨率，实用于多种下游任务。

医学影像分析：自动分析和解读各种影像数据，天生医学陈诉。
化学与药物研发：辨认和剖析化学公式、分子结构。
自动化内容天生：根据图像天生描述、标题或文章。
教育与培训：提供互动式学习工具。
电商与客户服务：分析产品图像并天生描述。
智能监控与安防：实时监控安全视频，辨认非常举动。
创意与艺术天生：根据图像天生艺术性的文本描述或创意内容。

PaliGemma 2 允许重新分发、商业使用、微调和创建模型衍生品。
与初代模型相比，PaliGemma 2 更为强大，支持长文本字幕天生，而且在辨认曲谱、化学公式、空间推理和胸部 X 光陈诉天生方面体现更佳。
PaliGemma 2 与其他主流多模态模型的对比：

03 Fish Audio 发布 Fish Speech 1.5 新增5种语言，将上线实时无缝对话功能

官网地址：https://fish.audio/zh-CN/
项目地址：https://github.com/fishaudio/fish-speech

近来，Fish Audio 发布 Fish Speech 1.5，这款全新的语音合成模型（TTS）在正确性、稳定性和跨语言能力上，取得了显著进步。
Fish Speech 1.5 不但支持五种新增语言，还具备实时无缝对话功能，用户可以更方便地进行互动。
Fish Speech 1.5 的语音克隆功能延长时间不到 150 毫秒。
Fish Speech 1.5 经过超过 100 万小时的多语言练习，能够天生高质量的语音合成输出，并在匿名 TTS-Arena 中获得第二名的好成绩（以「Anonymous Sparkle」身份）。

Fish Speech 1.5 重要特点:

零样本和少样本语音合成：只需 10 到 30 秒的声音样本即可天生高质量语音。
多语言 & 跨语言支持：支持多达 13 种语言，包罗 英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语等，突破语言障碍!
无音素依赖：模型具备强大的泛化能力，不依赖音素进行 TTS，能够处理任何笔墨表示的语言。
高正确率：在 5 分钟的英文文本上，到达了约 2% 的 CER（字符错误率）和 WER（词错误率）。
快速：通过 fish-tech 加快，在 Nvidia RTX 4060 条记本上的实时因子约为 1:5，在 Nvidia RTX 4090 上约为 1:15。

官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

第一个就是已上线的官网首页 fish.audio，特殊多人在用。
其次是在抱抱脸（HuggingFace）上摆设的简易版。

欢迎各位关注我的微信公众号：HsuDan，我将分享更多自己的学习心得、避坑总结、口试经验、AI最新技术资讯。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/)