最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言 ...

打印 上一主题 下一主题

主题 564|帖子 564|积分 1692

来源:HsuDan
01 Meta 开源 Llama3.3 专注文本天生,70B 媲美 405B 性能



美东时间12月6日,Meta 在 X 平台公布推出最新开源大型语言模型 Llama-3.3-70B
Llama 3.3 采用优化的 transformer 架构,融合了监视式微调(SFT)和基于人类反馈的强化学习(RLHF)等先辈技术。支持 128K tokens的上下文长度,约等于 400 页文本。
在多个行业基准测试中,Llama-3.3-70B 的体现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。
虽然 Llama 3.3 只有 700亿 参数,但在性能上已与参数到达 4050亿 的 Llama 3.1 相当,而推理、摆设本钱却降低了很多。例如,输入本钱降低了 10 倍,输出本钱降低了近 5 倍。

Llama 3.3 性能体现
具体来看:


  • 指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,Llama-3.3-70B 都超过了 Llama-3.1-405B。
  • 语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,Llama-3.3-70B 也和 Llama-3.1-405B 比力接近。
  • 工具使用(BFCL)上,Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。


与前代模型相比,Llama 3.3 对硬件资源的要求大幅降低。例如,在推理过程中,Llama 3.3 的 GPU 内存需求最低仅为 4GB,而 Llama 3.1 则需高达 1944GB。这一改进不但让中小型开发者能够负担起运行本钱,也大幅淘汰了 AI 模型的摆设复杂性。
目前 Llama 3.3 支持 8 种语言,包罗英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)
多语言推理测试(MGSM)中的正确率到达 91.1%,充实证明了其在跨语言对话与推理任务中的优势。
Llama 3.3 采用 128k 长上下文窗口,可处理大规模文本任务,实用于多种实际场景。


  • 对话式AI
  • 合成数据天生
  • 多语言处理
  • 研究与创新应用
Llama-3.3-70B 采用了先辈的后练习技术,通过整合分组查询留意力(GQA)机制,Llama 3.3 提拔了推理时的可扩展性和性能,进一步优化了模型的应用能力。




  • 模型文件:huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Meta 已通过 Hugging Face、GitHub 等平台提供 Llama 3.3 的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。

02 谷歌新一代视觉语言模型PaliGemma 2,能辨认人类感情!



12月6日,谷歌发布了新一代视觉语言模型(VLM) PaliGemma 2,并宣称该模型具有情感辨认的能力。谷歌表示,PaliGemma 2 不但能够分析图像并天生详细的图片描述,还能辨认图像中人物的情感状态。




  • 技术陈诉:https://arxiv.org/pdf/2412.03555

PaliGemma 2 架构
PaliGemma 2 结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。
具体来看,PaliGemma 2 基于双塔设计(Vision 和 Language 模块)的架构:


  • 视觉模块(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块天生特定的嵌入(embedding),终极提取图像的团体语义。
  • 语言模块(Language Tower):这是一个基于 Gemma 模型的解码器结构,专注于天生与输入内容相关的文本。


PaliGemma 2 引入了一个特殊功能,即情感辨认。这个功能允许模型天生详细且与上下文相关的图片说明,涵盖动作、情感以及团体场景的叙述。


PaliGemma 2 提供了 3B、10B 和 28B 参数的预练习版本,支持多种输入分辨率,实用于多种下游任务。


  • 医学影像分析:自动分析和解读各种影像数据,天生医学陈诉。
  • 化学与药物研发:辨认和剖析化学公式、分子结构。
  • 自动化内容天生:根据图像天生描述、标题或文章。
  • 教育与培训:提供互动式学习工具。
  • 电商与客户服务:分析产品图像并天生描述。
  • 智能监控与安防:实时监控安全视频,辨认非常举动。
  • 创意与艺术天生:根据图像天生艺术性的文本描述或创意内容。


PaliGemma 2 允许重新分发、商业使用、微调和创建模型衍生品。
与初代模型相比,PaliGemma 2 更为强大,支持长文本字幕天生,而且在辨认曲谱、化学公式、空间推理和胸部 X 光陈诉天生方面体现更佳
PaliGemma 2 与其他主流多模态模型的对比:



03 Fish Audio 发布 Fish Speech 1.5 新增5种语言,将上线实时无缝对话功能





  • 官网地址:https://fish.audio/zh-CN/
  • 项目地址:https://github.com/fishaudio/fish-speech
近来,Fish Audio 发布 Fish Speech 1.5,这款全新的语音合成模型(TTS)在正确性、稳定性和跨语言能力上,取得了显著进步。
Fish Speech 1.5 不但支持五种新增语言,还具备实时无缝对话功能,用户可以更方便地进行互动。
Fish Speech 1.5 的语音克隆功能延长时间不到 150 毫秒。
Fish Speech 1.5 经过超过 100 万小时的多语言练习,能够天生高质量的语音合成输出,并在匿名 TTS-Arena 中获得第二名的好成绩(以「Anonymous Sparkle」身份)。



Fish Speech 1.5 重要特点:


  • 零样本和少样本语音合成:只需 10 到 30 秒的声音样本即可天生高质量语音。
  • 多语言 & 跨语言支持:支持多达 13 种语言,包罗 英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语等,突破语言障碍!
  • 无音素依赖:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何笔墨表示的语言。
  • 高正确率:在 5 分钟的英文文本上,到达了约 2% 的 CER(字符错误率)和 WER(词错误率)。
  • 快速:通过 fish-tech 加快,在 Nvidia RTX 4060 条记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。


官方也提供了两种可以体验 Fish Speech 1.5 的体验站点。

  • 第一个就是已上线的官网首页 fish.audio,特殊多人在用。
  • 其次是在抱抱脸(HuggingFace)上摆设的简易版。


欢迎各位关注我的微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、口试经验、AI最新技术资讯。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

张裕

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表