论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
人工智能
›
人工智能
›
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能! ...
最新开源:Meta 开源 Llama 3.3:更小规模、更高性能!谷歌新一代视觉语言 ...
张裕
金牌会员
|
2025-1-8 16:53:20
|
显示全部楼层
|
阅读模式
楼主
主题
564
|
帖子
564
|
积分
1692
来源:HsuDan
0
1 Meta 开源 Llama3.3 专注文本天生,70B 媲美 405B 性能
美东时间12月6日,Meta 在 X 平台公布推出最新开源大型语言模型
Llama-3.3-70B
。
Llama 3.3
采用优化的 transformer 架构,融合了监视式微调(SFT)和基于人类反馈的强化学习(RLHF)等先辈技术。支持 128K tokens的上下文长度,约等于 400 页文本。
在多个行业基准测试中,
Llama-3.3-70B
的体现超过了谷歌的 Gemini 1.5 Pro、OpenAI 的 GPT-4o 和亚马逊的 Nova Pro,展现出了强大的竞争力。
虽然
Llama 3.3
只有 700亿 参数,但在性能上已与参数到达 4050亿 的 Llama 3.1 相当,而推理、摆设本钱却降低了很多。例如,输入本钱降低了 10 倍,输出本钱降低了近 5 倍。
Llama 3.3 性能体现
具体来看:
在
指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)
等领域,Llama-3.3-70B 都超过了 Llama-3.1-405B。
在
语言(MMLU)、代码(HumanEval)、长文本和多语种能力
上,Llama-3.3-70B 也和 Llama-3.1-405B 比力接近。
在
工具使用(BFCL)
上,Llama-3.3-70B 和 Llama-3.1-405B 的差距则显得稍大一些。
与前代模型相比,
Llama 3.3
对硬件资源的要求大幅降低。例如,在推理过程中,Llama 3.3 的 GPU 内存需求最低仅为 4GB,而 Llama 3.1 则需高达 1944GB。这一改进不但让中小型开发者能够负担起运行本钱,也大幅淘汰了 AI 模型的摆设复杂性。
目前
Llama 3.3
支持 8 种语言,包罗
英文、德语、西语、葡语、义语、法语、泰文和北印度语(Hindi)
。
在
多语言推理测试(MGSM)
中的正确率到达 91.1%,充实证明了其在跨语言对话与推理任务中的优势。
Llama 3.3
采用 128k 长上下文窗口,可处理大规模文本任务,实用于多种实际场景。
对话式AI
合成数据天生
多语言处理
研究与创新应用
Llama-3.3-70B
采用了先辈的
后练习
技术,通过整合分组查询留意力(GQA)机制,Llama 3.3 提拔了推理时的可扩展性和性能,进一步优化了模型的应用能力。
模型文件:
huggingface.co/meta-llama/Llama-3.3-70B-Instruct
Meta 已通过 Hugging Face、GitHub 等平台提供
Llama 3.3
的下载,模型采用社区许可证,用户可以合法地使用、复制、分发和修改该模型及其输出。
0
2 谷歌新一代视觉语言模型PaliGemma 2,能辨认人类感情!
12月6日,谷歌发布了新一代视觉语言模型(VLM)
PaliGemma 2
,并宣称该模型具有
情感辨认
的能力。谷歌表示,
PaliGemma 2
不但能够分析图像并天生详细的图片描述,还能辨认图像中人物的情感状态。
技术陈诉:
https://arxiv.org/pdf/2412.03555
PaliGemma 2 架构
PaliGemma 2
结合了强大的 SigLIP 图像编码器和 Gemma 2 文本解码器。
具体来看,
PaliGemma 2
基于双塔设计(Vision 和 Language 模块)的架构:
视觉模块
(Vision Tower):基于 Siglip Vision Transformer,它通过将图像分割为 14×14 的小块(称为图像 patch),并为每块天生特定的嵌入(embedding),终极提取图像的团体语义。
语言模块
(Language Tower):这是一个基于 Gemma 模型的解码器结构,专注于天生与输入内容相关的文本。
PaliGemma 2
引入了一个特殊功能,即
情感辨认
。这个功能允许模型天生详细且与上下文相关的图片说明,涵盖动作、情感以及团体场景的叙述。
PaliGemma 2
提供了 3B、10B 和 28B 参数的预练习版本,支持多种输入分辨率,实用于多种下游任务。
医学影像分析:自动分析和解读各种影像数据,天生医学陈诉。
化学与药物研发:辨认和剖析化学公式、分子结构。
自动化内容天生:根据图像天生描述、标题或文章。
教育与培训:提供互动式学习工具。
电商与客户服务:分析产品图像并天生描述。
智能监控与安防:实时监控安全视频,辨认非常举动。
创意与艺术天生:根据图像天生艺术性的文本描述或创意内容。
PaliGemma 2
允许重新分发、商业使用、微调和创建模型衍生品。
与初代模型相比,
PaliGemma 2
更为强大,支持长文本字幕天生,而且在辨认曲谱、化学公式、空间推理和胸部 X 光陈诉天生方面体现更佳
。
PaliGemma 2
与其他主流多模态模型的对比:
0
3 Fish Audio 发布 Fish Speech 1.5 新增5种语言,将上线实时无缝对话功能
官网地址:
https://fish.audio/zh-CN/
项目地址:
https://github.com/fishaudio/fish-speech
近来,Fish Audio 发布
Fish Speech 1.5
,这款全新的语音合成模型(TTS)在正确性、稳定性和跨语言能力上,取得了显著进步。
Fish Speech 1.5
不但支持五种新增语言,还具备实时无缝对话功能,用户可以更方便地进行互动。
Fish Speech 1.5
的语音克隆功能延长时间不到 150 毫秒。
Fish Speech 1.5
经过超过 100 万小时的多语言练习,能够天生高质量的语音合成输出,并在匿名 TTS-Arena 中获得第二名的好成绩(以「Anonymous Sparkle」身份)。
Fish Speech 1.5 重要特点:
零样本和少样本语音合成
:只需 10 到 30 秒的声音样本即可天生高质量语音。
多语言 & 跨语言支持
:支持多达 13 种语言,包罗
英语、日语、韩语、中文、法语、德语、阿拉伯语、西班牙语
等,突破语言障碍!
无音素依赖
:模型具备强大的泛化能力,不依赖音素进行 TTS,能够处理任何笔墨表示的语言。
高正确率
:在 5 分钟的英文文本上,到达了约 2% 的 CER(字符错误率)和 WER(词错误率)。
快速
:通过 fish-tech 加快,在 Nvidia RTX 4060 条记本上的实时因子约为 1:5,在 Nvidia RTX 4090 上约为 1:15。
官方也提供了两种可以体验
Fish Speech 1.5
的体验站点。
第一个就是已上线的官网首页 fish.audio,特殊多人在用。
其次是在抱抱脸(HuggingFace)上摆设的简易版。
欢迎各位关注我的微信公众号:
HsuDan
,我将分享更多自己的学习心得、避坑总结、口试经验、AI最新技术资讯。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
张裕
金牌会员
这个人很懒什么都没写!
楼主热帖
linux企业版火绒(火绒终端安全管理体 ...
ESP32 IDF开发 应用篇⑭ Wifi TCP客户 ...
复杂度(上卷)
AI绘画Stable Diffusion Lora模子的利 ...
LLaMa系列模子详解(原理介绍、代码解 ...
jenkins自动化部署(node服务器) ...
什么时候用C而不消C++?
Linux安装最新版Docker完整教程(建议 ...
049-WEB攻防-文件上传&存储安全&OSS对 ...
微信云小程序快速上手云数据库+云函数+ ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表