论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
PhoWhisper:越南语自动语音识别的强盛工具 ...
PhoWhisper:越南语自动语音识别的强盛工具
火影
论坛元老
|
2025-4-17 15:58:12
|
显示全部楼层
|
阅读模式
楼主
主题
1831
|
帖子
1831
|
积分
5493
PhoWhisper:越南语自动语音识别的强盛工具
PhoWhisper PhoWhisper: Automatic Speech Recognition for Vietnamese (2024)
项目地址: https://gitcode.com/gh_mirrors/ph/PhoWhisper
项目介绍
PhoWhisper是一款针对越南语设计的自动语音识别(Automatic Speech Recognition,简称ASR)开源项目。它通过精细调整多语言Whisper模型,在包含多种越南口音的844小时数据集上训练,达到了卓越的性能表现。PhoWhisper不但在技能层面上取得了显著成果,而且已经在多个越南语ASR数据集上的基准测试中展现了其领先的技能程度。
项目技能分析
PhoWhisper的核心是基于Whisper模型进行的深度定制和优化。Whisper模型是由OpenAI开发的多语言自动语音识别模型,以其强盛的性能和机动性而著名。PhoWhisper通过以下技能手段实现了对Whisper模型的优化:
数据集的多样性
:项目利用了包含多种越南口音的844小时数据集,确保了模型在不同环境下的鲁棒性。
精细调校
:通过对Whisper模型进行精细调校,PhoWhisper能够更好地顺应越南语的特点。
多种模型版本
:PhoWhisper提供了从tiny到large的多种版本,以满足不同场景下对性能和资源的需求。
项目及技能应用场景
PhoWhisper的应用场景广泛,以下是一些典型的应用案例:
语音助手
:集成PhoWhisper的语音助手可以更好地理解和相应越南语用户的需求。
及时翻译
:在跨国交流中,PhoWhisper可以帮助实现越南语与其他语言的及时翻译。
语音转文字
:在会议记录、字幕制作等范畴,PhoWhisper可以将越南语语音转换为正确无误的文字。
项目特点
1. 多版本支持
PhoWhisper提供了不同规模的模型,以满足不同场景下的需求。以下是各个版本的简要描述:
vinai/PhoWhisper-tiny:轻量级模型,适用于资源受限的环境。
vinai/PhoWhisper-base:根本模型,平衡了性能和资源消耗。
vinai/PhoWhisper-small:中等规模模型,提供了更高的性能。
vinai/PhoWhisper-medium:较大规模模型,适用于需要高精度的场景。
vinai/PhoWhisper-large:最大规模模型,提供了最高的识别精度。
2. 优秀的性能
在多个越南语ASR数据集上的基准测试中,PhoWhisper展现出了卓越的性能。以下是一些性能指标:
| 模型 | 参数目 | CMV–Vi | VIVOS | VLSP 2020 Task-1 | VLSP 2020 Task-2 | |---|---|---|---|---|---| | vinai/PhoWhisper-tiny | 39M | 19.05 | 10.41 | 20.74 | 49.85 | | vinai/PhoWhisper-base | 74M | 16.19 | 8.46 | 19.70 | 43.01 | | vinai/PhoWhisper-small | 244M | 11.08 | 6.33 | 15.93 | 32.96 | | vinai/PhoWhisper-medium | 769M | 8.27 | 4.97 | 14.12 | 26.85 | | vinai/PhoWhisper-large | 1.55B | 8.14 | 4.67 | 13.75 | 26.68 |
3. 易于部署和利用
PhoWhisper的部署和利用非常简朴。以下是一个利用transformers库调用PhoWhisper模型的基本示例:
from transformers import pipeline
transcriber = pipeline("automatic-speech-recognition", model="vinai/PhoWhisper-small")
output = transcriber(path_to_audio_with_sampling_rate_16kHz)['text']
复制代码
4. 开源和可扩展
作为开源项目,PhoWhisper的代码和模型可以被任何人自由利用和修改,为开发者提供了极大的机动性和扩展性。
总结来说,PhoWhisper是一款功能强盛、性能卓越的越南语自动语音识别工具,适用于多种场景,并且易于部署和利用。对于从事越南语语音识别相关工作的开发者来说,PhoWhisper无疑是一个值得尝试和利用的开源项目。
PhoWhisper PhoWhisper: Automatic Speech Recognition for Vietnamese (2024)
项目地址: https://gitcode.com/gh_mirrors/ph/PhoWhisper
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
火影
论坛元老
这个人很懒什么都没写!
楼主热帖
最全Windows98原版系统镜像下载(特点 ...
如何配置 SLO
Linux 基本指令
SAP各模块优缺点和发展简析
Spring(SpringBoot)--解决拦截器中注入 ...
Redis 原理 - String
软件项目管理 4.3.敏捷需求建模方法 ...
Spring Security登录表单配置(3) ...
微信小程序+web数据库的开发实践 ...
Kubernetes(k8s)CNI(flannel)网络 ...
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表