【音频辨认】数据集合集!

打印 上一主题 下一主题

主题 1057|帖子 1057|积分 3175

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本文将为您先容经典、热门的数据集,盼望对您在选择适合的数据集时有所帮助。
1
Chenyme-AAVT


  • 更新时间:2024-08-23
  • 访问地址: GitHub
  • 形貌:
    这是一个全自动(音频)视频翻译项目。利用Whisper辨认声音,AI大模子翻译字幕,最后归并字幕视频,生成翻译后的视频。还可以自动化生成营销图文、对字幕单独翻译。
  • 数据集网址:
    https://github.com/Chenyme/Chenyme-AAVT

2
Seal-UniPlugin-Demo


  • 更新时间:2024-10-28
  • 访问地址: GitHub
  • 形貌:
    跨平台Office文档、图片在线预览,音视频播放原生插件Seal-OfficeOnline【非X5离线、组件嵌入、水印、WPS预览编辑】。百度OCR笔墨辨认、证卡辨认、单子辨认原生插件Seal-OCR。百度语音在线辨认原生插件Seal-VoiceASR。
  • 数据集网址:
    https://github.com/silianpan/Seal-UniPlugin-Demo

3
Minerva


  • 更新时间:2024-05-23
  • 访问地址: GitHub
  • 形貌:
    Minerva是一个便捷的音频工具,支持快速举行录音(PCM/MP3/WAV)和VAD端点检测辨认,并生存活动语音。
  • 数据集网址:
    https://github.com/LZ9/Minerva

4
voice_translation


  • 更新时间:2024-06-06
  • 访问地址: GitHub
  • 形貌:
    该开源项目旨在提供一个能够自动检测并辨认中文语音的模子,支持wav、mp4、m4a等格式的音频文件上传。无论是从录音装备中获取的wav文件,还是从视频中提取的mp4、m4a文件,我们的模子可以准确辨认其中的中文笔墨内容。通过集成开始进的语音辨认技术和深度学习算法,我们的模子能够快速、准确地将声音转换为笔墨,为用户提供便捷的语音辨认体验。
  • 数据集网址:
    https://github.com/zxx1218/voice_translation

5
LLM-Ceping


  • 更新时间:2024-11-20
  • 访问地址: GitHub
  • 形貌:
    全方位大模子评测知识库 | 提示词工程(Prompt Engineer)、各渠道大模子榜单(LeaderBoard)、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音辨认、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科测验、医学、信息学、心理学、指代消解、常识推理、知识问答...
  • 数据集网址:
    https://github.com/AI-Ceping/LLM-Ceping

6
ModuleDevelop


  • 更新时间:2024-05-22
  • 访问地址: GitHub
  • 形貌:
    Android原生开辟apicloud的自定义模块。其中包罗:NFC高频模块对15.6mhz的读取,单次可读单块或四块;UHF超高频模块可读可写,也可startActivity开启测试页面。新增语音叫醒+辨认模块,历程保卫模块,消息关照模块。
  • 数据集网址:
    https://github.com/yuanbao15/ModuleDevelop

7
meeting_system_backend


  • 更新时间:2024-05-09
  • 访问地址: GitHub
  • 形貌:
    一个基于Vue3&Springboot&Tensorflow的音视频会议体系(毕业筹划),音视频框架采用WebRTC。通过人脸辨认实现拍照登录和入会身份检验。
  • 数据集网址:
    https://github.com/xyongfeng/meeting_system_backend

8
SubGenie


  • 更新时间:2024-06-29
  • 访问地址: GitHub
  • 形貌:
    SubGenie是一个开源工具,整合了YouTube视频下载,语音辨认,字幕翻译等功能,主要用于为视频生成双语字幕。
  • 数据集网址:
    https://github.com/1e0nhardt/SubGenie

9
upai


  • 更新时间:2024-06-03
  • 访问地址: GitHub
  • 形貌:
    ymupai 是一款 Windows 平台的 语音辨认 和 字幕生成 以及 音频/视频处理 软件。
    主要特性:
    语音辨认:支持从种视频文件、音频文件中提取语音信息并举行语音辨认;支持及时从体系麦克风中吸收语音数据并举行语音辨认
    语音转录:支持及时语音转录,基于麦克风及时输入的音频数据转录为文本字幕信息
    字幕生成:支持将语音辨认生成的文本数据,基于第三方API举行文本翻译,生成双语字幕数据,并举行同步播放展示
    音视频处理:支持对音视频文件举行播放、格式转换、视频截图等操纵
    一键自动化处理:导入音视频文件,配置字幕参数,即可一键生成双语字幕数据
    批量任务处理:支持批量举行字幕生成,可一次导入多个音视频文件,批量举行语音辨认、字幕生成操纵
    硬件加速:数据处理支持CPU加速和GPU加速。对于安装有Nvidia系列GPU的Windows PC,支持基于Nvidia CUDA的GPU加速;对于未安装Nvidia GPU的Windows PC,支持基于OpenVINO的CPU加速
  • 数据集网址:
    https://github.com/ymtagi/upai

10
qtasr_demo


  • 更新时间:2024-11-16
  • 访问地址: GitHub
  • 形貌:
    一个采集麦克风音频,并举行波形图显示与及时语音辨认的demo。
  • 数据集网址:
    https://github.com/echcz/qtasr_demo

END
 温馨  小贴士
如有您想了解的盘算机方向数据集
请接洽我们
免费为您提供数据集搜索服务

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王國慶

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表