【音频辨认】数据集合集！

王國慶 · 2024-12-8 03:00:02

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

本文将为您先容经典、热门的数据集，盼望对您在选择适合的数据集时有所帮助。
1
Chenyme-AAVT

更新时间：2024-08-23
访问地址: GitHub
形貌：
这是一个全自动（音频）视频翻译项目。利用Whisper辨认声音，AI大模子翻译字幕，最后归并字幕视频，生成翻译后的视频。还可以自动化生成营销图文、对字幕单独翻译。
数据集网址：
https://github.com/Chenyme/Chenyme-AAVT

2
Seal-UniPlugin-Demo

更新时间：2024-10-28
访问地址: GitHub
形貌：
跨平台Office文档、图片在线预览，音视频播放原生插件Seal-OfficeOnline【非X5离线、组件嵌入、水印、WPS预览编辑】。百度OCR笔墨辨认、证卡辨认、单子辨认原生插件Seal-OCR。百度语音在线辨认原生插件Seal-VoiceASR。
数据集网址：
https://github.com/silianpan/Seal-UniPlugin-Demo

3
Minerva

更新时间：2024-05-23
访问地址: GitHub
形貌：
Minerva是一个便捷的音频工具，支持快速举行录音（PCM/MP3/WAV）和VAD端点检测辨认，并生存活动语音。
数据集网址：
https://github.com/LZ9/Minerva

4
voice_translation

更新时间：2024-06-06
访问地址: GitHub
形貌：
该开源项目旨在提供一个能够自动检测并辨认中文语音的模子，支持wav、mp4、m4a等格式的音频文件上传。无论是从录音装备中获取的wav文件，还是从视频中提取的mp4、m4a文件，我们的模子可以准确辨认其中的中文笔墨内容。通过集成开始进的语音辨认技术和深度学习算法，我们的模子能够快速、准确地将声音转换为笔墨，为用户提供便捷的语音辨认体验。
数据集网址：
https://github.com/zxx1218/voice_translation

5
LLM-Ceping

更新时间：2024-11-20
访问地址: GitHub
形貌：
全方位大模子评测知识库 | 提示词工程（Prompt Engineer）、各渠道大模子榜单（LeaderBoard）、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音辨认、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科测验、医学、信息学、心理学、指代消解、常识推理、知识问答...
数据集网址：
https://github.com/AI-Ceping/LLM-Ceping

6
ModuleDevelop

更新时间：2024-05-22
访问地址: GitHub
形貌：
Android原生开辟apicloud的自定义模块。其中包罗：NFC高频模块对15.6mhz的读取，单次可读单块或四块；UHF超高频模块可读可写，也可startActivity开启测试页面。新增语音叫醒+辨认模块，历程保卫模块，消息关照模块。
数据集网址：
https://github.com/yuanbao15/ModuleDevelop

7
meeting_system_backend

更新时间：2024-05-09
访问地址: GitHub
形貌：
一个基于Vue3&Springboot&Tensorflow的音视频会议体系（毕业筹划），音视频框架采用WebRTC。通过人脸辨认实现拍照登录和入会身份检验。
数据集网址：
https://github.com/xyongfeng/meeting_system_backend

8
SubGenie

更新时间：2024-06-29
访问地址: GitHub
形貌：
SubGenie是一个开源工具，整合了YouTube视频下载，语音辨认，字幕翻译等功能，主要用于为视频生成双语字幕。
数据集网址：
https://github.com/1e0nhardt/SubGenie

9
upai

更新时间：2024-06-03
访问地址: GitHub
形貌：
ymupai 是一款 Windows 平台的语音辨认和字幕生成以及音频/视频处理软件。
主要特性：
语音辨认：支持从种视频文件、音频文件中提取语音信息并举行语音辨认；支持及时从体系麦克风中吸收语音数据并举行语音辨认
语音转录：支持及时语音转录，基于麦克风及时输入的音频数据转录为文本字幕信息
字幕生成：支持将语音辨认生成的文本数据，基于第三方API举行文本翻译，生成双语字幕数据，并举行同步播放展示
音视频处理：支持对音视频文件举行播放、格式转换、视频截图等操纵
一键自动化处理：导入音视频文件，配置字幕参数，即可一键生成双语字幕数据
批量任务处理：支持批量举行字幕生成，可一次导入多个音视频文件，批量举行语音辨认、字幕生成操纵
硬件加速：数据处理支持CPU加速和GPU加速。对于安装有Nvidia系列GPU的Windows PC，支持基于Nvidia CUDA的GPU加速；对于未安装Nvidia GPU的Windows PC，支持基于OpenVINO的CPU加速
数据集网址：
https://github.com/ymtagi/upai

10
qtasr_demo

更新时间：2024-11-16
访问地址: GitHub
形貌：
一个采集麦克风音频，并举行波形图显示与及时语音辨认的demo。
数据集网址：
https://github.com/echcz/qtasr_demo

END
温馨小贴士
如有您想了解的盘算机方向数据集
请接洽我们
免费为您提供数据集搜索服务

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【音频辨认】数据集合集！

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云