马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
AudioSet 是由 Google 研究团队开辟的一个大规模的音频事件识别数据集,它定义了一个层级化的本体(ontology),用于对音频事件举行分类。它包含了丰富的音频种别,每个种别都有其唯一的标识符(ID)。 这些标识符通常基于知识图谱中的,特别是与 Freebase 和 Wikidata 如许的知识库相关联。
1. AudioSet 本体的定义
文件 ontology.json 包含了当前 AudioSet 本体的定义,它是一组音频事件种别的层级结构。
该 JSON 文件描述了一系列声音实体对象的列表。每个对象包含以下字段:
id:此种别的呆板标识符,像 /m/0dgw9r 如许的短序列。尽可能地,这些基于知识图谱 ID,最初在 Freebase 中利用。
name:指代此种别的表现名称。应该是独特且明确的。几个种别在其表现名称中包含了一个或多个同义词,比方 "Male speech, man speaking"(男性语音,男人说话)。
description:用几行字描述此种别的描述。
citation_uri:指向用作描述根本的任何文本的指针。通常指向维基百科页面。
positive_examples:YouTube 文件中片断的紧凑 URL 列表,这些片断提供了此种别的确认示例。每个条目都是 youtu.be/8uI9H5jGRV8?start=30&end=40 如许的形式,意味着示例是 YouTube 视频中 ID 为 8uI9H5jGRV8 的视频从第 30 秒开始的 10 秒段。
child_ids:此种别在种别层级中子种别的 id 字段列表。
restrictions:可能包含以下值的列表:
abstract 用于重要作为层级结构中的容器的种别,但自己不会有任何明确的示例。"Human voice"(人类语音)是一个抽象种别。抽象种别总会有子种别。
blacklist 用于临时被清除在评级之外的种别。这些是我们发现对于评估者来说标记不够可靠,或者我们难以找到候选者,或者我们决定出于其他原因从标记中删除的种别。
该本体由 Google Inc. 在创作共用署名-相同方式共享 4.0 国际 (CC BY-SA 4.0) 允许下提供。
2. 声音实体对象
在 AudioSet 数据集中,声音实体对象是指具有特定属性和标签的音频片断。每个声音实体对象通常包含以下信息:
- ID:这是音频片断的唯一标识符,通常是一个简短的序列,如 "/m/0dgw9r"。这个 ID 基于知识图谱的 ID,可能泉源于像 Freebase 如许的数据库。
- Name:这是音频种别的表现名称,它应该是独特且明确的,以便用户可以或许容易地识别和引用。有些种别可能有多个同义词,这些同义词可能会包含在表现名称中,比方 "Male speech, man speaking"(男性语音,男人说话)。
- Description:这是对音频种别的简短描述,用几行文字描述该种别的特点。
- Citation URI:这是一个指向描述根本文本的指针,通常指向维基百科或其他可靠泉源的页面。
- Positive Examples:这是一组紧凑的 URL 列表,指向 YouTube 视频中的特定片断,这些片断提供了该音频种别的确认示例。每个条目都接纳 youtu.be/8uI9H5jGRV8?start=30&end=40 的形式,意味着示例是 YouTube 视频 ID 为 8uI9H5jGRV8 的视频中从第 30 秒开始的 10 秒段。
- Child IDs:如果该种别在层级结构中有子种别,这个字段将列出子种别的 ID。
- Restrictions:这可能包罗一些限制条件,比方:
- Abstract:表示该种别重要是层级结构中的一个容器,但自己不会有任何明确的示例。"Human voice"(人类语音)可能是一个抽象种别。抽象种别总会有子种别。
- Blacklist:表示该种别临时被清除在评级之外,这些种别可能因为对评估者来说标记不够可靠,或者难以找到候选者,或者由于其他原因被决定从标记中删除。
这些声音实体对象的定义和属性有助于构建一个层级化和有构造的音频事件本体,这在音频识别和声音分析的研究中非常重要。通过这些详细的信息,研究职员可以更好地明白和分类差别的音频事件,并在他们的模型中利用这些数据。
3.AudioSet 本体与声音实体对象
AudioSet 本体是一个条理化的声音事件分类系统,它提供了一个结构化的框架来描述和分类各种声音事件。声音实体对象则是这个本体中的个体成员或实例,每个对象对应一个具体的声音种别。它们之间的关系可以如许明白:
- 本体作为框架:AudioSet 本体定义了一个分类体系,其中包罗了差别层级的声音种别。这个体系类似于一个树状结构,其中每个节点代表一个声音种别,而节点之间的连接表示种别之间的层级关系。
- 声音实体对象作为实例:在 AudioSet 本体中,每个声音实体对象代表一个特定的声音种别,比方“鸟鸣”或“汽车引擎声”。这些对象是本体分类体系中的具体实例。
- 条理化关系:声音实体对象在本体中按照条理化结构构造。一些对象可能是更广泛种别的子种别(比方,“人类语音”下可能有“男性语音”和“女性语音”等子种别)。
- 属性和标签:每个声音实体对象都有一组属性,如 ID、名称、描述、示例链接等,这些属性提供了关于声音种别的详细信息。本体则通过这些属性来定义和区分差别的实体对象。
- 抽象与具体:在本体中,某些声音实体对象可能被标记为抽象种别,这意味着它们作为分类体系中的容器存在,不肯定有直接的音频示例,而是用于构造更具体的子种别。
- 分类和检索:本体提供了一种方法来分类和检索声音实体对象。研究职员可以利用本体的结构来查找特定范例的声音事件,或者根据声音实体对象的属性来筛选和分析数据。
- 数据集构建:AudioSet 数据集的构建基于这个本体结构。数据集中的音频片断被标注为属于某个声音实体对象,从而将实际的音频数据与本体中的分类体系相连接。
总之,AudioSet 本体提供了一个全面的分类体系,而声音实体对象是这个体系中的具体声音种别。通过本体的结构,研究职员可以系统地研究、分类和分析各种声音事件。
4.唯一标识符(ID)
唯一标识符(ID)在 AudioSet 本体中为每个音频事件种别和子种别提供了一种独特和一致的识别方式。以下是关于这些唯一标识符的详细阐明:
- 格式:
唯一标识符通常接纳类似于 /m/0dgw9r 的格式,其中 m 可能代表“种别(multiple)”,而后面的 0dgw9r 是一个简短的、系统生成的代码。
- 基于知识图谱:
这些 ID 通常基于知识图谱中的 ID,这意味着它们与更广泛的知识体系相连,如 Google 的 Knowledge Graph 或 Freebase。
- 唯一性:
每个音频事件种别和子种别都有一个独一无二的 ID,这有助于在数据集中正确地引用和识别特定的音频种别。
- 层级结构:
ID 可以反映种别之间的层级关系,其中更广泛的种别可能有更简朴的 ID,而子种别则有更具体的 ID。
- 尺度化:
利用尺度化的 ID 有助于确保数据的一致性,这对于大型数据集和本体尤其重要。
- 易于集成:
基于知识图谱的 ID 易于与其他系统和数据库集成,便于数据共享和分析。
- 搜刮和过滤:
唯一标识符使得研究职员和开辟者可以或许轻松地搜刮和过滤特定的音频种别,从而在数据分析和呆板学习模型练习中利用。
- 更新和维护:
当本体中的种别必要更新或维护时,唯一标识符有助于跟踪变更并确保数据的正确性。
- 社区和研究:
唯一标识符为研究社区提供了一个共同的语言和参考框架,便于学术交流和协作。
- 示例:
比方,/m/05r5c 可能代表“钢琴声音”,而 /m/09x0r 可能代表“男性语音”。
这些唯一标识符是 AudioSet 本体构造结构的核心部门,它们使得音频事件的分类和识别在研究和应用中更加高效和精确。
5.知识图谱中的 ID
AudioSet 中的种别 ID 通常基于知识图谱中的 ID,如许的设计有若干重要的寄义和好处:
- 互操纵性:基于知识图谱的 ID 允许 AudioSet 与其它利用相同知识图谱的数据集或系统举行互操纵。这意味着 AudioSet 的数据可以轻松地与其他范畴的数据集成和关联。
- 尺度化:利用知识图谱 ID 为 AudioSet 提供了一种尺度化的方法来标识和分类音频事件,这有助于保持数据的一致性和正确性。
- 扩展性:知识图谱的结构允许新的声音种别和子种别被添加到 AudioSet 本体中,随着时间的推移和技术的发展,本体可以不绝扩展和更新。
- 丰富的元数据:知识图谱中的每个实体通常都有丰富的元数据,包罗定义、属性、关系等。这意味着 AudioSet 中的每个种别 ID 背后都有详细的背景信息。
- 语义网络:知识图谱构建了一个庞大的语义网络,其中的节点代表实体,边代表实体间的关系。AudioSet 的种别 ID 可以与这个网络中的其他实体相关联,提供更广泛的上下文信息。
- 易于明白和利用:知识图谱中的 ID 通常设计得易于人类明白和利用,同时也可以被呆板以尺度化的方式剖析和处理。
- 搜刮和发现:基于知识图谱的 ID 使得通过搜刮引擎和其他工具发现和检索 AudioSet 中的音频事件变得更加容易。
- 链接到 Freebase:Freebase 是一个由 Google 支持的协作知识图谱项目,它包含了大量的实体和关系。AudioSet 的种别 ID 链接到 Freebase,可以访问到丰富的相关信息和属性。
通过利用基于知识图谱的 ID,AudioSet 可以或许融入更广泛的数据生态系统中,这为音频事件的分类、检索和分析提供了强大的支持。
6.Freebase与Wikidata
Freebase 是一个由 Google 支持的项目,它曾经是一个庞大的协作知识图谱,包含了来自各个范畴数以百万计的实体(如人物、所在、事物)和它们之间的关系。Freebase 旨在创建一个可扩展的、结构化的在线百科全书,任何人都可以编辑和贡献内容。
当说到 AudioSet 的种别 ID 链接到 Freebase,这意味着:
- 丰富的信息:每个 AudioSet 中的声音种别 ID 可以对应到 Freebase 中的一个实体,这个实体拥有详细的描述、属性和与其他实体的关系。
- 上下文关联:通过链接,AudioSet 的声音种别可以与 Freebase 中的其它实体创建联系,好比一个声音种别可以与特定的事件、所在或人物相关联。
- 数据整合:研究职员和开辟者可以利用这些链接,将 AudioSet 数据集与 Freebase 中的数据举行整合,以获取更全面的视角。
- 易于发现:Freebase 提供了一种方式,使得用户可以通过搜刮和浏览来发现 AudioSet 中的声音种别。
- 知识共享:Freebase 的协作性子意味着知识是共享的,AudioSet 的用户可以受益于社区贡献的内容。
- 多模态数据:Freebase 不仅包含文本信息,还可能包含图片、视频等多媒体内容,这为 AudioSet 提供了丰富的多模态上下文。
- 持续更新:Freebase 是动态更新的,这意味着链接到 Freebase 的 AudioSet 可以随着 Freebase 的更新而得到最新的信息。
- 研究和应用:链接到 Freebase 的 AudioSet 种别 ID 可以为研究职员提供更深入的上下文信息,有助于音频识别、分类和检索的研究和应用。
固然 Freebase 在 2016 年停止了服务,但是 Google 将 Freebase 的数据迁移到了 Wikidata,一个由维基媒体基金会运营的免费、协作的多语言知识库。因此,纵然 Freebase 不再可用,其精神和数据仍然可以在 Wikidata 中找到。
Wikidata 是一个自由开放的知识库,可以同时被人和呆板阅读、编辑。它为其他维基媒体(Wikimedia)项目提供支持,包罗维基百科(Wikipedia)、维基导游(Wikivoyage)、维基字典(Wiktionary)、维基文库(Wikisource)等。
通过将 AudioSet 链接到 Wikidata,研究职员和开辟者可以利用 Wikidata 中的结构化数据来加强音频分析和识别任务。比方,通过 Wikidata 的数据,可以更正确地识别和分类 AudioSet 中的声音实体,因为这些实体在 Wikidata 中可能有详细的描述、属性和关系信息。
此外,由于 Wikidata 支持多语言和自由协作编辑,它为 AudioSet 提供了一个动态更新和扩展的平台,有助于丰富和完善音频事件的分类体系。通过这种链接,AudioSet 的数据可以与 Wikidata 中的其它数据集举行整合,为音频识别和声音分析的研究提供更广泛的上下文信息和支持。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |