数据的概述
数据(Data)的定义
- 用于表示客观事物的未经加工的原始素材
- 不但指狭义上的数字,也只具有一定意义的文字、字母、数字符号的组合
- 客观事物的属性、数量、位置及其相互关系的抽象表示
在计算机科学与技术范畴中,数据是指齐备可以或许输入计算机中,且能被计算机程序所处理的符号的总称
数据类别
- 按字段分类(最基本)
- 按数据结构范例分类(较为紧张)
数据收罗
- 数据收罗的定义
- 又称数据获取
- 指利用装置从体系外部收罗数据并输入到体系内部的技术
- 对数据举行抽取、转换、加载利用
- 目的是获取数据
- 数据收罗的4种常用方法
根据数据源的物理性子及数据分析的目的,用采取差别的数据收罗方法
数据可视化
借助于图形化手段对数据加以表明
绘图方法
- plt.hist(x, bins=10)#直方图
- #x是一维数组
- #bins代表直方图中的箱子数量,默认是10
- plt.hist(x, y)#折线图
- #数据可以列表或数组
- plt.scatter(x, y)#散点图
- #x,y表示长度相同的数组
- plt.pie(x,explode=None,labels=None)#饼状图
- #x:表示每个扇形的面积
- #explode:表示各个扇形之间的间隔
- #Labels:列表,各个扇形的标签
复制代码 箱线图
用作显示一组数据分散情况资料的统计图
能显示出一组数据的最大值、最小值、中位数、及上下四分位数
- plt.boxplot(x, labels=None)
- #x:表示每个需要绘制的数据
- #Labels:列表,箱型线的标签
复制代码
数据标注
数据标注概述及紧张性
概念:通过分类、画框、标注等对语音、图片、文本数据举行处理。提高练习的正确度
标注分类:语音标注、图片标注、文本标注等
具体方法:通过画框描点等方法对数据打标签,给后续处理提供练习信息
应用场景:语音辨认、无人驾驶、证件辨认等场景
紧张性:正确性、数量影响数据集的质量
多范例数据的标注方法及标准
- 图像的标注方法
图像的标注类别
常用的的图像标注工具
图像标注的质量标准
- 文本的标注类别
文本的标注质量
- 语音的标注类别
对语音对应的文本信息举行关联,常用于语音辨认、实时翻译等范畴
语音标注工具主要用于对数字化的语音信号举行分析、标注、处理及合成
语音标注的质量标准
数据标注的常用文件格式
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |