【人工智能学习笔记】2_数据处理底子

水军大提督  金牌会员 | 2024-9-12 03:48:21 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 528|帖子 528|积分 1584

数据的概述

数据(Data)的定义



  • 用于表示客观事物的未经加工的原始素材
  • 不但指狭义上的数字,也只具有一定意义的文字、字母、数字符号的组合
  • 客观事物的属性、数量、位置及其相互关系的抽象表示
在计算机科学与技术范畴中,数据是指齐备可以或许输入计算机中,且能被计算机程序所处理的符号的总称
数据类别



  • 按字段分类(最基本)

  • 按数据结构范例分类(较为紧张)

数据收罗


  • 数据收罗的定义

    • 又称数据获取
    • 指利用装置从体系外部收罗数据并输入到体系内部的技术
    • 对数据举行抽取、转换、加载利用
    • 目的是获取数据


  • 数据收罗的4种常用方法
    根据数据源的物理性子及数据分析的目的,用采取差别的数据收罗方法

数据可视化

借助于图形化手段对数据加以表明

绘图方法
  1. plt.hist(x, bins=10)#直方图
  2. #x是一维数组
  3. #bins代表直方图中的箱子数量,默认是10
  4. plt.hist(x, y)#折线图
  5. #数据可以列表或数组
  6. plt.scatter(x, y)#散点图
  7. #x,y表示长度相同的数组
  8. plt.pie(x,explode=None,labels=None)#饼状图
  9. #x:表示每个扇形的面积
  10. #explode:表示各个扇形之间的间隔
  11. #Labels:列表,各个扇形的标签
复制代码
箱线图
用作显示一组数据分散情况资料的统计图
能显示出一组数据的最大值、最小值、中位数、及上下四分位数
  1. plt.boxplot(x, labels=None)
  2. #x:表示每个需要绘制的数据
  3. #Labels:列表,箱型线的标签
复制代码

数据标注

数据标注概述及紧张性

概念:通过分类、画框、标注等对语音、图片、文本数据举行处理。提高练习的正确度
标注分类:语音标注、图片标注、文本标注等
具体方法:通过画框描点等方法对数据打标签,给后续处理提供练习信息
应用场景:语音辨认、无人驾驶、证件辨认等场景
紧张性:正确性、数量影响数据集的质量
多范例数据的标注方法及标准



  • 图像的标注方法

    图像的标注类别


    常用的的图像标注工具

    图像标注的质量标准

  • 文本的标注类别

    文本的标注质量

  • 语音的标注类别
    对语音对应的文本信息举行关联,常用于语音辨认、实时翻译等范畴
    语音标注工具主要用于对数字化的语音信号举行分析、标注、处理及合成

    语音标注的质量标准
    数据标注的常用文件格式


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

水军大提督

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表