呆板学习-数据标注(二)

打印 上一主题 下一主题

主题 1021|帖子 1021|积分 3063

1、数据标注

数据尺度是通过分类、画框、标注、注释等,对图片、语音 、文本等数据进行处置惩罚,标记对象的特性,以作为呆板学习底子素材的过程。
1.1、数据标注几个根本概念

1.1.1、标签

重要是标识数据的特性、类别和属性等。
1.1.2、标注任务

是指按照数据标注规范对数据集进行标注的过程。
1.1.3、数据标注员

负责对文本、图像、语音、视频等标注数据进行归来、整理、编辑、标记和讲明。
1.1.4、标注工具

完成标注任务产生标注结果所需要的工具和软件。
2、数据标注根本流程

数据采集——》数据清洗——》数据标注——》数据质检
2.1、文本标注

偏重于对文本数据进行处置惩罚,包括实体识别、情感分析、关键词提取等任务。
2.2 文本数据标注分类

2.2.1 序列标注

是一个比力简单的NLP任务,但也可以称作是最底子的任务是一个比力简单的NLP任务。
包括对词性(名词、动词、形容词等)、实体(人名、地名&机构名)、关键词抽取、韵律(句子中字词之间的停顿)、意图明白等。
2.2.1 关系标注:

是对复句的句法关联和语义关联做出重要标注的一种任务,是复句自动分析的情势标记。

包括指向关系、修饰关系、平行语料等。
2.2.1 属性标注:

是对事物属性进行标签,属性标注包括:文本类别、新闻、娱乐等。
2.2、语音标注

语音数据标注的常见类型:ASR语音识别,TTS语音转写。
2.2.1、ASR语音识别

ASR语音识就是将音频中的内容转写为对应的文本,并选择相关的标签
而且可根据提供的语音数据进行精确转录。

2.2.1、TTS语音转写

TTS语音转写就是将计算机生成的文本信息转换为语音,对声母、韵母多音字等进行标注。

2.3、图像标注

图像标注类型包括:拉框、语义分割、实例分割、 目的检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。
2.3.1 拉框


2.3.2 地域标注

地域标注通过对图像中的特定地域进行标注,这些地域可能基于某种特性或属性进行分别。标注的结果可能是简单的矩形框、多边形或其他形状,用于表现图像中的感爱好地域。通常输出的是标注地域的形状、位置和大小等信息,这些信息以某种格式(如JSON、XML等)进行存储和传输。语义分割和实例分割都是地域标注的两种情势。
例如:人行道、隔离带、可行驶地域、不可行驶地域、缓冲区等。
2.3.2.1 语义分割:

是标记图像中存在的内容及位置,根据属性进行像素级分割,支持单属性 、多级属性。它关注的是像素级别的分类,将图像分别为差别的语义类别,不区分同一类别内的差别实例‌。

2.3.2.2 实例分割:

图像分割一种子类,它在像素级别上标识图像中每个物体的每个实例,实例 分割和语义分割是图像分割的两种粒度级别之一。实例分割的目的是在语义分割的底子上进一步区分同一类别内的差别实例。

2.3.3 目的检测:

支持任务ID追踪、视频轨迹追踪、截取视频关键帧标注,在每一帧图片中将目的物体标注出来,进而形貌它们的运动轨迹,这类标注常应用于训练自动驾驶模型以及视频识别模型。

2.3.4 图像分类:

目的属性,对图像分别到差别分类。
2.3.5 关键点标注

关键点标注是指通过人工的方式,在规定位置标注上关键点,例如人脸特性点、人体骨骼毗连点等,常用来训练面部识别模型以及统计模型。

2.3.6 线段标注

支持贝塞尔曲线和普通线段标注,支持对车道线进行贝塞尔曲线标注,使用线段将图像目的的边沿、轮廓用线段标注。

2.3.7 OCR转写

OCR转写是对图像中的文字内容进行标记与转写,资助训练和完善图片与文本识别模型。

2.3.8 点云标注

是指三维数据的一种重要表达方式,通过激光雷达等传感器,能够采集到各类障碍物以及其位置坐标,而标注员则需要将这些麋集的点云分类,并标注上差别属性,常应用于自动驾驶范畴。

2.3.9 属性判断

是指通过人工或呆板配合的方式,识别出图像中的目的物体,并将其标注上对应属性。

2.4、常用数据标注工具

文本标注工具:labelme
图像标注工具:labelImg
数据集标注软件:精灵标注助手

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

滴水恩情

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表