民工心事 发表于 2024-7-17 11:57:17

数据安全-分类分级 调研分析报告

前言

随着“十四五”规划推行,数据要素概念与意识全面铺开,国家、政府机构、企业数据安全意识愈发强烈。2021年9月1号,《数据安全法》正式收效,数据资产安全进入“有法可依”时代。
数据战略上升为国家战略,数据资产成为国家各行各业的焦点资产。在数字化时代,数据分类分级成为数据资产管理的重要构成部分。
一、数据分类分级概述

大数据时代,数据呈现多源异构的特点,价值各不相同,企业应根据数据的重要性、价值指数等方面予以区分,便于采取不同的数据掩护步伐,防止数据泄露。因此,数据分类分级管理是数据安全掩护中的重要环节之一。
1.数据分类

根据数据的属性及特性,将其按肯定原则和方法进行区分和归类,并创建起肯定的分类体系和排列次序的过程。数据分类肯定是以各种各样的方式并存的,不存在唯一的分类方式,分类方法的采用因管理主体、管理目标、分类属性或维度的不同而不同。

1.1 业务开展使用数据的视角– 看到的是数据的业务特性,比如某企业内有研发、制造、贩卖、人力资源等部门,大量数据的产生天然就具备业务相关的特性,很自然的数据分类方式就是按业务分类:研发数据等等
1.2 IT部门/数据管理部门视角– 关注的不是业务分工,而是数据自身在IT系统里怎样承载、管理、呈现,以是有IT/数据管理部门将数据分类为布局化、非布局化数据,主数据、交易数据、元数据等。
2.数据分级

数据分级是指按照公共数据遭到粉碎(包罗攻击、泄露、篡改、非法使用等)后对受侵害各体正当权益(国家安全、社会秩序、公共利益以及公民、法人和其他组织)的危害水平,对公共数据进行定级,为数据全生命周期管理的安全策略制定提供支持 。


[*]《数据安全法》第二十一条 国家创建数据分类分级掩护制度,根据数据在经济社会发展中的重要水平,以及一旦遭到篡改、粉碎、泄露大概非法获取、非法使用,对国家安全、公共利益大概个人、组织正当权益造成的危害水平,对数据实验分类分级掩护
[*]《GB/T 25069-2010信息安全技术术语》依据访问数据或信息需求,而确定的掩护水平,同时赋予相应的掩护品级。例:“绝密”、“机密”、“机密”
二、数据分类分级原则

数据分类分级按照数据分类管理、分级掩护的思绪,依据以下原则进行划分:

1.正当合规原则: 数据分类分级应遵照有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。
2.分类多维原则: 数据分类具有多种视角和维度,可从便于数据管理和使用角度,思量国家、行业、组织等多个视角的数据分类。
3.分级明白原则: 数据分级的目标是为了掩护数据安全,数据分级的各级别应边界明白,不同级别的数据应采取不同的掩护步伐。每个数据项原则上只属于一个类别、一个级别。
4.就高从严原则: 数据分级时采用就高不就低的原则进行定级,例如数据集包罗多个级别的数据项,按照数据项的最高级别对数据集进行定级。
5.动态调解原则: 数据的类别级别可能因时间变化、政策变化、安全事故发生、不同业务场景的敏感性变化或相关行业规则不同而发生改变,因此须要对数据分类分级进行定期审核并实时调解。

三、数据分类分级的框架和方法


1.数据分类分级的框架

来源:全国信息安全标准化技术委员会秘书处
https://img-blog.csdnimg.cn/img_convert/c95f2ad5d2bdcf036a4bc897aa25061f.png#averageHue=#f8f7f7&clientId=u13bf8f62-2ab9-4&from=paste&height=397&id=uc0d05f14&name=image.png&originHeight=406&originWidth=487&originalType=binary&ratio=2&rotation=0&showTitle=false&size=77448&status=done&style=none&taskId=u2944a13b-820a-4344-80b9-22b1f86622b&title=&width=476.5

2.分类标准

数据分类具有多种视角和维度,其重要目标是便于数据管理和使用。数据处理者进行数据分类时,应优先遵照国家、行业的数据分类要求,如果所在行业没有行业数据分类规则,也可从组织经营维度进行数据分类。常见的数据分类维度,包罗但不限于:


[*]公民个人维度:将数据分为个人信息、非个人信息。
[*]公共管理维度:将数据分为公共数据、社会数据。
[*]信息传播维度:将数据分为公共传播信息、非公共传播信息。
[*]行业领域维度:将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生康健数据、教育数据、科技数据等。
[*]组织经营维度:将数据分为用户数据、业务数据、经营管理数据、系统运行和安全数据。
数据分类类别界说示例公共数据公共管理和服务机构在依法履行 公共管理和服务职责过程中收 集、产生的数据,及其他组织和 个人在提供公共服务中收集、产 生的涉及公共利益的数据如政务数据,及提供供水、供电、 供气、供热、公共交通、养老、教育、医疗康健、邮政等公共服务中 涉及公共利益的数据等个人信息以电子大概其他方式记录的与已 识别大概可识别的自然人有关的 各种信息,不包罗匿名化处理后 的信息如个人身份信息、个人生物识别 信息、个人产业信息、个人通信信 息、个人位置信息、个人康健生理 信息等法人数据组织在生产经营和内部管理过程 中,收集和产生的数据如业务数据、经营管理数据、系统 运行和安全数据等 https://img-blog.csdnimg.cn/img_convert/cdb7746dd04fe201bdb56c0929a922af.png#averageHue=#f8f8f8&clientId=u78aaeaf9-77d9-4&from=paste&height=526&id=ua38aedbd&name=image.png&originHeight=611&originWidth=427&originalType=binary&ratio=2&rotation=0&showTitle=false&size=70396&status=done&style=none&taskId=ubc2873ca-551f-4a95-acff-769e84591e1&title=&width=367.5
分类常见的方法

2.1 MECE

MECE是(Mutually Exclusive Collectively Exhaustive)的缩写,指的是“相互独立,完全穷尽”的分类原则。
https://img-blog.csdnimg.cn/img_convert/45c64296995d7fd7999b0ecd1448f0f3.png#averageHue=#f4f4f4&clientId=u78aaeaf9-77d9-4&from=paste&height=299&id=u7847f88a&name=image.png&originHeight=285&originWidth=554&originalType=binary&ratio=2&rotation=0&showTitle=false&size=79959&status=done&style=none&taskId=u32e73153-2aaa-4846-8912-3ea516f1219&title=&width=582
业务指标梳理(MECE)范例
第一,按照业务线一通到底,基于最底层业务进行梳理,而不是分层梳理。(以下为主,上下结合)
第二,按照行业一流构建指标全集,然后根据详细企业情况进行删减,而不是按照企业近况进行梳理。(全指标、做减法)

2.2 线分法和面分法及混淆分法

https://img-blog.csdnimg.cn/img_convert/c925241f1dc3dc66b1eb002ad6fea1a3.png#averageHue=#ebebeb&clientId=u78aaeaf9-77d9-4&from=paste&height=263&id=uf839b4a0&name=image.png&originHeight=258&originWidth=554&originalType=binary&ratio=2&rotation=0&showTitle=false&size=114497&status=done&style=none&taskId=u934d849b-5921-404e-ae6e-264add718d1&title=&width=564

2.3 数据主题域

比较适用于从业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法
各级主题命名应能正确表达主题的含义和功能。业务主题域命名一样平常采用动宾布局的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。同时主题命名应遵照以下规范:


[*]高度概括;
[*]简明而不暗昧;
[*]不要参加描述性说明或嵌套概念;
[*]全主题域具有唯一性。
https://img-blog.csdnimg.cn/img_convert/fe8e881db08420c3a8b9e1ee3c21c56c.png#averageHue=#fafcf9&clientId=u78aaeaf9-77d9-4&from=paste&height=225&id=u89d0f79e&name=image.png&originHeight=256&originWidth=554&originalType=binary&ratio=2&rotation=0&showTitle=false&size=164032&status=done&style=none&taskId=u6eff5101-f0c2-4db5-921b-9a9ad3816b8&title=&width=487

2.4 技术选型维度

如按存储方式、数据稀疏水平、处理时效性,数据互换方式;

2.5 以业务应用维度

如业务数据产生来源、业务归属、流畅范例、行业领域、数据质量;

2.6 信息安全隐私方面的分类法


3.分级标准

从国家数据安全角度出发,数据分级根本框架分为一样平常数据、重要数据、焦点数据三个级别。数据处理者可在根本框架定级的基础上,结合行业数据分类分级规则或组织生产经营需求,思量影响对象、影响水平两个要素进行分级。各级别与影响对象、影响水平对应关系如下表所示:
来源:全国信息安全标准化技术委员会秘书处
https://img-blog.csdnimg.cn/4e14dd43206841a7a3f0bc336fbab997.png
下面列举了几种行业分级标准,影响水平从低到高:


[*]政府数据:公开、内部、涉密。
[*]金融数据:1级、2级、3级、4级、5级。
[*]证券期货数据:低、中、高、超高。
四、数据分类分级根本流程

1.数据梳理

对数据进行盘货、梳理与分类,形成同一的数据清单,并进行数据安全定级合规性相关预备工作。

2.制定数据分类分级标准

根据国家相关标准、行业相关标准、结合详细业务特性制定金融业数据安全分类分级标准或规范执行。该阶段须要创建敏感数据指引、敏感数据分类分级指引,同时要明白需遵照的法律法规。

3.数据分类

使用技术工具识别是否存在法律法规或主管监管部门有专门管理要求的数据类别,并对识别的数据类别进行区分标识;从行业领域维度,确定待分类数据的数据处理活动涉及的领域。

4.级别判定

为数据定级时,重要思量数据的安全属性(保密性、完备性、可用性)遭到粉碎后产生的影响,又分为影响对象、影响范围、影响水平三个因素。影响对象如行业、机构、用户;影响范围如单个机构、多个机构、多个行业;影响水平如严重、中等、轻微、无。
综合以上因素,形成数据级别表,供各类数据定级时参照。

1)一样平常数据安全级别判定示例

https://img-blog.csdnimg.cn/img_convert/72a3ada6ca7b8e40ab740a982801534b.png#averageHue=#cadcba&clientId=u13bf8f62-2ab9-4&from=paste&height=251&id=u2e518810&name=image.png&originHeight=501&originWidth=2061&originalType=binary&ratio=2&rotation=0&showTitle=false&size=621831&status=done&style=none&taskId=u2d551d74-fbea-4789-81b8-23868a27819&title=&width=1030.5

2)金融行业数据安全级别判定示例

最低安全级别参考影响对象影响水平数据一样平常特性5国家安全严重损害/一样平常损害/轻微损害• 数据安全性遭到粉碎后,对国家安全造成影响,或对公众权益造成严重影响。5公众权益严重损害• 重要数据,通常重要用于金融业大型或特大型机构、金融交易过程中重要焦点节点类机构 的关键业务使用,一样平常针对特定职员公开,且仅为必须知悉的对象访问或使用。4公众权益一样平常损害• 数据通常重要用于金融业大型或特大型机构、金融交易过程中重要焦点节点类机构的重要 业务使用,一样平常针对特定职员公开,且仅为必须知悉的对象访冋或使用。4个人隐私严重损害• 个人金融信息中的C3类信息.4企业正当权益严重损害• 数据安全性遭到粉碎后,对公众权益造成一样平常影响,或对个人隐私或企业正当权益造成严 重影响,但不影响国家安全。3公众权益轻微损害• 数据的安全性遭到粉碎后,对公众权益造成轻微影响,或对个人隐私或企业正当权益造成一样平常影响,但不影响国家安全。3个人隐私一样平常损害• 个人金融信息中的C2类信息。3企业正当权益一样平常损害• 数据用于金融业机构关键或重要业务使用,一样平常针对特定职员公开,且仅为必须知悉的对 象访问或使用。2个人隐私轻微损害• 个人金融信息中的C1类信息。2企业正当权益轻微损害• 数据用于金融业机构一样平常业务使用,一样平常针对受限对象公开,通常为内部管理且不宜广泛 公开的数据。
• 数据的安全性遭到粉碎后,对个人隐私或企业正当权益造成轻微影响,但不影响国家安全、 公众权益。1国家安全无损害• 数据的安全性遭到粉碎后,可能对个人隐私或企业正当权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。1公众权益无损害• 数据一样平常可被公开或可被公众获知、使用。1个人隐私无损害• 个人金融信息主体主动公开的信息。1企业正当权益无损害• 数据的安全性遭到粉碎后,可能对个人隐私或企业正当权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。
3)特定数据最低安全级别

国家焦点数据、重要数据、个人信息、公共数据等特定数据的最 低安全级别,可设置如下:
a)国家焦点数据的级别不低于 5 级;
b)重要数据的级别不低于 4 级;
c)敏感个人信息不低于 4 级,一样平常个人信息不低于 3 级,组织内 部员工个人信息不低于 2 级,个人标签信息不低于 2 级;
d)有条件开放的公共数据级别不低于 2 级,禁止开放的公共数据 不低于 4 级。

4)数据安全分类分级审核

审核数据安全分类分级评定过程和结果,须要时重复第三步及厥后工作,直至分类分级的划定与本机构数据安全掩护目标同等。

五、敏感数据识别本领和进阶功能


1. 敏感数据识别

数据分类分级的正确度和服从取决于工具的识别本领是否强盛,即“工具是不是真的能够看到数据、看懂数据”。

1.1 落地难点

数据分类分类大多数安全工具都是基于模式匹配和相对敏感级别来执行的,然后将该结果记录在存储库中或作为文档上的标签或标签,敏感数据识别策略是数据识别的一个焦点本领点。
市面上很多工具大多会选择从具备明显数据特性的数据切入。如身份证号码有固定的编码,手机号码有固定的位数格式,姓名、民族等都具有易于界说和区分的含义,识别策略较容易设计。
客户特定且不断增长的业务数据,在数据分类分级的框架下每每不具备明显的数据特性,乃至还可能存在歧义。比如一个姓名,他可能是企业员工,也可能是企业用户,在不同的业务场景和数据类别中,其重要水平和敏感度是不一样的。例如,数字35可以是门牌号、温度——实际上是任何东西,当数据分类分级产品仅限于模式匹配以进行发现和分类时,险些无法发现某个数据特性不明显的业务数据是什么。

1.2技术实现


1.2.1通例识别技术

①基于规则的主动识别,比如:正则表达式、关键字、算法、数据字典、包罗、等于、字段名等规则。
通过用户自界说规则,主动识别敏感数据,使用自带的规则或自界说规则,对其布局化表大概非布局化文件进行团体扫描。
怎样发现敏感数据字段?
通过定期全库扫描,识别敏感字段(周期触发)。如果新增或修改表和字段,增量扫描识别出敏感字段,须要监听数据库对表或字段的操纵,来指定表或字段进行敏感识别扫描,需结合数据库署理服务。
日常的一些敏感数据识别
银行卡号、证件号、手机号,有明白的规则,可以根据正则表达式和算法匹配;姓名、特殊字段,没有明白信息,可能是恣意字符串,可以通过设置关键字来进行匹配;营业执照、地点、图片等,没有明白规则,可以通过自然语言算法来识别,使用开源算法库。

②字段名匹配
针对已经做过元数据梳理大概人工分类分级的客户,可以把敏感数据的字段名导出来,在数据分类分级工具中输入敏感数据在数据库中对应表字段的名称,可以直接100%匹配到敏感数据,这种方式可以避免重复工作。

③人工辅助的数据资产识别
技术工具识别出来的结果再精准也不如人工,以是在敏感数据识别环节要预留人工二次确认的环节,进步正确性。

1.2.2 人工智能和呆板学习

理想化的数据分类分级技术工具应具备数据分类的语义本领——判断数据的现真相况和业务场景,而不是依靠于预设置的标识符。
安全厂商正在努力摆脱算法模式匹配,并正在添加基于人工智能/呆板学习的功能,使技术工具的语义功能可以识别出“真正”的数据。
①基于 NLP 自然语言技术的主动识别
现在业内智能化打标一样平常指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、呆板学习等先辈AI技术提取敏感数据特性,创建相应敏感识别规则,然后同一录入规则引擎。
②呆板学习
基于相似度算法
基于相似度算法可正确检测以文档情势存储的非布局化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财政、并购文档,以及其他敏感或专有信息。
起首,手工大概通过感知算法提取文档指纹特性,以检测原始文档的已检索部分、草稿或不同版本的受掩护文档。第二步进行敏感文件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,提出来须要学习和训练的敏感信息文档的指纹模型,然后使用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。
基于非监督学习算法
基于无监督学习算法,人工无需打标签,进行特性设计与提取。
比如敏感图像场景提取目标关键点、文档数据根据语义提取特性向量。起首选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据聚集,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。

基于监督学习算法
基于监督学习算法需收集肯定数目的训练数据,同时对数据进行人工打标签,比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量、决策树、随机丛林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,主动化输出数据范例–敏感 / 非敏感数据。
现在有公司宣称使用呆板学习和聚类算法实现规模数据分类,以主动化发现个人数据以及其他敏感数据,但算法的服从、识别精度以及可扩展性仍然是一系列有挑衅性的关键题目。

③深度学习
深度学习是呆板学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。
与传统的呆板学习相比,基于深度学习的自然语言处理技术具备以下上风:
(1)深度学习能够以词或句子的向量化为条件,不断学习语言特性,掌握更高层次、更加抽象的语言特性,满足大量特性工程的自然语言处理要求。
(2)深度学习无需专家人工界说训练集,可通过神经网络主动学习高层次特性
简单例举呆板学习中三种敏感数据识别的算法模型,详细技术细节不展开讨论。通过呆板学习算法对数据进行多维度元数据特性向量主动提取,对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持呆板学习的,通过各种AI算法主动完成敏感数据识别、分类分级,缩减了所投入的人力资本,敏感数据识别规则的沉淀随着分类分级工作的深入开展,边际资本递减。

1.3敏感数据识别存在的题目



[*]全库扫描占用资源较大,是否可以使用采样的方式
[*]应对增量数据怎样处理,除了执行定期扫描是否另有其他方式
[*]脏数据的判断识别,有的字段是NULL大概空格的,是否可以直接默认是界说为敏感级别
[*]数据打标签,是对全库字段打标,还是只对采样数据进行打标,并单独存库用走后期的统计分析。
[*]呆板学习和聚类算法是否成熟,须要思量准确度和服从。
2.分类分级进阶功能


2.1数据资产管理

支持数据源手动添加、主动发现、API 对接三种模式。
手工添加数据库,设置数据库的详细毗连信息。
API 通用接口对接其他数据平台的元数据。
主动发现在通过IP地点区间和端口扫描主动化发现网络情况中存在的数据库。

2.2数据分类分级

数据主动分类分级: 对识别到的数据资产结合内置识别模型和设置的分类分级规则进行分析,主动完成敏感数据识别和数据分类分级。
分类分级结果展示: 完成分类分级主动打标后,需展示本次主动识别的数据分类分级结果清单以供检察和答应,并支持手工修改。

2.3数据资产地图

使用数据处理程序对采集的数据进行清洗、解析、处理,通过数据识别和分类分级引擎,结合数据识别策略、分类分级策略、数据识别和分类模型对处理后的数据进行匹配识别,正确定位数据中包罗的敏感数据或重要数据,对其进行识别标志和分类分级标志。
使用数据分析引擎,对数据源、采集数据、识别结果等内容进行全面分析,形成企业数据资产地图、多维统计分析视图、资产分析报告、资产清单等,为企业进一步的数据价值挖掘、数据安全防护体系建立完成数据预备工作。

2.4敏感数据流动监控

在全部流动的数据资产可视基础上,发现敏感数据并进行分类分级,做到全部流动的数据已知,全部敏感数据已知。知道敏感数据资产的流转路径,涉及业务部门、时间、地点等信息。基于已知的敏感数据后续制定各种场景化的预警和告警,从而有效掩护敏感数据。

2.5数据安全风险检测

能够展示数据访问热度、敏感数据分布等统计信息,对数据资产的访问源头、访问频率、访问时间、访问流量等敏感数据访问情况进行监测。这项功能涉及流量分析技术。

2.6数据开放共享管理

对数据分类分级之后进行共享管控,严酷按照安全级别进安全管理,对高安全级别数据须要颠末数据脱敏处理之后开放,对数据共享全链路进行风险监控;另一方面严酷控制数据访问权限,设置数据消耗(使用)账号进行权限区分。

六、分类分级模版

阿里云数据安全中央支持识别的行业模版(金融分类分级模板、阿里巴巴及蚂蚁集团数据安全分类分级模板、能源分类分级模板、车联网行业分类分级模板)
《证券期货业数据分类分级指引》JR/T0158—2018

七、各企业数据分类分级产品

华为云-数据安全中央 DSC
阿里云-数据安全中央
腾讯云-数据安全中央
红途科技-数据分类分级
启明星辰-迈开行业资源数据安全治理首步:分类分级
锐服信科技-数据分类分级系统
中孚信息-数据分类分级管理系统
数据分类分级-昂楷科技
好大夫数据安全分类分级实践探索
【金猿产品展】美创科技暗数据发现与分类分级系统——数据透明化、有序化、价值最大化、流程主动化系统

八、数据分类分级标准或指南

方向标准或指南发布部门发布时间政务《政务信息资源目录 体系 第 4 部分:政务信息资源分类》GB/T 21063.4-2007中国国家标准化管理委员会2007年09月《政府数据数据分类分级指南》DB 52/T1123—2016贵州省2016年9月《国民经济行业分类》GB/T 4754—2017国家市场监督管理总局2017年10月《数字化改革 公共数据分类分级指南》DB33T 2351-2021 浙江省2021年7月《政务数据安全分类分级指南》DB 2201/T 17-2022长春市2022年1月重庆市公共数据分类分级指南(试行)重庆市2021年10月金融《证券期货业数据分类分级指引》JR/T0158—2018证监会2018年9月《金融数据安全 数据安全分级指南》JR/T 0197-2020 全国金融标准化技术委员会2020年9月医疗信息安全技术 康健医疗数据安全指南 GB/T 39725-2020中国国家标准化管理委员会2020年12月电信基础电信企业重要数据识别指南 YD/T 3867-2021工业和信息化部2021年5月工业工业数据分类分级指南(试行)工业和信息化部2020年7月
参考

技术派+ | 一文读懂数据安全分类分级
数据分类分级的深度思考
数据分类分级体系建立是数据安全管理“护身符”
安全合规–53–数据分类分级标准汇总

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 数据安全-分类分级 调研分析报告