读数据科学伦理：概念、技术和警世故事04隐私掩护机制

登录 · 发表于 2025-5-14 05:39:21

1. 加密

1.1. 在数据掩护的基本方法中，加密可能是最重要的一种方法

1.1.1. 加密的基本概念是指将信息进行编码，只有经过授权的人才可访问它
1.1.2. 在现代社会，这是保障个人数据安全储存和传输的重要工具
1.1.3. 信息编码被称为密码
1.1.4. 在加密中，密文仍能被还原成明文

1.2. 恺撒移位密码(Caesar shift cipher)

1.2.1. 一种简单的加密技术，将一个字母按肯定字数替换为字母表上的某个字母

1.3. 英格玛(Enigma)

1.3.1. 第二次天下大战中利用的一种著名的加密装置
1.3.2. 同一字母被输入两次（大多数情况下）会导致两个差别的字母输出
1.3.3. 可能的设置约莫有3×10114种，而宇宙中估计只有1080个原子
1.3.4. 人们运用了不起的密码学知识，包括加密和明文消息之间的已知关联、已发现的模式和通用图灵机，最终破解了英格玛机

1.4. 对称加密

1.4.1. 其加密和解密共用同一个密钥
1.4.2. 此密钥是秘密的，仅在发送者和接受者之间共享
1.4.3. 字母“e”是英语词汇中利用频率最高的字母，因此只要找到所有密文中频率最高的字母，就会发现这个加密字母其实就是字母“e”
1.4.4. 数据加密尺度(DES)是现代对称密钥加密的第一个重要尺度，由国际商业呆板公司(IBM)开发
1.4.5. 比利时人文森特·瑞捷门(Vincent Rijmen)和琼·德门(Joan Daemen)于1998年开发了它的替代品AES（高级加密尺度，它利用128、192或256位密钥，并在20世纪90年代末成为一项新的尺度
- 1.4.5.1. 由于128位的密钥可天生3×10^38种密钥组合，因此被认为是相称安全的
1.4.6. 重要题目：如何共享密钥以及如何管理密钥

1.5. 非对称加密

1.5.1. 非对称加密是一种相对较新的方法，能避免传送同一密钥带来的贫苦
1.5.2. 非对称加密有公共密钥和私人密钥两个密钥可供利用，而不再是利用同一个密钥
1.5.3. 公共密钥对外公开，而私人密钥则对外保密
1.5.4. RSA算法以其发明者李维斯特(Rivest)、萨莫尔(Shamir)和阿德曼(Adleman)的名字命名，他们在1977年申请了这项专利
1.5.5. 优点
- 1.5.5.1. 它消除了共享密钥带来的安全题目
  
  1.5.5.1.1. 现在只需要共享公共密钥，而且根据定义，不需要对这些公共密钥进行保密
- 1.5.5.2. 还限制了所需密钥的数量
1.5.6. 与对称加密相比力而言，非对称加密需要花费更长的时间

1.6. 互联网经常同时利用对称加密和非对称加密这两种技术，以确保客户端和服务器之间通信过程的安全性

1.6.1. 客户端利用服务器的公共密钥加密一个随机数，并将此加密信息发送给服务器
1.6.2. 通过利用其私钥，服务器可以解密此信息，并且也能知道客户端天生的随机数
1.6.3. 这个随机数就是对称加密的密钥，将在后续所有的通信中利用，直到会话结束
1.6.4. 这种方法是现在广泛应用于网络的安全套接字协议(SSL)及其继任者安全传输层协议(TLS)的基础

1.7. 公共密钥基础设施的管理，包括验证某个公共密钥是否对应于给定实体，通常是通过Comodo和Let’s Encrypt等的第三方认证中央(CA)完成的

1.7.1. 每当你访问以https开始的网页时，这种范例的加密会在后台不停工作
1.7.2. 假如你访问的是以http开始的网页，则该连接可能不是很安全

1.8. 数据掩护加密

1.8.1. 加密对各种掩护个人数据的工作都很有资助
1.8.2. 个人数据不但会存储在笔记本电脑、个人电脑、智能手机和USB存储设备上
1.8.3. 获取的数据包括一段车祸发生前的视频、带有约会描述的日程表条目以及受邀者的电子邮件地点
- 1.8.3.1. 将该等数据存储在汽车中，对汽车制造商及车主来说可能都是有道理且有价值的
- 1.8.3.2. 不过，为了掩护数据，还是建议将此等数据进行加密储存，如此一来，就会像将个人数据储存在智能手机或个人电脑上一样安全

2. 哈希法

2.1. 散列法
2.2. 哈希是另一个很有用的加密函数，它将一些输入映射为哈希值或消息摘要

2.2.1. 哈希值的长度总是固定的
2.2.2. 重要的是哈希函数是单向函数：给定输入值很轻易就可以计算出哈希值，但给定哈希值（根据同样的算法）却很难找到相应的输入值

2.3. 哈希值（或消息摘要）的空间通常小于输入的空间。这可能就会导致所谓的哈希碰撞，即两个差别的输入在同一哈希函数的作用下得到相同的输出

2.3.1. 输出空间越大，则碰撞就越少

2.4. 流行的哈希算法MD5（以Merkle和Damgård命名）可以把任何字符串作为输入，并输出128位的消息摘要
2.5. 美国国家尺度与技术研究所(NIST)于2015年发布了最新的SHA-3哈希算法，其输出的哈希值可达512位

2.5.1. 研发者包括Bertonu、Daemen（他还是AES加密尺度的创始人之一）、Pepeters以及Van Assche

2.6. 哈希法的第一个有趣的应用是信息指纹
2.7. 哈希函数不直接存储密码，而是对客户端的密码进行处理惩罚从而得到哈希值，然后将其发送并储存到服务器上

2.7.1. 许多人经常重复利用相同的密码，以是出现频率很高的密码可能会被识别出来
2.7.2. 彩虹表
- 2.7.2.1. 列出了最流行的密码及其对应的哈希值
2.7.3. 为每个用户天生一个随机字符串，称为“盐值”，然后将其添加到密码中

2.8. 哈希法还可用于确保在整个数据处理惩罚系统中不会有个人数据被复制

2.8.1. 只保留个人信息，并将其哈希值保存在一个表中
2.8.2. 在不方便利用个人信息时，利用该哈希值
2.8.3. 大型银行可以通过对账户号码进行哈希法处理惩罚，以及删除姓名等方式，与可信赖的大学或研究人员[在签订保密协议(NDA)之后]共享其化名化的付出数据
- 2.8.3.1. 可能不会是匿名的，由于可能有人能够在数据中重新结交一些客户，但哈希法也相应地提供了额外的数据掩护措施

2.9. 加密和哈希法都是寻求数据掩护的关键技术措施

2.9.1. 黑客正在无休止的“军备比赛”中不断地寻找措施及现行尺度中的弱点
2.9.2. 只有在没有储存个人资料的情况下，才可保证对其100%的掩护

3. 量子计算

3.1. 量子计算是未来可能会超越加密技术的一种受人追捧的方式。由于量子计算势必会在未来对加密技术产生巨大的影响
3.2. 量子计算让我们可以利用量子力学的力量来进行所有传统计算机都做不到的计算
3.3. 量子水平上的非直观力学是近乎魔法的科学
3.4. 有一个现象至关重要，那就是“叠加”，即一个粒子，比如光子，同时处于两种状态

3.4.1. n个量子比特可以同时储存2^n种状态

3.5. 量子比特的第二个重要性质是胶葛

3.5.1. 对一个量子比特进行观测的同时也会展现与其相互胶葛的量子比特的状态，但与两者间的隔断无关

3.6. 量子计算的关键是利用叠加和胶葛的这些原理来展现题目并找到评估答案的方法
3.7. 量子比特的量子退相干就是在这样的情况下形成的，致使只有通过测试的答案才气避免退相干
3.8. 秀尔算法利用量子计算机的海量分布式计算对大数进行因子分解，这被认为是量子计算的庞大突破之一

3.8.1. 大数分解正是流行的RSA非对称计算算法的基础
3.8.2. 假如能应用秀尔算法，则可“破解”RSA加密

4. 模糊处理惩罚

4.1. 隐藏个人数据和秘密数据是掩护隐私的关键机制
4.2. 加密可以用来实现这一目的，它明白地将秘密数据更改为只有授权人员才气读取的加密版本
4.3. 最终用户通常不会对是否利用加密以及如何利用加密有什么影响
4.4. 模糊处理惩罚是另一种隐藏个人数据的方法，即最终用户故意给系统添加噪声
4.5. 模糊处理惩罚不是显式地隐藏数据，而是隐式地天生许多其他数据（噪声），从而在创建的巨大数据中隐藏真正的数据（信号）
4.6. 模糊处理惩罚并不总是需要预定义的技术系统来添加噪声
4.7. 模糊处理惩罚可能被认为是“搭便车”（不付出成本而坐享他人长处）的举动
4.8. 当数据是在不相称和不恰当的情况下网络时，对抗信息不对称是很有必要的
4.9. TrackMeNot软件

4.9.1. 软件计谋是由同一批作者于2006年开发的，背景是其时美国司法部要求谷歌上交搜刮日志以及与美国在线(AOL)再识别案相关的查询词条
4.9.2. 该软件的目的不是隐藏搜刮查询，而是通过添加自动天生的搜刮查询，来对它们进行模糊处理惩罚
4.9.3. 这类查询是以一种智能的方式天生的，如此一来，其他用户就可以根据差别的初始术语列表开发出搜刮查询
4.9.4. 很难检测某个搜刮查询是模糊处理惩罚（噪声）的举动还是真实进行的举动（信号）

4.10. AdNauseam浏览器插件与uBlock Origin一起工作，它会悄悄地点击所有被屏蔽的广告

4.10.1. 每点击成本(CPC)模式将极大地受到这种模糊处理惩罚的影响，一些广告商可能会在其广告未表现的情况下而看到许多点击（成本）
4.10.2. 点击量通常是用来评估广告活动和确定广告成本的指标

5. 去中央化（或本地化）的差分隐私

5.1. 加入噪声是掩护隐私的一项重要措施，经常用于差分隐私中
5.2. 目的是确保在加入噪声后，仍能进行数据分析，并可掩护（更多的）隐私
5.3. 在去中央化（或本地化）方法中，人们不信赖数据分析，而在中央化方法中，相比提供结果的外部观察者，人们更信任数据分析师
5.4. 差分隐私的名称源于其定义，即多一人数据或少一人数据的分析都不应该有太大的差异
5.5. 将专注于本地化、去中央化的差分隐私，即在记录数据时添加噪声
5.6. 利用随机响应机制，即在记录每个回答之前，抛一次硬币

5.6.1. 在网络敏感数据而数据管理员又不受信任的任何情况下，这种机制都非常有用
5.6.2. 假如数据被黑客攻击、泄漏或传唤，受访者可以直接否认记录的答案是其给出的答案

5.7. 隐私掩护的强弱程度取决于添加的噪声的数量，但也取决于进行分析的次数：一个人参与同一项调查的次数越多，数据分析师对此人的响应就越有把握
5.8. 一些大型科技公司已经开始利用这一步伐，由于他们意识到网络用户数据的统计数据有助于提高安全性、发现漏洞以及改善用户体验

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

读数据科学伦理：概念、技术和警世故事04隐私掩护机制

本帖子中包含更多资源

浏览过的版块

河曲智叟

读数据科学伦理：概念、技术和警世故事04隐私掩护机制

本帖子中包含更多资源

浏览过的版块

河曲智叟

登录参与点评抽奖加入IT实名职场社区