读数据科学伦理：概念、技术和警世故事10道德评价

三尺非寒 · 2025-5-20 20:38:18

1. 道德评价

1.1. 需要权衡什么？

1.1.1. 是在什么背景下举行评估的？
1.1.2. 使用了什么基准？
1.1.3. 需要评估FAT标准中的每一项吗？

1.2. 如何解释这些结果？

1.2.1. 研究结果故意义吗？
1.2.2. 是“p值篡改”的问题，还是做了多次对比，却没有得到妥善纠正的问题？

1.3. 需要汇报什么内容？

1.3.1. 过程是否完全透明
1.3.2. 不管结果好坏都如实上报了？
1.3.3. 数据科学可复制吗？
1.3.4. 简易程度有多高？

2. 道德权衡

2.1. 做一个良好的数据科学家

2.1.1. 侧重于数据科学
- 2.1.1.1. 要以精确的方式对待这门科学
2.1.2. 应该用差别的评估技术和指标来权衡数据科学模子的性能

2.2. 做一个良好的人

2.2.1. 重在良好
2.2.2. 而不是“精挑细选”，或者只是为了自己的利益而在数据科学评估指标上作弊

3. 精确评估

3.1. 对数据科学举行评估的意义在于：差别的测量步伐大概会带来截然差别的发现和结论
3.2. 必须始终使用测试集，该测试集应尽大概地代表目的人群

3.2.1. 集合最好是基于时间的预测（相对于基于样本的预测），并且充足大
3.2.2. 不使用测试集或者使用不具有代表性的测试集都是不恰当的，会导致对数据科学的影响估测过高
3.2.3. 不恰当的做法不一定是人们故意识做出的决定，反而有大概是疏忽所致
3.2.4. 不使用适当的测试集或度量标准大概导致误导性结果

3.3. 除了用于评估数据科学模子的测试集有问题，用于权衡测试集准确性的指标也大概存在问题

3.3.1. 混淆矩阵、受试者工作特征曲线（ROC曲线）、升力曲线或利润曲线以及汇总指标
3.3.2. 模子的性能还取决于所选择的阈值，从而可以做出正向的决定
3.3.3. 即使在从预测数据到分类的阶段一直使用ROC曲线，人们仍然可以使用最终选定的阈值

3.4. 逾越现有的模子和基线大概非常困难，所以有人铤而走险

3.4.1. 选择一个方便预测的测试集，上报一个符合自己目的的单一指标太轻易了
3.4.2. 对于非专家而言，这样的报告是肯定可以蒙混过关的

3.5. 评估FAT

3.5.1. 只要数据集中存在个人数据、敏感数据或敏感群体，就需要思量公平性权衡、隐私评估和可理解性需求这些方面
3.5.2. FAT的道德要求，可以说它涵盖了当今期间数据科学存在的大部分道德问题

3.6. 评估其他道德要求

3.6.1. 鲁棒性
- 3.6.1.1. 在欧洲发布的《可信任人工智能道德准则》(Ethics Guide-lines for Trustworthy AI)中，人工智能的鲁棒性(Robustness)居于人工智能道品德和人工智能合法性之后
- 3.6.1.2. 人工智能的可靠性就是源于人工智能的道品德和合法性
- 3.6.1.3. 技术鲁棒性要求人工智能体系的开发应接纳防备性步伐来防范风险，并使其以某种方式可靠地按预期运行，同时最大限度地减少无意和不测伤害，防止不可接受的伤害
- 3.6.1.4. 鲁棒性包括抵御攻击、备援计划、准确性、可靠性和可重现性
- 3.6.1.5. 对抗攻击以及如何让模子抵抗此类攻击，是一个与鲁棒性相干的研究课题
  
  3.6.1.5.1. 对抗攻击会改变输入（例如图像），但这种改变与自然数据几乎无法区分，而预测的输出却变得出乎意料
  
  3.6.1.5.2. 模子的鲁棒性可用于评估对这种攻击的抵御能力
3.6.2. 可持续性
- 3.6.2.1. 不仅会产生经济成本，用以在大型盘算机上的训练模子，还会产生生态成本，因为模子的训练和摆设都需要花相称多的能量
- 3.6.2.2. 2019年的一项研究估计，训练一个深度学习模子产生的二氧化碳排放量，相称于5辆汽车的终生碳排放量
  
  3.6.2.2.1. 当时，GPT-2是这项研究可用的最大模子，只有约莫15亿个参数
- 3.6.2.3. 意味着你应该意识到这个问题，对能量使用结果保持透明[可使用机器学习排放盘算器(Machine Learning Emission Calculator)或碳跟踪器等工具]，思量如何对其举行改进
- 3.6.2.4. 限制浪费的实验数量，根据盘算出的碳排放量选择数据中央和云提供商，使用节能硬件等

4. 结果的伦理解释

4.1. 为了评估结果的显著性，可以应用统计检验(statistical tests)来确定结果是否稳健
4.2. p值篡改

4.2.1. p值定义为在假设原假设精确的情况下，获得至少与统计检验观察到的结果一样极度的概率
4.2.2. 当“研究人员网络或选择数据或统计分析，直到非显著性结果变得显著”时，p值篡改就会发生
4.2.3. 数据疏浚(data dredging)
4.2.4. 显著性检验通常需要多次观察
4.2.5. 篡改性能评估来获得显著提拔
4.2.6. 在数据科学中，调整数据或模子，从而在测试集上得到精确的评估和p值，是一大禁忌
- 4.2.6.1. 第一种方法是在数据网络和预处置惩罚阶段向数据集添加实例，直到获得精确的p值，并抛弃所有其他实例
- 4.2.6.2. 第二种方法是输入变量级别：转换变量和/或举行输入选择，从而获得精确的p值
- 4.2.6.3. 第三种方法是评估本身
  
  4.2.6.3.1. 它尝试了许多评估指标，但只报告了一个显著指标，也不管这个指标是否适合你的应用
  
  4.2.6.3.2. 只报告最好的一个
4.2.7. 在研究中，阴性结果或者没有突出表现的新方法是很难发表的
- 4.2.7.1. 在行业中，数据科学产业然更愿意报告对业务有庞大影响的好结果，而不是报告他或她无法改进现有的体系
- 4.2.7.2. p值篡改是一种简单但不道德的做法
- 4.2.7.3. 当你使用p值篡改的时间，名声不过是昙花一现，因为在摆设时或实验被他人抄袭时，不好的结果一定会暴露出来
4.2.8. 需要积极打击p值篡改，它在科学和商业进步上都存在潜在的灾难，因为我们的决策不再以实际结果为指导

4.3. 多重比较

4.3.1. 因为一些模子的p值低于选定的α值5%，就举行多次比较，并将结果解释为显著，这也是一个问题
4.3.2. 多重比较的问题在于，你举行的测试越多，一些稀有事件偶然发生的大概性就越大
4.3.3. 邦弗朗尼修正法(Bonferroni correction)可用来纠正多重比较出现的问题
- 4.3.3.1. 当检验m个差别的假设时，不使用之前选择的α/5%，而是使用α/m作为临界值来判断显著性
- 4.3.3.2. 邦弗朗尼修正法本身并不完美，因为它假设了个体测试的独立性
- 4.3.3.3. 事实并非总是如此，因此这大概会导致更高概率的假阴性结果

4.4. 简单透明地报告所有接纳的步骤（建立了哪些模子、如何建立的、在什么数据集上等）
5. 道德报告

5.1. 公开透明的报告

5.1.1. 道德报告必须公开透明，无论好坏
- 5.1.1.1. 其实与人分享一下你曾尝试过何种徒劳的方法，对他人来说也会受益匪浅，因为这会帮助他们避免日后重蹈覆辙，或者可以鼓励其他人改进结果
5.1.2. 不要只展示成功案例，要记录完整的数据科学过程，解释每一步的缘故原由，包括失败案例
5.1.3. 数据实例层面
- 5.1.3.1. 为什么选择一定的样本量？
- 5.1.3.2. 这个样本具有代表性吗？
- 5.1.3.3. 你为什么这么想？
- 5.1.3.4. 你是否思量过学习曲线（添加更多数据时对性能的影响）？
5.1.4. 输入变量层面
- 5.1.4.1. 你思量过哪些变量，为什么？
- 5.1.4.2. 它们是如何获得的？
- 5.1.4.3. 你删除变量了吗？
- 5.1.4.4. 为什么删除？
- 5.1.4.5. 怎么删除？
5.1.5. 建模层面
- 5.1.5.1. 你采用了什么技术？
- 5.1.5.2. 你调整这些技术了吗？
- 5.1.5.3. 你测试了哪些模子？
5.1.6. 评估层面
- 5.1.6.1. 用什么评估指标，为什么？
5.1.7. 透明的报告之所以如此紧张，是因为它能确保对构建模子的数据科学的信任
- 5.1.7.1. 数据科学家并没有故意使用p值篡改或调整测试集等做法来玩弄体系
5.1.8. 以重现性为目的大概大有裨益
- 5.1.8.1. 假如报告能让我们轻松重现研究结果，信任自然会产生，从而确认数据科学真的是有效的、故意义的，并且是可以建立在其基础之上的
- 5.1.8.2. 重现性表现为数据和代码可用且易于访问，其中主脚本自动执行所有数据科学步骤，并得到与报告相同的结果
- 5.1.8.3. 在企业内部，重现性也保证了数据科学家在脱离公司时工作不会丢失
- 5.1.8.4. 未记录的代码或无法产出报告结果的代码至少会造成效率丧失，甚至会否定先前的结果
- 5.1.8.5. 确保重现性是一个关键要素，可以让所有举行的步骤都变得清楚起来，从导入选择到模子评估，概莫能外
5.1.9. 越来越多的人鼓励学者们在发表研究结果时共享数据和代码
5.1.10. 所谓的“模子卡”是一种风趣的工具，是用于报告数据科学模子的关键组件
- 5.1.10.1. 模子卡通常只有一两页长，并且清楚地说明白模子的预期用途、使用的训练数据、模子类型、评估方法、局限性、可以联系谁以获取更多信息以及其他紧张的模子信息

5.2. 符合道德标准的学术报告

5.2.1. 学术报告是一个值得特殊关注的特殊领域
- 5.2.1.1. 学术报告具有特殊性，因为它受到相称独特的竞争环境的影响，而且又可以对社会产生深刻的影响
5.2.2. 鼓励机制和学术报告过程很轻易引起“小规模”的不道德举动，如精心选择数据集在学术出版物上发表报告，甚至完全假造结果
5.2.3. 以重现性为标杆
- 5.2.3.1. 在学术研究中，研究人员倾向于提出假设或研究问题，网络和分析数据，并展示结果
5.2.4. 在《自然》杂志的同一项观察中，实际造假只是导致研究不可重现问题的第9大报告因素
- 5.2.4.1. 造成这场危机的最大缘故原由是选择性报道和论文发表的压力
5.2.5. 局外人很大概对学术环境的超竞争特质一无所知
- 5.2.5.1. 研究科学社会学的默顿(Merton)声称，科学夸奖的基本货币是承认
5.2.6. 科研诚信举动准则
- 5.2.6.1. 可靠性：保证科研质量
- 5.2.6.2. 诚信：在科研过程中，在检察、报告和交换科研过程中表现
- 5.2.6.3. 恭敬：恭敬同事和社会
- 5.2.6.4. 责任制：对研究的所有方面负责，直到发表为止。
5.2.7. 明白的不当举动
- 5.2.7.1. 假造：假造结果，并将其作为真实的结果发表
- 5.2.7.2. 伪造：无合法来由篡改过程或数据
- 5.2.7.3. 剽窃：未经适当授权使用他人的作品或创意
5.2.8. 不道德的学术举动还大概包括更玄妙的举动，例如，作为匿名审稿人，要求作者引用他的作品，从而不公开你的作品的缺点或他对研究的怀疑，或者将你的手稿分成几份提交，只是为了发表更多的文章
5.2.9. 所有与p值篡改相干的举动，比如删除与你的假设不匹配的数据点，或者只报告最适合的研究测量结果，也属于这种不道德的学术举动
5.2.10. 不遵守这些求真原则会对科学以致整个社会产生实际的负面影响
5.2.11. 重现性应该变得更轻易，这与需要访问数据（或解释为什么不能共享，例如出于保密的缘故原由）、代码，以及数据和代码的相应证实材料是携手并进的
5.2.12. 德里克·斯塔佩尔(Derek Stapel)
- 5.2.12.1. 有做坏事的好人，也有做好事的坏人
- 5.2.12.2. 许多实验数据被证实是假造的
- 5.2.12.3. 在自传中解释了是什么驱使他从知名教授沦落为数据操作和假造的罪犯，他承认自己是罪犯
- 5.2.12.4. 像这样完全假造的实验当然是不可接受的
- 5.2.12.5. 这种错误的实践始于“简单”的数据操作，我们可以将其称为通往不道德数据科学实践的大门
5.2.13. 强烈发起学术型数据科学家将其代码及数据公布出来（假如需要的话可以公布综合数据），这样其他人就可以重现相干实验，并能站在巨人的肩膀上，更上一层楼

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

读数据科学伦理：概念、技术和警世故事10道德评价

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块