医疗范畴:合成数据、生成对抗网络、数字孪生的应用 ...

打印 上一主题 下一主题

主题 805|帖子 805|积分 2415

PrimiHub一款由暗码学专家团队打造的开源隐私盘算平台,专注于分享数据安全、暗码学、联邦学习、同态加密等隐私盘算范畴的技术和内容。

在医疗保健范畴,每当研究人员想要用患者的数据举行大数据分析时,就不得不考虑患者数据的访问与保证数据安全之间的平衡。
以前我们没办法,现在我们有了隐私盘算技术。
那么如何利用隐私盘算技术呢?如何利用算法、架构和隐私盘算技术结合,来确保数据的安全呢?
以前我们都是泛泛的讨论各类隐私盘算技术是利用场景,比如联邦学习、差分隐私、数据清洁室等等,这次我们从算法和架构入手,详细介绍下合成数据、生成对抗网络和数字孪生技术在医疗保健范畴的应用

综合数据的处置惩罚



隐私盘算技术可以利用历史数据分布生成真实的数据集,从而帮助保护患者隐私。这些可用于加强现有数据源有加强小型数据集,或创建完全合成的数据集。如许做可以提高分析项目中利用的数据集的实用性和可用性。
根据麻省理工学院 (MIT) 的说法,合成数据被设计为具有与它们所基于的实际世界数据雷同的数学属性,但不包罗任何雷同的信息。通过利用关系数据库创建生成机器学习模型,利益相关者可以生成第二个综合数据集。
合成数据的一些广泛用例涉及利用它们来淘汰偏见和改进人工智能 (AI) 模型,但它们也可用于保护敏感数据,这是医疗保健分析中最关心的标题。
根据今年早些时候在PLOS Digital Health上发表的一项研究,虽然研究人员仍然更喜好真实世界的数据,但合成数据为弥合政策制定和研究中的数据访问差距创造了机会。
在其中,研究人员强调了合成数据在医疗保健中的七种潜伏应用:模仿和预测研究;假设、方法和算法测试;盛行病学和公共卫生研究;卫生信息技术(IT)开发;教诲和培训; 公开发布数据集;和链接数据。
合成数据也被用来加快 COVID-19 研究。
医疗保健范畴合成数据的潜力也引起了国家利益相关者的关注。
美国国家卫生信息技术协调员办公室 (ONC)于 2021 年发起了合成康健数据挑战赛,旨在鼓励卫生 IT 范畴的创新者加强开源合成患者生成器 Synthea,或展示该工具的新用途数据。
为了加强 Synthea 为儿科人群、具有复杂护理需求的患者以及因阿片类药物利用而苦苦挣扎的个人生成高质量综合数据集的能力,ONC 率先发起了“生成综合康健数据以加快以患者为中心的效果研究”筹划。
专家认为,合成数据是解决机器学习 (ML) 模型可以从匿名数据中识别患者特性(比方性别、年龄、血压、吸烟、糖尿病和 COVID-19 状态)这一究竟的最有前途的解决方案之一。
合成数据还可以帮助实现数据集多样化并支持临床研究,同时确保患者隐私。
尽管有这些好处,但研究与医疗保健合成数据相关的毛病的研究人员指出,恶意行为者可以利用这些数据传播错误信息,并通过虚假假冒视频(也称为深度伪造)欺骗面部识别软件。
别的,虽然合成数据可以帮助开发和改进基于人工智能的医疗装备,但其在当前修改医疗保健人工智能算法的监管框架中的作用尚未确定。如许做对于确保合成数据可用于保护患者隐私和改善临床决策至关紧张。
研究人员指出,现在,医疗保健行业还缺乏客观、妥当的方法来确定合成数据与其所基于的实际世界数据是否有富足的差异,从而引发了这些数据集是否可以被归类为真正匿名的标题。传播这些敏感医疗数据的综合表现也没有具体限制。
未来,合成数据在医疗保健范畴的潜力可能会被证明是有价值的,但在BMJ Medicine上撰文的专家表现,需要举行更多研究来探索与这些数据集相关的风险和本钱效益,包罗在多大程度上可以依赖它们分析。

生成对抗网络(GAN)



生成对抗网络 (GAN)是深度学习 (DL) 的一种,利用神经网络生成合成数据。GAN 由生成网络和对抗网络构成,用于生成逼真的图像、视频、灌音和其他类型的数据。
生成网络获取输入数据并利用它来生成该数据的合成版本。此过程的效果将根据输入以及模型层针对所需用例的训练程度而有所不同。
对抗网络将真实数据与合成数据举行比较,利用鉴别器机制来区分两种数据类型。
当两个网络执行这些任务时,理论上效果应该会有所改善,直到合成数据与实际世界的数据险些无法区分。
研究表明,GAN 在医学中的应用主要涉及医学图像处置惩罚、合成、分割、生成和去噪。
这种 PET 在医疗保健范畴的其他潜伏用例包罗生成脑肿瘤的合成非常磁共振图像、生成合成 EHR 数据、改进基于人工智能的癌症成像、支持单细胞 RNA 测序以及支持医学教诲。
专家认为,GAN 及其产生的合成数据有可能彻底改变临床研究,同时保护患者隐私。他们表现,利用这些方法可以使医疗保健数据完全匿名,从而使数据集中的任何信息都无法追溯到真实的个人。
除了平衡和扩展现有数据集之外,这还可以使研究人员在恰当的情况下取代真实患者数据的利用。
然而,GAN也可能被不良行为者用来对医疗保健人工智能举行“对抗性攻击”。在此类攻击中,GAN 可用于创建虚假图像或更改数据点,以使 AI 得堕落误的结论,这将严重影响患者的安全。
别的,GAN 的训练盘算本钱很高,需要大量投资和图形处置惩罚单元 (GPU) 等资源。
一旦 GAN 颠末训练,理论上它可以生成无穷量的合成数据,但标志这些数据在医疗保健范畴是一个挑战。正确的“地面实况标志”对于医疗保健人工智能模型的开发是必要的,如果未能标志用于训练这些工具的数据,可能会严重限制其性能和临床实用性。
数据标志通常由人类以劳动和时间麋集的方式执行,这阻碍了可以实际标志和利用多少合成数据。
研究人员指出,未来可能可以利用在真实数据上训练的成熟机器学习模型来标志这些合成数据。但就现在而言,这是不可行的,这加重了人类利益相关者合成数据标签的负担,并限制了 GAN 在医疗保健范畴的潜力。

数字孪生的应用



数字孪生是物理对象、流程、系统或人员的数字或虚拟表现,旨在帮助组织模仿潜伏效果。IBM 表现,数字孪生通常旨在超过物理孪生的生命周期,利用实时数据更新和机器学习来帮助支持决策。
与尺度模仿不同,数字孪生可以扩展以同时运行研究和模仿多个过程,这使得这种 PET 吸引了对建模和可视化感兴趣的医疗保健利益相关者。医疗保健数字孪生可用于创建人体 3D 可视化、协助诊断和治疗、推进精准医疗以及举行预测分析。该技术还被用来简化医院运营。
医疗保健数字双胞胎还可能有助于改善康健公平。
今年 2 月,克利夫兰诊所和 MetroHealth 的研究人员得到了美国国立卫生研究院 (NIH) 314 万美元的拨款,用于开发数字孪生技术,以更好地相识和解决卫生系统人口中的康健差距。
该研究将利用 250,000 名患者的 EHR 数据构建数字孪生模型。然后,这些模型将用于研究康健趋势以及影响康健差异的复杂社会、环境和经济因素。
该赠款还将支持“数字孪生社区”的开发,以帮助更好地相识克利夫兰地区特有的各种康健不划一现象。
该项目旨在利用数字双胞胎生成的数据来改善基于地点的人口康健和效果。
去年在《npj Digital Medicine》上发表的一项研究强调,医疗保健数字孪生的主要潜伏好处之一是可以或许深入相识物理双胞胎(通常是患者)的预期行为,这可以显着推进临床试验、精准医学、和公共卫生。
研究人员表现,将数字孪生研究转化为临床实践的主要考虑因素是盘算要求、产物监督、数据管理和临床实施标题。
别的,一些专家指出,数据网络和融合的困难以及模仿精度是当前医疗范畴数字孪生应用的重大限制。但是,他们表现,展望未来,利益相关者可以通过结合医疗保健数字双胞胎、大数据、人工智能和物联网(IoT)来创建高质量的患者模型,以实现个性化诊断和治疗。
原文地址:Patient Privacy in Healthcare Analytics: The Role of Augmentation PETs
原文作者:Shania Kennedy
翻译 & 整理:开放隐私盘算 & PrimiHub

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天空闲话

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表