几年前,学者团队发表了突破性的研究,指出算法中的种族偏见有助于指导美国主要卫生系统的患者护理。研究发现,这些算法对多个医疗类别的黑人和拉丁裔患者的护理产生了不利影响。例如,研究人员发现,用于识别医学上更复杂的患者的预测算法中存在种族偏见,因此黑人患者比白人患者更有资格获得额外护理。当时对新冠肺炎疫情的报道在一定程度上掩盖了这些发现,但最近的STAT系列节目“嵌入式偏见”为这一问题提供了新的关注点。
主要结论是:算法不能被信任来对患者护理做出安全和公平的决定。广告
鉴于生成性人工智能的兴起,时机至关重要。制药公司、医疗服务机构和健康保险公司正被人工智能公司的大量宣传所淹没,这些公司承诺将从营销材料的创建到医生预约后患者就诊记录的起草等一切自动化。这种反应几乎是反射性的:人工智能不可信。作为一家帮助保险公司管理其成员健康的生成性人工智能公司的联合创始人,我并不完全不同意。
事实上,许多生成性人工智能公司不应该被信任做出敏感的医疗决策。广告
但有些人确实在努力构建可以信任的人工智能。我应该知道,因为我的家人直接受到了医疗技术中种族偏见的影响,我个人正在努力让人工智能更值得信赖。四年前,当我父亲死于新冠肺炎时,我在他的床边。许多经历过这种磨难的人都非常清楚,追踪患者病情的关键方法之一是通过脉搏血氧计,它测量血液携带的氧气量。
该设备夹在患者的手指上,通过扫描患者皮肤下的血管来工作。然而,就我父亲的情况而言,我们感到困惑,因为前一刻他的脉搏血氧仪会给出相当正常的读数,而下一刻他的氧气水平会低得惊人。这种情况一直持续到他住院期间,虽然这并没有直接导致他的死亡,但鉴于其作为诊断要素的重要性,这是非常令人痛苦的。
因为我已经是麻省理工学院医学研究小组的一员,我帮助研究了新兴的研究工作,这些研究工作试图了解脉搏血氧仪是如何让深色皮肤的人失望的。像我父亲这样的病人。这些发现让我更加坚定地不在我当时正在构建的生成性人工智能模型中延续这种偏见,以便在医疗索赔解决和药物和手术的事先授权过程中提供公正的决策。这并不容易。我和我的同事们已经喜欢上了一个比大多数其他医疗保健相关的生成人工智能公司大得多的数据集。
我们吹嘘来自梅奥诊所和其他行业领导者的源数据,包括全球最大的制药公司之一。但我们也明白,这些数据集本身可能存在偏见,因为它们可能无法反映患者的种族和民族多样性。我们花了几个月的时间测试和改进我们的算法,并添加了一层所谓的“数据集多样化和平衡”,以提高我们的数据公平反映所有种族和民族的可能性。广告
这就是它在实际中的含义。
在与Mayo的合作中,我们专注于心血管事件的早期检测,并很快注意到我们的模型在训练数据中很好地代表了人群中准确地检测到了这些事件。但它对美国黑人来说有一个重大的盲点,正如我们所知,他们患心血管疾病的比例过高。通过与梅奥合作伙伴的合作,我们了解到,这个算法盲点是由于历史上黑人和其他代表性不足的少数群体被排除在医疗器械试验之外造成的。
通过使我们的数据集多样化以解释这些盲点,我们显著提高了这些社区的检测率。我们还在不同阶段实施了手动验证检查点,以确保数据集既平衡又准确。这种手动检查有助于我们关注少数族裔患者经常缺失的人口统计数据,如年龄和家族病史,这些数据进一步扭曲了对这些群体的心脏病预测。通过修正我们模型对这些群体的假设,我们进一步提高了其准确性。在某些少数群体缺乏足够真实世界数据的情况下,我们使用合成数据来填补这些空白。
例如,在早期,我们用于检测心血管事件的模型缺乏针对西班牙裔人群的强有力数据。通过基于临床研究和人口统计模拟心血管风险的现实情景,我们将我们的模型暴露在更具种族和民族多样性的样本中。当我们进一步审核我们的模型是否存在偏见时,我们还发现为不同种族群体成员收集的社会经济数据存在不一致。例如,低收入患者的数据往往无法说明他们获得医疗保健的机会或病史。
为了解决这个问题,我们设计了一种算法干预,标记了这些有问题的数据点,并自动重新加权我们的预测以考虑它们。广告
最后,我们在算法中建立了护栏,以防止与种族相关的盲点,包括一个公平审计机制,每当模型对任何种族或民族群体的表现低于一定阈值时,就会触发该机制。例如,在一个测试阶段,我们发现该模型对亚洲人群的准确性落后于整体模型的准确性。
现在,当超过这个阈值时,我们的模型会自动使数据集多样化,以确保给定人群的公平结果。总的来说,这些努力都得到了回报,但其中的细微差别值得志同道合的人工智能领导者注意。也就是说,在实施这些更改之前,我们的总体准确率约为98%。在做出这些改变后,我们实际上观察到准确率下降了大约7%。虽然最初的高准确率似乎令人印象深刻,但它实际上掩盖了关键问题。
该算法以前在某些领域过于自信,特别是在数据偏差使其预测出现偏差的情况下。通过解决这些偏差,精度指标向下调整,但该模型现在做出的错误自信预测更少,特别是在敏感情况下。对于用户来说,这种权衡意味着一个更可靠的系统,在关键场景中错误更少,从而做出更公平、更值得信赖的决策。这一经验突显了聚合精度基准可以掩盖数据中令人不安的问题的方式。我公司的底线是:
我们现在对我们的模型与种族相关的客观性有了15-20%的信心,在为患者匹配适当的护理方面,我们的模型优于人类——当然,我们的模式旨在让人类做出最终决定。也就是说,没有一个模型是完美的。我们制定了持续监测和改进的规定,并建立了定期完善我们的模型和检测可能出现的任何意外偏见的系统。这种持续的监督确保我们将公平视为一种不断发展的承诺,这对实现医疗保健的公平结果至关重要。
广告
人们对生成式人工智能的理解还不够充分,因为像我这样的公司实际上可以帮助解决医疗保健中的种族偏见问题。毕竟,种族偏见首先是一个人类问题,只有在人类设计我们的技术时才是一个技术问题。它归结为注意力和意图。如果医疗保健领导者对种族偏见给予足够的关注,他们将理解在组织的所有领域解决这个问题的重要性,而不仅仅是在IT领域。如果他们对这个问题有正确的意图,他们将投入实际的资源和时间来解决这个问题。
在这个过程中,他们应该记住,生成性人工智能远非一些人希望的那样可怕。相反,有了适当的护栏,它可以成为解决方案的一部分。这取决于医疗保健领导者提出正确的问题,也取决于我们作为人工智能领导者以正确的方式回答所有这些问题,或者将他们的技术指向更少的生死攸关的领域。