人工智能医疗器械临床试验的设计考量与挑战

自2016年起,全球范围内对人工智能的布局日益加速。在政策的支持、大数据的广泛应用、计算机算力的提升以及云存储技术的快速发展等多重因素的推动下,人工智能,特别是深度学习技术,在各个领域得到了前所未有的广泛应用。

在医疗领域,人工智能的应用正在逐步改变传统的医疗模式。具体而言,其影响主要体现在以下三个层面:(1)医生层面:通过应用AI医学影像分析和AI辅助诊断技术,实现对医学图像、病例资料等的快速、准确解读,从而辅助临床医生做出更为精准的诊断和治疗决策;(2)病人层面:借助AI健康管理和疾病预测系统,病人能够主动进行自我健康监测,实现早期预警和干预;(3)卫生系统层面:人工智能技术的引入能够优化医疗工作流程,降低医疗失误的风险,提升整体医疗服务质量。

医学人工智能的研究设计在当前阶段仍面临诸多挑战,尤其是在数据处理和临床研究设计方面。真实世界中的数据复杂且多变,存在大量的数据缺失和非结构化问题,这使得医学人工智能的研究设计需要更为严谨和精细的考虑。此外,由于临床环境的复杂性和医疗器械评价的特殊性,医学人工智能的临床研究设计与其他领域的临床研究以及人工智能研究存在显著的区别。一是医学人工智能临床研究设计规范。目前,人工智能在医学领域的应用尚处于探索阶段,因此,其研究设计需要同时遵循临床研究和人工智能研究的规范。例如,临床研究应遵循的基本规范包括ICH-GCP、NMPA-GCP以及诊断性研究报告规范(STARD)。同时,随着人工智能在医学领域的深入应用,针对AI干预试验方案的报告标准(SPIRIT-AI extension)和出版指南(CONSORT-AI extension)等也逐渐推出,为医学人工智能的临床研究提供了更为具体的指导。二是医学人工智能临床研究设计类型。在医学人工智能的临床研究设计中,非劣效对照试验是常用的设计方法。这类试验通常优先考虑临床金标准或同类产品作为对照。例如,在肺癌辅助诊断算法的研究中,可以选择同类诊断软件进行对照;若缺乏同种软件,则可以选择病理结果作为金标准。在病理结果难以获取的情况下,也可以考虑使用多名高年资病理医师一致判定的结果作为替代金标准。三是医学人工智能临床研究设计要素。临床研究设计要素一般包括“PICO”原则,即P(patient/population):患者的临床特征;I(intervention or exposure):干预或暴露因素;C(comparison):对照措施,如果是诊断性研究,通常为“金标准”;O(outcome):关注的结局指标。基于PICO原则和机器学习相关要点,人工智能医学临床研究设计一般需要考虑的要素有:试验对象选择、对照选择、评价指标选择。研究对象的选取对于研究结果的普适性和应用至目标总体具有决定性影响。在临床试验中,确定适宜的研究对象样本至关重要,样本需具备充分的代表性以推广到目标人群,且数量需充足以满足算法模型的训练需求。同时,考虑到研究时间和经费的限制,样本的获取便捷性亦不可忽视。

针对不同类型的研究,其设计和对象选择存在显著差异。例如,诊断类研究的样本选择需依据金标准划分为疾病组(阳性患者)和对照组。疾病组应覆盖疾病的不同分期、分型及并发症情况,而对照组则应由健康人或患有其他疾病的患者构成。样本收集应尽可能贴近真实场景,确保阳性与阴性样本选择的合理性与充分性。对于非诊断类研究,如健康管理类研究,对象选择可包括接受AI系统慢病管理的人群与普通慢病管理人群。对照的选择对于评价医学人工智能产品的有效性和安全性至关重要。金标准作为当前临床公认的最可靠诊断方法,能够为新的AI诊断方法提供有效的评价基准。然而,在某些情况下,金标准可能难以获取或实施,此时可以考虑使用同类产品作为对照。同类产品应具有相似的适应症、基础算法和使用条件,以便进行公平有效的比较。在选择对照时,需注意避免潜在的利益冲突和偏见,确保对照方法的客观性和可靠性。同时,应充分考虑对照方法的临床可接受性和实际可行性,以确保研究结果的临床意义和应用价值。评价指标的选择应基于研究目的和临床实际需求。对于诊断类研究,敏感性、特异性和ROC/AUC等指标能够全面评价AI诊断方法的性能。此外,根据研究特点,还可以选择敏感性/特异性衍生指标、ROC/AUC衍生指标等作为次要观察指标。对于非诊断类研究,则需根据具体研究内容选择合适的评价标准,如有效率、时间成本等。在评价指标的选择上,应注重指标的科学性和实用性,避免过度追求复杂和繁琐的指标。同时,应充分考虑指标的稳定性和可靠性,以确保研究结果的准确性和可重复性。。

人工智能技术的核心在于通过算法从数据中提取有用的信息。对于医学人工智能而言,健康医疗数据不仅是基础,更是关键。然而,在实际应用中,我们面临着数据可用性和质量问题。首先,数据开放受限是一个重要问题。尽管我国人口众多,医疗数据资源丰富,但大部分数据保存在各个医院内部,且对外开放程度有限。这导致了“数据孤岛”现象的出现,限制了数据的有效利用和共享。例如,上海申康医院发展中心虽然建立了医疗大数据服务平台,实现了初步的数据共享,但这一模式在全国范围内并未得到广泛推广和应用。其次,数据标准不统一也是一个亟待解决的问题。不同地区、不同医院之间的健康数据缺乏统一的标准,导致数据之间难以建立有效的联系。以电子病历数据为例,由于缺乏统一标准,临床用语不规范、同病不同名的情况时有发生,这严重影响了数据的使用价值。相对而言,医学影像数据在标准化、格式化和统一性方面表现较好,这也是医学影像人工智能领域发展较快的原因之一。此外,数据标注成本高也是制约医学人工智能发展的一个因素。对于机器学习算法而言,有标注的数据是至关重要的。然而,医疗数据的标注需要由医生或专业人员进行,这不仅要求标注者具备较高的专业水平,而且标注过程往往复杂且耗时。因此,医疗健康数据的标注成本较高,这在一定程度上限制了医学人工智能的发展。

人工智能相关医疗产品(例如:AI辅助诊断和治疗)在各个国家都作为医疗器械加以监管。在我国对医疗器械按照风险程度进行分类管理,从I类到III类风险程度依次递增,III类为风险较高、需采取特别措施严格管理以保证安全、有效的医疗器械。人工智能医疗产品如需上市,也要根据医疗器械的等级分类标准获得监管部门相应的许可和认证。根据国家药品监督管理局NMPA (时称CFDA)2017年发布的《医疗器械分类目录》中指出:对于诊断功能软件,若软件仅提供诊断建议辅助诊断决策,但不直接出诊断结论的属于II类医疗器械;若软件通过算法直接给出明确的诊断提示的,则风险级别较高,按照III类器械管理。

目前AI诊断类产品一般都会提供临床诊断,按照规定属于第III类医疗器械。对于第III类医疗器械,大多需要前瞻性临床试验评价,耗时久难度大。2017年FDA总共只批准了两项人工智能医疗器械。但是从2018起,FDA在人工智能医疗器械审批方面大有加速的趋势,FDA每月批准人工智能的数量都有1项到2项不等。中国和美国在人工智能医疗器械领域起步时间接近,思路也接近。在2018年12月“人工智能类医疗器械注册申报公益培训”上,NMPA发布新方案,指出为了鼓励创新并且降低试验成本,在AI临床试验中可使用回顾性数据,这也一定程度上促进了AI医疗器械的审批通过。

(作者:张帆温州医科大学附属第二医院)