人工智能(AI)的出现彻底改变了我们研究罕见病流行病学的方式。通过机器学习(ML)和深度学习(DL),研究人员可以高效地筛选海量文献,以提取有关流行病学趋势和治疗效果的关键数据。原发性震颤(ET)是一种常见的神经系统疾病,其特征是不自主的节律性震颤,主要影响手部,但也可能累及头部、声音和身体其他部位。ET 的病理生理学涉及小脑功能异常,许多病例中都注意到遗传因素和家族模式。这种普遍存在的运动障碍影响了约 1% 的普通人群,但常常未被诊断、被误诊和治疗不足,给职场人士带来了挑战。
我们以 ET 为例,说明 AI 如何潜在地改变我们对这种疾病的理解和管理。本文将探讨 AI 在整理和分析疾病数据方面的多重益处,重点介绍这些技术不仅能提高准确性和速度(第 1 节),还能识别用于早期诊断的模式,并根据患者特征评估疾病严重程度(第 2 节)。在我们深入研究 ET 病例时,我们揭示了 AI 为阐明这种疾病的复杂性所具有的潜力,最终有助于改善患者的治疗结局。
用于罕见病数据整理的新 AI 工具
据估计,全球有4亿人患有罕见病。在科睿唯安流行病学情报平台,发病率和患病率数据库(Incidence & Prevalence Database ,IPD)和流行病学团队进行有针对性的文献检索,以提取这些罕见病的流行病学数据。然而,对于我们已知的许多罕见病,可用的数据很少,部分原因是当前人工整理流程存在局限性。人工整理具有挑战性,因为该方法耗时、需要专业知识,并且需要整合来自医疗记录和研究文章等各种格式的数据。AI 可以通过提供可扩展、高效和可靠的解决方案来克服这些挑战。这些工具可以快速准确地识别人工操作可能错过的模式和相关性,从而确保一致性并加快研究速度。AI 工具,如组织学自监督图像搜索(SISH)、DL 算法和 ML 模型,可以分析来自各种来源的复杂数据,识别模式,并提高罕见病的诊断准确性。
W.Z. Kariampuzha等人2023 年的一项研究提出了 EpiPipeline4RD,这是一个为自动从罕见病文献中提取流行病学数据而开发的流程。该流程在流行病学数据提取方面表现出高精确率和召回率分数,显示出与Orphanet的收集模型相当的结果。其益处是多方面的:提高了疾病预测的准确性,加快了数据处理速度,并能够管理复杂的多维数据。该流程的开发符合联合国关于通过减少对人工流程的依赖以改善罕见病数据收集的决议。病例研究包括 Rett 综合征、嗜酸性食管炎、经典型同型半胱氨酸尿症、GRACILE 综合征和苯丙酮尿症。科睿唯安正在探索将此工具及其他 AI 解决方案引入制药行业,以提供更全面、更准确的流行病学研究结果和数据。该流程旨在加强 NIH 遗传和罕见疾病信息中心(Genetic and Rare Diseases Information Center,GARD)。未来的发展可能包括与其他现有罕见病数据库或平台合作或整合,以增强数据的可及性和实用性。
新平台背后的数据科学
EpiPipeline4RD 流程的关键组成部分包括:一个新的用于命名实体识别(Named Entity Recognition,NER)的流行病学数据集;一个为提取流行病学数据而微调的 DL 框架(BioBERT);以及一个用于自动化提取过程的 Web 界面和 Restful API。该流程集成了 ES_Predict,用于识别流行病学研究。该流程使用欧洲生物信息学研究所(European Bioinformatics Institute,EBI)和美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的 API 进行 PubMed 文章检索,并通过严格筛选机制降低假阳性率。完整的实现、代码和补充数据可在 GitHub 上获取,微调后的模型和数据集可从Hugging Face下载。
该流程的真实性如何?
David Lapidus在讨论这种用于罕见病流行病学的新 AI 工具的优势和局限性时指出,虽然该 AI 工具通过快速识别和总结患病率研究,比 Orphanet 有了显著进步,但它仅分析 PubMed 摘要,错过了可能存在于文章全文中的关键信息,从而影响了数据解读。在实践中,可能会出现不一致和数据缺失的情况(例如,该 AI 工具没有收录 Baujat 于 2017 年针对进行性骨化性纤维发育不良 [fibrodysplasia ossificans progressive,FOP]的研究,该研究被认为是该领域的金标准,同时还遗漏了自身免疫性肺泡蛋白沉积症 [autoimmune pulmonary alveolar proteinosis,aPAP]的实际患病率研究)。
了解原发性震颤
ET 是一种普遍但常被忽视的疾病,严重影响患者的日常活动和生活质量,不同研究的估计值各不相同。全球约 1% 的人口受 ET 影响,相当于 2020 年约有 2,491 万人。仅在美国,ET 就影响了 700 万人,其中 100 万人在 2015-2019 年期间确诊并寻求治疗。根据科睿唯安专有的真实世界数据(RWD)资产估计,2023 年美国有超过 41 万例 ET 确诊病例。
ET 的患病率随年龄增长而增加,估计值范围从 20 岁以下人群的 0.04% 到 80 岁及以上人群的 2.87%。科睿唯安的 IPD 数据表明,女性、无家族史和基线静止性震颤被认为是疾病进展不良的预测因素。
患者常伴有合并症,影响其在专业环境中的最佳表现能力。由于 ET 与多种疾病相关,一项对主要合并症的评估发现,约 69% 的 ET 病例患有原发性高血压,其次近 50% 的 ET 病例患有高脂血症。其他常见报告的合并症包括不伴食管炎的胃食管反流病(GERD)、2 型糖尿病和焦虑症。
ML 辅助诊断
目前,ET 的诊断基于症状和神经系统检查。然而,ML 可以通过分析患者数据来检测可能的 ET 病例,从而帮助弥合诊断上的差距。然后可以使用文献对这些可能的病例进行验证。最近的一项研究使用灰质形态网络和 ML 模型区分 ET、肌张力障碍性震颤和健康对照组。该研究发现,16 个形态关系特征和 1 个全局拓扑度量可以作为区分性特征。因此,经过训练用于分析患者数据和检测可能 ET 病例的 ML 模型可以标记出高危患者,从而进行进一步的调查和潜在的早期干预。上述旨在检测可能 ET 病例的 ML 研究发现,随机森林分类器在三分类任务中取得了最佳分类性能,平均准确率达到 78.7%。
双生子研究表明 ET 受遗传影响,存在与该病相关的潜在基因座和基因多态性。遗传易感性与环境触发因素之间的相互作用促进了 ET 的发生和发展。这种遗传基础可用于 ET 的早期诊断。通过分析历史患者数据,ML 模型可以学会识别原发性震颤的早期迹象。发表在 Open Life Sciences 上的一项研究使用 ML 算法筛选 miRNA,并确定了 ET 可能的生物标志物。该研究使用公共数据集和他们自己的数据集来研究这种疾病。研究结果表明,三个差异表达基因(APOE、SENP6和ZNF148)可以成功区分 ET 患者和正常对照组的样本。
智能设备辅助的严重程度评估
ET 的严重程度传统上通过临床观察和评定量表进行评估,量表包括 Fahn-Tolosa-Marin 震颤评估量表(FTM-TRS)和运动障碍学会申办的统一帕金森病评定量表修订版(MDS-UPDRS)第三部分。然而,ML 可以提供更客观和定量的评估。准确的临床评估工具和智能手机、智能手表等技术可用于震颤测量。发表在 BMC Bioinformatics 上的一项研究使用绑在ET患者手腕上的智能手机收集传感器数据。然后使用模糊模型对这些数据进行分析,与线性模型相比,该模型将平均绝对误差指标改善了 78-81%,与基于决策树的模型相比,改善了 71-74%。发表在 Journal of Neurology 上的一篇综合综述讨论了使用智能设备评估ET的情况。使用的设备包括惯性测量单元、肌电图、视频设备和电子手写板。使用 ML 模型分析从这些设备收集的数据,以识别 ET 患者特有的模式和特征。
AI 在深化震颤研究中的潜力
过去十年震颤研究的进展包括国际帕金森病与运动障碍学会(International Parkinson’s and Movement Disorders Society,IPMDS)在 2018 年推出的新分类系统。与肌张力障碍性震颤(DT)和帕金森震颤一样,ET 现在被视为一种综合征,而不是单一疾病。ET 与持续至少 3 年的孤立性双上肢动作性震颤相关,持续时间较短的为“不确定性震颤”,伴有其他体征(如静止性震颤)的 ET 为“ET-plus”。这种分类意味着一种综合征可能会随着时间的推移演变成另一种综合征,展示了震颤综合征的动态性。震颤的病理生理学涉及小脑-丘脑-皮质回路,不同类型的震颤可能与不同的病理生理机制有关。
将 AI 整合到 ET 的市场分析中已显示出巨大潜力。传感器以及智能手机和智能手表等技术正被用于震颤测量,提高了震颤评估的精确度。AI 能够快速准确地处理海量数据,并识别出传统分析方法可能忽略的模式和趋势,从而能够对市场格局有更细致的理解。然而,AI 在罕见病领域的应用也存在缺点。鉴于这些疾病的罕见性,有效运行所需的大量高质量数据集可能是一个挑战。此外,这些工具的复杂性可能使其在没有专业知识的情况下难以使用和解读。最后,围绕数据隐私和敏感健康信息的潜在滥用也引发了伦理方面的考量。尽管存在这些挑战,AI 在疾病流行病学领域的潜力是不可否认的,并继续推动该领域的进步。
在科睿唯安,我们通过三角验证各种数据源生成真实的流行病学信息。无论是学术论文还是广泛的真实世界证据(RWE),使用不同的科睿唯安数据集(例如,Epi Core 数据集、IPD 和来自流行病学情报的 RWD)交叉验证数据,都能增强我们对疾病病理学的理解。正如在莱姆病的病例研究中所见,我们的内部 RWD 证实了美国的高发病率,并且目前的治疗方案未得到充分利用(抗生素和抗炎药氨苯砜)。虽然抗生素仍然是莱姆病患者的标准治疗方法,但 RWE 指出,仅有 51% 的抗生素治疗病例在一年后报告有所改善;值得注意的是,37% 的患者抱怨其病情没有变化,而 12% 的患者报告其病情恶化。因此,需要独立的疾病数据集来相互补充和/或提供完整的流行病学全貌。
在这种背景下,在整合 AI 工具(如 EpiPipeline4RD 流程)以从在线来源整理流行病学数据时,我们持谨慎态度。这种 AI 工具仅分析 PubMed 摘要;因此,可能导致数据不一致。虽然这类 AI 工具可作为数据整理的第一步,但需要后续的人工或部分自动化流程以确保所整理数据的完整性和准确性。这一策略与我们目前对 Orphanet 和 GARD 的做法相似。
联系专家,了解有关 DRG 流行病学情报的更多信息。
Swarali Tadwalkar为本文做出了贡献
