在决定是否投资药物研发或商业化时,深入了解目标市场是至关重要的第一步。我们致力于提供全球人群发病率、患病率和药物可治疗人群估算的精确预测,我们的方法可确保客户获得对不断变化的疾病格局的独到见解,这些见解对于以下方面至关重要:
- 评估市场潜力
- 分析患者细分
- 基于精准预测模型,做出果断的业务决策。
我们所有的流行病学预测模型都是在来自不同背景(包括临床医学、公共卫生医学和生物统计学)的流行病学专家的指导下开发的。在这些专家的支持下,我们强大的患者级数据详细描述了未来 10 至 20 年的疾病趋势,助力您验证投资并发掘目标市场的增长机会(图 1)。
图 1. 科睿唯安流行病学——我们的工作:

严谨的文献综述、数据筛选和分析
科睿唯安方法论的核心是严谨详尽的文献综述过程。我们的流行病学家采用系统性方法,从同行评审期刊、登记系统、医院出院数据集、国家健康调查、保险理赔(医疗和处方)、电子健康记录、灰色文献以及科睿唯安广泛的数据来源库中识别和分析数据。为提高精确度和效率,我们利用了最先进的工具,包括人工智能/机器学习(AI/ML)模型和经过人工筛选与优化的检索策略。
作为流行病学家,我们的主要目标是剖析并定义特定地理位置或区域内某种疾病的流行病学特征。这包括分析发病率、患病率、死亡率、严重程度、住院情况、疾病事件、疾病分期、生存率、进展、复发、症状、合并症、风险因素、诊断标准、疾病自然史、治疗、预后评估、新药上市以及筛查与诊断手段、疾病分类和公共卫生政策的变化等方面。
科睿唯安流行病学文献综述流程建立在严谨稳健的框架之上,以确保纳入高质量的数据源,从而对疾病发病率和患病率进行精准估算。我们利用包括 PubMed 和 Web of Science 在内的多个数据库,收集关于同行评审文献和会议摘要的综合数据(图 2)。
图 2. 流行病学家审查的数据来源:

借助科睿唯安内部领域专家和治疗学专家的咨询指导,这一过程得到进一步丰富。通过评估已发表的文献、在线登记系统和调查,我们确定最具代表性的特定国家流行病学数据,并在我们的流行病学团队中应用标准化的纳入和排除标准。数据筛选的纳入标准包括:
- 具有代表性的、基于人群的研究
- 同等条件下,近三到四年内进行的研究
- 足够的样本量以确保统计有效性
- 详细的方法学,包括特定年龄和性别的数据。
科睿唯安的流行病学研究解决了针对特定疾病类型的各种关键问题。对于慢性病,我们探讨患病率、发病率、风险因素、生存率、治疗结局和常见合并症。对于传染病,我们关注发病率、风险因素、住院率以及诊断和预防措施。在肿瘤学领域,我们的研究深入探讨疾病发病率、风险因素、疾病分期、病程进展、复发风险、生存率、治疗效果和有限期患病率。通过解决这些关键问题,我们为疾病发病率、患病率、事件、药物可治疗人群、疾病负担、预后和治疗动态具备实操价值的深度洞察,帮助客户做出明智的决策。
我们的流行病学家对这些同行评审的研究和其他数据来源进行严格评估,以保持可靠性,避免纳入可能影响结果的低质量研究。在评价特定国家的估算值时,我们会考虑不同地区在诊断实践、生活方式和遗传学方面的差异。虽然通常首选近期研究,但研究质量和方法学仍然至关重要。我们的团队避免在未考虑公共卫生干预、保护性或风险因素暴露变化、生存率改善、疾病治疗改善、按性别和年龄组划分的疾病风险以及人口变化等因素的情况下,对外推历史数据趋势。对于截断的估算值,例如仅限于特定年龄组的估算值,我们会进行仔细调整,以提供对各个人群疾病风险的全面了解。
在文献综述之后,训练有素、经验丰富的流行病学家会在流行病学数据稀缺的情况下,使用经过验证的流程和专有模型进行分析。这些模型包括发病率-患病率转换模型、患病率-发病率转换模型、生存模型和外推法。分析还考虑了风险因素、人口变化和队列效应。
通过将我们的估算值与公开来源进行比较,以及将患病、确诊和药物治疗病例与已公布的销售或其他治疗数据进行比较,对科睿唯安流行病学预测估算值进行对标校验。作为流程的最后一步,科睿唯安流行病学专家团队会提供全面的预测评估,包括初步预测模型、支持证据、数据来源选择的依据以及模型假设。
报告的指标(取决于分析)是发病率、患病率和比例(亚群和药物可治疗人群)。我们根据诊断和药物治疗状态以及相关临床变量(如诊断时的疾病分期和严重程度)对患者人群进行分层。对于所有分析的国家,估算值以比率和病例数两种形式呈现,并按人群提供特定年龄、性别和国家/地区的数据。其中包括用于分析和人群估算的详细方法章节、流行病学术语词汇表以及可交互和下载的图表。
这种系统性方法确保我们的客户获得最可靠和可行的流行病学见解。
利用技术进行主动监测
科睿唯安一直在采用新兴技术对所有疾病进行年度文献综述。当新的研究表明发病率或患病率发生重大变化时,这种主动的方法可确保及时更新。通过这项举措,我们的客户可以及时了解新兴趋势,从而能够快速调整研发(R&D)和市场策略。
在当前对 AI 的关注下,AI/ML 模型已成为精准检索的核心工具。为了优化这一庞大的输出,我们采用 AI/ML 相关性模型应用程序编程接口(API)按相关性对论文进行排序。
科睿唯安的流行病学机器学习(EPI ML)项目可自动扫描流行病学研究,重点关注模型选择和 ML 服务平台的开发。评价了六个分类器 ML 模型,并深度研究了性能报告。
由于我们的数据集存在样本不平衡性(不相关样本的数量多于相关样本),因此引入集成学习技术(ELT)提高准确性。集成模型结合了多个独立模型,比单个模型能产生更准确的预测。
对于流行病学,采用简易集成自分类器(EEC)的多项式朴素贝叶斯(NB)模型表现最佳,加权准确率约为 70%(图 3)。
图 3. 六个测试的分类器 ML 模型的性能报告:
| EEC 2f 21集 | |||||||
| 分类器 | 相关性召回率 | 相关性精确率 | 不相关性召回率 | 不相关性精确率 | 相关性 f1 分数 | 不相关性 f1 分数 | 总体准确率 |
| 多项式 NB | 78.376 | 20.000 | 67.189 | 95.997 | 29.695 | 77.800 | 68.055 |
| K 近邻分类器 | 74.434 | 14.321 | 57.455 | 95.130 | 22.435 | 70.661 | 58.939 |
| 随机森林分类器 | 58.581 | 21.489 | 78.165 | 94.571 | 29.086 | 85.022 | 76.399 |
| XGB 分类器 | 49.833 | 25.934 | 86.095 | 93.946 | 31.019 | 89.571 | 82.466 |
| 逻辑回归 | 45.817 | 31.108 | 90.095 | 93.599 | 33.013 | 91.547 | 85.436 |
| AdaBoost 分类器 | 44.995 | 25.376 | 86.842 | 93.637 | 29.442 | 89.849 | 82.799 |
EPI ML 服务平台于 2024 年 8 月推出,利用 API 进行预测、训练、模型管理和系统跟踪,便于集成到 Epi-Intelligence 平台中。通过这些 API,用户可以预测流行病学研究的相关性、上传训练数据和管理ML模型。靶向检索工作使用 PubMed、Web of Science 和引用的文献等来源,以获取更多有价值的来源。数据经过严格验证,然后 AI/ML 模型赋予相关性评分,以实现高效筛选。
通过关注相关性得分在 80% 或更高的论文,流程变得更加高效,通常会缩小详细评价的列表范围。这种方法节省了大量时间,同时确保纳入了最佳且有影响力的研究。
EPI ML 服务集成的后续路线图包括:引入支持持续学习的自动化反馈闭环、创建用户友好的 Singularity 仪表板,以及进行深度学习测试以提高模型准确性。
同时,由 AI/ML 辅助的靶向检索工作将侧重于所有适应症的年度更新、记录最新文章,并将研究结果整合到 Epi-Intelligence 平台中,以便为客户提供最新的、全面的流行病学数据。Epi-Intelligence 平台集成了旧系统内容,并提供增强功能,例如用户友好的搜索框、快速加载时间、重新设计的汇总表、全新的可视化和可定制数据应用程序,以及各国流行病学数据的热图视图。这些功能共同为访问和分析流行病学数据提供了全面、高效和用户友好的体验。
此外,通过集成 AI/ML 技术,科睿唯安在流行病学研究的精确度与交付效率方面正持续定义行业标准。
依托稳健数据集,预见未来趋势
科睿唯安流行病学情报平台提供:
- 覆盖 45 个国家/地区的数据,外推能力可扩展至 171 个国家/地区
- 超过 200 种疾病和关键人群,涵盖皮肤病学、肿瘤学、心血管、传染病等领域
- 提供 10 至 20 年的前瞻性预测,助力客户制定长期战略规划。
这种广泛的覆盖范围为制药公司和研究人员提供了针对不同市场的实操性洞察。无论是了解疾病负担、识别关键风险因素,还是预测未来趋势,科睿唯安的流行病学团队始终致力于提供具有战略决策价值的深度见解。
要全面了解我们覆盖的疾病和方法,请访问我们的流行病学情报平台,或立即联系我们的团队。我们可以共同塑造医疗保健研究的未来。
本文由流行病学总监 Narendra Parihar 和高级首席 STEM 内容分析师 Shyama Ghosh 撰写。
