原文:
www.kdnuggets.com/2021/04/fludemic-ai-machine-learning-disease.html
评论
由DataDriven Health提供,AI 技术公司,致力于转变人口健康和综合监测。
2314 exabytes。这是估计在 2020 年生成的医疗数据量,来自世界经济论坛。换句话说,如果一个千兆字节相当于地球的大小,那么一个艾字节则相当于太阳的大小。
图片来源。
我们必须利用机器学习的力量来分析大量数据,从中获得有意义的见解,以帮助改善公共健康。COVID-19 大流行造成了全球灾难、严重的人员损失和前所未有的社会经济干扰**。但如果我们能够在疫情扩散之前预测并阻止这一激增,那会怎样呢?**
冠状病毒爆发使传染病建模成为焦点。这正是 FluDemic 大显身手的地方。我们的目标是通过数据协助政府、卫生系统管理者、社区领导和所有人做出前瞻性决策。我们的数据科学家和分析师密切合作,研究传播模式,了解各种社会经济影响,并使用专有的机器学习算法创建预测模型。FluDemic 目前提供了一个平台,用于跟踪和预测 COVID-19 和流感样疾病(ILI)。
FluDemic 在本质上有三种方式来发挥作用:
1. 疾病追踪:
对于 COVID-19,FluDemic 跟踪几个关键指标,如病例、死亡、检测数据、疫苗接种率和住院率。对于流感,跟踪的指标包括门诊访问中与 ILI 相关的比例、肺炎和流感死亡率、阳性检测率以及 ILI 活动水平。
COVID-19 的度量条。
流感的度量条。
除了原始值之外,我们还提供了标准化的时间和人口调整指标视图,使我们的观众能够真实地了解实际情况。这些指标在两个维度上进行跟踪:
-
空间:用于在县、市和国家之间进行地理视图。这种可视化评估哪个地区最有效地应对疾病。
-
时间:用于疫情的时间视图。这有助于评估关键政策决策的有效性。它还捕捉了疾病的趋势,无论是上升还是下降。
2. 热点检测与预测:
监测疾病的空间分布并识别病例集中最多的地方,为公共卫生官员提供了关键信息。提前一到两周预测这些热点有助于帮助官员有效和高效地将稀缺资源,如个人防护装备、医院床位和疫苗,分配到最需要的地区。FluDemic 关注多个群体并预测哪些地理区域最容易出现未来的激增、爆发和社会经济风险。
纽约州的人口调整 COVID-19 病例的 7 天预测。
3. 社区意识与影响:
由于疾病传播最终掌握在公众手中,无论他们是否遵守社交距离和戴口罩等各种政策,因此了解他们行为的潜在后果至关重要。流动数据通过地理位置和不同类别的地点(如零售和休闲、杂货和药店、公园、交通站点、工作场所和住宅)显示了随时间变化的移动趋势。此外,FluDemic 的社会经济风险指标提供了基于地点的感染和死亡风险的定性视图。
仅将冠状病毒大流行称为健康危机是过于天真的。根据世界卫生组织(WHO)的说法,“全球 33 亿劳动力中的近一半面临失去生计的风险。” FluDemic 通过跟踪失业率来揭示一些情况。许多企业已经破产,更多的企业面临生存威胁。这些影响通过综合领先指标(CLI)得到体现,CLI 显示了经济活动的波动,以及信心指数,这些指数反映了国家商业前景和家庭支出。
如果你对了解更多关于该网站的内容感兴趣,请查看这个简短的 FluDemic 教程:
供 FluDemic 使用的数据来源种类繁多。对于 COVID-19,多个不同的来源提供了病例、死亡、检测、住院、流动、失业、信心指数、社交距离措施和疫苗接种的关键数据。对于流感,数据来源包括流感样疾病(ILI)、肺炎和流感死亡、疫苗接种率和检测等指标。有关数据来源的详细信息,请查看FluDemic的关于部分。
尽管有各种可用的信息,但建模流行病过程仍然面临几个挑战。隐私和保密问题使得在个人层面公开数据变得困难。因此,许多可用的信息都是在总体水平上。像个人的既往病史这样的关键信息无法在公共模型中考虑。在处理大规模数据时,我们需要认识到数据的收集过程和质量在各州之间差异很大。例如,流感监测是一个自愿过程,每个州以不同的完整性和不同的延迟报告其信息。这种报告制度的差异往往会掩盖更细微的区域差异。
现代疫情的建模也受到高度互联的世界中的现实情况的复杂影响,在这种世界中,长途旅行的频率可以在几周内将疫情升高为全球现象。仅考虑局部传播是不够的。模型必须纳入人口的连通性。为了平衡这一点,我们现在拥有比以往更多、更好的数据来量化这种行为。
我们将传染病的发展分为四个阶段:暴露、感染、住院和致死(例如,使用公开数据估计 COVID-19 相关住院和死亡的个体风险)。这一过程始于暴露阶段,即一个或多个未感染者接触到一个感染者。虽然暴露可以发生在家中或杂货店,但当未受保护的人群在一起待较长时间时,暴露风险会加剧。室内用餐在酒吧和餐厅或参加现场活动可能会导致大量人同时暴露于疾病,即使只有很小一部分参与者感染。暴露之后,每种传染病都有一个潜伏期,在此期间病毒感染身体并繁殖。经过这段时间后,症状会出现,个人可能会接受检测并记录为病例。建模挑战在于识别潜伏期的统计分布,并将其纳入跟踪暴露诱发情况的模型中。
在一部分人群中,感染者健康状况严重恶化,导致住院,偶尔还会死亡。然而,住院和随后的死亡都存在时间延迟,这些延迟因人而异,通常与患者的既往病史、治疗护理的可及性和质量相关。在我们的人群模型中,我们利用时间延迟分布及其卷积来追踪从感染到死亡的进程。我们还注意到,对于像 COVID-19 这样的新型疾病,治疗方案随着疫情的进展而不断演变,病例致死率也是如此。由于疫情高峰期间医院床位——特别是 ICU 床位和呼吸机——的紧张,优质护理的可及性受到影响。尽管复杂,了解病例和住院情况的状态使我们能够展望预期的死亡情况。
纽约州每日按人口调整的 7 天滚动平均病例和死亡预测。
热点地区被定义为在考虑预期变化后,每日病例或死亡人数异常高的县。利用序列时间序列模型和时间延迟回归量来预测每个县的每日病例和死亡趋势。结果预测经过人口规模化处理,并使用七天滚动平均进行平滑,从而帮助我们识别新兴热点。
美国各地死亡风险的变异性。
为了将特定县的病例和死亡与基础的人口统计和社会经济因素联系起来,我们计算与人口规模化感染(发病率)和死亡(死亡率)相关的风险因素。主要的人口统计和社会经济因素包括县的人口及人口密度,以及年龄、收入和家庭规模分布。在疫情期间,行为因素如流动性和口罩使用等也会影响风险模型。
与社会经济风险相关的诸多因素并不是彼此独立的——每个因素提供一些独立信息,同时也是常见模式的度量。我们通过各种技术如主成分分析将这些信息拆解为独立组合,这也使我们能够减少独立模型参数的数量,从而使风险估计更为稳健(例如,COVID-19 大流行中的社会经济状况和心血管健康)。
建模风险的第二个重要方面是术语贡献的固有非线性。让我们考虑一下口罩使用情况、流动性和人口密度。每个术语单独都会对社会经济风险产生影响。然而,它们结合在一起时,效果更为强烈。一个人口密度大、流动性高的县会看到口罩使用的影响远大于一个人口稀少的县或一个人们倾向于呆在家的县。这些非线性效应通过使用包含所有交叉项的顺序多项式回归在我们的模型中得到考虑。
公开可用的数据常常存在报告错误、显著延迟和较低的地理颗粒度。这给模型的准确性和可操作性带来了挑战。通过 FluDemic 的高级版,我们专注于利用健康系统提供的大量临床级数据。这些数据经过匿名化、聚合处理,并输入到机器学习模型中,从而提供更高的准确性。使该解决方案更具可操作性的关键改进有:
-
数据是实时/接近实时的。
-
数据提供了患者人群的洞察——包括患者的年龄、性别和共病情况。机器学习模型提供了与不同队列相关的更多具体信息,这对于资源调动和有针对性的消息传递至关重要。
-
地理颗粒度为普查区和街区组级别。
-
住院数据仅在机构级别提供,而非在州级别,这对于资源调动尤其重要。
-
病例数据来源于“金源”系统,如确诊实验室测试结果或 COVID-19 和流感的处方。
-
基因组测序将加速开发病毒基因组监测网络,该网络将预测并提醒相关方未来的疫情高峰,评估新变种带来的威胁,并为我们未来不可避免的大流行做好准备。此模型将增强对其他当前传染病(如流感)的监测和预测。
除了 COVID-19 和流感,机器学习模型还将应用于糖尿病、癌症、慢性阻塞性肺病(COPD)和充血性心力衰竭(CHF)等不同的治疗领域。
Bio: 由 Data Driven Health 团队提供,该公司专注于通过人工智能技术转变人群健康和综合监测。
相关:
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作