当前位置：首页 > 科技 > 软件

利用贝叶斯网络预测医院服务患者数量

来源：责编：时间：2023-10-18 09:18:43 453观看

导读译者 | 朱先忠审校 | 重楼驾驭复杂性：预测医疗保健中的患者数量在医疗保健领域，准确预测即将到来的患者数量不仅对手术成功至关重要，也是一个非常棘手的问题。原因很简单：需要考虑的依赖性因素太多了——患者的严重程度和

译者 | 朱先忠

审校 | 重楼

驾驭复杂性：预测医疗保健中的患者数量

在医疗保健领域，准确预测即将到来的患者数量不仅对手术成功至关重要，也是一个非常棘手的问题。原因很简单：需要考虑的依赖性因素太多了——患者的严重程度和特殊要求、管理需求、检查室限制、员工请病假、严重的暴风雪等等。更糟糕的是，意外情况可能会对日程安排和资源分配产生连锁影响，甚至可能与最高质量的Excel项目预测结果产生矛盾。

从数据的角度来看，这些挑战真的很有趣，因为它们极其复杂，足够你考虑一段时间的。但是，即使是轻微的改进也可能带来重大的胜利（例如，提高患者吞吐量、缩短等待时间、让医疗保健提供者更快乐、降低成本等）。

另一种预测方法：贝叶斯模型

那么，还有什么替代方案呢？Epic为我们提供了大量数据，包括患者何时赴约的实际记录。在已知历史“显示”和“未显示”的情况下，我们可以在监督学习的空间中操作，贝叶斯网络（BN：Bayesian Networks）提供了很好的概率图形模型来预测未来的访问概率。

虽然生活中的大多数决定都可以通过一个输入来决定（例如，考虑“我应该带雨衣吗？”。假设外面下雨，那么这个决定应该是“是”），但贝叶斯网络可以很容易地处理更复杂的决策——涉及多个输入的决策（例如，天气潮湿，步行仅3分钟，你的雨衣在另一层楼，你的朋友可能有伞，等等），具有不同的概率结果和依赖性。在这篇文章中，我将在Python语言环境中构造一个超简单的贝叶斯网络，它可以根据症状、癌症分期和治疗目标这三个因素的已知概率，输出患者在2个月内到达的概率得分。

理解贝叶斯网络

贝叶斯网络的核心是使用有向无环图（DAG）的联合概率分布的图形表示。DAG中的节点表示随机变量，有向边表示这些变量之间的因果关系或条件依赖关系。正如所有数据科学项目一样，在一开始就花大量时间与利益相关者协商，以正确映射决策中涉及的工作流程（例如变量），这对于高质量的预测结果是至关重要的。

因此，我将发明一个场景，让我们与乳腺肿瘤合作伙伴会面，由他们来解释三个变量——患者症状、癌症分期和当前治疗目标，对于确定患者是否需要在2个月内预约至关重要。

（事实上，影响未来患者数量的因素不下几十个，其中一些是单一或多重依赖性的，另一些则是完全独立但仍有影响的）。

现在，假设我们同意如下工作流程：阶段取决于他们的症状，但治疗类型与症状无关，也影响到2个月内的预约。

基于此，我们将从我们的数据源（对我们来说是Epic）中获取这些变量的数据，该数据源将再次包含我们的分数节点（Appointment_2months）的已知值，标记为“是”或“否”。这种数据整理是一个重要部分；你需要根据这些变量在2个月前表明的情况，正确地捕捉2个月内真正到达患者的病例。

# 安装包import pandas as pd # 用于数据处理 import networkx as nx # 用于绘图import matplotlib.pyplot as plt # 用于绘图!pip install pybbn# 用于创建贝叶斯置信网络（BBN）from pybbn.graph.dag import Bbnfrom pybbn.graph.edge import Edge, EdgeTypefrom pybbn.graph.jointree import EvidenceBuilderfrom pybbn.graph.node import BbnNodefrom pybbn.graph.variable import Variablefrom pybbn.pptc.inferencecontroller import InferenceController# 通过手动键入概率创建节点Symptom = BbnNode(Variable(0, 'Symptom', ['Non-Malignant', 'Malignant']), [0.30658, 0.69342])Stage = BbnNode(Variable(1, 'Stage', ['Stage_III_IV', 'Stage_I_II']), [0.92827, 0.07173,  0.55760, 0.44240])TreatmentTypeCat = BbnNode(Variable(2, 'TreatmentTypeCat', ['Adjuvant/Neoadjuvant', 'Treatment', 'Therapy']), [0.58660, 0.24040, 0.17300])Appointment_2weeks = BbnNode(Variable(3, 'Appointment_2weeks', ['No', 'Yes']), [0.92314, 0.07686,  0.89072, 0.10928,  0.76008, 0.23992,  0.64250, 0.35750,  0.49168, 0.50832,  0.32182, 0.67818])

上面代码中，让我们手动输入每个变量（节点）中对应级别的一些概率值。注意，这些概率值没有被猜测，甚至会是最好的猜测结果。不过，在实践应用中，您还将再次根据现有数据来计算对应的频率。

让我们以症状（symptom）变量为例。我会得到它们的2级频率值：大约31%是非恶性的，69%是恶性的，请参考下图：

然后，我们考虑下一个变量Stage，并使用Symptom进行交叉表计算，以获得这些频率。我们这样做是因为阶段（Stage）取决于症状（Symptom），因为它们每个变量都对应两个场景，所以它们实际上存在4个概率结果。

依此类推，直到定义了父子对之间的所有交叉表。

现在，大多数贝叶斯网络包括许多父子关系，因此计算概率可能会变得乏味（而且非常容易出错），下面的函数可以用来计算与0、1或2个父节点对应的任何子节点的概率矩阵。虽然医学洞见不能也不应该被自动化处理，但数据准备部分的工作完全可以也应该通过自动化的方式来实现。

# 此函数有助于计算进入BBN的概率分布（注意，最多可以处理2个父节点）def probs(data, child, parent1=None, parent2=None): if parent1==None: # 计算概率 prob=pd.crosstab(data[child], 'Empty', margins=False, normalize='columns').sort_index().to_numpy().reshape(-1).tolist() elif parent1!=None: # 检查子节点是否有1个父节点或2个父节点 if parent2==None: # 计算概率 prob=pd.crosstab(data[parent1],data[child], margins=False, normalize='index').sort_index().to_numpy().reshape(-1).tolist() else:  # 计算概率 prob=pd.crosstab([data[parent1],data[parent2]],data[child], margins=False, normalize='index').sort_index().to_numpy().reshape(-1).tolist() else: print("Error in Probability Frequency Calculations") return prob

接下来，我们创建实际的贝叶斯网络节点和网络本身：

# 通过使用我们早期的函数自动计算概率来创建节点Symptom = BbnNode(Variable(0, 'Symptom', ['Non-Malignant', 'Malignant']), probs(df, child='SymptomCat'))Stage = BbnNode(Variable(1, 'Stage', ['Stage_I_II', 'Stage_III_IV']), probs(df, child='StagingCat', parent1='SymptomCat'))TreatmentTypeCat = BbnNode(Variable(2, 'TreatmentTypeCat', ['Adjuvant/Neoadjuvant', 'Treatment', 'Therapy']), probs(df, child='TreatmentTypeCat'))Appointment_2months = BbnNode(Variable(3, 'Appointment_2months', ['No', 'Yes']), probs(df, child='Appointment_2months', parent1='StagingCat', parent2='TreatmentTypeCat'))# 创建贝叶斯网络bbn = Bbn() / .add_node(Symptom) / .add_node(Stage) / .add_node(TreatmentTypeCat) / .add_node(Appointment_2months) / .add_edge(Edge(Symptom, Stage, EdgeType.DIRECTED)) / .add_edge(Edge(Stage, Appointment_2months, EdgeType.DIRECTED)) / .add_edge(Edge(TreatmentTypeCat, Appointment_2months, EdgeType.DIRECTED))# 将BBN转换为连接树join_tree = InferenceController.apply(bbn)

现在，我们准备好了一切。接下来，让我们通过贝叶斯网络运行一些假设，并给出评估输出。

评估贝叶斯网络输出

首先，让我们看看每个节点的概率，而不需要具体声明任何条件。

# 定义打印边际概率的函数#每个节点的概率def print_probs(): for node in join_tree.get_bbn_nodes(): potential = join_tree.get_bbn_potential(node) print("Node:", node) print("Values:") print(potential) print('----------------')# 使用以上函数打印边际概率print_probs()输出结果如下：Node: 1|Stage|Stage_I_II,Stage_III_IVValues:1=Stage_I_II|0.671241=Stage_III_IV|0.32876----------------Node: 0|Symptom|Non-Malignant,MalignantValues:0=Non-Malignant|0.693420=Malignant|0.30658----------------Node: 2|TreatmentTypeCat|Adjuvant/Neoadjuvant,Treatment,TherapyValues:2=Adjuvant/Neoadjuvant|0.586602=Treatment|0.173002=Therapy|0.24040----------------Node: 3|Appointment_2weeks|No,YesValues:3=No|0.776553=Yes|0.22345----------------

上述情况表明，该数据集中的所有患者都有67%的概率为Stage_I_II，69%的概率为非恶性（Non-Malignant），58%的概率需要辅助/新辅助（Adjuvant/Neoadjuvant）治疗，其中只有22%的患者需要在2个月后预约。

显然，我们可以很容易地从没有贝叶斯网络的简单频率表中得到这一点。

但现在，让我们问一个更有条件的问题：考虑到患者患有阶段=Stage_I_II和TreatmentTypeCat=Therapy，患者在2个月内需要护理的可能性有多大。此外，考虑到医疗保健提供者对他们的症状一无所知（也许他们还没有见过病人）。

我们将在节点中运行我们所知道的正确内容：

# 添加已发生事件的证据，以便重新计算概率分布def evidence(ev, nod, cat, val): ev = EvidenceBuilder() / .with_node(join_tree.get_bbn_node_by_name(nod)) / .with_evidence(cat, val) / .build() join_tree.set_observation(ev)# 添加更多证据evidence('ev1', 'Stage', 'Stage_I_II', 1.0)evidence('ev2', 'TreatmentTypeCat', 'Therapy', 1.0)# 打印边际概率print_probs()

上述代码的执行将返回如下内容：

Node: 1|Stage|Stage_I_II,Stage_III_IVValues:1=Stage_I_II|1.000001=Stage_III_IV|0.00000----------------Node: 0|Symptom|Non-Malignant,MalignantValues:0=Non-Malignant|0.576020=Malignant|0.42398----------------Node: 2|TreatmentTypeCat|Adjuvant/Neoadjuvant,Treatment,TherapyValues:2=Adjuvant/Neoadjuvant|0.000002=Treatment|0.000002=Therapy|1.00000----------------Node: 3|Appointment_2months|No,YesValues:3=No|0.890723=Yes|0.10928----------------

上面结果显示，这个病人在两个月内到达的几率只有11%。我们可以询问我们变量的已知或未知特征的任何排列，以预测患者在2个月内到达的概率。可以利用进一步的算法和函数来收集许多患者或患者组的概率，或优化这些概率。

关于质量输入变量重要性的说明

Python代码编写是一回事，但贝叶斯网络在提供可靠的未来就诊估计方面的真正成功在很大程度上取决于患者护理工作流程的准确映射。所有这些需要时间、谈话和白板——而不是仅仅的编码工作。这样的信息取得甚至可能需要几次数据挖掘，并与客户重新接触，以进行压力测试假设：“我们之前说过，护士导航仪总是在报告症状不佳后给患者打电话，但这种情况只发生了10%。下一次与患者交谈是与他们的医疗服务提供者进行的。”。

在类似的情况下，表现相似的患者通常需要类似的服务，并以类似的节奏进入。这些输入的排列，其特征可以从临床到管理，最终对应于服务需求的某种确定性路径。但是，时间预测越复杂或越远，就越需要更具体、更复杂的具有高质量输入的贝叶斯网络。

原因如下：

精确表示：贝叶斯网络的结构必须反映变量之间的实际关系。选择不当的变量或误解的依赖关系可能导致不准确的预测和见解。
有效推理：高质量的输入变量增强了模型执行概率推理的能力。当变量根据其条件依赖性准确连接时，网络可以提供更可靠的见解。
降低复杂性：包含不相关或冗余的变量会使模型不必要地复杂化，并增加计算需求。高质量的投入使网络更加高效。

译者介绍

朱先忠，51CTO社区编辑，51CTO专家博客、讲师，潍坊一所高校计算机教师，自由编程界老兵一枚。

原文标题：Using Bayesian Networks to forecast ancillary service volume in hospitals，作者：Gabe Verzino

本文链接：http://www.28at.com/showinfo-26-13844-0.html利用贝叶斯网络预测医院服务患者数量

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Kubernetes 中的 Java 应用的内存调优

下一篇： Python字符串处理：掌握文本的艺术

标签：

热门焦点

2023年Q2用户偏好榜：12+256G版本成新主流

3月份的性能榜、性价比榜和好评榜之后，就要轮到2023年的第二季度偏好榜了，上半年的新机潮已经过去，最明显的肯定就是大内存和存储的机型了，另外部分中端机也取消了屏幕塑料支架
容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

8月5日消息，云存储服务商Backblaze发布了最新的硬盘故障率报告，年故障率有所上升。Backblaze发布的硬盘季度统计数据，其中包括故障率等重要方面。这些结
28个SpringBoot项目中常用注解，日常开发、求职面试不再懵圈

前言在使用SpringBoot开发中或者在求职面试中都会使用到很多注解或者问到注解相关的知识。本文主要对一些常用的注解进行了总结，同时也会举出具体例子，供大家学习和参考。注解
SpringBoot中使用Cache提升接口性能详解

环境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架从 3.1 开始，对 Spring 应用程序提供了透明式添加缓存的支持。和事务支持一样，抽象缓存允许一致地使用各
虚拟键盘 API 的妙用

你是否在遇到过这样的问题：移动设备上有一个固定元素，当激活虚拟键盘时，该元素被隐藏在了键盘下方？多年来，这一直是 Web 上的默认行为，在本文中，我们将探讨这个问题、为什么会发生
小米汽车电池信息疑似曝光：容量101kWh，支持800V高压快充

7月14日消息，今日一名博主在社交媒体发布了一张疑似小米汽车电池信息的照片，显示该电池包正是宁德时代麒麟电池，容量为101kWh，电压为726.7V，可以预测小
华为和江淮汽车合作开发百万元问界MPV？双方回应来了

8月1日消息，郭明錤今天在社交平台发文称，华为正在和江淮汽车合作，开发售价在100万元的问界MPV，预计在2024年第2季度量产，销量目标为上市首年交付5万辆。
三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

7月27日消息，据外媒报道，从三星电子所发布的财报来看，他们主要利润来源的存储芯片业务在今年二季度仍不乐观，营收同比仍在大幅下滑，所在的设备解决方案
苹果140W USB-C充电器：采用氮化镓技术

据10 月 30 日 9to5 Mac 消息报道，当苹果推出新的 MacBook Pro 2021 时，该公司还推出了新的 140W USB-C 充电器，附赠在 MacBook Pro 16 英寸机型的盒子里，也支

利用贝叶斯网络预测医院服务患者数量

驾驭复杂性：预测医疗保健中的患者数量

另一种预测方法：贝叶斯模型

理解贝叶斯网络

评估贝叶斯网络输出

关于质量输入变量重要性的说明

译者介绍

2023年Q2用户偏好榜：12+256G版本成新主流

容量越大越不坏？24万块硬盘故障率报告公布这些产品零故障

28个SpringBoot项目中常用注解，日常开发、求职面试不再懵圈

SpringBoot中使用Cache提升接口性能详解

虚拟键盘 API 的妙用

小米汽车电池信息疑似曝光：容量101kWh，支持800V高压快充

华为和江淮汽车合作开发百万元问界MPV？双方回应来了

三星电子Q2营收60万亿韩元存储业务营收同比仍下滑超过50%

苹果140W USB-C充电器：采用氮化镓技术

最新推荐

猜你喜欢

热门推荐

相关资讯