近年来,大型语言模型 (LLM) 在医疗问诊中的应用越来越受到关注。在湖南省湘潭市雨湖区昭潭街道社区卫生服务中心,家庭医生刘彦博正根据「智医助理」实时生成的用药建议和病历摘要,为 72 岁的糖尿病患者王桂华进行复诊。这一「AI+医疗」的应用场景,已成为雨湖区基层医疗服务的常态。据悉,该「智医助理」不仅能够提升电子病历质量,而且能够辅助降低诊疗风险。引入该平台以后,区域病历规范率高达 96.64%,诊断符合率则上升至 96.66%。
然而,通用 LLM 在现实医疗场景中的应用,往往面临着多样化的挑战。 例如,AI 模型不仅无法有效地指导患者逐步表达自己的病情和相关信息,而且缺乏管理医疗伦理和安全问题的必要策略和保障措施,同时也无法存储问诊对话和检索病史。
对此,有研究团队尝试从头构建医学 LLM,或使用特定数据集对通用 LLM 进行微调以解决此类问题。然而,这种一次性过程不仅计算成本高昂,而且缺乏实际场景所需的灵活性和适应性。相比之下,Agent 可以推理并将任务分解为可管理的部分且无需重新训练,更适合于复杂任务。
在此背景下,武汉大学和南洋理工大学研究团队联合发布了由对话、记忆和处理三个组件构成的 Healthcare Agent,实现了患者医疗目的的识别,并自动检测医疗伦理和安全问题的功能。 在允许医护人员中途介入干预的同时,用户还能通过 Healthcare Agent 快速获取咨询内容汇总报告。 Healthcare Agent 更大限度地拓展了 LLM 在医疗咨询方面的能力表现,为其在医疗保健领域的应用提供了一种新的范例。
相关研究成果以「Healthcare agent: eliciting the power of large language models for medical consultation」为题,发表于 Nature Artificial Intelligence。
研究亮点:
- 提出对话、记忆与处理三大组件,无需训练即可提升 LLM 的医疗咨询能力,支持多任务处理与安全交互; 构建安全与伦理保障机制,通过「讨论-修改」策略检测伦理、紧急与错误三类风险; 结合当前对话记忆与历史咨询摘要,避免信息重复,提升问诊连贯性和个性化护理效率;* 利用 ChatGPT 模拟虚拟患者并开发自动评估系统,基于真实数据高效测试模型,降低人工评估成本。
论文地址:
https://go.hyper.ai/09lYX
关注公众号,后台回复「Healthcare Agent」获取完整 PDF
更多 AI 前沿论文:
筛选数据集高质量样本,基于真实对话构建患者画像
该研究使用了 MedDialog 数据集以建构和评估 Healthcare Agent。 研究人员筛选出数据集中对话轮数超过 40 轮的样本,并基于真实对话构建了患者画像(Patient Vignette)。MedDialog 数据集涵盖了大规模的真实医患对话数据,覆盖了包括肿瘤学、精神病学和耳鼻喉科学在内的 20 个不同的医疗专科,确保了实验场景的多样性和全面性。该数据集内容包括三个关键部分:
患者病情基本描述; 医患多轮对话的完整记录;* 医护人员提供的最终诊断和治疗建议。
Healthcare Agent 的核心组件与模型架构
该 Healthcare Agent 的核心架构由对话(Dialogue)、记忆(Memory)和处理(Processing)三个紧密协作的组件构成:
- 对话组件(Dialogue):负责与患者进行交互,其内部的功能模块能够根据患者的输入自动判定当前任务类型,当患者提供的信息不足时,规划子模块能够调用询问子模块,通过有针对性的追问引导患者补充关键症状和病史,并在完成信息收集后,系统能够给出初步诊断、病因解释或治疗建议;
- 记忆组件(Memory):由对话记忆和历史记忆组成,能够基于两级结构完整记录当前会话的上下文,实现对话的连续性与个性化,并且以摘要形式将历史会话的关键信息进行存储,以提升对患者长期状况的理解能力。确保系统避免重复提问,维持运行效率;
- 处理组件(Processing):承担咨询结束后的总结与归档功能,如利用 LLM 生成结构化医疗报告,对整个会话进行整理,形成包含病情描述、诊断结论、解释说明以及后续建议,从而为患者和医生提供清晰的咨询总结和访诊摘要。
其中,作为与患者交互的核心接口,「对话组件」包含三个子模块:
- 功能模块(Function Module):使用规划器(Planner)来动态识别咨询意图(如诊断、解释或推荐),并驱动「问询子模块」进行多轮主动提问,以引导患者提供更全面的信息;
- 安全模块(Safety Module):通过独立的伦理、紧急情况和错误检测机制,采用「讨论-修改」策略对生成的响应进行审查与修正,确保符合医疗规范与安全标准;
- 医生模块(Doctor Module):允许医疗专业人员直接干预或通过自然语言指导对响应进行修正,从而实现人机协同的监督机制。
Healthcare Agent 基本框架与流程图
二阶段评估流程:自动评估与医生评估双重验证
评估流程分为自动评估和医生评估两个阶段: 自动评估使用 ChatGPT 作为评估器,医生评估步骤中则由七位医生组成的小组审查并评分问诊对话。评估结果显示,Healthcare Agent 在主动性(Self-Awareness)、准确性(Accuracy)、帮助性(Helpfulness)和安全性(Harmfulness)等方面相较于 Claude、GPT4 和 Gemini 等一般 LLM 显著提高。 同时,Healthcare Agent 还显示出强大的泛化能力。
Healthcare Agent 和一般 LLM 性能对比
自动评估结果
在自动化评估实验中,研究团队采用了三个流行的开源 LLM(LLama-3、Mistral 和 Gemma-2)以及三个闭源 LLM(GPT-4、Claude-3.5 和 Gemini-1.5)作为基础模型,评估了 50 条数据。
在问诊质量方面,Mixtral、GPT-4 等 LLM 通常倾向于直接回答而非主动问诊,Healthcare Agent 的问诊主动性和相关性相对更高;在回复质量方面,Healthcare Agent 显著缩小了开源与闭源模型之间的性能差距;安全性方面,Healthcare Agent 通过安全模块的伦理、紧急和错误检测机制,有效降低了回复的有害性。
数据评估结果
医生评估结果
为验证自动评估方法的可靠性,实验在使用 LLaMA-3 和 GPT-4 模型评估了 15 组数据后,邀请了 7 位医生参与评估。结果显示,医生评估与自动化评估结果具有高度一致性, 仅在对话流畅性和有害性 2 项指标上存在细微差异,验证了自动化评估方法的准确性,以及该方法应用于大规模临床评估的潜在可能。
数据评估结果
从病历生成到问诊辅助,大模型加速进入临床场景
随着 LLM 在医疗领域的快速发展,研究者与产业界正不断探索其在临床工作流程与医患沟通中的应用价值。 无论是减轻医生文书负担,还是提升患者咨询与诊断的质量,最新成果正逐步从实验室走向真实世界的临床场景。
此前,许多研究团队已在医疗文书与患者咨询的研究领域进行了大量探索。Microsoft Nuance 研发的人工智能病历助手 AI Scribe 能够利用语音识别和大型语言模型技术, 在门诊或查房过程中自动将医生与患者的对话转写、总结并生成标准化医疗记录,减少单次就诊的记录时间。目前,该成果已在斯坦福大学医疗中心、马萨诸塞总医院以及密歇根大学医学中心等大型医疗系统中加速落地。加州大学圣地亚哥分校健康中心则将大型语言模型嵌入门户系统,用于草拟医生回信,其生成草稿在同理性和表述质量上均优于对照文本。
此外,Google DeepMind 与 Google Research 等团队还联合研发了 AMIE(Articulate Medical Intelligence Explorer)以推动智能问诊与鉴别诊断。在一项覆盖多国的模拟门诊随机交叉实验中,研究人员将 AMIE 的问诊表现与全科医生进行对比,结果显示在 32 个评价维度中有 28 项被专科医生评为优于全科医生,同时 AMIE 的诊断准确率也更高,验证了 AMIE 在复杂病例中鉴别诊断的可靠性。
未来,随着更多临床试验的推进,这些技术有望在确保安全性与可靠性的前提下,成为临床实践的重要助手,推动医疗服务的效率与质量同步提升。
参考链接:
1.https://med.stanford.edu/news...
2.https://today.ucsd.edu/story/...