超神经HyperAI · 7 小时前

ACL 2025丨牛津大学等提出医学GraphRAG,在11个数据集评测上达SOTA

微信图片_20250819130646_18_49.jpg
医学领域的知识体系建立在数千年的发现与积累之上,涵盖了海量的原理、概念及实践规范。将这些知识有效适配到当前大语言模型有限的上下文窗口中,在技术上存在难以逾越的障碍。尽管监督式微调(SFT)提供了一种替代方案,但由于多数商业模型的闭源性,该方法不仅成本高昂,且在实际操作中可行性极低。此外,医学领域对术语的精确性和事实的严谨性有着极高要求,对于非专业用户而言,验证大模型对于医学相关回答的准确性,本身就是一项极具挑战性的任务。因此,如何让大模型在医学应用中利用大型外部数据集进行复杂推理,并生成有可验证来源支持的准确、可信回答,成为当前该领域研究的核心问题。

检索增强生成(RAG)技术的出现为解决上述问题提供了新的思路,其无需对模型进行进一步训练,即可利用特定或私有数据集响应用户查询。 但传统 RAG 在综合新见解以及处理需要对广泛文档进行整体理解的任务时,表现仍显不足。近期提出的 GraphRAG 通过利用 LLM 从原始文档中构建知识图谱,并基于图谱检索知识以增强回答,在复杂推理能力上显著优于经典 RAG。不过,GraphRAG 的图谱构建缺乏确保回答认证和可信度的特定设计,且其分层社区构建过程因面向通用场景而成本较高,难以直接有效应用于医学领域。

针对这一现状,牛津大学、卡内基梅隆大学与爱丁堡大学的联合团队提出了一种专门面向医学领域的、基于图的 RAG 方法 —— 医学 GraphRAG(MedGraphRAG)。该方法通过生成循证回答和官方医学术语解释,有效提升了 LLM 在医学领域的表现,不仅增强了回答的可信度,还显著提高了整体质量。

相关研究成果以「Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation」为题,已入选 ACL 2025。

研究亮点:

  • 该研究首次提出了专门应用于医学领域的图基 RAG 框架。
  • 该研究开发了独特的三元组图构建与 U-检索方法,使大语言模型(LLM)能够高效利用整体 RAG 数据,生成有循证支持的回答。
  • 在多项医学问答基准测试中,MedGraphRAG 的表现优于其他检索方法及经过微调的医学专用大语言模型。

在这里插入图片描述

论文地址:

https://go.hyper.ai/OaMIE

更多 AI 前沿论文:

https://hyper.ai/cn/papers

基于三类数据展开研究

该研究中使用的数据分为三类,各类数据的特点与其在研究中的作用相适配:

RAG 数据
考虑到用户可能采用频繁更新的私有数据(如患者电子病历),研究选取了公开的电子健康记录数据集 MIMIC-IV,该数据集可模拟实际应用中动态变化的私有数据场景,为方法的实用性验证提供基础。

存储库数据
该数据集用于为大模型的回答提供可信来源和权威词汇定义,其中上层存储库数据为 MedC-K,包含 480 万篇生物医学学术论文、3 万本教科书,以及 FakeHealth 和 PubHealth 的所有证据出版物(evidence publications),其内容覆盖范围广且具有学术权威性;底层存储库数据为 UMLS 图,包含权威医学词汇及语义关系,可保障医学术语的准确性。

测试数据
该数据集用于评估 MedGraphRAG 方法的性能,包括 MultiMedQA 中 9 个多选生物医学数据集的测试部分(含 MedQA、MedMCQA、PubMedQA、MMLU 临床主题等),用于检验方法在常规医学问答中的表现;2 个公共卫生事实验证数据集 FakeHealth 和 PubHealth,用于评估方法的循证回答能力;此外,研究还收集了 DiverseHealth 测试集,该数据集含 50 个涉及罕见病、少数族裔健康等广泛主题的真实临床问题,聚焦健康公平性,可进一步丰富评估维度。

MedGraphRAG:以滑动窗口分块、标签聚类与 U-检索为核心

如下图所示,MedGraphRAG 的整体工作流程主要包含 3 个核心环节: 基于文档构建知识图谱、对图谱进行组织总结以支持检索,以及通过检索数据响应用户查询。

在这里插入图片描述

MedGraphRAG 的整体工作流程

医学图谱构建(Medical Graph Construction)首先进行语义文档分块(Semantic Document Chunking),将文档分割成符合 LLM 上下文限制的数据块。针对大型医学文档多主题的特点,研究采用字符分离与主题语义分割结合的混合方法,即先按换行符分隔段落,再通过图构建 LLM LG 判断段落与当前块的主题关联性以决定是否分块。 同时引入 5 段滑动窗口减少噪声,并以 LG 的标记限制作为分块的硬性阈值,兼顾语义逻辑与模型上下文约束。

分块后进入实体抽取(Entities Extraction),借助带实体抽取提示的 LG,从各块中识别相关实体,生成含名称、类型和上下文描述的结构化输出,为后续实体链接铺垫。三元组链接(Triple Linking)是保障准确性的关键, 通过构建存储库图(RepoGraph)关联用户 RAG 文档与可信来源:底层为含医学词汇及关系的 UMLS 图(Med Vocabularies),上层由医学教科书和学术文章(Med Books & Papers)构建。紧接着,研究人员将从 RAG 文档中提取的实体定义为 E1,依据实体间的相关性将其与医学书籍或论文中提取的实体 E2 相链接,E2 再进一步与 UMLS 实体 E3 建立关联,由此形成 [RAG 实体,来源,定义] 的三元组结构,从而确保每个实体都能追溯到明确的来源与标准定义。之后进行关系链接(Relationship Linking),由带关系识别提示的 LG,根据实体内容及引用识别 RAG 实体间关系,生成含源实体、目标实体及关系描述的短语,最终为每个数据块生成有向的元医学图。

图谱构建完成后,需给图表加标签(Tag the Graphs)以提升检索效率。 不同于 GraphRAG 构建高成本图社区的方式,本方法利用医学文本的结构化特性,采用预定义标签(如症状、病史、身体功能、药物等)对每个元医学图进行总结,生成结构化标签总结。再通过基于标签相似性的动态阈值凝聚层次聚类,对图进行分组并生成更抽象的综合标签总结:初始每个图为独立组,迭代计算聚类对的标签相似度,合并最相似的前 20% 聚类对,生成新的标签总结层,过程限制在 12 层内,在精确度与效率间取得平衡。

最终的 U-检索环节(U-Retrieval)通过响应 LLM LR 实现高效查询响应。 首先由 LR 对用户查询生成标签总结,通过自上而下的精确检索,从顶层标签开始逐层匹配最相似标签,定位到目标元医学图,再根据查询与实体内容的嵌入相似度,检索排名靠前的实体及其最近三元组邻居,利用这些实体及关系生成初始回答。随后进入自下而上的回答精炼阶段,LR 结合上一层标签总结调整回答,重复此过程直至到达目标层次(通常 4-6 层),最终生成兼顾全局上下文感知与检索效率的回答。

MedGraphRAG:经 6 种模型验证,11 个数据集达 SOTA

为验证 MedGraphRAG 的性能,该研究选取 6 种大语言模型设计了多组实验,包括 Llama2(13B、70B)、Llama3(8B、70B)、Gemini-pro 和 GPT-4,主要与通过 LangChain 实现的标准 RAG、通过Microsoft Azure 实现的 GraphRAG 进行比较, 且所有方法均在相同的 RAG 数据和测试数据下运行。

如下表所示,多选评估(Multi-Choice Evaluation)的性能通过选择正确选项的准确性来衡量。实验结果显示,MedGraphRAG 显著优于无检索功能的基线、标准 RAG 和 GraphRAG: 与无检索基线相比,在事实核查中平均提升近 10%,医学问答中提升 8%;与 GraphRAG 相比,事实核查提升约 8%,医学问答提升 5%,且对较小模型(如 Llama2 13B)的提升更显著,表明其能有效结合模型推理能力与外部知识。将其应用于更大模型(如 Llama70B、GPT-4)时,在 11 个数据集上均达到 SOTA 水平,甚至超过 Med-PaLM 2、Med-Gemini 等经医学语料微调的模型,在医学 LLM 排行榜上确立了新的 SOTA。

在这里插入图片描述

不同检索方法 LLM 的准确率

长篇生成评估(Long-form Generation Evaluation)中,该研究在 MultiMedQA 和 DiverseHealth 基准测试上,从相关性、正确性、引用精确度、引用召回率和可理解性 5 个维度对 MedGraphRAG 与 Inline Search、ATTR-FIRST 等模型进行了比较。 结果如下表所示,MedGraphRAG 在所有指标上得分更高,尤其在引用精确度、召回率和可理解性上优势显著,得益于其循证回答和对医学术语的清晰解释。

在这里插入图片描述

MedQA 和 DiverseHealth 样品的人体评价

在案例研究中,面对同时患有慢性阻塞性肺病(COPD)和心力衰竭的复杂病例,GraphRAG 的建议忽略了药物对心力衰竭的影响,而 MedGraphRAG 能推荐安全药物,这源于其实体与参考文献的直接链接,避免了 GraphRAG 中信息交织导致的关键信息遗漏。

知识图谱与大语言模型的融合实践

在医学与人工智能交叉领域,知识图谱与大语言模型的融合正成为推动技术突破的关键方向,为解决医疗领域的复杂问题提供了新思路。

例如,剑桥大学、牛津大学等联合团队提出的 KG4Diagnosis 框架,通过分层多智能体架构模拟现实医疗系统,结合知识图谱增强诊断推理能力,覆盖 362 种常见疾病的自动化诊断与治疗规划。 复旦大学研究团队全面绘制了人类健康与疾病蛋白质组图谱。通过深入分析 53,026 名个体跨越 14.8 年中位随访期的血浆蛋白质组数据,该图谱涵盖 2,920 种血浆蛋白质与 406 种既往患病、660 种随访新发疾病以及 986 种健康相关表型,揭示大量蛋白质-疾病和蛋白质-表型关联, 为精准医疗和新药开发提供重要依据。

Google DeepMind 推出的 AMIE 系统,整合 Gemini 大模型的长上下文推理能力与知识图谱, 通过动态检索临床指南和药物知识库,在多诊次病例中生成连贯的管理计划,例如针对慢性阻塞性肺病(COPD)合并心力衰竭患者,可精准推荐心脏选择性 β 受体阻滞剂,避免传统 AI 系统的药物相互作用风险。

阿斯利康构建的生物医学知识图谱整合 300 万篇文献和内部研究数据,通过分析药物 - 靶点 - 疾病的关联网络,加速新型候选药物的筛选。其图谱不仅包含已批准药物的适应症,还覆盖临床试验中的 「超说明书用药(off-label use)」数据, 为老药新用提供决策支持。此外,IBM Watson Health 的知识图谱平台整合 10 亿条患者数据与循证指南,在肺癌治疗中可生成包含基因检测、药物敏感性预测和随访计划的个性化方案,使患者生存期预测误差缩小至 ±2.3 个月。

这些创新实践不仅推动了医学 AI 技术的迭代升级,更在提升诊断准确性、加速药物研发、优化临床决策等方面展现出巨大潜力。随着技术的不断成熟,知识图谱与大语言模型的融合将进一步打破医疗领域的信息壁垒,为全球医疗健康事业的发展注入持续动力。

参考文章:
1.https://mp.weixin.qq.com/s/WhVbnoso2Jf2PyZQwV93Rw
2.https://mp.weixin.qq.com/s/RWy4taiJCu3kMPfTzOWYSQ
3.https://mp.weixin.qq.com/s/lMLk

推荐阅读
关注数
716
文章数
635
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息