【嘉德点评】阿里发明的医疗病历的识别方法,借助于人工智能算法BiLSTM-CFR进行模型训练,不管对于手写病历还是电子病历,都具有较好的识别效果,从而有效提升了医院的自动化程度,同时也可以避免因为手写病历难以辨认而发生错误。
集微网消息,目前,许多病历已被转换为电子病历(EMR),传统纸质病历中的信息也可以通过光学字符识别(OCR)等图像字符识别技术来提取。
传统病历分析是基于医生的经验来人工理解和分析病历中的信息,在一些简单的情况下,病历的初步分析可以使用人工智能(AI)技术、自动化智能操作或由医生提供的输入来进行,这也是部分大医院正在实行的医疗自动化技术。
而在这其中,医疗病历的识别和分类也被作为实现医疗流程自动化的重要一环,但是一些病历中可能包括有手写错误、打字错误或者一些新出现的术语,这对于传统的OCR处理技术来说是难以识别以及处理的,也正是因为这样,民间也一直流传着医生手写病历形如“鬼画符”的比喻。
为此,阿里在2019年4月25日申请了一项名为“电子病历中实体的识别”的发明专利(申请号:201980003795.2),申请人为阿里巴巴集团控股有限公司。
根据该专利目前公开的资料,让我们一起来看看这项医疗病历的自动识别技术吧。
如上图,为该专利中发明的用于识别和分类术语的训练处理100的示例的框图,这种框架可以用于创建实体识别的训练以及识别电子病历。首先,训练文本从训练数据中被提取出来,训练数据包括电子病历,训练文本就是电子病历中的医疗诊断文本。
其次,需要对这些文本进行划分,文本的划分是为了将一些医学上的术语进行归类,这样当算法自动对文本进行归类时,就可以利用到不同词类之间的特征,从而可以让机器模拟人对于病历进行分析。当然,这个过程需要执行词语向量训练,在OCR领域,常用的训练方法有cw2vec算法以及BiLSTM-CFR训练模型。
倘若熟悉人工智能算法的话,必然对于LSTM算法不陌生,这是一种特殊的RNN网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,同时对于语句理解这样的文字解释工作具有良好的效果。因此,借助于这些算法,可以对词语注释信息以及训练词语向量进行学习,并将学习到的模型存储起来,用于下次进行医疗病历的自动识别。
上图展示了用于识别和分类术语的预测文本提取程序200,该程序在执行完上述的识别和分类术语训练后再开展,同时可以对于过程100进行改进。这种预测序首先需要提取文本,这些文本也来自于电子病历或者实体病历中。
与过程100不同的是,过程200中新增了新词语词汇的学习,也就是对于已经出现在训练数据中的词语,词语向量可以被直接使用,但是倘若出现了未曾出现过的新词语词汇,则新词语可以从新词语词汇208以及笔划向量210中计算,通过将新词语分解为笔划顺序,通过滑动窗口来获得新词语的笔划以及新的词语向量。
有了这样的机制保障,就可以确保系统不仅可以识别已经记录过的病历,同时对于新的病历而言,也可以做到自动的进行文字识别,从而将医生晦涩难懂的字体,自动转换成为易于理解的电子信息。
以上就是阿里发明的医疗病历的识别,该方法借助于人工智能算法BiLSTM-CFR进行模型的训练,从而可以对于病历中的文字进行识别,不管对于手写病历还是电子病历,都具有较好的识别效果。这样的技术不仅可以提高医院的自动化程度,而且也可以避免因为手写病历难以辨认而发生错误。
关于嘉德
深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
(校对/holly)