1

V · 2023年11月27日 · 黑龙江

PubMedBERT:生物医学自然语言处理领域的特定预训练模型

人工智能深度学习

今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta，这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中，大语言模型并不一定就是最优的解决方案，“小”模型也有一定的用武之地，所以今天我们来介绍PubMedBERT，它使用特定领域语料库从头开始预训练BERT，这是微软研究院2022年发布在ACM的论文。

论文的主要要点如下：

对于具有大量未标记文本的特定领域，如生物医学，从头开始预训练语言模型比持续预训练通用领域语言模型效果显著。提出了生物医学语言理解与推理基准(BLURB)用于特定领域的预训练。

PubMedBERT

1、特定领域Pretraining

研究表明，从头开始的特定领域预训练大大优于通用语言模型的持续预训练，从而表明支持混合领域预训练的主流假设并不总是适用。

2、模型

使用BERT。对于掩码语言模型(MLM)，全词屏蔽(WWM)强制要求整个词必须被屏蔽。

3、BLURB数据集

据作者介绍，BLUE[45]是在生物医学领域创建NLP基准的第一次尝试。但BLUE的覆盖范围有限。针对基于pubmed的生物医学应用，作者提出了生物医学语言理解与推理基准(BLURB)。

PubMedBERT使用更大的特定领域语料库(21GB)。

结果展示

在大多数生物医学NLP任务中，PubMedBERT始终优于所有其他BERT模型，并且通常具有显著的优势。

论文地址：

https://avoid.overfit.cn/post/02c09a271dd246f4b04421794d87c679

1 阅读 1.4k

推荐阅读

图解：机器学习、人工神经网络、深度学习、数学基础、深度学习之外的人工智能、深度学习框架下的神经网络新书推荐：徐立芳&莫宏伟编《深度学习》入门人工智能【专利解密】亿智电子助力深度学习模型在ASIC上的部署揭秘阿里价值百亿的深度学习算法深度学习系统杂谈

思否AI

关注数

4246

内容数

1013

SegmentFault 思否旗下人工智能领域产业媒体，专注技术与产业，一起探索人工智能。

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息