近日,全球多家研究机构以及科技企业为了更好的应对疫情,联合发布了一个 COVID-19 开放研究数据集(简称为 CORD-19 ),该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,并汇集了有关 SARS-CoV-2 病毒内容在内的近 29,000 篇文章。此次公开的数据集是机器可读的,因此可以轻松地进行解析,以用于机器学习目的。
该项目由艾伦 AI 研究所、Chan Zuckerberg Initiative(CZI)、乔治敦大学安全与新兴技术中心(CSET)、微软以及美国国立卫生研究院国家医学图书馆(NLM)等机构组成。在新闻发布会上,美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最广泛的机器可读冠状病毒文献集”。
多年来,科学家一直在研究和发表有关各种冠状病毒株的发现,包括 SARS、MERS 和最新的 COVID-19 等其他变体。微软首席科学官埃里克·霍维茨(Eric Horvitz)说,利用人工智能工具寻找数千篇此类已发表文章的共性和差异,将有助于科学家发现他们可能错过的事物。
Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示:“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。我们将这些文章的机器可读版本显示在我们超过 400 万数据科学家的社区中。我们希望,人工智能可以用来帮助找到有关 COVID-19 的一系列关键问题的答案。”
Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示:“在科学界和医学界之间共享重要信息,对于提高我们应对冠状病毒大流行的能力至关重要,新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”
据悉,科学期刊和文学的出版商已经同意将其完整的文章提供给研究人员,以便机器学习算法可以从中寻找关键的见解。他们说,随着世界各地科学家继续发表新的研究成果,期刊出版商已经同意在印刷版本之前以电子形式提供这些文章。
COVID-19 开放研究数据集地址:
https://pages.semanticscholar...