全球最大 COVID-19 研究数据集正式开放，加强科技抗疫

近日，全球多家研究机构以及科技企业为了更好的应对疫情，联合发布了一个 COVID-19 开放研究数据集（简称为 CORD-19 ），该数据集中包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等，并汇集了有关 SARS-CoV-2 病毒内容在内的近 29,000 篇文章。此次公开的数据集是机器可读的，因此可以轻松地进行解析，以用于机器学习目的。

该项目由艾伦 AI 研究所、Chan Zuckerberg Initiative（CZI）、乔治敦大学安全与新兴技术中心（CSET）、微软以及美国国立卫生研究院国家医学图书馆（NLM）等机构组成。在新闻发布会上，美国首席技术官 Michael Kratsios 称新数据集为“迄今为止最广泛的机器可读冠状病毒文献集”。

多年来，科学家一直在研究和发表有关各种冠状病毒株的发现，包括 SARS、MERS 和最新的 COVID-19 等其他变体。微软首席科学官埃里克·霍维茨（Eric Horvitz）说，利用人工智能工具寻找数千篇此类已发表文章的共性和差异，将有助于科学家发现他们可能错过的事物。

Kaggle 的联合创始人兼首席执行官 Anthony Goldbloom 表示：“人们很难手动浏览 2 万多篇文章并综合他们的发现。” “最近的技术进步在这里可能会有所帮助。我们将这些文章的机器可读版本显示在我们超过 400 万数据科学家的社区中。我们希望，人工智能可以用来帮助找到有关 COVID-19 的一系列关键问题的答案。”

Chan Zuckerberg Initiative 科学部负责人 Cori Bargmann 表示：“在科学界和医学界之间共享重要信息，对于提高我们应对冠状病毒大流行的能力至关重要，新的 COVID-19 开放研究数据集将帮助全球研究人员更快地访问重要信息。”

据悉，科学期刊和文学的出版商已经同意将其完整的文章提供给研究人员，以便机器学习算法可以从中寻找关键的见解。他们说，随着世界各地科学家继续发表新的研究成果，期刊出版商已经同意在印刷版本之前以电子形式提供这些文章。

COVID-19 开放研究数据集地址:
https://pages.semanticscholar...

推荐阅读

目录