超神经HyperAI · 5 天前

SEER只是开始?美国NIH发文禁止中国用户访问生物医学核心数据,国产数据库已就位

微信图片_20250408222053.png
4 月 5 日,「SEER 数据库禁止中国用户使用」的消息在国内学术圈不胫而走。

一位海德堡大学在读博士收到的官方回复邮件更是被多家媒体转载,其中明确提出,「自 2025 年 4 月 4 日起,国家卫生研究院将禁止特定国家的研究人员和机构,访问任何涉及国家卫生研究院 CADRS 和相关数据的正在进行中的项目,并将会终止这些项目。这些特定国家包括中国(含香港和澳门)、俄罗斯、伊朗、朝鲜、古巴和委内瑞拉」。

在这里插入图片描述

小红书用户「早起学医」在其个人账号上分享了无法登录 SEER

其实,美国国家卫生研究院 (NIH) 已经于当地时间 4 月 2 日发布了一则通知,宣布将于当地时间 4 月 4 日起禁止位于受关注国家的机构访问 NIH 受控访问数据库和相关数据。

在这里插入图片描述

NIH 发布禁止中国研究人员访问数据库的通知

通知中提到的第 14117 号行政命令颁布于 2024 年 2 月,美国政府推出了一项《关于防止特定国家获取美国公民大量敏感个人数据和美国政府相关数据的行政命令》,顾名思义,其限制了中国、俄罗斯、伊朗等 6 个「受关注国家」访问美国公民的「大量敏感个人数据和美国政府相关数据」。

在这里插入图片描述

第 14117 号行政命令

而在一众「敏感数据」中,生物信息数据可谓是重灾区。

在这里插入图片描述

科研冷战或将开始

该行政命令发布一年后,终究还是波及到了倡导开放、无国界的学术领域。作为 NIH 此次开出的第一枪,SEER 的影响力可见一斑。

SEER 是美国国家癌症研究所 (NCI) 建立和维护的癌症数据统计系统, 自 1973 年起运行至今,已经成为全球最权威、最常用的癌症流行病学数据库之一,已覆盖美国约 48% 的人口,数据涵盖年龄、性别、诊断时间等基本信息,癌症类型、病理分型分期等诊断信息,手术、放疗/化疗等治疗信息,生存时间、生存状态等随访信息。毫无疑问,该数据库在肿瘤流行病学、公共健康、预后模型等领域均具有极高的研究价值。

诚然,SEER 数据库被禁已然是「靴子落地」,但仍有许多知名数据库同样「凶多吉少」。

NIH 作为美国主要的医学研究机构,下设 27 个研究所和中心,聚焦于不同的疾病领域。 其中,专注于癌症研究的 NCI 除了维护 SEER 数据库之外,还管理着癌症基因组图谱 TCGA (The Cancer Genome Atlas);专注于生物基础研究的国家普通医学科学研究所 (NIGMS) 负责维护蛋白质数据库 Protein Data Bank;美国国家医学图书馆 (NLM) 拥有全球领先的医学文献数据库 PubMed;美国国家生物技术信息中心 (NCBI) 拥有基因型-表型数据库 dbGaP……

上述常用的高价值数据库都属于 NIH,换言之,都在中国用户禁止访问之列,或许只是时间早晚的问题。而数据上的限制一方面会导致研究成果过于片面性,另一方面也会加大研究难度及周期。这无疑为国内科研界敲响警钟,除了积极推进与海外团队的合作外,构建具有国际代表性的「中国数据库」意义重大。

积极建设本土数据库

数据之于科研的重要性无需赘述,无论是传统科研还是如今的 AI for Science,其都是研究结论的重要支持。尤其是在生物及医疗领域,数据收集更具难度。所以早在第 14117 号行政命令发布后,便有科研人员预警,美国国家生物技术信息中心 (NCBI) 的数据库、癌症基因组图谱 (TCGA) 等高频使用的数据都存在被限制访问的风险。

有业内人士接受 DeepTech 采访时表示,「应对这种数据库限制访问的问题,我认为可能有几点值得去尝试。首先是中国学者可以集体呼吁,和美方展开一些磋商,看看有没有一些可行的解决方案,比如将本次被限制访问的数据库改为付费制。其次,可以和其它不受限的第三方国家合作。最后,最重要的一点就是中国需要快速建立属于我们自己的数据库。当我们建好自己的数据库后,再去和美国人谈判磋商的时候筹码就多一些,比如就可以讨论双方是否相互开放数据库,实现双方的互相共享」。

虽然在短期内完全替代 SEER 仍有难度,但长久以来,国内生命科学及医疗数据库的积累也取得一定的成效,部分数据库可在一定程度上作为补充。

例如国家基因组科学数据中心围绕人、动物、植物、微生物等基因组数据,重点开展数据库体系及数据资源建设, 目前已经构建了共享生物学研究项目信息的生物项目数据库 (BioProject),全球生物数据库目录 Database Commons,基因组变异数据库 Genome Variation Map (GVM),生命科学文献库 OpenLB 等等。
官网: https://ngdc.cncb.ac.cn/

在这里插入图片描述

国家基因组科学数据中心官网

国家生物信息中心目前已经汇集了 69.9PB 国内数据,7.75PB 国际数据, 其生物信息数据库平台包含 Genome, RNA-seq, epigenome 等数据,常用数据库有面向多物种全基因组数据的公共归档数据库 (Genome Warehouse, GWH),共享生物样品信息的资源库_生物样本数据库 (BioSample) 等等。
官网: https://www.cncb.ac.cn/

在这里插入图片描述

国家生物信息中心官网

深圳国家基因库 (China National GeneBank, CNGB) 构建的国家基因库生命大数据平台 (China National GeneBank DataBase, CNGBdb),提供生物遗传资源样本和信息共享与应用服务, 支持数据汇交归档、计算分析、知识检索、科学数据库开发。

其联合时空组学联盟 (STOC) 搭建了 STOmicsDB (Spatial Transcript Omics DataBase) 时空组数据门户, 建立了空间转录组数据归档标准和系统,支持了包括小鼠胚胎发育时空转录组图谱 (MOSTA) 在内的多个重大科学项目。通过 STOmicsD,用户可以提交多种数据类型,包括原始测序数据、空间转录组矩阵、注释文件、图像信息及下游分析结果的数据分析和可视化。

此外,其构建的 CDCP (Cell-omics Data Coordinate Platform) 细胞组数据门户, 实现了细胞组学多维度数据的整合与标准化,支持了非人灵长类细胞图谱 (NHPCA) 等多个重大科学项目,为全球科研人员提供了一个高效的细胞组学数据协作平台。

其发起的 Genomics Data Portal 基因组数据门户,致力于全球生物多样性数据的整合与共享。 通过发起地球生物基因组计划 (EBP),MEER(马里亚纳海沟环境与生态研究)等重大科学计划,为全球科研人员提供生物多样性领域丰富的基因组数据资源。

结语

如今,科技已经走上了大国博弈的主赛场,尤其是在 AI 日新月异的今天,科研无国界似乎也变得不再纯粹。但最近几年来,自主可控、国产替代已经在诸多领域有所建树,在呼吁开放共赢、推进国际合作的同时,加强本土数据库建设更加迫在眉睫。

参考资料:

1. https://mp.weixin.qq.com/s/MuByzwwJS-D4W8QuVkjHDw

2. https://grants.nih.gov/grants/g

推荐阅读
关注数
703
文章数
571
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息