科技正能量 · 2021年07月16日

基因测序的存储密码

基因(Gene)一词最早来自于希腊语,意思为“生”。“基因”始终带着神秘色彩,在人类大约2.5 万个基因中,一条支持着生命的基本构造和性能,储存着生命的种族、血型、生长、疾病等信息的DNA序列与我们息息相关。

如今,基因测序作为基因检测的重要方法,已经可以通过基因组信息以及相关数据系统,预测罹患多种疾病的可能性。

承载基因测序任务的关键,是其背后的海量数据。作为一项天然数据密集型业务,基因测序可以基于更多的历史样本,快速研发新药或提供精准的诊疗服务。高性能计算(HPC) 是推动基因测序进步的重要驱动力,与之相匹配的则必须有高性能的存储才能够满足其业务需求,使得基因测序发挥最大的作用。

在基因测序领域,人类第一次完整基因组测序耗费了13年时间,如今在HPC的加持下,时间已经降低到1天以内。基于更丰富的样本,通过高性能数据分析技术可以及时筛查遗传疾病、发现罹癌风险并精准用药,推进精准医疗的发展。在新药研发方面,制药企业借助HPC加速药物筛选和分子分析,可大幅缩短新药的研发周期。

基因测序行业也由原本的实验室内的科研项目逐步走向临床应用,海量数据为 HPDA 创造了巨大的业务机会,带动基因测序快速发展的同时,也面临以下问题:

首先,在数据存储方面,从最初的人类基因组开始细分扩展,目前已经涉及到肿瘤,遗传病检测。扩展到植物,远古生物,细菌,病毒,微生物的基因检测。因此数据种类和数据量是异常庞大,经常以PB为单位保存。

其次,在数据分析方面,大规模样本的数据分析和挖掘需要海量计算资源。例如,一个人的基因组大概是3个GB,包含了30亿个碱基。在全基因测序过程中,为了保证基因数据的完整性,需要平行测序30次,当最终测序完成后,全基因组数据将达到大概100GB左右。面对海量的数据,数据密集型分析可能会导致存储系统出现瓶颈,降低数据分析效率。

第三,在数据安全方面,基因数据相对比较隐私,但传统的基因企业能力较弱,安全措施不到位,防御能力很弱。而数据量的爆炸式增长使数据管理、安全存储、安全分析和业务洞察变得异常困难。

因此,基因测序行业亟需高性能存储与其面临的痛点相结合,来解决行业当中存在的一系列难题。

推荐阅读
关注数
2842
内容数
255
新基建、云计算、数字经济、数字化转型
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息