爱笑的小姐姐 · 2022年03月28日

MindSpore AI科学计算系列(13):蛋白质结构预测训练推理全流程开源,助力生物医药发展

近日,昇思 MindSpore 与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组及鹏城实验室陈杰团队基于全场景 AI 框架昇思 MindSpore 实现 AlphaFold2 蛋白质结构训练。继 2021 年 11 月发布推理工具后,本次训练意味着国产 AI 框架具备了强大的 AI for Science 底层软件能力,同时也为相关科研工作者提供新的选择。该联合工作依托鹏城云脑 II 昇腾 AI 集群进行,单步迭代性能提升超过 60%,TM-score 达 85 分(国际权威评测数据集 CASP14)。相关训练代码已在昇思 MindSpore 社区开源,后续也会在 Openl 启智社区进行开源并定期扩展与维护。
image.png

图 .1 T1052-D1 预测结构图(左)CASP14 87 targets TM-score 对比(右)
蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为 "21 世纪的生物物理学 " 最重要的课题之一。在过去,因蛋白质构象数量巨大,计算过程复杂,通过 AI 来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray 等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。直至 AlphaFold2 的出现,使得这一问题迎来新的曙光。AlphaFold2 凭借其接近实验精度的成绩取得 CASP14 蛋白质空间结构预测比赛的榜首,这一成就也被 Nature 誉为 " 前所未有的进步 "。
2021 年 7 月 DeepMind 宣布对 AlphaFold2 的推理代码进行开源,昇思与高毅勤课题组第一时间对其进行了复现及优化,并于同年 11 月开源了基于昇思 MindSpore 的推理工具,效率同比提升 2-3 倍。由于开源范围仅限推理,相关从业者无法基于此进行优化,因此许多团队积极地投入训练过程的复现。AlphaFold2 模型本身存在内存需求大,数据处理繁琐,控制编译复杂等特点,对基础 AI 框架存在着巨大挑战。
近期,昇思 MindSpore 联合高毅勤课题组、鹏城实验室陈杰团队全面打通 AlphaFold2 的训练。采用昇腾基础软硬件平台后,在混合精度下,单步迭代时间由 20 秒缩短到 12 秒,性能提升超过 60%。依托昇思 MindSpore 内存复用能力 , 训练序列长度由 384 提升至 512。
为了尽可能客观地评估训练结果,昇思 MindSpore 选取了 AlphaFold2 论文附录中提到的 87 条验证集进行验证,平均 TM-score 达到 85 分,基本持平 AlphaFold2。
昇思 MindSpore 对蛋白质结构预测训练推理的支持填补了国产 AI 软硬件的空白。在训练精度接近 AlphaF#FormatImgID_1#old2 的基础上,昇思 MindSpore 将在算法、规模和软硬件支持等方向上持续改进,并计划开放共享训练数据集供同仁使用。昇思 MindSpore 也期望与更多学术界和工业界伙伴合作,进一步提升模型精度、扩展应用场景。
代码开源路径:
https://gitee.com/mindspore/mindscience/tree/dev/MindSPONGE/mindsponge/fold
昇思 MindSpore:
Gitee:https://gitee.com/mindspore/mindspore
Github:https://github.com/mindspore-ai/mindspore

原文链接:知乎
作者: 于璠

推荐阅读

更多嵌入式AI技术相关内容请关注嵌入式AI专栏。
推荐阅读
关注数
18808
内容数
1352
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息