集微网 · 2022年01月09日

【专利解密】燧原科技发明深度学习计算方法 提高专用集成芯片模型计算能力

【嘉勤点评】燧原科技发明的深度学习计算方法及装置,在该方案中,实现了芯片内的分布式计算,充分利用了芯片内各计算集群的计算性能和存储性能,从而提高了芯片对初始计算图的处理效率。

集微网消息,随着深度学习的发展,深度学习模型可以在多个计算设备上进行训练或推理,由此,实现了计算设备间的分布式深度学习计算。

尽管目前的计算设备已经可以实现较大规模的深度学习模型,但是这些模型通常部署在PC或者服务器中。同时,现有的ASIC(专用集成电路)芯片和计算框架(如TensorFlow或pytorch)不支持芯片内分布式深度学习计算,包括训练和推理,因此无法充分发挥专用集成芯片的计算性能。

为此,燧原科技在2021年6月25日申请了一项名为“深度学习计算方法、装置、芯片及介质”的发明专利(申请号:202110710157.3),申请人为上海燧原科技有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

image
如上图,为该专利中发明的深度学习计算方法的流程示意图,该方案可以实现芯片内的分布式计算,并可集成在芯片中。首先,系统需要获取初始计算图,由于机器学习任务的核心是模型的定义以及模型的参数求解方式,我们对这两者进行抽象之后,可以确定一个唯一的计算逻辑,将这个逻辑用图表示,称之为计算图,而初始计算图则表示由深度学习框架进行计算图编译生成的在计算设备上执行的计算图。

其次,根据初始计算图生成重构计算图,其中,重构计算图中包括多个计算节点组,不同的计算节点组对应的执行设备为芯片内不同的计算集群。对于用户而言,只能感受到一整块芯片,但是实际上逻辑架构上包括许多计算集群(cluster),这些计算集群可以并行地进行计算操作,以提高芯片的计算性能和存储性能。

在获取到初始计算图之后,系统会进一步对计算图进行重构,使计算图调整为适用于芯片内的多个计算集群上并行执行的计算图(重构计算图)。重构计算图中包括许多计算节点组,每个计算节点组中涵盖有多个计算节点(如前向计算节点、反向计算节点、损失计算节点等),不同的计算节点组由芯片内不同的计算集群来执行。

最后,通过芯片内的多个计算集群处理重构计算图。在生成重构计算图之后,使用与重构计算图中计算节点组的执行设备相匹配的计算集群,执行与相应计算节点组对应计算操作,以此实现了芯片内的多个计算集群同时对重构计算图进行处理,也即实现了芯片内的分布式计算。

image

如上图,为该专利中展示的初始计算图的示意图,该初始计算图基于Tensorflow和Horovod生成,数据输入节点IteratorV2的类型为迭代器,可以按照上述处理步骤所示的方式对与数据输入节点IteratorV2对应的输入子图结构进行重构。

image

最后,上图为这种深度学习计算装置的结构示意图,该装置中主要包括初始计算图获取模块410、重构计算图生成模块420和重构计算图处理模块430。

初始计算图获取模块可以获取初始计算图;重构计算图生成模块用于根据初始计算图生成重构计算图,其中,重构计算图中包括多个计算节点组,不同的计算节点组对应的执行设备为芯片内不同的计算集群;重构计算图处理模块用于通过芯片内的多个计算集群处理重构计算图。

以上就是燧原科技发明的深度学习计算方法及装置,在该方案中,实现了芯片内的分布式计算,充分利用了芯片内各计算集群的计算性能和存储性能,从而提高了芯片对初始计算图的处理效率。

关于嘉勤

image

深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

(校对/holly)

推荐阅读
关注数
12735
内容数
1029
从专利出发,浅析一切关于柔性屏、折叠屏、10倍光学变焦技术等有趣的前沿技术
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息