集微网 · 2022年07月07日

应对深度学习灵活性配置需求 时擎科技发明相关计算引擎单元

【嘉勤点评】时擎科技发明的应用于深度学习领域的计算装置及其方案,不仅降低了视觉数据的处理成本,而且增大了计算的灵活性。同时,也可以有效节省了数据的搬运成本,降低了系统功耗。

集微网消息,深度学习算法近年来被广泛应用于计算机器视觉类的人工智能应用中,特别是卷积神经网络。相比较于传统计算机视觉算法,深度学习在如图像分类、物体识别、语音分析等应用领域能够达到更高的准确率。

但由于深度学习算法计算复杂度较高,传统处理器如CPU、GPU等无法高效执行,因此各类深度神经网络硬件加速器应运而生。然而,在实际计算机视觉应用当中,深度学习算法一般只能较好的完成整个应用当中的检测部分。比如在车牌检测任务中识别车牌中的车牌号,但是在识别前的工作,包括去除图像噪声、对图像质量进行处理、增强甚至找到车牌的位置等操作,一般还是由传统计算机视觉算法来完成。

针对这样深度学习与传统计算机视觉算法相结合的应用方向,以及为了完成计算机视觉智能处理的应用需求,当下的主流计算机视觉芯片很多都采用DSP运行传统计算机视觉算法,采用NPU运行深度学习算法。

但是由于通用DSP处理器的性能、成本、功耗针对某一类特定应用,一般无法达到最佳,也有相关的方案采用了专用图像处理器加NPU的解决方案。尽管如此,目前的技术手段在同时使用两种不同运算单元时,依旧存在数据搬运量多、功耗大的问题。

为了实现上述目标,时擎科技在2020年12月18日申请了一项名为“一种计算装置、计算方法、存储介质及终端”的发明专利(申请号:202011505009.X),申请人为时擎智能科技(上海)有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。
image

如上图,为该专利中发明的计算装置组成结构的示意图,该结构主要包括有:本地存储单元1、存储控制单元2、乘累加计算单元3、像素计算引擎单元4以及任务控制单元5。这些单元模块各自承担着不同的任务,存储控制单元与本地存储单元通信连接并用于控制本地存储单元的读写访问;乘累加计算单元用于执行各类卷积计算和累加计算;像素计算引擎单元用于执行池化和滤波操作;任务控制单元用于配置计算装置的计算模式和输入输出地址。

其中,任务控制单元与存储控制单元、乘累加计算单元和像素计算引擎单元通信连接以输出控制信息,且这些单元均与存储控制单元通信连接以实现信息传输。

此外,该方案通过分时复用的方式,使得整个计算过程中的输入输出数据均可以保存在本地存储单元之中。从而有效减少了数据的搬运,有利于提升性能以及降低系统功耗。另一方面,乘累加计算单元和像素计算引擎单元这两种不同的计算通路集成在一起,分别调用以执行不同的计算过程,也可以使得整个计算过程灵活性有效提高。

image

如上图,为上述结构中累加模块的工作原理示意图,累加模块32包括深度累加部321、偏置加法部322、数据截位部323和激活部324。该模块通过深度累加部完成深度方向的累加处理,而偏置加法部可以对数据进行偏置加处理,通过数据移位部进行数据移位。而数据截位部可以对数据进行数据截位,最后由激活部通过激活函数以进行激活处理。

image
如上图,为基于上述结构的计算方法的流程示意图。首先,任务控制单元配置计算装置的计算模式和输入输出地址,输入参数数据至本地存储单元,并根据计算模式选择乘累加计算单元或像素计算引擎单元作为运算器件。

其次,存储控制单元访问本地存储单元获取参数数据,并输出读存储的访问指令至运算器件,该运算器件从存储控制单元获取参数数据,并通过运算器件执行计算处理以获得最终计算结果。

最后,运算器件将最终计算结果输出至存储控制单元,存储控制单元将最终计算结果输出至本地存储单元进行存储。在该过程中,通过不同的计算模式完成对不同参数数据的计算过程,使得乘累加计算单元和像素计算引擎单元这两种不同的计算通路能够根据不同的计算模式被调用。因此大幅增加了计算的灵活性,同时输出结果是直接存储在本地存储单元之中的,可以有效节省算法中大量的数据搬运,提高计算速度并降低计算过程中的功耗。

image

最后,如上图,为该专利中发明的在选择神经网络卷积、深度卷积和图像卷积作为计算模式时的流程示意图。首先,访存控制模块生成访问请求并通过存储接口模块访问本地存储单元以获得权重数据、特征图数据和偏置数据,并将参数数据存储在访存控制模块中的数据缓存器中,并通知乘累加计算单元输入已经准备就绪。

其次,通过乘加阵列模块获取权重数据和特征图数据进行乘加运算得到乘加结果,乘加阵列模块将乘累加结果输出至累加模块,并根据计算模式进行二次处理以得到最终计算结果。

最后,累加模块将最终计算结果输出至访存控制模块中的数据写回部,数据写回部缓存最终计算结果,数据写回部向存储接口模块发起写数据请求,使得最终计算结果输出到本地存储单元中存储。

以上就是时擎科技发明的应用于深度学习领域的计算装置及其方案,该方案不仅降低了视觉数据的处理成本,而且增大了计算的灵活性。同时,也可以有效节省了数据的搬运成本,降低了系统功耗。

推荐阅读
关注数
12739
内容数
1029
从专利出发,浅析一切关于柔性屏、折叠屏、10倍光学变焦技术等有趣的前沿技术
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息