集微网 · 2020年06月22日

【专利解密】腾讯基于机器学习的数据迁移方法

【嘉德点评】腾讯发明的基于机器学习的迁移数据确定方法,通过获取服务器向多个终端进行数据迁移的迁移过程数据,基于机器学习对服务器侧的模型进行训练,获得针对于终端进行定制化的迁移模型,基于该迁移模型向终端高效迁移终端所需的数据,提高了迁移数据的准确性和效率

集微网消息,目前,在特定的应用场景下,比如智能客服应用场景,智能客服能够基于终端侧已有的用户对话记录分析出用户的特征,比如用户的兴趣、习惯以及语言模式等。

image

但是,由于终端侧所积累的用户对话记录的数据量非常小,无法对该智能客服进行训练,也就导致了智能客服无法以符合用户的特征的方式与用户进行交互。在这种背景下,从服务器侧向终端迁移对应的数据对终端侧的模型进行训练的迁移技术应运而生。

通过在服务器上将所有终端的终端侧数据进行匿名汇总之后,在服务器侧进行模型训练,获得多个通用模型,再通过人工匹配的方式,从多个通用模型中确定出符合终端需求的模型,再基于该模型向终端迁移相应的数据,以解决终端侧数据量小而无法实现智能客服训练的问题。

然而,由于在服务器侧所训练好的模型是基于大量终端所积累的终端侧数据进行训练的,因此,所训练出的通用模型无法与特定的终端完全适配,导致通过该通用模型向终端所迁移的数据并不精确。另外,通过人工的方式确定出与终端相匹配的模型需要耗费了大量的人力,效率不高。

因此,腾讯在19年7月15日申请了一项名为“基于机器学习的迁移数据确定方法、装置、设备及介质”(申请号:201910637116.9),申请人为腾讯科技(深圳)有限公司。

根据目前该专利公开的资料,让我们一起来看看这项迁移数据确定方法吧。

image

如上图为基于机器学习的数据迁移系统的结构框图,这个数据迁移系统包括终端110和数据迁移平台140,终端通过无线网络或有线网络与数据迁移平台相连,终端安装和运行有支持数据迁移的应用程序。

数据迁移平台可以由一台服务器、多台服务器、云计算平台和虚拟化中心中的任意一种构成,主要是用于为支持数据迁移的应用程序提供后台服务,在数据迁移平台和终端中均可以单独承担数据处理工作,也可以相互配合进行更加高效的组合。

而该发明主要涉及迁移数据,例如这种迁移数据主要是作为服务向终端用户提供并使用的数据。以智能客服场景为例,在云服务器确定出迁移模型,基于该迁移模型向终端迁移与该终端匹配的数据,结合终端的终端侧数据和迁移的数据,通过机器学习对终端的智能客服进行训练。

从而实现针对各个用户的兴趣、习惯以及语言模式等定制出属于用户自己的智能客服,比如,当用户在终端上向智能客服发起对话后,智能客服以用户可能感兴趣的方式、符合当前用户习惯以及符合用户语言模式的方式与用户进行对话。
image

如上图为基于前N个终端的迁移过程数据实现向第N+1个终端迁移数据的示意图,需要迁移的数据存储在云服务器侧,针对于不同终端的需求,从云服务器侧中确定出对应的数据并向终端迁移,在云服务器侧基于已经向终端进行数据迁移的迁移过程数据进行分析,对云服务器上的模型进行训练,使训练后的模型能够针对特定终端迁移相应的数据。

获取已经向N个终端进行数据迁移的迁移过程数据,其中,N的取值范围为大于等于1的正整数,基于该N个迁移过程数据对云服务器的模型进行训练。最终,将训练后的模型应用至服务器向第N+1个终端进行数据迁移过程中。

在获取到服务器向多个终端进行数据迁移的迁移过程数据后,对所获取的迁移过程数据进行分析,确定出每个迁移过程数据的数据迁移性能指标,基于数据迁移性能指标数据对服务器中的待训练模型进行训练,获得迁移模型,通过该迁移模型从服务器侧的通用数据中确定出向目标终端迁移的数据,并响应于终端的迁移请求迁移该数据。

接下来我们具体看看该方案的流程图。

image

如上图所示为基于机器学习的迁移数据确定方法的流程图,首先,计算机设备获取服务器分别向多个终端进行数据迁移的迁移过程数据,迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据。

例如,在图片识别的应用场景中,将猫的图片迁移到狗的图片,那么猫的图片与狗的图片之间具有共同特征的数据为眼睛部位的图像数据、鼻子部位的图像数据等。

其次,计算机设备确定每个终端对应的个性化数据和每个终端的终端侧数据之间的相似度。在理想的数据迁移情况下,被迁移的个性化数据应当与终端侧数据之间具有共同特征的数据,因此,需要确定出迁移过程数据的迁移性能,即被迁移的个性化数据与终端侧数据之间的相似程度越高,则表明对应迁移过程数据的迁移性能越好,可以将这些数据作为后续模型训练的训练基础,对云服务器侧的迁移模型进行训练和优化。

接着,计算机设备基于相似度,确定多个终端的数据迁移性能指标,计算机设备基于每个终端的数据迁移性能指标对待训练模型进行训练,获得迁移模型。最终,计算机设备响应于终端的迁移请求,基于迁移模型确定向终端迁移的数据。

通过训练后的迁移模型中包含了多个已经训练好的神经网络层,将终端的终端侧数据输入至迁移模型中,通过多个已经训练好的神经网络层对终端侧数据进行分析,分析出终端的特征数据后与云服务器侧的通用数据中进行匹配。最终确定出向该终端迁移的数据,保证了所迁移的数据是该终端所需求的数据,从而实现针对于用户生成定制化的模型,满足用户的需求。

最后我们来看看这里的迁移模型是如何获得的吧。

image

如上图所示,首先,计算机设备将每个终端的数据迁移性能指标与待训练模型中对应的待训练迁移参数进行差异比对,确定多个终端的数据迁移性能指标与待训练迁移参数之间的差异程度。

其次,计算机设备对每个差异程度进行最小化,获得对应的迁移配置参数,例如从之前获得的N个迁移过程数据对服务器中的待训练模型进行训练。

最终,计算机设备将迁移配置参数向待训练模型中对应的待训练参数进行配置,获得迁移模型。一个通过机器学习而被训练好的迁移模型可以被认为存储了迁移学习技巧,即对什么样的用户终端数据,应该从服务器端迁移什么样的知识。

以上就是腾讯发明的基于机器学习的迁移数据确定方法,通过获取服务器向多个终端进行数据迁移的迁移过程数据,基于机器学习对服务器侧的模型进行训练,获得针对于终端进行定制化的迁移模型,基于该迁移模型向终端高效迁移终端所需的数据,提高了迁移数据的准确性和效率,同时节省了大量人力!

关于嘉德

image

深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

(校对/holly)

推荐阅读
关注数
12739
内容数
1029
从专利出发,浅析一切关于柔性屏、折叠屏、10倍光学变焦技术等有趣的前沿技术
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息