【嘉勤点评】OPPO发明的基于人工智能技术的老照片修复技术及方案,主要使用以括编码器、生成器和判别器构成的GAN网络,将待修复图片输入其中进行修复,从而有效提升老照片的画质效果。
集微网消息,在CVPR 2021期间,英伟达展示了仅用一张人物2D图像即可合成逼真的人脸说话视频。借助生成式对抗网络(GAN),用户只需在加入视频通话前提交一张真实照片或卡通头像,即可在会议期间,通过AI模型捕捉每个人实时动作并合成视频。
随着人工智能的发展,例如GAN网络在许多领域方向都发挥出了重要的作用,除了上述生成人脸说话视频外,还常用于老照片修复中。通常一些老照片由于受限于拍摄设备和年代以及网络流传压缩失真等多种因素会出现分辨率低、噪声多和压缩失真等问题,这一类现象被人们归为老照片低画质问题。
由于老照片寄托了人们的很多情感,因此如何提高老照片的画质变得十分有意义。针对老照片低画质修复这一问题,如果单纯使用去噪和超分模块的组合来解决这一任务,则会出现各模块之间处理后带来的信息损失和扰动,比如去噪模块一般会导致图片丢失更多的细节,这会使超分效果弱化,如果直接超分则会出现新的噪声,对于后面的去噪又会提出更高的要求。
为此,OPPO在2020年6月4日申请了一项名为“图片修复方法、装置、终端设备以及存储介质”的发明专利(申请号:202010502508 .7),申请人为OPPO广东移动通信有限公司。
根据该专利目前公开的相关资料,让我们一起来看看这项老照片修复方案吧。
如上图,为该专利中发明的修复老照片画质的流程示意图,首先得到待修复的照片,然后将该图片输入预先创建的图片修复网络模型中进行修复,即可得到修复后的图片。该模型包括编码器、生成器和判别器,也就是我们常说的GAN网络中的组成部件,通过模型的训练即可得到修复后的图片。
如上图,为这种修复模型的网络整体数据流的示意图,其中,LxS中“L”、“S”分别表示长度和宽度尺寸,LxS表示图片的长x宽,L/32表示长度尺寸缩小32倍,S/32表示宽度尺寸缩小32倍。
可以看到,数据流主要从编码器、生成器以及判别器中经过,编码器用于对输入的图片进行编码,得到若干尺寸的特征图,输入至生成器;生成器用于对输入的图片进行重建,得到生成图片,提供给判别器;判别器用于对生成图片与对应的高画质图片数据集中的高画质图片进行判别,得到判别结果后,再结合判别结果训练图片修复网络模型。
由此可以看出,这种图片修复网络模型的网络结构在设计时,兼顾了生成器的生成优势和编码器的保持图像内容一致的优势,复用了编码器的特征图,将编码器的特征图和生成器对应大小的特征图相加,来实现生成器生成能力和编码器保持图片内容一致能力的统一。从而通过训练后的图片修复网络模型对图片进行修复,可以解决老照片低画质修复问题,提升老照片的画质效果。
如上图,是修复前的低画质老照片示意图(上)和低画质老照片修复后的高画质照片示意图(下),可以看出经过修复之后的图像更清晰,而在该方案中,也采用图像质量评价算法BRISQUE算法来对修复前后的图片进行批量评价打分,结果显示该方案可以解决老照片低画质修复问题并提升老照片的画质效果。
以上就是OPPO发明的基于人工智能技术的老照片修复技术及方案,该方案主要根据以括编码器、生成器和判别器构成的GAN网络,将待修复图片输入其中进行修复。通过训练后的图片修复网络模型对图片进行修复,可以解决老照片低画质修复问题,并有效提升老照片的画质效果。
关于嘉勤
深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
(校对/holly)