对话腾讯音乐天琴董治：聊聊元宇宙与AI技术驱动虚拟人

热度只增不减的元宇宙，让众多互联网公司为之不惜加码，投入大量的人力、物力和财力，从不同角度切入元宇宙这条新赛道。对此，我们很荣幸地邀请到了腾讯音乐天琴实验室，计算机视觉负责人董治老师，来聊一聊入局元宇宙需要具备哪些能力？以及用AI技术驱动的虚拟人从建模到渲染，再到场景应用，当前遇到的瓶颈是什么？腾讯音乐天琴实验室在AI驱动虚拟人方面又做了哪些工作？在本篇采访中，董治老师分享了很多观点和相关经验。

董治腾讯音乐天琴实验室 , 计算机视觉负责人

董治，腾讯音乐天琴实验室计算机视觉负责人，负责虚拟人舞蹈、歌唱口型、表情、手势、灯光舞美等AI驱动技术，同时负责视频理解、视频检索、视频质量提升、视频剪辑等视频相关算法。毕业于武汉大学，在视频、视觉领域十多年研发经验

文 /董治

策划、编辑 / Teresa

LiveVideoStack：董老师您好，欢迎您接受我们的采访，请先和我们LiveVideoStack的小伙伴们介绍下自己吧。

董治： 您好，LiveVideoStack的小伙伴们大家好，我是来自腾讯音乐的董治。

天琴实验室是腾讯音乐首个音视频实验室，致力于通过AI科技提升音娱视听体验，我在其中主要负责的是CV、视频相关的技术。

我加入TME有8年的时间了，也见证了音乐视觉领域的不断发展，从最初的MV，到音乐短视频、直播，以及最近非常火的元宇宙概念，我和团队的同学们都一直深耕在这个领域，利用AI技术来更好地服务我们的用户，为大家不断地带来全新的视觉&听觉体验。

LiveVideoStack：董老师和我们分享下您近期关注的技术热点和行业新闻吧。

董治： 近些年我会特别关注到元宇宙、虚拟人相关的技术发展，前2年参加chinajoy的展会时，就发现大家谈论的话题慢慢都离不开元宇宙了。就我个人看来，元宇宙是一个非常长期，需要持续发展的方向，它依赖于各项底层技术的迭代更新，突破瓶颈，以及对用户的不断教育。而虚拟人可能相对来说是一个在短期内更容易实现和普及的方向，它在我们现在的移动互联网时代就可以广泛应用，同时也是迈向元宇宙时代的一大入口。

在虚拟人方面，目前的一大热点是视频动捕的技术，我们也看到一些虚拟偶像通过视频动捕+中之人的方式，取得了不错的效果，后续应该会有更多的虚拟主播会跟进类似的方案。同时，以AI技术驱动会有更加明显的优势，对中之人的依赖更少，内容制作更加便捷，这类技术目前在写实数字人、虚拟新闻主播、虚拟客服方面的应用会更广一些。

因此我们思考的是，如何将AI驱动技术也能够应用在娱乐虚拟人的场景下，以更少的成本，更佳的效果，给用户带来一些全新的感受。

LiveVideoStack：入局元宇宙，几乎成为互联网公司纷纷进军的新赛道。在您看来，入局元宇宙需要具备哪些技术栈能力？还存在哪些技术瓶颈？元宇宙未来发展的方向是什么？

董治： 元宇宙依赖非常多的技术栈，比如渲染方面，虽然我们有商用的一些游戏引擎已经较为成熟了，但在建模方面，比如人物建模、场景建模等等，都非常依赖美术的资源，而更进一步的UGC创造就更加困难，这里就需要算法和美术上的突破，去高效和低成本的建模。

在驱动层面，现在的AI驱动技术还有很大的发展空间，这里比较像一个AI创作的事情，类似最近很火的AI画画、AI作曲等，能够做并且做得好，这里就有很大的一个进步的空间。

要做元宇宙，就离不开云渲染，这几年云渲染、云游戏的发展非常快，包括一些原生云游戏也在陆陆续续问世。我们可以感受到云渲染在体验上已经做得很优秀了，包括渲染的精度、延时等等，但现在最大的问题在成本上，相信随着GPU虚拟化，边缘计算等技术的发展，可以不断的去压缩云渲染的成本，让这项技术可以更加的普及。

还有VR终端的普及、对应的用户教育、区块链技术的成熟，底层网络传输的进步等都多多少少存在一些技术瓶颈。但其实元宇宙并不是一蹴而就的事情，我们可以利用已经成熟的技术，去实现一个基础的版本，然后不断的去提升各项技术，去完善元宇宙体验。

最终元宇宙会发展到我们工作生活的方方面面，比如在线会议、教学、远程医疗、虚拟客服等等，都是非常有现实意义，极具应用价值的发展方向。

天琴实验室虚拟人小琴

还有我们在做的娱乐行业，虚拟偶像、虚拟直播等都是元宇宙发展的一个形式。TME在元宇宙上也有很多的产品布局，比如QQ音乐世界、KK秀、TMELand等，虚拟人方面有我们天琴实验室最新推出的小琴，还有扇宝、安可等等，以及其他陆续上线的虚拟偶像。

LiveVideoStack：谈到元宇宙可能就无法绕开这里面的主角：虚拟人、数字人、虚拟数字人，董老师能否为我们科普下这三者从技术实现、应用场景等方面有什么区别吗？

董治： 我个人感觉没必要区分得太清楚，我们可以从不同的角度来看虚拟人。从直接的感受上来说，有2D和3D的，他们又分别有不同的精度，比如纯卡通风格的、写实感的，还有超写实，甚至全仿真的虚拟人。

更加写实的虚拟人，在新闻播报、客服等，需要去真正替代真人的场景上，会更有应用价值，但相对来说，对技术的要求会更高，因为一旦有一点“不像”，就会有恐怖谷效应，引起用户的反感。

而在我们这样的娱乐场景，各种精度的虚拟人都会被接受，相比于精度，用户更加关注的是“好看”，所以在娱乐场景下的虚拟人，对美术的要求是非常高的，我们要去打造的是更有美感的虚拟人。

LiveVideoStack：随着AI技术的不断进步，不仅简化了虚拟人的制作流程，还降低了制作成本。从形象建模到后续驱动、渲染都可以直接通过AI技术来完成，在这个过程中您觉得最大的痛点是什么？有什么解决思路或方案可以给我们分享下吗？

董治： 其实这3个大的环节，都有着各自的痛点。建模是非常费钱的，3年前要建一个超写实的虚拟人，需要千万的量级投入，而现在已经压缩到百万的级别，但其实也还是挺贵的。所以我们可以看到在渲染和AI都不断的去压缩这个成本，只有真正的做到低成本的建模，我们才可能人人都拥有自己的虚拟人形象。

UE 的 MetaHuman 带来了这种可能，Unity 也有对应的方案在跟进，给我们看到未来的一些希望。同时AI技术，一张照片就可以给用户建模，极致的压缩了成本，只是这里的精度还需要不断的加强。我们也可以找到一些专业方案，比如提供照相机的阵列来建模，会有更加不错的效果，这些都是现在的一些可行方案。

AI驱动层面是我们主攻的方向，现在的中之人驱动技术虽然已经很成熟，但也明显出现了一些问题，比如和中之人的过渡绑定造成的一些负面影响，最近也有一些新闻案例。同时，不是所有的主播都那么的能唱能跳，这时通过AI的方式，就可以很好的弥补主播的不足。具体怎么去实现，大家也可以关注到我在LiveVideoStackCon 2022 北京站大会上的分享。

另外，渲染层面是一个很需要权衡取舍的地方，比如大家都知道超写实虚拟人很好看，但可能渲染一帧的画面需要数秒的时间，现有的技术条件下，超写实虚拟人只能做平面，或者CG动画，要做到实时直播很难，这就限制了它的表现形式和空间。我们可以借助游戏引擎做到较写实虚拟人的实时直播，只用一台PC，当然要买张还不错的显卡，就可以驱动虚拟人做直播表演了，这样可以和用户有更全面的交流。更进一步，如果要真正像游戏一样和虚拟人互动起来，就会有更多需要权衡的地方，比如用云渲染的方案，目前阶段的成本会比较高。如果在端上的游戏引擎来运行，一来会增加很大的包空间，如何让用户接受是一大问题；二来端上的算力有限，也无法做到极致的渲染效果。这些可能都需要根据业务的实际情况去做取舍。

LiveVideoStack：腾讯天琴音乐实验室在AI技术驱动虚拟人方面也有所投入，您可以为我们具体介绍下目前的进展和成果吧。

董治： 我们在打造一个虚拟人的表演系统，只需提供一个虚拟人的模型，就可以通过AI的方式，呈现出一场完整的音乐表演。比如舞蹈表演方面，我们有音乐驱动舞蹈的算法，可以根据BGM自动生成虚拟人的舞姿。歌唱表演上会再丰富一点，通过歌声合成的算法，可以直接用虚拟人用自己的音色、技巧生成他唱一首歌曲，然后表演上，会根据发音模拟出虚拟人的歌唱口型，同时结合我们研究的表演算法，来加上歌唱时的表情和动作。

有这些还不够，作为一场专业的音乐表演，我们还有一个音乐灯光秀的功能，可以根据音乐的节奏、情感等等去定制虚拟人表演舞台上的灯光、舞美。同时，会参考音乐、虚拟人的表现、灯光的焦点等等，有一个专门的运镜和编导的算法，将这场表演完整的呈现在用户的面前。

而这一切都是基于AI算法，可以极大的降低虚拟人音乐表演的成本，同时提升效果，比如让虚拟人实现各种高难度的表演；另外一个好处是，可以和中之人解绑，避免各类的问题。在表现形式上，我们也在逐步去兼容各种方案，比如异步视频的生成、实时直播、多人互动等等。

我们天琴实验室最近也新推出了自己的首位虚拟人：小琴，在11月的LiveVideoStackCon 2022 北京站大会上，小琴也会把最新学习到的技能，表演给大家看。

LiveVideoStack：据悉腾讯天琴实验室在音乐驱动领域推出了 Music XR Maker 系统，可以为我们介绍下这个系统的主要功能、应用场景吗？

董治： Music XR Maker 是一个更宽泛，更普适的概念。前面提到的我们在AI驱动上的核心能力，它们都有一个共同点，就是通过音乐，用AI的方式，去生成虚拟世界的各项基础元素。

这些能力的底层，基于的是腾讯音乐长期以来建立对音乐信息的强大理解能力，在此基础上发展而来的生成能力。

我们将这些能力汇总起来，建立了 Music XR Maker 的系统，比如通过音乐去生成歌声、舞蹈、口型、表情、动作、灯光、运镜、编导等等，然后这些能力项，可以以更细的粒度，在更广的场景下应用。

比如在全民K歌，最新的KK秀录唱的场景中，就用到了我们的音乐生成口型的能力。还有在QQ音乐Music Zone的蹦迪房间里，有用到音乐灯光秀的能力等。另外，全民K歌也可以依据用户之前唱的歌，自动的去合成一首新歌。

前面提到虚拟人建模方面，其实还有一个问题，就是虚拟人会经常换装，我们 Music XR Maker 具备根据图片来生成虚拟人服饰的能力，极大的节省了美术的工作，在KK秀这种UGC场景会非常适用。

LiveVideoStack：看到您这次将会在LiveVideoStackCon 2022 北京站腾讯音乐天琴实验室品牌专场「探索娱乐视听技术与体验的新乐章」中做演讲分享，可以为我们稍微剧透下会讲哪方面的内容吗？

董治： 我会先系统介绍下 Music XR Maker 系统，以及我们的虚拟人表演生成技术，然后会就虚拟人舞蹈、歌唱表演，以及灯光秀、运镜等技术细节，和大家做一些技术分享和交流。

LiveVideoStack：好的，感谢您接受采访，期待您在11月北京站大会上的精彩分享。

▼扫描下图二维码了解大会更多信息▼

推荐阅读

目录