探索娱乐视听技术与体验的新乐章

LiveVideoStackCon 2022 音视频技术大会北京站即将在3月31日至4月1日召开，本次大会将延续「音视频+无限可能」的主题，音视频技术在整体大环境的影响下，近年来呈现出迅猛的发展趋势。一方面，视频技术能力的普及，面向现有业务及场景视频化发展的道路存在相当激烈的竞争，从底层技术革新到针对实际场景的业务逻辑优化。另一方面，随着更多新概念、新技术的涌现，未来从生产到消费音视频在哪些新的业务、产品及场景下能够创造更多新的价值是我们迫切需要思考的问题。

QQ音乐的全新一代听歌识曲技术如何在保持技术领先的现状下创新和突破？QQ音乐的银河音效如何突破传统DSP思路，进行技术升级，并形成高活跃的音效社区？全民K歌的唱歌评分如何全面升级？智能品鉴如何从多维度挖掘优质歌手和UGC作品给用户带来收益？元宇宙大背景下，虚拟世界和音乐如何结合？Music XR Maker 如何用AI驱动的方式打造一场虚拟偶像音乐表演？本专场腾讯音乐的天琴实验室及银河音效团队，将以音频为核心与大家一同探讨多媒体技术的现状、实现与思考，希望促进行业间的交流、探讨以及合作。

\# 出品人 \

赵伟峰

腾讯音乐天琴实验室

音频技术负责人

赵伟峰，腾讯音乐天琴实验室音频技术负责人，T12级专家工程师，十余年音频行业从业经验。毕业于宁波大学通信专业，2012年加入腾讯QQ音乐后一直负责音频研发工作。目前负责歌曲识别算法、K歌录唱算法、长音频字幕和朗读算法等3项核心技术，以及其他内外部合作的音频算法研发。带领团队获得国家专利奖、深圳市科技专利奖、公司级重大技术突破奖等多种奖项。先后牵头和中国科技大学、西北工业大学、清华大学等高校成功完成专项技术合作。并在“听见听不见的声音”歌单等公益项目中践行科技向善。

\# 讲师与议题 #

孔令城

腾讯音乐天琴实验室

音频识别组组长

孔令城，腾讯音乐天琴实验室音频识别组组长，2014年硕士毕业于华南理工大学后，加入QQ音乐音频团队。深度参与过音质、音效、编解码、音频指纹、翻唱识别等项目。目前在音乐内容理解、音乐音频检索、音乐音频品鉴方向带领团队深入研究，同时拓宽应用场景，不仅在QQ音乐、全民K歌有落，同时在微信摇一摇、微信视频号、酷我音乐、酷狗唱唱、小米音乐等合作伙伴有落地业务。团队一切以C/B端客户的价值为依归，致力于打造具有专业深度、行业广度的音乐音频理解、检索、品鉴系统。

Topic：QQ音乐下一代听歌识曲技术

传统的听歌识曲技术是一种严格的基于音频内容的匹配检索技术，如果要通过传统听歌识曲技术识别到一首被人翻唱或者改编的歌曲，那么检索库中必须有这首同录音的歌曲。随着移动互联网的崛起，直播、K歌、短视频等用户翻唱、改编的歌曲越来越多，尤其是热门歌曲同质化严重，如果基于传统听歌识曲技术的系统，检索库不及时、大量的更新入这种内容，那么就会导致很多歌曲无法识别。为了解决当前用户痛点，我们探索出下一代听歌识曲技术。

内容大纲：

1. 听歌识曲面临的挑战

2. 听歌识曲中翻唱识别技术

3. 听歌识曲中多模态识别技术

4. 歌曲识别展望

闫震海

腾讯音乐

银河音效开发负责人

闫震海，腾讯音乐银河音效开发负责人，博士毕业于中科院声学所，主要负责银河音效的技术规划和方案实现。先后推出场景定制音效、音效制作工具、全景声技术（深圳故宫数字展和海南国家公园直播）等创新应用。并推动银河音效接入各大内容平台，如QQ音乐、全民K歌、酷我车载、爱趣听、企鹅FM等。

Topic：QQ音乐银河音效技术实践

音效渲染是音频或音乐播放器最为重要的后处理模块之一。本次分享将重点介绍银河音效在QQ音乐播放器中的创新应用，包括空间环绕效果和音效制作工具等内容。一方面，空间环绕效果一直深受广大用户追捧，也是银河音效在听歌体验方面持续优化的一种沉浸式效果。另一方面，面向音效发烧友的专业制作工具大大激发了用户创作个性化音效的热情，从而形成了高度活跃的音效社区。

内容大纲：

1. 音效在播放器中的应用

2. 空间环绕效果的设计

3. 音效制作工具的设计

4. 银河音效的未来展望

江益靓

腾讯音乐天琴实验室

高级研究员

江益靓，腾讯音乐天琴实验室高级研究员，硕士毕业于复旦大学，主要负责智能歌唱评价技术的研发，参与嗓音音色识别和多项MIR技术的实现和落地。推动多维度歌唱评价技术应用在全民K歌录唱、K歌王者、酷狗唱唱、QQ音乐直播高光时刻识别等多个场景中。主导搭建全民K歌智能品鉴系统，相关论文收录于ISMIR。致力于使用音乐科技帮助用户更好地享受音乐。

Topic：歌唱评价与内容理解实践

歌唱评价是K歌系统中核心技术之一。近年来，歌唱评价领域也发生着多元化和深度化的变革。本次分享将重点介绍全民K歌的多维度评价技术和深度歌唱评价技术的实践，以及优质内容挖掘中使用的K歌智能品鉴系统。歌唱评价技术已落地在录唱、游戏和直播的多项场景中，激发了用户的录唱意愿和优质作品的观看时长。

内容大纲：

1. 歌唱评价概览
2. 实时多维打分
3. 深度歌唱评价
4. 智能品鉴系统

董治

腾讯音乐天琴实验室

计算机视觉负责人

董治，腾讯音乐天琴实验室计算机视觉负责人，负责虚拟人舞蹈、歌唱口型、表情、手势、灯光舞美等AI驱动技术，同时负责视频理解、视频检索、视频质量提升、视频剪辑等视频相关算法。毕业于武汉大学，在视频、视觉领域十多年研发经验。

Topic：音乐驱动虚拟人

元宇宙时代的娱乐场景下，通过高精度的AI驱动模型还原真人的歌舞表演，有着更低成本、更多创造性、精彩度、实时互动性的综合优势，是虚拟数字人驱动的最终形态。本次分享将重点介绍TME天琴实验室在音乐驱动领域的 Music XR Maker 系统，包括虚拟人舞蹈生成、歌唱表演生成、音乐灯光秀等方面的最新进展。

内容大纲：

1. Music XR Maker

2. 音乐生成虚拟人舞蹈

3. 歌声驱动虚拟人歌唱表演

4. 音乐灯光秀