「专题速递」GPU算力思考、内容生产技术实践、AI动漫、多模态可控的作曲框架

在AIGC时代，借助人工智能的力量，音视频创作者可以更加轻松地实现他们的创意构想。AI技术不仅能够提供高质量的音视频剪辑和特效处理，还能够根据用户需求智能推荐素材、调整音频效果、生成视觉效果，甚至可以通过自然语言处理技术为视频配上精彩的解说词。

通过AIGC，我们迎来了一个充满可能性的音视频创作时代。创作者和生产者可以借助AI的力量，创作出更具创意和想象力的音视频作品，满足不断变化的市场需求，推动整个音视频产业链的持续发展与创新。

01 AIGC基石思考之算力哲学——论GPU的过去,现在和未来

王闻宇

PPIO派欧云联合创始人&CTO

当前，GPU已成为元宇宙、人工智能、大语言模型、AIGC发展的必备基础设施之一。本次分享，我将从历史、硬件发展、软件发展、股价等多个维度分析GPU的前世今生，同时，剖析英伟达、AMD和Intel之间的恩怨情仇，探讨美国GPU出口限制的破解思路，并思考这一切背后的第一性原理（哲学），对未来英伟达等公司股价做出预测。

02 AIGC时代下，阿里云视频云

媒体内容生产技术实践

邹娟

阿里云智能资深技术专家

视频化的趋势与AIGC的浪潮相互碰撞，为媒体内容生产领域带来了不少变化，媒体层的性能挑战越来越突出，媒体内容生产的应用场景和体验需求也愈发多样。

本次演讲将分享AIGC时代下，阿里云视频云媒体服务的整体技术架构，建设融合AI与传统媒体处理的一体化媒体引擎的关键技术，还将分享阿里云视频云如何重构媒体内容生产三大模块—内容创作、媒体处理、媒资管理，将AIGC技术落地相关场景和应用的实践。

03 美图AI动漫功能的落地探索

李骈臻

美图高级计算机视觉专家

随着AI在视觉领域的快速发展，美图希望通过AI技术帮助用户更好地生产内容。自从diffusion模型提出以后，业界出现了如DALLE，Midjourney等基于简单描述文本生成图像的模型和工具。今年也逐渐出现了诸如Runway GEN, PIKA等的视频内容生产工具。针对视频的内容的AIGC应用，对于视频生成稳定性以及落地部署方面面临着诸多的挑战。

本次分享将分为三个部分，第一部分主要介绍美图在AIGC方面的应用；第二部分介绍美图在23年4月初发布的一个视频AIGC应用“AI动漫”并分析其中的对用户动画内容创作的意义和挑战，第三部分介绍美图对于生成稳定性以及功能体验等问题的一些探索经验。

04 XMusic：多模态可控的

高质量通用作曲框架

田思达

腾讯多媒体实验室智能媒体技术负责人

近年来AIGC在文本和图像领域取得了巨大突破，AI生成的内容已经可以和人为创作的内容相媲美，但在音乐生成方面还无法达到人类水平。一方面它们无法灵活地控制情感的表达，另一方面它们无法保证输出的音乐质量。

在本次分享中，我们将介绍XMusic，它支持图片、视频、文字、标签、哼唱等模态内容作为提示词生成情感可控的高质量音乐。XMusic通过构建XProjector实现了多模态内容的解析和条件控制，又通过训练XComposer实现了音乐的生成和筛选，最终实现了一个多模态可控的高质量通用作曲框架。目前，XMusic已上架腾讯云并上线官方小程序，欢迎大家前来体验。

LiveVideoStackCon 2023音视频技术大会深圳站

诚邀您参与!

时间：2023年11月24日-25日

地点：深圳圣淘沙酒店（翡翠店）

咨询：13520771810（微信同号），ticket@livevideostack.com