超神经HyperAI · 12月12日 · 北京

活动回顾丨 北大/清华/Zilliz/MoonBit共话开源,覆盖视频生成/视觉理解等

当下,AI 产业正迎来一个前所未有的发展周期。大模型的规模化应用、AI 原生软件体系的重构、多模态基础模型的加速演进,让学界与产业界的边界变得愈发模糊。无论是视频生成对音画同步的精细化要求、终端侧视觉模型的高效推理优化,还是新一代 AI 原生编程语言的出现,都在推动一个清晰的趋势——产研协同与开源生态,正在成为 AI 时代最关键的创新范式。

过去数十年,科研驱动产业,产业反哺科研的循环并不鲜见,但在如今这个模型、算力、数据指数级增长的阶段,单点式创新已难以满足需求。开源已从工具共享演变为基础设施协同,成为连接高校、企业、社区、个人开发者的关键纽带。 尤其在视觉、多模态、向量数据库、AI 编程语言等前沿领域,开源不仅加速了技术传播速度,也重塑了研发组织方式,催生了更多「共建式创新」。

在此背景下,HyperAI超神经作为 COSCon’25 的联合出品社区,于 12 月 7 日举办了「产研开源协同论坛」。 我们有幸邀请到了北京大学研究员施柏鑫、Zilliz 首席开源布道师李成龙、清华大学助理研究员陈辉和 MoonBit 社区核心开发者雷正宇,共同探讨前沿研究在开源生态中的落地路径、开源项目在产业实践中的迭代范式,以及未来 AI 应用将如何通过社区力量不断扩展边界。

01 施柏鑫:构建全新数据集,实现视频生成与音画同步技术新范式

当前,视频生成技术在图像质量和短时序连贯性上已取得进展,能生成高保真短片段,并实现一定程度的音画同步,但传统方法仍面临经纬度失真、视角拼接不连续、运动目标一致性差和长时序稳定性不足等问题。同时,音频与视觉内容之间存在高度关联,若要让模型真实捕捉语音、音乐、环境声等多类信息,就必须构建能够理解多轨信号的生成框架。

在这里插入图片描述

在此背景下,施柏鑫老师团队在音画同步方面提出了区间流技术,使模型在学习过程中能够「前后多看几帧」,从而建立跨时间的注意力连接。 而结合内部的 block 模块,模型能够在不同音轨上实现自注意力机制,以更准确地处理说话声、环境声等不同类型的音频信息。音乐部分由于具有更强的全局性,团队通过全局特征注入等方式实现情绪渲染,使模型能够根据音乐氛围生成相应画面。

施柏鑫老师介绍了团队在该项目中作出的突破:

  • 提出多功能的音频同步视频生成框架,通过解混的音频实现精确的视听映射和准确的时间对齐。
  • 构建了一个由 5 个重叠子集组成的音频同步视频生成数据集新数据集,含有约 39.2 万段、时长约 1,200 小时的音视频数据。基于该数据集,模型能够在多轮训练中分别学习人脸口型同步,事件时序控制,以及情感氛围渲染。
  • 提出了多流时间控制网络处理去混的音频轨道,精确控制口型同步,事件时序以及情感氛围。

相关成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题已入选 NeurIPS 2025。

除此之外,施柏鑫老师团队还实现了可生成包含真实运动目标的全景视频,且支持长视频、语义编辑、超分辨率与视角外插等任务。 该方法设计了纬度感知采样技术,有效降低等距矩形投影引起的画面畸变;同时,通过旋转语义去噪与边界填充逐像素解码策略,解决了经度边界处视觉语义不连贯的问题。

相关成果以「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」为题,同样已经收录于 NeurIPS 2025。

02 李成龙:基于首个开源向量数据库 Milvus 构建商业化服务

2019 年 10 月,Milvus 正式开源,作为全球首个开源向量数据库,其目前已经在超过 1 万家企业的项目中实现落地,在 GitHub 上累积获得 40K stars。 具体而言,Milvus 覆盖了丰富的数据类型,支持 Float、Sparse、Binary 等多种向量数据,还能够实现动态删减,即增即查,实时落盘。同时,其还支持标签 + 向量的过滤以及关键词 + 向量检索等功能。

在这里插入图片描述

李成龙老师回顾了 Milvus 的架构演进,在 2021 年 3 月发布的 LTS 版本中,团队围绕数据的持久化、数据分片以及不同异构硬件的支持做了大量工程化的工作。 但该版本还是存在一个明显的劣势,即所有的数据写入、索引等都是 all in one,在一个组件内完成的,形成了单机版本的架构,其主要缺陷就是当数据规模较大时,或者访问的 QPS 比较高时,其扩展能力是非常受限制的,难以应对大企业的大数据量需求,或是双十一等查询流量高的场景。

目前,团队已经在最新的 Milvus 2.6 版本的架构中进行了大量优化,例如增加 StreamingNode 用以处理增量数据,合并 DataNode 与 IndexNode,在对象层消息队列中增加自研的 Woodpecker 等等。

在开源领域取得成功后,Zilliz 也开始思考如何实现商业转化,最终发现,开源 Infra 领域的商业化,基本上就只有一条出路,就是在公有云上提供 Saas 服务。 所以公司目前除了开源的 Milvus 外还基于前者打造了一个全托管的 Zilliz Cloud。目前的很多企业级客户最初也是通过开源项目 Milvus 才了解到公司的,进而认可产品,推进后续的 SaaS 服务。

03 陈辉:构建轻量化主干网络,实现高效精准的端侧视觉理解

视觉理解技术是人工智能领域的热门方向,具有重要的学术研究和应用价值。当前,视觉理解技术已广泛应用于移动端、机器人、自动驾驶等终端场景,但由于国产芯片算力不足、传统模型结构严重冗余等局限,加之复杂场景对模型提出了高通用性的需求,高效视觉模型的研究显得尤为迫切。

在这里插入图片描述

面向实际终端应用的需求,陈辉老师的团队从基础模型的通用性能力和推理高效两方面出发,构建了轻量化的主干网络,建立了高效通用的视觉基础模型,实现高效精准的端侧视觉理解。 其主要技术点包括 3 个方面:

  • 非对称深度学习结构以及轻量化动态网络结构设计;
  • 实时端到端目标检测模型 YOLOv10;
  • 开放域通用视觉理解。

针对深度学习模型「训练—推理」对称结构导致的冗余问题,团队提出「非对称深度学习结构」的概念, 在训练阶段采用更复杂的结构充分学习,推理阶段则通过等价转换压缩计算路径,实现轻量快速部署。在此框架下,团队推出了 RepViT(CVPR 2024),LSNet(CVPR 2025) 等多项有影响力的主干网络。

在目标检测方面,团队则重点攻克了 YOLO 系列模型的多框融合导致 NMS 依赖,以及模型结构的冗余性两大痛点。 对此,团队提出一致性双重标签匹配策略,训练时一对一检测头和一对多检测头同频优化,推理时仅用一对一检测头,从而保证精度无损的NMS-free检测识别。

此外,构建了效率驱动和精度驱动的模型设计方法,解决了模型结构冗余带来的计算复杂度高的问题。基于上述方法,构建了新一代 NMS-free 的高效高精度目标检测模型 YOLOv10(NeurIPS 2024),取得了最先进的性能和推理效率的平衡。

在模型的场景应用方面,传统目标检测模型往往受限于预定义的标签集,难以适应实际开放场景。对此,团队推出了面向开放场景的视觉理解基础模型 YOLOE(ICCV 2025),语言大模型提供可泛化跨模态表征,利用结构重参数化技术降低推理复杂度,实现了同时支持开放检测和分割的统一模型,支持文本、视觉等多模态开放提示,突破了传统受限的视觉理解模式。

04 雷正宇:MoonBit,在 AI 原生时代重构软件生产力的开源实践

MoonBit 的探索源自一个越来越清晰的行业现实:大模型正在深度融入软件开发全过程,但现有工程体系并不能完全适应这种变化。在大模型深度融入开发流程的当下,软件工程正迎来新的范式转变,AI 不再只是工具,而正在成为代码生成、重构与验证过程的核心参与者,逐渐从传统「人写代码+机器辅助」走向「AI 生成、开发审校」的模式。 IDEA 研究院 MoonBit 团队正是这一趋势下的先行者。

在这里插入图片描述

MoonBit 社区核心开发者雷正宇博士介绍,传统编程语言在设计之初并未面向 AI 交互进行优化,而 AI 生成的代码往往存在可读性弱、难以调试、难以复用的问题。MoonBit 的目标正是以 AI 原生编程语言的方式,重新构建一套适配智能时代的软件生产体系, 旨在让 AI 生成的代码更易于人类理解、更符合工程实践,并提升开发、重构与调试的整体效率,以开源的方式构建面向未来的AI云原生开发平台。

在分享中,雷正宇提到,MoonBit 的语言设计、编译工具链和生态建设,都强调 3 个核心目标:

  • 追求极致的编译速度、生成目标体积,具有静态分析工具功能;
  • 具有平滑的学习曲线和复杂度;
  • 构建不依靠 convention 的丰富表达能力。

在这一方向驱动下,MoonBit 社区围绕 Web 开发、数值计算、开源中间件 SDK 等各种方向积累了数千个开源包,形成了一个蓬勃发展的社区生态。 在产业协同方面,MoonBit 正积极与 Python、JavaScript 以及 WebAssembly 建立技术连接。通过自动化封装、跨语言调用和统一的模块接口工具链,开发者不仅可以在 MoonBit 中直接复用 Python 的成熟生态,也能无缝调用 JavaScript 代码或集成 WASM 组件,大幅减少跨语言场景中的重复开发与兼容成本。

推荐阅读
关注数
682
内容数
378
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息