MegTech 2022 | 20个Demo闪亮登场，哪一个击中了你的心巴？ - 极术社区

作为旷视一年一度的技术盛会

2022旷视技术开放日可谓是盛况空前

20个有料有趣的Demo互动体验区

覆盖前沿技术探索、软硬件协同设计

算法量产应用和商业化产品落地等方面

更是让大家感受到了AI独特的魅力

虽然同属人工智能

但这些Demo都有着鲜明的“个性”

今天，就让我们一起回顾一下吧！

打破次元壁的Demo：VR裸手交互

虚拟与现实之间的那层“壁”，如何才能真正被打破？VR裸手交互给出了自己的答案——通过相机捕捉手部的运动状态，并基于深度学习技术对图像进行手部检测及关键点提取，同时利用时序对手部运动进行跟踪，你就能扔掉手柄，在虚拟世界中完成点击、捏起、握拳等一系列灵巧的手部动作。以“无感”创造满满的沉浸感，体验过的人都忍不住为它打call！

图：VR裸手交互

手办迷超爱的Demo：自然语言生成3D人物

每一个手办迷，都梦想制作专属于自己的限量版手办模型。自然语言生成3D人物将梦想照进了现实！你要做的仅仅是输入一段文本，AI就会提取文本特征并对其进行分析，一个栩栩如生的3D人物就出现了。值得一提的是，现有的通过文字生成3D模型的方法往往每次都需耗时数小时甚至数十小时，而旷视研究员们通过优化Text2Mesh生成模型，让等待的时间缩短至几分钟以内，实现了效率的大幅提升。

图：自然语言生成3D人物

让二次元狂欢的Demo：手绘人物转动画

开放日上最靓丽的风景线，一定是充满了活力二次元萌妹舞蹈，它吸引了无数人的驻足围观。这段可爱的舞蹈背后，隐藏的却是硬核的技术，那就是旷视的自研模型——CoNR（Collaborated Neural Rendering for Anime Character Sheets）。只需要非常少量的手绘图片并提供动作序列，CoNR就能生成一段既流畅又自然的动画。这一技术可有效提升画师的创作效率，各位二次元们，你们苦苦等番的日子或许就快终结了！

有梗到不行的Demo：薄荷里画师

除了硬核的技术知识，旷视研究员也是有些幽默在身上的。薄荷里画师名字就来源于谐音梗“不合理”，它是旷视MegEngine团队基于AI生成绘画技术开发的一项功能。在内容框里输入文本或添加想要二次创作的图片做底图，薄荷里画师就会生成充满艺术感的画作。然而，薄荷里画师偶尔也会小小“翻车”：如果你输入的文字较短，它可能无法准确理解其中含义，就会产生一些“不合理”的画作啦。欢迎大家前往MegLab小程序体验AI创作的乐趣。

拥有“黑魔法”的Demo：基于神经网络的3D重建

罗马不是一天建成的，但旷视研究员告诉你：用算法就可以。开放日现场最为神秘的装置莫过于基于神经网络的3D重建Demo展台上的黑盒子，它拥有用魔法打败魔法的方法——短时间基于2D 平面照片合成 3D 场景的能力。同时，为了改善整个过程中算力消耗巨大，渲染时间长的问题，这个Demo设计了基于空间体素和神经网络的 3D 重建模型，实现了自动化采集和处理场景数据、训练和展示模型的系统，不仅能在几分钟内将场景重建，还能充分还原重建物体纹理、颜色和环境光线，即便才能出众的古罗马建筑师，看了这个重建效果也得点个赞！

图：基于神经网络的3D重建

接地气的Demo：3D建模仿真检测

讲懂技术，是门技术。3D建模仿真检测Demo的研究员们真正做到了这一点。他们自导自演自制了一段十分“接地气”的短片，让大家明白了他们是如何通过整合三维重建、数据仿真和目标检测等技术，低成本地获得训练算法所需的高质量标注数据，让深度学习算法走向量产更近了一步。让深奥的技术变得趣味横生，把知识与娱乐相结合，“多才多艺的宝藏研究员”就是这样吧！

低门槛快速上手的Demo：AIS算法生产平台

对算法从业者来说，有一种难题叫做——如何快速生产算法？旷视AIS算法平台为大家带来了福利，提供多种功能支持算法快速生产部署——从数据清洗、智能标注、数据管理、模型训练、模型评测、模型自动部署等全流程能力。事实上，AIS算法生产平台的“能打”不仅于此，它是一个全链路的自动化、零代码的生产力工具平台，可以极大降低算法生产的技术门槛以及生产成本，大幅提升生产效率。

图：AIS算法生产平台

无愧顶流之称的Demo：运动猿小刚

如果对开放日的Demo进行人气评选，那运动猿小刚无疑是全场公认的“顶流”。它不仅能计算跳绳和仰卧起做的个数、测量立定跳远的距离，还能准确识别各类违规动作。这位极其优秀且负责的“智能运动教练”，在现场成为了最火爆的打卡点！大家化身为“运动猿小刚男孩/女孩”，纷纷下场“PK”，在体会到旷视研究院强大的视觉研发能力的同时，也充分享受了运动的快乐。

图：运动猿小刚

闷声发大财的Demo：动态智能货柜

真正厉害的Demo，往往能“闷声发大财”。动态智能货柜可谓是开放日全场最低调的Demo了，低调到大部分人都误以为这只是个单纯的货柜，纷纷想扫码消费一下。它虽然低调，却不低能。作为旷视最新研发的第四代智能货柜，它采用了旷视动态视觉方案，只需安装1-2个摄像头，即可快速准确识别出上千中SKU的商品信息，与目前市面上常见的RFID、称重方案和静态视觉方案相比，可有效提升智能售货柜的可售品类及存储数量并降低运营成本。

图：动态智能货柜

有审美的Demo： FaceStyle 适你才美

美的标准总是千变万化，但唯一不变的是，只有适合自己的才是最美的。旷视FaceStyle适你才美依靠领先的“人脸关键点识别和色彩融合”AI算法，整合“面部特征、皮肤分析和虚拟试妆”诸多功能，基于“肤质和五官”精准分析，针对不同用户提供个性化的 “虚拟试妆”方案。爱美的你，怎么能错过这个Demo呢？

图：FaceStyle适你才美

绚丽多彩的Demo：实时HDR视频

灿烂的阳光、绚烂的灯火，柔和的月光……如何才能留住真实世界的万千色彩与光芒？也许你早已听说甚至使用过HDR（High Dynamic Range，高动态范围）的显示设备，但你可能不知道，市面上直接录制HDR的设备少之又少，且目前大多数可获得的视频资源仍然是SDR (Standard Dynamic Range，标准动态范围)格式。旷视研究院通过AI技术，将SDR视频转为HDR，能够在理解场景信息的基础上，实现与接近真实观感的色调映射与高光恢复，同时融合多帧特征信息加强细节，即使是要还原“五彩斑斓的黑”，也能不在话下。

稳如泰山的Demo：瞬时相机

正所谓“天下武功，唯快不破”。瞬时相机Demo却打破了这一“定律”，解决了传统相机无法清晰捕捉高速运动的难题。通过自研图像去模糊算法并搭配事件相机这种软硬结合的方式，无论是快速旋转的转盘，还是翩翩起舞的舞蹈演员，瞬时相机Demo都能实现准确拍摄，让你抓住生活中所有的精彩瞬间。真真是一个字：“稳”！

浪漫感满分的Demo：*手机电影

只要用手机，就能拍出超浪漫的电影感画面？手机电影Demo让人人都能当导演成为了可能。它集合了视频人像虚化、视频人像留色、视频双重曝光和视频光斑四种视频特效以及最新研发的电影模式算法，从而实现用手机就能体验人像虚化、定制化光斑、焦点切换等过去只有专业摄影设备才能体现拍摄效果，让你能够自由地记录，专属于你的浪漫故事。

拥有火眼金睛的Demo：探囊取物

从一堆杂乱无序的物品中取出目标物品对我们来说非常容易，但这对机器人却是一个极具挑战性的任务。它需要具备强大的AI视觉感知能力，才能排除由于遮挡造成的感知能力不足，路径规划困难的问题。旷视研究院基于自研的双目3D相机，配合获得 CVPR 2022 oral 的双目深度估计、物体位姿估计等算法，让机械臂拥有的一双“火眼金睛”，能够从容地识别并拣选物品。该技术能与四向穿梭车、堆垛机等 AI 及自动化技术协同配合，助力仓储实现高度自动化。

图：探囊取物

充满学术光环的Demo：点中窥物

作为各大顶会的“常客”，旷视每年产出的学术成果可真不少。在点中窥物Demo中，包含了《Points as Queries: Weakly Semi-supervised Object Detection by Points》和《Anchor DETR: Query Design for Transformer-Based Detector》这两篇分别被CVPR 2021和AAAI 2022收录的论文。前者在论文中创新性地设计基于物体点的半监督检测算法 PointDETR，有效解决了标注过程中的漏标和多标问题；后者则提出了提出了一种基于 Transformer 的目标检测器 AnchorDETR，在性能上全面超越了目前主流的DETR模型。这些优秀的研究成果，你确定不再复习一波么？

图：点中窥物

坚持环保主义的Demo：充电宝能跑的训练、低功耗嵌入式L2自动驾驶感知方案

你能想象吗？在旷视研究院，一个小小的充电宝，能完成一次微调式模拟训练，也能用来驱动芯片端的正常工作！在充电宝能跑的Demo展示中，旷视研究员向大家展示了一个依靠一个 5V1A 的充电宝就能带动的ResNet-18的微调式训练，训练时的平均功率仅为 2.36W。而在另一个低功耗嵌入式L2自动驾驶感知方案的Demo展示中，基于芯片进行软硬一体联合优化的车载感知模型系统，能够将 AI 计算部分功耗保持在 3W 以下，真正实现了低碳与环境友好。

图：低功耗嵌入式L2自动驾驶感知方案

自带八倍镜的Demo：自动驾驶预研、BEVDepth、PETR

感知，是自动驾驶的“智慧之眼”。自动驾驶预研Demo展示了旷视研究院在感知、定位、预测、规划、自主泊车等自动驾驶关键技术方面的研发进展。而如同“自带八倍镜”的超强感知力给人留下了深刻的印象。旷视研究院提出的3D 目标检测器BEVDepth，率先定位了影响视觉3D检测最核心的问题——物体深度估计，继而创新性地使用了未经标注过的点云数据作为监督信号，极大增强网络感知物体深度能力的同时，不影响推理的任何性能。而统一的纯视觉3D感知框架PETR则能够同时进行 3D 目标检测、BEV (Bird's Eye View, 鸟瞰图)分割和 3D 车道线检测等多项感知任务。

图：自动驾驶预研

图：BEVDepth

图：PETR

这20个Demo，

哪一个击中了你的心巴？

评论区留言告诉我们吧！

来源：旷视研究院
作者：旷视研究院

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。
加入旷视：career@megvii.com

MegTech 2022 | 20个Demo闪亮登场，哪一个击中了你的心巴？

推荐阅读

目录