深圳湾 · 2022年07月22日

用耳机就能做面部识别,看看康奈尔大学的新研究 | 元宇宙前沿

前不久,一段国外女生模仿 NPC(游戏中非玩家角色)的视频走红,画面中女生无论面部表情、肢体动作都与 NPC 非常相像,一度让人分不清到底是现实还是游戏。

相比于真人实力模拟虚拟形象,随着元宇宙的兴起,如今数字人则做到了对真人的虚拟复刻。

另外,在线上会议、视频直播、运动健身场景,已经出现了不少数字人身影。而用摄像头,通过面部拍摄和 AI 算法,识别面部表情,进而映射至相对应的使用场景中,是目前行业比较主流的方案。

此外,在 XR 领域,此前曝光的一份 Magic Leap 专利文件,还探索了一把仅通过摄像头拍摄眼部(如眉毛、眼睛形态变化)的方式,来识别面部表情。

最近,康奈尔大学公布的一项名为 EarIO 的技术研究中,使用「耳机」就做到了面部识别的功能。

在演示过程中,工作人员佩戴了一款类似开放式耳机的设备,内置有电池、麦克风、发声单元、蓝牙模组等硬件装置。

devices

实现原理为,将设备与手机蓝牙连接,并完成程序的部署设定。在预先完成人脸转化为虚拟形象后,通过装置两侧的发声单元朝面部发射音频(人耳不可听的频率)信息,麦克风捕捉回声。

%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions

随着真人说话、微笑、眨眼、嘟嘴所产生的面部肌肉变化,所接收到的回声(独特的回声轮廓)也随之变化,通过深度学习算法,将收集到的声音数据与数据库中由 TruthDepth 相机拍摄的 52 个面部表情参数完成匹配,最终转化为实时的面部表情。

%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions

%E2%80%98Earable%E2%80%99_uses_sonar_to_reconstruct_facial_expressions

不同于摄像头的大体积、高功耗,作为耳机形态的 EarIO 在这方面也有着天然的优越性。EarIO 可以以 86Hz 的频率进行采样,功耗仅为 154mW。

当然,EarIO 目前也存在着不少问题,比如设备并不能做到即戴即用,而是需要至少花上半个小时进行数据训练。同时,在数据的判别上略显不足,有一定的出错率。该研究团队表示,后续将会继续优化,攻克这些问题。

据悉,EarIO 已经做到了与市售的无线视频会议耳机兼容,支持视频会议下虚拟头像的使用。

湾里点评:在今年 GTC 大会上,英伟达也亮相了一款名为 Audio2Face 的应用,应用了大量的深度学习和语音技术,仅使用说话者语音即可模拟人物 3D 表情。

而无论是通过摄像头、麦克风硬件的方式,还是以音频 AI 纯软件算法合成,殊途同归,或许未来都将成为构建元宇宙世界「虚拟表情」重要的应用技术。

微信号:深圳湾 / shenzhenware
来源:深圳湾官网 / shenzhenware.com
版权声明:本文为深圳湾原创文章,极术社区经授权发布

推荐阅读
关注数
4188
内容数
416
深圳湾是一个地标,一个 2013 年注册的微信公众号账号,一家成长中的创业公司的名字。 深圳湾是最早也是最活跃的硬件创新媒体和社区。深圳湾致力于连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息