近来得空研究了下视频翻译,即将某种语言的视频处理后,显示另一种语言的字幕并使用该语言进行配音。最终实现了这种效果:
后来,我也曾去过很多城市,看过不少策划精良的展览。那场“穿越北宋”的名画之旅,依然是我看过的,最具沉浸感的一场文化类展演,没有之一。
作者提出了一种用于使用时间LiDAR点云进行3D目标检测的Late-to-Early循环特征融合方案。作者的主要动机是将具有目标感知能力的潜在嵌入...
背景收到试用套件有一段时间了,放假回来一直在调试另外一个项目,导致这个事情一直拖到现在还没搞完。在这里初步记录一下目前搞到的阶...
OpenAI要出手AI图像识别了。最新消息,他们公司正在开发一种检测工具。根据首席技术官Mira Murat透露:该工具精度非常高,正确率可达99%...
FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。Face...
在上一篇博文中,我们已经学会了使用工具生成自己需要的模型。接下来我们一起看看如何部署,模型在设备上。
据世界卫生组织统计,全球共 22 亿人视力受损,包含 2.85 亿视障人群和 3,900 万全盲人群。而且,这一数字将随老龄化加剧不断增加。 虽...
自从DETR发布以来,基于 Query 的目标检测器已经取得了显著的进展。然而,大多数现有方法仍然依赖于多阶段的编码器和解码器,或者两者的...
最近,端到端的目标检测器因其出色的性能而受到研究界的广泛关注。然而,DETR通常依赖于在ImageNet上进行Backbone网络的监督预训练,这...
交通标志是确保交通安全和顺畅通行的重要设施,但由于许多原因可能会受到损坏,这会带来很大的安全隐患。因此,研究一种检测损坏交通标...
本文介绍我们在 3D 目标检测领域的新工作:SparseBEV。我们所处的 3D 世界是稀疏的,因此稀疏 3D 目标检测是一个重要的发展方向。然而,...
集微网消息,据XR Today报道,苹果可能会加大一款增强现实(AR)智能眼镜的开发力度,以助力该公司Vision Pro头显的发布。
本文旨在解决在边缘设备上部署最先进的语义分割模型所面临的计算成本过高的问题。作者指出,先前的语义分割模型通常依赖于自注意力机制...
Transformer模型已经在计算机视觉领域迅速赢得了广泛关注,尤其是在目标识别和检测领域。在调研了最先进的目标检测方法的结果后,作者注...
本文是深圳先进技术研究院董超团队在HDR领域的最新力作,取得了NTIRE2021 单帧HDR竞赛第二成绩,指标仅低0.07dB,但推理速度快116倍。针...
多目标跟踪(Multi-Object Tracking,MOT)是计算机视觉领域中一项关键任务,旨在同时预测目标的边界框和身份。尽管最先进的方法通过共...
文本识别是OCR(Optical Character Recognition)的一个子任务,其任务为识别一个固定区域的的文本内容。在OCR的两阶段方法里,它接在文...
Vision Transformer(ViT)在各种视觉任务中取得了令人印象深刻的成功。然而,它的计算成本很高,随着Token序列长度的增加呈二次增长,...
本文为2023年第十八届中国研究生电子设计竞赛商业计划赛道二等奖分享,参加极术社区的【有奖活动】分享2023研电赛作品扩大影响力,更有...