自 OpenAI 发布 ChatGPT 以来,基于 Transformer 架构的大语言模型 (LLM) 在全球范围内引发了深度的技术关注,并取得了令人瞩目的成就。其强大的理解和生成能力,正在深刻改变我们对人工智能的认知和应用。然而大语言模型的推理应用成本过高,高昂的成本大大阻碍了技术落地。因此,大语言模型的推理性能优化成为业界研究...
标题:Advancing Vision Transformers with Group-Mix Attention 论文:[链接] 源码:[链接]
今天介绍一下今年的新作(也是“结构重参数化宇宙”和大核卷积两个流派的共同续作),欢迎大家关注和star!
Receptance Weighted Key Value(RWKV)是pengbo提出的一个新的语言模型架构,它使用了线性的注意力机制,把Transformer的高效并行训练与RNN的高效推理相结合,使得模型在训练期间可以并行,并在推理的时候保持恒定的计算和内存复杂度。目前RWKV的社区已经非常火了,我们从huggingface上可以看到RWKV已经训练了多个百亿...
开源最彻底的大模型来了——130亿参数,无需申请即可商用。不仅如此,它还附带着把全球最大之一的中文数据集也一并开源了出来:600G、1500亿tokens!这就是来自昆仑万维的Skywork-13B系列,包含两大版本:Skywork-13B-Base:该系列的基础模型,在多种基准评测中都拔得头筹的那种。Skywork-13B-Math:该系列的数学模型,数...
本文的主题是多模态融合和图文理解,文中提出了一种名为RegionSpot的新颖区域识别架构,旨在解决计算机视觉中的一个关键问题:理解无约束图像中的各个区域或patch的语义。这在开放世界目标检测等领域是一个具有挑战性的任务。
在追求高效的自动内容生成和程序生成的过程中,利用可修改参数和基于规则的系统出现作为一种有前途的方法。然而,鉴于其复杂性质,需要深刻理解规则、算法和参数,这可能是一项具有挑战性的工作。为了减轻工作量,作者引入了3D-GPT,这是一个利用大语言模型(LLMs)进行指导驱动的3D建模的框架。3D-GPT将LLMs定位为高效...
华南理工AI安全团队联合约翰霍普金斯大学提出抵御联邦学习后门攻击的全新方案,发表于 ICCV 2023 中,提出一种解决联邦学习中后门攻击识别问题的全新方案。目前,Edge-case PGD 攻击给联邦学习带来巨大的威胁,其使用 edge-case 数据使得后门信息不会被其他客户的上传的梯度所稀释,使 PGD 方法训练的后门模型无法被服务...
NVIDIA实时渲染超分辨率产品DLSS向市场证明了实时渲染超分辨率算法对进一步”榨取“显卡性能、提升游戏内容容量的能力,各硬件厂商也都随之推出了自己的超分辨率产品,实时渲染超分辨率算法逐渐成为现代电子游戏的必要功能。本人硕士三年期间的主要研究课题就是实时渲染超分辨率算法,研究成功最终成功被ACM SIGGRAPH Asia...
作者提出了一种用于使用时间LiDAR点云进行3D目标检测的Late-to-Early循环特征融合方案。作者的主要动机是将具有目标感知能力的潜在嵌入融合到3D目标检测器的早期阶段。这种特征融合策略使模型能够更好地捕捉具有挑战性的目标的形状和姿态,相对于直接从原始点学习。作者的方法以一种循环方式进行从Late-to-Early的特征融...
论文:《S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields》 链接:[链接] 代码:[链接]
如上一篇文章的第5.7节所述,为了支持各种数据流的数据传输模式,NoC是现代DNN加速器不可或缺的一部分,其设计必须考虑以下因素:(1)通过在存储和数据路径之间高效传输数据来支持高并行性的处理;(2) 利用数据重用来降低带宽需求并提高能源效率;以及(3)可以以合理的实施成本进行缩放。
LiDAR传感器在自动驾驶应用中用于准确感知环境。然而,它们受到诸如雪、雾和雨等恶劣天气条件的影响。这些日常现象会引入不必要的噪音到测量中,严重降低了基于LiDAR的感知系统的性能。在这项工作中,作者提出了一种用于提高LiDAR基础的3D目标检测器对道路喷水的抗干扰性的框架。作者的方法使用了最先进的恶劣天气检测网...
目标检测是自动驾驶的重要组成部分,已经开发了许多检测应用程序来解决这个任务。这些应用通常依赖于Backbone架构,该架构从输入中提取表示特征以执行目标检测任务。Backbone架构提取的特征质量对整体检测性能有重要影响。许多研究人员致力于开发新的和改进的Backbone架构,以增强目标检测应用程序的效率和准确性。虽然...
深度神经网络(DNN)的量化已经成为将这种网络嵌入终端用户设备的关键要素。然而,当前的量化方法通常会导致显著的精度降低。在本文中,作者提出了一种名为增强后训练量化(Enhanced Post-Training Quantization,EPTQ)的新方法。该方法基于知识蒸馏,采用自适应层权重。此外,作者引入了一种新的无标签技术来近似任务...
Transformer首次出现在自然语言处理领域,后来迁移到计算机视觉领域,在视觉任务中表现出出色的性能。然而,最近,Retentive Network(RetNet)作为一种有可能取代Transformer的架构出现,引起了自然语言处理社区的广泛关注。因此,作者提出了一个问题,即将RetNet的思想迁移到视觉领域是否也能为视觉任务带来出色的性能...
操作系统级ChatGPT,微软还没搞出来,被开源项目先实现了——支持Windows、Mac、Linux三大系统,相当于直接和你的电脑对话。指定文件夹下打开终端,一句话,所有Word文件秒变PDF。与单个文件互动,直接拖拽进来就行。与应用程序互动也不在话下,一句话读取系统日历、整理日程并发到指定邮箱。甚至从头写一个本不存在的番茄...
CPU上矩阵乘法优化被大家老生常谈,最早从goto的论文,到后来各种数学库的优化方法,以及很多工程师的优化经验总结。还能有什么新意呢?
Stable Diffusion插件、“AI绘画细节控制大师”ControlNet迎来重磅更新:只需使用文本提示词,就能在保持图像主体特征的前提下,任意修改图像细节。比如给美女从头发到衣服都换身造型,表情更亲和一点:抑或是让模特从甜美邻家女孩切换到高冷御姐,身体和头部的朝向、背景都换个花样儿:——不管细节怎么修改,原图的“灵魂”...
近日,ICCV 正式揭晓 2023 年论文接收结果,小红书技术团队共有 4 篇论文入选,其中 1 篇为 Oral 论文(Oral 接收率仅为 1.88%),最新科研成果涵盖了视频目标分割、3D 数字人重建、人体运动预测、视频分析等领域。