爱笑的小姐姐 头像

爱笑的小姐姐

7530 声望
嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(... 展开

嵌入式 AI,让AI无处不在。欢迎加入微信交流群,微信号:gg15319381845(备注:嵌入式)

收起
关注了
7
粉丝数
17893
最新动态
  • 发布了文章 ·
    吉利研究院提出全新ADAS端到端大模型 | 提出用Graph方法解决捕捉不到几何先验的问题

    建模自车车辆、道路代理和地图元素之间的复杂交互一直是安全关键的自动驾驶的重要部分。此前关于端到端自动驾驶的工作依赖于注意力机制来处理异质交互,这未能捕捉到几何先验,并且计算上也很密集。在本文中,作者提出了交互场景图(Interaction Scene Graph, ISG)作为统一方法来建模自车车辆、道路代理和地图元素之间...

    摘要图
  • 发布了文章 ·
    LLM推理入门指南③:剖析模型性能

    在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。本文将转变方向,探索可能影响机器...

    摘要图
  • 发布了文章 ·
    LLM推理入门指南①:文本生成的初始化与解码阶段

    随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器...

    摘要图
  • 发布了文章 ·
    媲美Sora!可生成16s 1080视频!清华联合生数提出视频生成新模型Vidu!

    论文名:Vidu: a Highly Consistent, Dynamic and SkilledText-to-Video Generator with Diffusion Models

    摘要图
  • 发布了文章 ·
    阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

    在过去一年中,通义千问系列模型持续开源。不仅频繁放出多种版本,涉及不同的规模和模态,成绩在大模型竞技场中也名列前茅。比如目前最大的72B模型,表现就胜过了Llama 2-70B和MoE开源模型Mixtral。而纵观整个大模型行业,开源开放也正促进着AIGC新应用的涌现。过去一年,通义千问团队都做了什么,又有哪些经验值得开源...

    摘要图
  • 发布了文章 ·
    在GPU上加速RWKV6模型的Linear Attention计算

    精简版:经过一些profile发现flash-linear-attention中的rwkv6 linear attention算子的表现比RWKV-CUDA中的实现性能还要更好,然后也看到了继续优化triton版本kernel的线索。接着还分析了一下rwkv6 cuda kernel的几次开发迭代以此说明对于不懂cuda以及平时无法从擅长cuda的大佬身上取经的人比如我就完全放弃cuda了,可以...

    摘要图
  • 发布了文章 ·
    工业异常检测视觉大模型AnomalyGPT来了

    异常GPT是第一种基于视觉大模型(LVLM)的工业异常检测方法,该方法可以在不需要手动指定阈值的情况下检测工业图像中的异常。现有的工业异常检测方法只能提供异常分数,需要手动设置阈值,而现有的视觉大模型无法检测图像中的异常。异常GPT不仅可以指示异常的存在和位置,还可以提供有关图像的信息。

    摘要图
  • 发布了文章 ·
    FasterTransformer Decoding 源码分析(一)-整体框架介绍

    FasterTransformer 是 NVIDIA 推出的一个用于加速 Transformer 模型推理的库。该库主要通过使用 NVIDIA 的深度学习加速库 cuBLAS、cuDNN 和 TensorRT,以及深度学习框架 TensorFlow 和 PyTorch 的扩展,对 Transformer 模型进行优化和加速。本系列文章试图对FasterTransformer中的Decoding Model进行详细的分析,主要探...

    摘要图
  • 发布了文章 ·
    VoxAtnNet | 手机面部生物识别系统的新型3D呈现攻击检测算法!

    面部生物识别是智能手机确保可靠和可信任认证的重要组件。然而,面部生物识别系统容易受到呈现攻击(PAs)的影响,且随着更复杂的呈现攻击工具,如3D硅胶面部面具的可用性,攻击者可以轻易欺骗面部识别系统。在这项工作中,作者提出了一种基于智能手机前置摄像头捕获的3D点云的新型呈现攻击检测(PAD)算法,以检测呈现...

    摘要图
  • 发布了文章 ·
    轻量化之王MobileNetV4 开源 | Top-1 精度 87%,手机推理速度 3.8ms!

    作者介绍了最新一代的MobileNets,名为MobileNetV4(MNv4),其特点是针对移动设备设计的通用高效架构。在其核心部分,引入了通用倒瓶颈(UIB)搜索块,这是一个统一且灵活的结构,它融合了倒瓶颈(IB)、ConvNext、前馈网络(FFN)以及一种新颖的额外深度可分(ExtraDW)变体。与UIB并行,我们提出了Mobile MQA,这是一...

    摘要图
  • 发布了文章 ·
    轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

    上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。

    摘要图
  • 发布了文章 ·
    剑指Sora!120秒超长AI视频模型免费开玩

    【导读】近日,Picsart AI Resarch等团队联合发布了StreamingT2V,可以生成长达1200帧、时长为2分钟的视频,一举超越Sora。同时,作为开源世界的强大组件,StreamingT2V可以无缝兼容SVD和animatediff等模型。

    摘要图
  • 发布了文章 ·
    nndeploy - 一款开源的模型端到端部署框架

    首先是需求分析,也就是为什么要做nndeploy,模型多端部署有什么实际场景,目前模型多端部署以及模型部署有哪些痛点。

    摘要图
  • 发布了文章 ·
    融合RL与LLM思想,探寻世界模型以迈向AGI/ASI的第一性原理反思和探索(上)

    本篇文章与2023年底尝试挖掘并探寻以chatGPT为代表的LLM和以AlphaGO/AlphaZero及当下AlphaDev为代表的RL思想的背后底层理论及形式上的统一,同时与最近OpenAI暴露出的project Q*可能的关于细粒度过程学习再到系统①(快)思考与系统②(慢)思考的形式化统一的延展性思考,以展望并探索当下面向未来的AGI->ASI的路径可行性...

    摘要图
  • 发布了文章 ·
    Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

    【导读】近日,天才程序员Justine Tunney发推表示自己更新了Llamafile的代码,通过手搓84个新的矩阵乘法内核,将Llama的推理速度提高了500%!

    摘要图
  • 发布了文章 ·
    大模型训练加速之FlashAttention系列:爆款工作背后的产品观

    FlashAttention(FA)是一系列针对Transformer模型训练和推理加速方案。自从去年(2022年)五月发布以来,历经了多次迭代,并借着其节省显存、加速计算、使用简单的特性,目前已经是大模型训练必备之良药。FA的论文,一年多就有242个引用,作为一个做底层优化的论文,也是前无古人了。

    摘要图
  • 发布了文章 ·
    大模型推理核心技术之Continuous Batching和我的WXG往事

    Continuous Batching现已成为大型模型推理框架的关键技术,也是框架性能优化的主战场。通过将多个在线请求进行批处理(Batching),可以提高 GPU 的使用效率。在 Transformer 出现之前,在模型服务过程中,Batching功能通常由一个与推理框架分离的服务框架来完成,例如 tfserving之于TensorFlow XLA和NVIDIA Triton之于T...

    摘要图
  • 发布了文章 ·
    如何为LLM推理任务选择正确的GPU

    去年十月,美商务部禁令的出现,使中国客户无法使用NVIDIA H100/H200旗舰芯片。一时间,各种NV存货、中国限定卡型、其他厂商NPU纷至沓来。在大模型推理场景中,如何客观比较不同硬件的能力,成为一大难题,比如:

    摘要图
  • 发布了文章 ·
    图解大模型计算加速系列之:vLLM核心技术PagedAttention原理

    大家好,今天想来介绍下当红推理框架vLLM的核心技术PagedAttention。PagedAttention的设计灵感来自操作系统的虚拟内存分页管理技术。vLLM的论文是在假设读者对这项分页管理技术非常熟悉的情况下,对PagedAttention进行介绍的,这对一些非计算机专业出身,或者对操作系统相关知识有所遗忘的读者来说并不友好。

    摘要图
  • 发布了文章 ·
    聊聊PyTorch的ZeroRedundancyOptimizer优化器

    最近在调研 PyTorch 的一些 features,偶然发现了一些有意思的小细节,小小记录下心得。ZeroRedundancyOptimizer 优化器是 PyTorch1.10 版本发布的功能,如果了解最近大模型训练方向的成果,对这个更加不陌生。ZeroRedundancyOptimizer 是微软提出的一种大规模模型在分布式训练的一种优化策略 [ZeRO],通过将优化器状态...

    摘要图
认证与成就
获得 266 次点赞
2020年02月20日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息