AI学习者 头像

AI学习者

11614 声望
嵌入式,CV,NLP,数字芯片设计学习中~ 展开

嵌入式,CV,NLP,数字芯片设计学习中~

收起
关注了
76
粉丝数
12921
最新动态
  • 发布了文章 ·
    微小目标检测新标杆 | DPNet首创动态神经网络范式,微小目标检测效率跃升35%!

    1. 微小目标检测的精度与效率平衡问题:在复杂环境中,精确检测微小物体至关重要,但单纯放大图像会显著增加计算成本和负样本数量,严重降低检测性能并限制其适用性。

    摘要图
  • 发布了文章 ·
    CLIP进化论 | 16亿长文本训练,细粒度识别性能碾压原版CLIP 21.6%

    精简阅读版本本文主要解决了什么问题本文的核心创新是什么结果相较于以前的方法有哪些提升局限性总结深入阅读版本导读对比语言图像预训练(CLIP)在图像文本检索和零样本分类等多模态任务中表现出色,但由于其专注于粗粒度的短文本描述,因此在细粒度理解方面存在不足。为解决这一问题,作者提出了细粒度CLIP(FGCLIP)...

    摘要图
  • 发布了文章 ·
    学习用于通用代码优化的编译器世界模型,超越内置编译器优化标志和最先进方法!

    有效的编译器代码优化在计算机和软件工程中至关重要。这些优化的成功主要取决于应用于代码的优化 pass 的选择和排序。

    摘要图
  • 发布了文章 ·
    小目标检测新标杆,SimAM无参数注意力+NWD指标完胜YOLOv7

    红外图像检测中存在复杂背景、低信噪比、小目标尺寸和弱亮度等问题,导致传统方法难以准确检测红外小目标。

    摘要图
  • 发布了文章 ·
    图解Vllm V1系列6:KVCacheManager与PrefixCaching

    在vllm v0(版本是0.4)中,单次调度步骤里要么全是prefill阶段的请求,要么全是decode阶段的请求。

    摘要图
  • 发布了文章 ·
    【博客转载】C++/CUDA Data Alignment

    博客来源:[链接] ,来自Lei Mao,已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog,也是一个完整的专栏,Blog会从稍早一些的CUDA架构到当前最新的CUDA架构,也会包含实用工程技巧,底层指令分析,Cutlass分析等等多个课题,是一个时间线十分明确的专栏。

  • 发布了文章 ·
    GigaTok借语义正则化统一视觉分词器,3B参数完胜VQ-GAN,刷新ImageNet纪录

    重建与生成的矛盾:扩展视觉分词器可以提高图像重建质量,但通常会导致下游生成质量下降。作者研究了这一矛盾,并提出了解决方案。

    摘要图
  • 发布了文章 ·
    vLLM Triton Merge Attention States Kernel详解

    本文介绍vLLM中Triton Merge Attention States Kernel的实现,与 pytorch原生实现相比,该Triton kernel最高可实现 3-5 倍以上的算子加速。本文内容原为DefTruth:vLLM实践 vLLM算子开发流程: "保姆级"详细记录([链接])的一部分,现在单独摘出来继续展开写,作为本文Triton编程基础/进阶系列笔记的一部分,面向CUDA或Tri...

    摘要图
  • 发布了文章 ·
    FPGA零基础学习精选:数字通信中的电压标准

    大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。

    摘要图
  • 发布了文章 ·
    图解Vllm V1系列5:调度器策略(Scheduler)

    在“整体流程”一文中,我们已经讨论了 vllm v1 在 offline batching / online serving 这两种场景下的整体运作流程,以offline batching为例:

    摘要图
  • 发布了文章 ·
    汇编级NVIDIA与AMD GPU代码转换新SOTA!跨架构方案CASS开源,性能超商业基线

    我们推出 CASS,这是首个用于跨架构 GPU 代码转换的大规模数据集和模型套件,目标是实现源级(CUDA ↔ HIP)和汇编级(英伟达 SASS ↔ AMD RDNA3)的转换。

    摘要图
  • 发布了文章 ·
    MGIoU革命 | 统一损失函数高效优化任意凸形状,计算延迟锐减40倍超越KFIoU

    1. 优化参数化形状的挑战:当前基于回归的损失(如L1/L2)与IoU缺乏相关性,基于IoU的损失不稳定且仅适用于简单形状。特定任务的优化方法计算密集且难以跨领域泛化。

    摘要图
  • 发布了文章 ·
    MetaShuffling:Meta 激进优化 Fused MoE kernel,规避Padding

    By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, Stephen ChenMay 12, 2025

    摘要图
  • 赞了文章 ·
    quartus 如何实现 IP 核的参数化调用

    在进行编码时,我们时常会使用到乘法器,除法器,等较复杂功能模块,为此 fpga vendor 设计定制了 IP 核,用户通过调用 IP 核来实现所需功能,耗费资源少且利于时序收敛。我们在日常 verilog 编码过程期望通过参数化的方式调用 IP 核。例如 IP 的位宽,时延,部分关键特性期望可以通过参数调用的方式实现,而不是通过打...

    摘要图
  • 赞了文章 ·
    【Mini-F5375-OB开发板评测】步进电机的驱动和控制

    本文介绍了灵动 Mini-F5375-OB 开发板实现 28BYJ-48 步进电机驱动,以及旋转角度、旋转速度的精确控制的项目设计。

    摘要图
  • 发布了文章 ·
    嵌入式UI布局之状态栏与自适应屏幕尺寸

    做过嵌入式UI的都知道,对一些素材(图片、按钮等)进行适当的排列布局后,会使得界面看起来整齐美观。今天讲的UI布局也是如此,比如让一个圆环显示在屏幕中央,如下图

    摘要图
  • 赞了文章 ·
    基于 WiFi 信号和深度学习的车内儿童检测系统——DeepCPD

    大家可能都听说过,有时候家长会不小心把孩子落在车里。要知道,在高温又封闭的车内环境里,孩子特别容易中暑,严重的话甚至会丢掉性命。所以,车辆特别需要一个可靠的系统,能及时发现车里有没有被遗忘的孩子,避免这种危险情况发生。而且现在好多国家都打算在未来强制车辆配备这样的检测系统。

    摘要图
  • 赞了文章 ·
    这篇 AI Agent 漫游指南,带你建立全面的科技史观

    以 OpenAI o1 与 DeepSeek R1 为代表的"类 Agent"模型、OpenAI DeepResearch 为代表的“真 Agent”模型,正在重构 AI Agent 的技术范式。Agentic Workflow 的王座还没坐热,强化学习驱动的端到端 Agent 模型训练已呼啸而来。未来趋势已指明:模型即产品,工程化 Agent 的命运将如何?一起来洞察全新的 Agent 技术范式底下...

    摘要图
  • 赞了文章 ·
    技术解析|小米自研SoC芯片玄戒 O1 解构

    小米在其15周年战略发布会上推出自研旗舰SoC芯片“玄戒 O1”,这是小米十余年芯片研发历程进入关键转折点。

    摘要图
  • 赞了文章 ·
    深入理解 DDR:ODT 和 OCD

    在 DDR 技术的演进过程中,ODT(On-Die Termination)和 OCD(Off-Chip Driver Calibration)成为了确保信号完整性和提升数据传输效率的关键技术。ODT 通过在内存芯片内部实现阻抗匹配,有效减少了信号反射和干扰,而 OCD 则通过动态调整输出驱动强度,优化了信号的稳定性和传输质量。本文将基于 DDR3 深入探讨这两种技...

    摘要图
认证与成就
获得 143 次点赞
2019年08月04日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息