AI学习者 - 极术社区 - 连接开发者与智能计算生态

AI学习者

11639 声望

嵌入式，CV，NLP，数字芯片设计学习中~ 展开

关注他

关注了

76

粉丝数

12921

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

赞了问题 · 9月25日

EAIDK310的BladeCV可以移植到其他嵌入式开发设备吗？有没有针对特定的GPU，dsp，和一些硬件加速模块(比如海思的ive)进行异构优化？还有就是对于边缘计算的就业前景和方向。
发布了文章 · 6月30日

微小目标检测新标杆 | DPNet首创动态神经网络范式，微小目标检测效率跃升35%！

1. 微小目标检测的精度与效率平衡问题：在复杂环境中，精确检测微小物体至关重要，但单纯放大图像会显著增加计算成本和负样本数量，严重降低检测性能并限制其适用性。
发布了文章 · 6月27日

CLIP进化论 | 16亿长文本训练，细粒度识别性能碾压原版CLIP 21.6%

精简阅读版本本文主要解决了什么问题本文的核心创新是什么结果相较于以前的方法有哪些提升局限性总结深入阅读版本导读对比语言图像预训练（CLIP）在图像文本检索和零样本分类等多模态任务中表现出色，但由于其专注于粗粒度的短文本描述，因此在细粒度理解方面存在不足。为解决这一问题，作者提出了细粒度CLIP（FGCLIP）...
发布了文章 · 6月24日

学习用于通用代码优化的编译器世界模型，超越内置编译器优化标志和最先进方法！

有效的编译器代码优化在计算机和软件工程中至关重要。这些优化的成功主要取决于应用于代码的优化 pass 的选择和排序。
发布了文章 · 6月23日

小目标检测新标杆，SimAM无参数注意力+NWD指标完胜YOLOv7

红外图像检测中存在复杂背景、低信噪比、小目标尺寸和弱亮度等问题，导致传统方法难以准确检测红外小目标。
发布了文章 · 6月19日

图解Vllm V1系列6：KVCacheManager与PrefixCaching

在vllm v0（版本是0.4）中，单次调度步骤里要么全是prefill阶段的请求，要么全是decode阶段的请求。
发布了文章 · 6月18日

【博客转载】C++/CUDA Data Alignment

博客来源：[链接] ，来自Lei Mao，已获得作者转载授权。后续会转载一些Lei Mao的CUDA相关Blog，也是一个完整的专栏，Blog会从稍早一些的CUDA架构到当前最新的CUDA架构，也会包含实用工程技巧，底层指令分析，Cutlass分析等等多个课题，是一个时间线十分明确的专栏。
发布了文章 · 6月16日

GigaTok借语义正则化统一视觉分词器，3B参数完胜VQ-GAN，刷新ImageNet纪录

重建与生成的矛盾：扩展视觉分词器可以提高图像重建质量，但通常会导致下游生成质量下降。作者研究了这一矛盾，并提出了解决方案。
发布了文章 · 6月13日

vLLM Triton Merge Attention States Kernel详解

本文介绍vLLM中Triton Merge Attention States Kernel的实现，与 pytorch原生实现相比，该Triton kernel最高可实现 3-5 倍以上的算子加速。本文内容原为DefTruth：vLLM实践 vLLM算子开发流程: "保姆级"详细记录([链接])的一部分，现在单独摘出来继续展开写，作为本文Triton编程基础/进阶系列笔记的一部分，面向CUDA或Tri...
发布了文章 · 6月13日

FPGA零基础学习精选：数字通信中的电压标准

大侠好，欢迎来到FPGA技术江湖，江湖偌大，相见即是缘分。大侠可以关注FPGA技术江湖，在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源，或者一起煮酒言欢。
发布了文章 · 6月12日

图解Vllm V1系列5：调度器策略（Scheduler）

在“整体流程”一文中，我们已经讨论了 vllm v1 在 offline batching / online serving 这两种场景下的整体运作流程，以offline batching为例：
发布了文章 · 6月11日

汇编级NVIDIA与AMD GPU代码转换新SOTA！跨架构方案CASS开源，性能超商业基线

我们推出 CASS，这是首个用于跨架构 GPU 代码转换的大规模数据集和模型套件，目标是实现源级（CUDA ↔ HIP）和汇编级（英伟达 SASS ↔ AMD RDNA3）的转换。
发布了文章 · 6月10日

MGIoU革命 | 统一损失函数高效优化任意凸形状，计算延迟锐减40倍超越KFIoU

1. 优化参数化形状的挑战：当前基于回归的损失（如L1/L2）与IoU缺乏相关性，基于IoU的损失不稳定且仅适用于简单形状。特定任务的优化方法计算密集且难以跨领域泛化。
发布了文章 · 6月6日

MetaShuffling：Meta 激进优化 Fused MoE kernel，规避Padding

By Shikai Li, Gefei Zuo, Jianyu Huang, Jason Park, Zoey Sun, Xiaozhu Meng, Xiaodong Wang, Hongtao Yu, Changkyu Kim, CQ Tang, Stephen ChenMay 12, 2025
赞了文章 · 6月4日

quartus 如何实现 IP 核的参数化调用

在进行编码时，我们时常会使用到乘法器，除法器，等较复杂功能模块，为此 fpga vendor 设计定制了 IP 核，用户通过调用 IP 核来实现所需功能，耗费资源少且利于时序收敛。我们在日常 verilog 编码过程期望通过参数化的方式调用 IP 核。例如 IP 的位宽，时延，部分关键特性期望可以通过参数调用的方式实现，而不是通过打...
赞了文章 · 6月2日

【Mini-F5375-OB开发板评测】步进电机的驱动和控制

本文介绍了灵动 Mini-F5375-OB 开发板实现 28BYJ-48 步进电机驱动，以及旋转角度、旋转速度的精确控制的项目设计。
发布了文章 · 5月28日

嵌入式UI布局之状态栏与自适应屏幕尺寸

做过嵌入式UI的都知道，对一些素材（图片、按钮等）进行适当的排列布局后，会使得界面看起来整齐美观。今天讲的UI布局也是如此，比如让一个圆环显示在屏幕中央，如下图
赞了文章 · 5月26日

基于 WiFi 信号和深度学习的车内儿童检测系统——DeepCPD

大家可能都听说过，有时候家长会不小心把孩子落在车里。要知道，在高温又封闭的车内环境里，孩子特别容易中暑，严重的话甚至会丢掉性命。所以，车辆特别需要一个可靠的系统，能及时发现车里有没有被遗忘的孩子，避免这种危险情况发生。而且现在好多国家都打算在未来强制车辆配备这样的检测系统。
赞了文章 · 5月26日

这篇 AI Agent 漫游指南，带你建立全面的科技史观

以 OpenAI o1 与 DeepSeek R1 为代表的"类 Agent"模型、OpenAI DeepResearch 为代表的“真 Agent”模型，正在重构 AI Agent 的技术范式。Agentic Workflow 的王座还没坐热，强化学习驱动的端到端 Agent 模型训练已呼啸而来。未来趋势已指明：模型即产品，工程化 Agent 的命运将如何？一起来洞察全新的 Agent 技术范式底下...
赞了文章 · 5月26日

技术解析｜小米自研SoC芯片玄戒 O1 解构

小米在其15周年战略发布会上推出自研旗舰SoC芯片“玄戒 O1”，这是小米十余年芯片研发历程进入关键转折点。
点击载入更多

认证与成就

获得 145 次点赞

2019年08月04日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息