在8月底的深圳嵌入式电子展上,灵动微电子正式发布了“灵动·星”系列MM32高性能MCU产品,包含4个子系列:MM32F3,灵动·天枢 MM32F5,灵动·玉衡 MM32G5,灵动·天玑 MM32H5。
原创:冗余供电网络如何避免相关失效?相关失效分析(Dependent Failure Analysis, DFA)是功能安全开发的重要活动之一,旨在通过分析系统中导致相关失效的潜在原因,并制定充分且必要的安全措施以避免或减轻可能的相关失效,确保系统具有独立性或免于干扰的能力。当前汽车行业正处于巨大变革之中,可靠且安全的电源解决...
我最近在测试一个M0+ MCU的运行功耗,测试代码采用如下最简单的方式,即main函数里只跑一个while(1)空循环,测试出来的电流是1.11mA,使用的IDE为KEIL MDK,优化等级为0
本篇文章为SiRider S1芯擎工业开发板试用测评报告汇总,持续更新,欢迎关注。SiRider S1芯擎工业开发板测评+1.防止黑客入侵通信监控系统(PSA)SiRider S1芯擎工业开发板测评+2防止黑客入侵盗用操控劫持篡改摄像头&OpenSSL加密解密SiRider S1: 启动 Ubuntu 24.04玩转SiRider S1:启动芯引擎【SiRider S1芯擎工业开发板测...
标题:YOLOv10: Real-Time End-to-End Object Detection 论文:[链接] 源码:[链接]
利用环境中的 fiducial 标记作为视觉地标,无人机(UAVs)可以快速构建精确的地图并安全高效地导航空间,从而解锁与人类流畅协作和共存的可能性。现有的 fiducial 标记方法依赖于手工制作的特征提取,这牺牲了准确性。另一方面,用于标记检测的深度学习 Pipeline 无法满足导航应用程序所需的实时运行时限制。在这项工作...
关于vLLM,之前介绍过vLLM框架(vLLM源码之框架执行)和PagedAttention的算子(vLLM源码之PagedAttention),本文主要结合代码,希望可以图文并茂的方式分析vLLM的模型并行(vLLM版本为v0.5.1)。
在PyTorch 2.4之后,我们可以尝试使用PyTorch开发的异步Checkpoint保存功能,这个功能是和IBM联合开发的,在7B的大模型训练中,Checkpoint保存的时间从平均 148.8 秒缩短至 6.3 秒,快了 23.62 倍。这可以转化为以下两种好处:
在生物医学图像分析中,目标检测尤为重要,尤其是在病变识别方面。尽管目前的方法在识别和定位病变方面表现出色,但往往缺乏必要的精确性,无法检测到微小的生物实体(如异常细胞,小于3毫米的肺结节),这在血液和肺部病理学中至关重要。为了解决这个问题,作者提出了一种基于YOLOv8架构的CAF-YOLO方法,这是一种快速而...
不知不觉,从去年的 first commit 到 v2.4.0 版本的发布,X-AnyLabeling 如同四季轮回,已悄然走过了春华秋实的岁月。这如同亲手撒下的一颗种子,在春的温暖中萌芽,于夏的热烈中成长,经历秋的收获,沉淀在冬的宁静中,最终绽放出属于自己的光彩。
微小目标检测成为计算机视觉中最具挑战性的任务之一,这是由于物体尺寸有限和信息不足所致。标签分配策略是影响目标检测准确性的关键因素。尽管有一些针对微小物体的有效标签分配策略,但它们大多数关注降低对边界框的敏感性以增加正样本数量,并且需要设置一些固定的超参数。然而,更多的正样本并不一定会导致更好的检...
计算机算数是计算机工程的一个重要分支,现代计算类的软件多是构造在浮点运算之上的。了解浮点数和浮点运算对于我们理计算类任务,提升计算精度和效率有很大的帮助。NVidia GPU上Tensor Core和CUDA Core都提供了浮点计算能力,本文只专注CUDA Core部分(后续有专门章节介绍Tensor Core指令集),重点介绍了计算机上的浮...
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。
我们提出了一种优化的Triton FP8 GEMM(通用矩阵乘法)kernel TK-GEMM,它利用了SplitK并行化。对于小batch size推理,在NVIDIA H100 GPU上针对Llama3-70B,TK-GEMM相比基础Triton矩阵乘法实现可提供高达1.94倍的性能提升,比cuBLAS FP8快1.87倍,比cuBLAS FP16快1.71倍。
本篇文章根据NVIDIA AI技术开放日 2024 夏[1]中TRT-LLM 最佳部署实践[2]的演讲,结合自己的一些经验整理成本篇文章,算是TensorRT-LLM初探第三篇——最佳部署实践。
问题1:不知道资料是否丰富,教程有没有中文的?答:资料还算是比较丰富的,后续会有详细的中文产品使用手册。问题2:内存最大可以做多少个G?答:内存最大支持16G。问题3:是否可以支持固态硬盘?答:支持固态硬盘,开发板有一个M-KEY的插槽,可以支持SSD扩展的。问题4:想了解一下核间的实时通信如何实现的?答:RPMSG...
视觉 Transformer (ViTs)与它们的标记混合器的强大全局上下文能力标志着神经网络的革命性进步。然而,标记之间的双向亲和力和复杂的矩阵运算限制了它们在资源受限的场景和实时应用(如移动设备)上的部署,尽管在以前的工作中已经做出了显著的努力。在本论文中,作者提出CAS-ViT:卷积加性自注意力视觉 Transformer ,...
除了通信优化,对于大模型训练来说,内存优化也是非常重要的问题。在这篇文章里,我们会结合快手发表在今年ATC上的工作(Megatron-Kwai[1]),简单介绍一下内存优化技术。
本篇文章为SiRider S1芯擎工业开发板资料/产品介绍/教程等汇总文,持续更新,欢迎关注。参考资料直播回放SiRider S1芯擎工业开发板深度解析及免费试用测评介绍NPU相关:CVResnet:resnet50训练部署教程PyTorch ResNet实现图像分类(从模型的训练到Android部署)Inception:Cloud TPU 教程Inception系列理解Resnext:ResNeX...
感谢 @顾子韵 ,Tass及其他朋友的帮助,缺少他们的帮助无法完成该教程。感兴趣的朋友私聊我或他进群一起学习。