修志龙_ZenonXiu - 极术社区 - 连接开发者与智能计算生态

修志龙_ZenonXiu

5775 声望

mindshare_zenon 展开

关注他

关注了

4

粉丝数

8766

IP 属地上海

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

关注了用户 · 11月5日

nihui
赞了文章 · 8月29日

【资料汇总】“星睿O6”AI PC开发套件资料/产品介绍/教程等

本篇文章为此芯Armv9 AI PC开发套件瑞莎“星睿O6”资料/产品介绍/教程等汇总文，持续更新，欢迎关注。
关注了用户 · 8月18日

非典型程序员

编程、模型、手工
发布了文章 · 7月8日

芯片SoC硬件，CPU挂死问题的分析与定位

在我工作中曾经帮助一些客户定位和解决芯片SoC硬件，CPU挂死问题这类疑难杂症。这类问题在被报告的时候，通常表现为软件不正常工作，例如Linux kernel RCU stall(CPU多核系统中其中一个核挂死，其RCU资源无法释放，不能响应中断，传导到其他核，进而导致整个Linux系统RCU hang)。再如系统多次开关机后，系统运行不正常。...
发布了文章 · 5月17日

Arm KleidiAI 介绍

Arm KleidiAI是一个利用arm CPU向量扩展指令（包括NEON MLA, dot product, i8mm矩阵乘，SME2 outer product, SME2 multi-vector等）加速AI应用中的GEMM, GEMV，矩阵转置，量化运算的uKernel (micro-kernel)软件库。
发布了文章 · 3月12日

Arm memcpy, memset指令（FEAT_MOPS）介绍

引言：告别,无休的memcpy, memset软件优化。Three instructions are all you need
发布了文章 · 2024年12月01日

Arm SME2 介绍

SME2在SME的基础上，通过加入multi-vector（多向量）支持更好地平衡之前的向量计算和矩阵乘计算加速，提高向量处理能力和矩阵乘运算逻辑的重用性。SME2也加入了压缩机器学习的数据格式的支持
发布了文章 · 2024年10月29日

Arm A-profile构架2024发展

Arm CPU是当今AI赋能软件的关键，它解释，处理和执行指令。Arm指令集作为硬件和软件的接口，它指示处理做什么和怎么做。Arm指令持续进化以满足现代计算的需求，包括AI的兴起，机器学习和芯粒技术的使用，高级安全威胁。持续创新保证了arm的普及，普适性能，能效，安全和开发者灵活性。为了确保开发工作与快速发展的市场...
发布了文章 · 2024年10月20日

如何使用Arm 向量指令加速矩阵（3）-SME2 MOPA（2）

理解本文需要具备SME2构架预备知识，建议先阅读之前文章。本文先介绍如何利用INT8整型类型SME2 outer product and accumulate指令实现的矩阵乘。
发布了文章 · 2024年10月13日

如何使用Arm 向量指令加速矩阵乘 (3) – SME2 MOPA (1)

（国庆之后的仅有的一天周末天气不佳，大部分时间用来码文，尽快完成这些arm CPU对AI/ML序列文章...　写文章太累了)
发布了文章 · 2024年10月07日

如何使用Arm 向量指令加速矩阵乘 (2) – SVE2 Matrix Multiply

这条指令将第一个SVE2源向量中每128-bit看作2x8有符号8位整数矩阵, 第二个SVE2源向量中每128-bit的8x2有符号8位整数矩阵，然后将第一个SVE2源向量中的2x8矩阵与第二个SVE2源向量中的对应的8x2矩阵进行矩阵乘，生成的2x2 32位整数矩阵乘积累加到目标向量中的32位整数矩阵累加器中。使用SVE2 Int8 Matrix Multiply进行矩阵...
发布了文章 · 2024年09月24日

如何使用Arm 向量指令加速矩阵乘 (1) - SVE2 Dot Product

前文讲了Arm用于加速AI, ML应用的向量和SME指令，本文介绍如何使用这些指令来实现矩阵乘。A（M x K）矩阵和B (K x N)矩阵的矩阵乘（得到C矩阵 M x N）可以表达为：
发布了文章 · 2024年09月06日

Arm构架如何让AI应用高效运行于CPU (2)

为了进一步利用向量寄存器，在向量运算中执行更多的乘加（MAC）操作。Armv8.6-a引入了矩阵乘（Matrix Multiply）指令。这些指令相当于取A矩阵的两行放在向量Vec_A中，取B矩阵的两列放在向量Vec_B中，矩阵乘指令执行：
发布了文章 · 2024年09月05日

Arm构架如何让AI应用高效运行于CPU (1)

Arm为在各类技术领域运行无处不在的人工智能 (AI) 奠定了坚实的技术基础。Arm 始终专注于快速地进行架构演进，确保arm生态系统能够适应未来的技术趋势和不断变化的计算需求。过去二十多年来，Arm 一直致力于为 AI 创新奠定基础，先是在 Armv7 架构中引入了高级单指令多数据 (SIMD) 扩展，初探机器学习 (ML) 工作负载，再...
发布了文章 · 2024年06月28日

第二部分： Arm Scalable Matrix Extension (SME)指令

内存与ZA tile行或列之间的存取操作指令，以及SVE Z 寄存器和ZA tile 行或列之间的移动指令
发布了文章 · 2024年05月24日

Arm Scalable Matrix Extension介绍

最近本人写了一篇介绍Arm Scalable Matrix Extension (可伸缩矩阵扩展，SME)的文章，[链接]。此为中文版，也加入了部分Introducing Armv9 Scalable Matrix Extension for AI Innovation on the Arm CPU [链接]内容。
发布了文章 · 2024年04月21日

一个分支预测问题的分析

现代CPU须在指令预取pipeline stage具备性能良好的分支预测器，以给pipeline后端供应充足有效的指令。大多数CPU会使用 BTB（Branch Target Buffer）或BTAC(Branch Target Address Cache)，Global History Buffer 和 RAS（Return Address Stack）等部件来分别预测程序中分支语句和函数返回的跳转地址，较新的CPU还可能采...
发布了文章 · 2024年01月21日

无虚拟化方式在同一SoC上运行多系统(AMP)的考虑

汽车SoC芯片上一般采用虚拟化技术来隔离多个虚拟机，在同一硬件平台上运行多个系统，例如一个虚拟机运行IVI Linux/Android系统，另一个虚拟运行Cockpit系统。通过虚拟化技术可以实现在同一SoC硬件平台上的资源隔离分区，如CPU核的分配，物理内存的分配和隔离，外设的分配等。汽车产品上一般是采用Type 1的hypervisor虚拟...
发布了文章 · 2023年10月11日

Arm A-Profile构架2023扩展

随着人工智能（AI）的崛起和安全威胁加剧，计算的需求持续加强。因此，世界上各种设备核心的基础计算架构的持续演进显得尤为重要。这就是为什么我们的工程团队向Arm架构中添加新的功能和技术，然后软件团队确保软件尽可能无缝地利用这些未来的功能和技术。
关注了用户 · 2023年10月10日

mj_QNmuf
点击载入更多

认证与成就

获得 1155 次点赞

2019年08月08日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息