啥都吃的豆芽 头像

啥都吃的豆芽

5260 声望
他还没有填写个人简介
关注了
1
粉丝数
58
最新动态
  • 发布了文章 ·
    国外开发者成功在 ROCK 5B 上运行 Windows 11 Arm

    国外开发者 Mario Bălănică 在推特上发布了一张 ROCK 5B 成功运行 Windows 11 Arm 的截图,能正常联网。但由于缺乏驱动,GPU、PCIe 等部分组件无法运行,只能等开发者更新。

    摘要图
  • 发布了文章 ·
    使用 Arm SPE 进行芯片数据采集和性能分析

    Arm® Statistical Profiling Extension (SPE, 统计分析扩展) 是一种架构级功能,旨在增强 Arm CPU 的指令执行分析。自 2019 年 Arm Neoverse™ N1 CPU 平台问世以来,该功能便与 Arm CPU 中普遍配备的 Performance Monitor Unit (PMU, 性能监控单元) 并存。为了能从 SPE 和 PMU 等功能中获益,一个重要的步骤就是提供工具...

    摘要图
  • 发布了文章 ·
    倚天虚拟化:CPU虚拟化原理介绍

    虚拟化技术中最关键的技术之一就是CPU虚拟化。在没有硬件辅助虚拟化技术出来之前,通常都是通过TCG(软件进行指令翻译)的方式实现CPU虚拟化。但是由于TCG方式的虚拟化层开销太大,性能太差,因此引入了硬件辅助虚拟化技术。

    摘要图
  • 发布了文章 ·
    【ARM学习】Cortex- A系列程序员学习指南

    移动电话、个人计算机、电视或汽车。在大约30亿元的微处理器总出货量中,x86架构占据一个非常小的位置(但仍然非常有利可图的)。

    摘要图
  • 发布了文章 ·
    倚天性能优化—YCL AI计算库在resnet50上的优化

    Yitian710 作为平头哥第一代ARM通用芯片,在AI场景与X86相比,软件生态与推理性能都存在一定的短板,本文旨在通过倚天AI计算库的优化,打造适合ARM架构的软件平台,提升倚天性能。

    摘要图
  • 发布了文章 ·
    PCIe Net赋能案例:云原生对象储存和“碳价比”

    大数据存储技术是大数据领域的另一个关键数据,人们利用分布式存储代替集中式存储,用更廉价的机器代替之前昂贵的机器,让海量存储的成本大大降低。在边缘计算领域,由于边缘集群数量众多,集群规模较小,在这种趋势下,如何降低边缘储存集群的功耗和保持一定性能成为当前分别是储存的重要方向,也是符合国家“双碳”大战...

    摘要图
  • 发布了文章 ·
    ARMv8 内存系统学习笔记

    Normal memory 可以设置为 cacheable 或 non-cacheable,可以按 inner 和 outer 分别设置。

    摘要图
  • 发布了文章 ·
    ARM 体系结构之内存序与内存屏障

    前置知识 3.1 Memory types 3.2 Normal memory 3.2.1 内存访问序 3.3 Device memory 3.3.1 Device type 的 sub-types(子类型) 3.3.2 处理器真的会在不同 type 上有不同行为?

    摘要图
  • 发布了文章 ·
    龙蜥 ANCK 5.10 倚天平台 MPAM 用户手册

    MPAM(Memory System Resource Partitioning and Monitoring)是 ARM v8 引入的新特性,对标 x86 的 RDT 特性,可以实现对 Cache、内存带宽、SMMU 等资源的分配及监控功能。该特性可以从硬件层面减少不同工作负载之间的性能干扰,确保高优先级任务性能的稳定性,在虚拟化、混部等业务中取得了良好的效果。

    摘要图
  • 发布了文章 ·
    最强大的侧信道攻击:功率分析法,可破解RSA、AES、DES

    虽然有许多不同形式的侧信道攻击,包括电磁 (EM)、声学和时序,然而,最常见和最强大的攻击类型之一是基于功率的侧信道攻击。

    摘要图
  • 发布了文章 ·
    龙蜥 ANCK 5.10 倚天平台 MPAM 测试报告

    经过对 MPAM 的功能性验证,目前 L3 cache 资源隔离和监控功能均正常,内存带宽隔离效果甚微,监控功能可用。

    摘要图
  • 发布了文章 ·
    PGO编译优化方法

    PGO全称profile guided optimization,主要是为了解决传统编译器在执行优化的时候,只是是基于静态代码信息,而不去考虑用户可能的输入,从而无法有效对代码进行有效优化的问题。 PGO可以分为三个阶段,分别是instrument,train,optimize三个阶段。在instrument阶段中,会先对应用做一次编译。在这次编译中,编译器会向...

  • 发布了文章 ·
    SSL解密算法EDCSA

    ECDSA是用于数字签名,是ECC与DSA的结合,整个签名过程与DSA类似,所不一样的是签名中采取的算法为ECC,最后签名出来的值也是分为r,s。而ECC(全称Elliptic Curves Cryptography)是一种椭圆曲线密码编码学。 ECDH每次用一个固定的DH key,导致不能向前保密(forward secrecy),所以一般都是用ECDHE(ephemeral)或其他...

  • 发布了文章 ·
    TLBI - TLB range优化

    TLB flush range是arm64芯片在armv8.4-TLBI版本上支持的一种指令集批量处理地址刷新的特性,需要内核配置文件开启CONFIG_ARM64_TLB\_RANGE功能,此外还需要arm64芯片支持armv8.4-TLBI特性。 传统的TLB flush操作方式,以stride为粒度去进行TLB flush, 这种方式存在明显弊端,对于需要刷新大量的地址范围,需要将其拆分为...

  • 发布了文章 ·
    优化原理 - E0PD

    E0PD是ARMv8.5扩展引入的一个硬件防护特性,它用来替代KPTI避免来自用户态的Meltdown漏洞攻击。KPTI技术通过在返回用户态时unmap kernel space的方式避免内核地址空间的暴露,因此在退出内核态时unmap内核页表以及在进入内核态时重新映射内核页表会带来极大性能开销。E0PD在硬件侧防护内核地址空间从而使内核可以绕过KPT...

  • 发布了文章 ·
    倚天710性能监控 —— PCIe PMU子系统

    《倚天710性能监控 —— CMN PMU概述》、《倚天710性能监控 —— DDR PMU子系统》等文章我们介绍了倚天710 CMN PMU子系统和DDR PMU子系统,本文介绍倚天PCIe PMU子系统。

    摘要图
  • 发布了文章 ·
    倚天710性能监控 —— DDR PMU子系统

    文章《倚天710性能监控 —— CMN Flit Traffic Trace with Watchpoint Event》我们介绍了如何利用倚天710 CMN的PMU,统计总线的跨Die带宽和跨Socket带宽。本文介绍如何利用倚天710的DDR子系统的PMU(DDR Sub-System Performance Monitoring Unit),统计DDR带宽。

    摘要图
  • 发布了文章 ·
    倚天710性能监控——CMN互联带宽监测的PMU事件

    CMN是倚天710的总线互联,所有的Filt Traffic都会经过CMN。通过CMN,我们可以统计Die to Die (D2D),以及Socket to Socket (S2S) 之间的互连带宽。根据《倚天710性能监控 —— CMN PMU概述》我们知道,CMN中不同Node的功能不同,而负责D2D和S2S流量的,是CCG。

    摘要图
  • 发布了文章 ·
    倚天710性能追踪——CMN Wathpoint事件

    文章《倚天710性能监控 —— CMN PMU概述》我们介绍了如果使用CMN的PMU事件,统计带宽,但是带宽统计到的是包含了Request,Response,Snoop和Data,本文介绍如何使用watchpoint事件,过滤统计Data,并验证此方法的准确性。

    摘要图
  • 发布了文章 ·
    倚天710性能监控 —— CMN PMU概述

    Arm Neoverse CMN-700(Coherent Mesh Network )是一种高性能、低延迟的互连,旨在满足未来广泛市场和使用案例中基础设施的需求。Neoverse CMN-700 IP可针对以下方面进行优化:

    摘要图
认证与成就
获得 783 次点赞
2019年07月16日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息