AI学习者 头像

AI学习者

10894 声望
嵌入式,CV,NLP,数字芯片设计学习中~ 展开

嵌入式,CV,NLP,数字芯片设计学习中~

收起
关注了
76
粉丝数
5634
最新动态
  • 发布了文章 ·
    kimi chat大模型的200万长度无损上下文可能是如何做到的?

    这周,清华和Moonshot发了一个技术报告[链接],介绍Kimi背后的LLM服务系统Mooncake,它采用分离式设计,将Prefill和Decode两阶段解耦,构建了一个全局KVCache Pool,实现以Cache为中心的调度。

    摘要图
  • 发布了文章 ·
    窥探Triton的lower(二)

    在第一章我们已经完成了源码到make_ir的大致过程的分析,通过处理AST得到了初始的ttir。在这一章,我们会继续往下走,完成最后一步compile_ir。我们编译的后端nvptx又将这一步分为了五个小阶段:make_ttir、make_ttgir、make_llir、make_ptx和make_cubin,其中后两个阶段借助llvm和nv的ptxas完成,因此我们主要关注前面...

  • 赞了文章 ·
    2024人工智能开源大模型生态研究|甲子光年智库

    随着大型模型在各行各业的广泛应用,开源大模型生态正在快速发展。研究开源大模型不仅是人类不断接近人工通用智能(AGI)的重要探索之一,也是推动人工智能广泛应用的关键。

  • 发布了文章 ·
    如何在 PyTorch 中 profile CUDA kernels

    一直想系统看一下某个课程系统和科学的学习下 CUDA ,感觉 CUDA-MODE 这个课程能满足我的需求。这个课程是几个 PyTorch 的 Core Dev 搞的,比较系统和专业。不过由于这个课程是 Youtube 上的英语课程,所以要学习和理解这个课程还是需要花不少时间的,我这里记录一下学习这个课程的每一课的笔记,希望可以通过这个笔记帮...

    摘要图
  • 赞了文章 ·
    Android Native内存泄漏检测方案详解

    本文将分三个部分阐述如何实现 Android Native 内存泄漏监控,包括代理实现的三种方案(Inline Hook、PLT/GOT Hook、LD_PRELOAD)及其优缺点,以及如何检测Native内存泄露和获取Android Native堆栈的方法。本文将提供一套比较全面的解决思路,帮助大家更好地检测 Android Native 内存泄漏问题。

    摘要图
  • 赞了文章 ·
    AUTOSAR实战干货:为什么仅发出一帧CAN报文?

    在软件开发初期基本上需要开发CAN驱动模块,最为常见的一类问题就是软件内部虽然在周期发送CAN帧,但是仅发出一帧?

    摘要图
  • 赞了文章 ·
    深入解析高斯过程:数学理论、重要概念和直观可视化全解

    与其他算法相比,高斯过程不那么流行,但是如果你只有少量的数据,那么可以首先高斯过程。在这篇文章中,我将详细介绍高斯过程。并可视化和Python实现来解释高斯过程的数学理论。

  • 赞了文章 ·
    DDR 学习时间 (Part C - 6):DFI 协议功能-写传输

    DFI 协议中的写传输(Write Transaction)定义为 MC 通过 DFI 总线向 PHY 写入数据的过程,PHY 随后负责将数据转换为 DRAM 总线形式,发送给 DRAM 颗粒。

    摘要图
  • 发布了文章 ·
    窥探Triton的lower(三)

    在上一章,我们完成了ttir->ttgir的过程分析,重点在于理解其中用到的数据结构和流程。有了上面的基础,我们理解接下来的内容会非常轻松。在这一阶段结束时我们的case还是包含arith::addi、tt.load、tt.store等节点,在这一阶段我们会看到它们的变化。所以让我们直接进入最后的make_llir阶段。

  • 发布了文章 ·
    窥探Trition的lower(一)

    Triton的存在使得编写针对特定Target的算子的难度大大降低,相比于以往暴露更多硬件细节的编程方法,Triton编程提供了更加简洁的python接口去描述一个算子,并通过multi Level IR(MLIR)(也是多层Dialect)渐进式地lower,从设计上能够更灵活地支持抽象级别的扩展(在最后会对这)。

  • 赞了文章 ·
    SIMD 指令集与数据并行程序

    本文内容来自《Whole-Function Vectorization》的 Introduction 章节的 SIMD 指令集与数据并行程序小节,为作者的主要工作做知识铺垫,本文不涉及作者的主要工作,仅做 SIMD 概念的基本理解与学习。本文目录:Amdahl's Law 和 Intel MMX2. SIMD、数据并行、向量处理器的关系    2.1 向量处理器的优缺点和限制SIMD    3.1...

    摘要图
  • 发布了文章 ·
    How to Do the Paper/Talk Reviews

    本文的是由Onur Mutlu教授在CMU 2013 秋季的《740:Computer Architecture》课程中的一个小节《Guidelines on Paper Reviews》的主题内容编纂而成,但是又做了大量的内容修改和补充。主题是“论文/演讲评审指南”,虽然只有短短的两页,但讲解了如何进行论文或演讲评审的指导和建议。 相信会对搞学术研究的学者和研究人员...

    摘要图
  • 赞了文章 ·
    云主机(操作系统:CentOS7版本)安装nfs客户端,挂载文件系统

    1.保证宿主机上有nfs-utils1.1若宿主机yum源不可以用(1)本地下载nfs-utils安装包下载链接:[链接](2)登录宿主机,创建文件夹存放nfs-utils: mkdir /root/lhx(3)进入目录/root/lhx: cd /root/lhx(4)宿主机上安装rz,用于nfs-utils安装包传输到宿主机:yum install lrzsz(5)nfs-utils安装包传输到宿主机:rz -be...

  • 发布了文章 ·
    单处理器实现大规模计算能力的有效性

    Validity of the Single Processor Approach to Achieving Large Scale Computing Capabilities编者说:这篇文章是Gene Amdahl首次发表的关于后来被称为阿姆达尔定律(Amdahl's Law)的文章。有趣的是,它没有方程式,而且只有一个图表。对于SSCS新闻的这一期,阿姆达尔博士同意重新绘制这张图表。在现有的纸质副本中它...

    摘要图
  • 赞了文章 ·
    NVIDIA Isaac Sim 4.0和Isaac Lab为机器人工作流和仿真提供助力

    由物理 AI 驱动的 AI 机器人时代已经来临。物理 AI 模型能够理解周围环境,并在物理世界中自主完成复杂的任务。许多复杂任务都难以编程(如灵巧的操作和人形机器人在崎岖的地形上运动),需要依赖在仿真环境中使用强化学习(RL)训练而成的生成式物理 AI 模型。

    摘要图
  • 发布了文章 ·
    FP8量化解读--8bit下最优方案?(一)

    模型量化一直是模型部署阶段一个重要的过程。从学术上看,很多通用模型在常规8bit量化下的指标已经刷爆了,我们之前介绍过一个模型量化的综述性的系列,其中的论文在8bit下的结果大部分看起来都游刃有余,因此越来越多的论文都已经迈入到4bit阶段,考虑int4在通用模型上的量化。面对不可避免的精度下降,一般会使用类似b...

    摘要图
  • 赞了文章 ·
    NVM IP:驾驭先进节点设计的存储利器

    当前,随着摩尔定律的逐渐走向极限,芯片制造业已经跨越了3纳米节点,正朝着2纳米的方向迈进。这一技术演进带来的不仅仅是节点尺寸的缩小,更是对集成度、功耗和性能的极致追求。在这个挑战日益严峻的背景下,芯片设计者面临着前所未有的压力和机遇。

    摘要图
  • 发布了文章 ·
    如何使用“LoRa”的方式加载ONNX模型:StableDiffusion相关模型 的C++推理

    1.基于 onnxruntime,将 StableDiffusionInpaintPipeline、StableDiffusionControlNetImg2ImgPipeline(stablediffusion + controlnet + LoRa) C++工程化;

    摘要图
  • 发布了文章 ·
    TransformerEngine代码走读

    在几个月前nv就发表过关于fp8数制训练和推理的白皮书,大概三四个月前公开了他们针对transformer模型的fp8训练的软件库TransformerEngine,由于最近在关注fp8训练,因此想了解一下他们的实现方案,但是由于没有H100的卡,目前还不能跑通te的代码,很多细节没办法验证,只能通过源码的阅读来观察它插入了什么功能实现fp8...

    摘要图
  • 发布了文章 ·
    LLM PTQ量化经典研究解析

    本文主要对近年流行和经典的LLM PTQ量化算法论文进行一些汇总和分析。由于每篇详解的文章很多,本文不会逐篇做非常细致的讲解,主要对LLM量化算法的发展演进和核心思想方法做一些归纳,希望能触发一些思考和讨论。

    摘要图
认证与成就
获得 85 次点赞
2019年08月04日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息