AI学习者 头像

AI学习者

11569 声望
嵌入式,CV,NLP,数字芯片设计学习中~ 展开

嵌入式,CV,NLP,数字芯片设计学习中~

收起
关注了
76
粉丝数
12922
最新动态
  • 发布了文章 ·
    单机H200最快DeepSeek V3和R1推理系统优化秘籍

    根据相关Benchmark 信息 SGLang 目前在单机H200上推理 DeepSeek V3/R1 应该是跑得最快的大模型开源推理框架,不过性能好坏其实也不是特别好说,因为各个框架都一直处于你追我赶的快速优化,随着时间随意领先幅度可能会缩小。我这里从开源技术分享的角度来盘点一下SGLang对单机规模推理的大量工程优化技巧,这里涉及的技...

    摘要图
  • 赞了文章 ·
    使用 LlamaIndex 和 Ollama 在 AMD Radeon 显卡上构建 RAG 系统

    AMD Radeon GPU  正式支持 ROCm,且满足与行业标准软件框架的兼容性。本 Jupyter notebook  利用 Ollama  和 LlamaIndex(ROCm 皆已支持)构建检索增强生成 (RAG) 应用程序。LlamaIndex 促进了从阅读 PDF 到索引数据集和构建查询引擎的通道创建,而 Ollama 则提供了大语言模型 (LLM) 推理的后端服务。

    摘要图
  • 赞了文章 ·
    基于 FPGA 的图像及视频加密解密系统

    在多媒体技术高度发展的今天,视频信息安全愈发受到人们的关注。传统的视频加密方法主要应用在软件层面上,其算法设计复杂、加密速度慢,不适用于视频的实时加密。FPGA 器件凭借高带宽全并行的特性可以实现高速运算和视频采集,能够满足视频的实时性要求,但开发难度较大。ARM 器件具备易于开发 的优势,但其运算速度低...

    摘要图
  • 赞了文章 ·
    是否存在低门槛的智算云模式?

    编者按大部分人觉得,要想创立一家智算云公司,没有个几十亿投入几乎不可能做起来。而我们对此有不一样的看法。随着智算大模型的发展,业务系统更加庞大复杂,不同领域、不同行业的业务应用,可能千奇百怪,差异巨大。传统公有云赋能千行百业的模式,在具体的某个领域或行业,可能会力有不逮,无法充分赋能企业的业务落...

    摘要图
  • 赞了文章 ·
    Tilus 虚拟机:超越 Triton 开启低精度任意比特 GPGPU 的 LLM 高效计算

    ❝为大型语言模型(LLM)提供服务对于人工智能驱动的应用程序至关重要,但这需要大量的计算资源,特别是在内存带宽和计算吞吐量方面。

    摘要图
  • 赞了文章 ·
    LLM 学习笔记:最好的学习方法是带着问题去寻找答案

    知其然,然后知其所以然。本文主要是对学习赛博活佛 Andrej Karpathy 7 个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到 LLM 训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对 LLM 的理解;再谈谈 AI 的最新重...

    摘要图
  • 赞了文章 ·
    汽车安全工程师的终极难题:如何在安全与成本间走钢丝?

    在汽车行业飞速变革的今天,每一位汽车安全工程师都像在走钢丝 —— 左手托着乘客的生命安全,右手扛着企业的成本压力。当自动驾驶、智能网联技术掀起浪潮,高等级安全认证(如 ASIL D)成为刚需,如何在 "安全底线" 与 "成本红线" 之间找到平衡,成了这个时代最棘手的行业命题。

    摘要图
  • 赞了文章 ·
    从AI助手到个性化数字分身:WeClone & Second Me打造个性化AI代理系统

    随着大语言模型(LLM)和语音合成技术的快速发展,个性化AI代理的实现变得愈发可行。近期,一个名为 WeClone 的开源项目引起了开发者社区的关注。该项目旨在通过用户的微信聊天记录,训练出一个高度个性化的对话模型,从而实现“数字版的你”,在一定程度上探索“数字永生”的可能性。

    摘要图
  • 赞了文章 ·
    SDC 中异步 clock group 的处理方法

    现代 SoC 设计通常采用多个时钟,并包含多个时钟域。当数据从一个时钟域跨越到另一个时钟域时,由于异步时钟域交叉(CDC),会出现亚稳态问题的风险。

    摘要图
  • 赞了文章 ·
    理想星环 OS 技术架构详解

    近日,理想汽车发布了《理想星环 OS 技术架构白皮书 v1.0》,本文将其核心的技术内容做了梳理呈现,包括:通信中间件、智能车控 OS、智能驾驶 OS、虚拟化引擎、信息安全。

    摘要图
  • 赞了文章 ·
    MCU 无感 OTA 升级功能

    在工业控制、电机驱动乃至物联网边缘节点中,固件在线升级(OTA)已成为产品生命周期管理的标配。然而传统 OTA 往往伴随停机、风险与低效。瑞萨电子 MCU 中的 Dual‑Bank 闪存架构为工程师带来了几乎“零感知”的升级体验。本文以 RX26T 为例,拆解无感 OTA 的实现思路、代码框架与实测情况,帮助开发者在自家项目中快速落地。

    摘要图
  • 赞了文章 ·
    报告下载 | Arm《芯片新思维:奠定人工智能时代新根基》

    当前,人工智能(AI)技术已完成从“实验性”到“实用性”的蜕变,能够切实为企业和用户带来实际效益,并以前所未有的速度和深度渗透至千行百业、重塑产业格局。与此同时,随着传统摩尔定律的逐步放缓,半导体行业正面临着#AI  算力需求激增的挑战,以及由此所带来的能效、安全性和可靠性等核心挑战,亟待加速硬件、软件及生...

    摘要图
  • 赞了文章 ·
    从 Qwen3 MoE & 稠密模型性能测试-看 CPU/GPU 算力需求

    自从通义千问推出 Qwen3 系列大模型,人们的注意力一下子从 DeepSeek 上转移出不少。有一点遗憾是 235B 的参数量,不见得能达到或者超过 671B 的效果?

    摘要图
  • 赞了文章 ·
    在 96 个 H100 GPU 上部署具有 PD 分解和大规模专家并行性的 DeepSeek

    DeepSeek 是一个广受欢迎的开源大型语言模型 (LLM),因其强大的性能而备受赞誉。然而,由于其庞大的规模和独特的架构(采用多头潜在注意力 (MLA) 和混合专家 (MoE)),需要更先进的系统才能高效地大规模服务。在本篇博文中,我们将解释如何将 DeepSeek 的推理系统性能与 SGLang 进行匹配。

    摘要图
  • 赞了文章 ·
    基于 FPGA 的目标跟踪电磁炮系统

    视觉目标跟踪是计算机视觉中的一个重要,有着广泛的应用,如:视频 监控、人机交互,无人驾驶等。电磁炮是利用电磁发射技术制成的一种先进 动能杀伤武器。与电磁炮与其他火炮相比具有:弹丸初速高、炮口动能大、 射击无声响、射速高、后勤供应简单、安全可靠等一系列优点。

    摘要图
  • 赞了文章 ·
    「“星睿O6”AI PC开发套件评测」使用coze创建一个模仿芙宁娜的聊天机器人

    使用扣子生成一个角色扮演机器人也是挺简单的,我们需要先在个人空间里先创建一个智能体,操作如下图,点击工作空间,然后再点击右上角的创建按钮,在弹出的窗口选择创建智能体。

    摘要图
  • 赞了文章 ·
    玩转电机控制 MATLAB 几种类型的仿真验证框架

    前言:电机控制的开发验证有多种途径和方式,常见的分为模型仿真验证和硬件测试两大类。接下来以 MATLAB+CCS 的 IDE 开发环境来进行仿真模型框架的搭建和对比。

    摘要图
  • 赞了文章 ·
    台积电的汽车芯片技术:3 纳米工艺和先进封装 CoWoS

    台积电在目前的汽车领域占了非常重要的作用,围绕“AI 时代的汽车芯片演进”做出重磅趋势研判:预计至 2030 年,汽车半导体市场将达 1500 亿美元,成为 AI 下一个关键增长极。

    摘要图
  • 赞了文章 ·
    中奖名单公布 | 安谋科技五一「脑动」节AI知识有奖互动

    安谋科技五一「脑动」节AI知识有奖互动活动中奖名单已公布如下,恭喜本次中奖的幸运用户!安谋科技的工作人员会给中奖用户发送邮件通知,收集到准确的收件信息后,我们会尽快为您寄出奖品~活动原文:[链接]如您对本次活动存在任何疑问,可发送邮件至:info@armchina.com进行咨询,感谢您的参与!

    摘要图
  • 赞了文章 ·
    【“星睿O6”评测】对比高通8Gen3分类、检测、分割、超分网络的AIBenchmark测试

    1.网络选取我们选取AI-Benchmark中4个常见类别的测试项,分别对瑞萨-O6的CPU、GPU、高通8均3的CPU、GPU、NPU进行测试:有:分类网络:Inception - V3、检测网络: YOLO V4 Tiny、分割网络:DeepLab V3+、超分网络:ESR-ganbVciru)

    摘要图
认证与成就
获得 142 次点赞
2019年08月04日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息