派大星 头像

派大星

2005 声望
微信公众号:NeuralTalk 展开

微信公众号:NeuralTalk

收起
关注了
2
粉丝数
14
最新动态
  • 发布了文章 ·
    理解程序运行时的内存布局1:知识铺垫之进程/线程切换、纤程

    上次我们讲了《多任务、协同式与抢占式、时间片以及任务优先级》的概念,最后讲到了时间片以及任务优先级的概念,任务优先级就牵扯到调度算法——排序。但当时并没有讲到排序的对象,也就是线程或进程。本文将从进程切换开始,主要涉及线程、进程的相关概念等。讲这些的概念也是因为和运行时内存布局有关。注:本文大量内...

    摘要图
  • 发布了文章 ·
    理解程序运行时的内存布局0:知识铺垫之多任务、协同式与抢占式、时间片、任务优先级

    计算机内存[1](Computer Memory),是指计算机的临时存储区,其保存着中央处理单元(CPU)所要用的数据和指令,其中的指令,指令通常指处理器单独的某种操作[2],由处理器指令集定义(Instruction set architecture,通常指令集包括四类指令:算术、逻辑、数据移动、控制流)。在程序运行前,程序会从硬盘上加载并贮存...

    摘要图
  • 发布了文章 ·
    嵌入式AI简报|ECBSR/MobileHumanPose/推理性能/优化与TMAM

    导读:【新闻】RISC-V 基础指令集将扩展实现更小设备的矢量数学处理、苹果A15芯片评测CPU大幅升级、壁仞首款高端通用计算 GPU BR100 芯片交付流片、华为昇腾新发CANN5.0性能提升;【论文】MobileHumanPose装在手机里的三位姿态估计又快又好、利用一二阶梯度信息的移动端超分网络结构 ECBSR、汇聚工业界涨点技巧的PPLCNet...

    摘要图
  • 发布了文章 ·
    嵌入式AI简报 |特斯拉发布AI训练芯片Dojo D1

    导读:【新闻】特斯拉发布自研了AI训练芯片Dojo D1,初创公司ThirdAI发力CPU软硬件联合优化,BERT训练从3天到76分钟的作者回国创业打造高性能分布式AI系统,24MB OpenAI CLIP模型实现手机文本图像匹配;【论文】Mobile-Former结合MobileNet与Transformer优于MobileNetV3,在检测/人体姿态/分类任务都比MobileNetV3更优秀...

    摘要图
  • 发布了文章 ·
    字节跳动APP工厂的端云一体AI落地方案:端云深度融合,模型极速上线之路

    1. 端侧 Pitaya SDK与云训练侧 MLX 平台深度融合,算法工程师不再依赖客户端工程师进行任何开发,就可以独立完成算法在端上的运行与调试,极大的提升了算法开发的效率。

    摘要图
  • 发布了文章 ·
    快手 AI 工程化落地:挑战、思考和实践

    NeuralTalk评:7月初便看到这篇文章,这三四年的简报也在断断续续地关注YCNN、YCNN2,再到现如今KwaiNN的消息,身边快手的朋友也经常发相关岗位的招聘。本文介绍快手这方面的工作,与前些日子推送的《字节跳动APP工厂的端云一体AI落地方案:端云深度融合,模型极速上线之路》类似,写得还蛮详细。

    摘要图
  • 发布了文章 ·
    嵌入式AI简报2021-08-05

    导读:【新闻】ncnn携手龙芯和全志完成对risc-v与mips架构的国产cpu适配,OpenAI开源Triton简化GPGPU编程难度同时支持A卡和N卡,谷歌手机芯片 Tensor 发布今年秋将首发Pixel 6,Arm China 宣布首个智能计算产业技术创新联合体成立旨在制定NPU ISA标准等;【论文】旷视YOLOX超越一切现有版本YOLO,MSRA 准确预测 DNN 模型...

    摘要图
  • 发布了文章 ·
    CLTune: A Generic Auto-Tuner for OpenCL Kernels

    不恰当地说,这篇 CLTune 与前两天发的 《GPGPU BLAS 计算库 CLBlast: A Tuned OpenCL BLAS Library》 犹如 AutoTVM 与 TVM 两篇文章的关系,一个是 Tunner , 一个是 Tunner 生成的数据产品 —— CLBlast ,不涉及编译器底层。CLTune 与 CLBlast 是 2016  GPU Technology Conf 上的技术分享,虽然有些老,思想。

    摘要图
  • 发布了文章 ·
    AI 硬件公司接入框架与 AI 框架算子层级的思考

    这个思考其实源于参加 WAIC 上组织的 AI 编译相关的闭门讨论的内容,观点有不少来源于现场讨论的朋友们,因为对这个主题感兴趣,我又结合自己的理解做了一些梳理。之所以关注 AI 框架算子层级的问题,是因为自己最近在关注AI硬件行业,也就在关注为一款新硬件提供软件支持可能面临的问题。AI 硬件公司,能成事非常不容易...

    摘要图
  • 发布了文章 ·
    GPGPU BLAS 计算库 CLBlast

    CLBlast是一个可用于生产环境,且高性能的OpenCL开源计算BLAS库,支持平台包括AMD、NVIDIA、Intel的CPU、GPU,也包括移动端领域如Adreno、Mali GPU。系统支持Windows、macOS以及Linux系统。虽然这个库有历史年代了,但是相信仍然有一些可以学习的东西。

    摘要图
  • 发布了文章 ·
    嵌入式AI简报2021-07-18

    导读:本期15条。【新闻】上海海张江——多家GPGPU公司消息:博瀚发布云端 AI 推理芯片性能超 T4 今年 Q4 量产、燧原发布国内最大 AI 芯片、壁仞首款 7nm GPU Q3流片明年上市发布,三星猎户座 2200 将使用 AMD 授权的 GPU 性能或超 Adreno730,AI换脸手机软件刷爆网络免费榜超TikTok/Snapchat;【论文】华为加法网络再升级...

    摘要图
  • 发布了文章 ·
    如何评价 WAIC 上商汤开源的高性能深度学习推理平台 OpenPPL?

    我们在7月1日的嵌入式AI简报,已经提到商汤开源了他们的深度学习推理引擎PPL,今天,距离他们开源已经将近半个月,有人在知乎借着WAIC关于商汤提问:

    摘要图
  • 发布了文章 ·
    嵌入式AI简报2021-07-01

    导读:本期17条。【新闻】香山高性能处理器亮相 RISC-V 中国峰会,百度昆仑独立向汽车芯片进军,三星与高通重启 CPU 自研架构;【论文】高通两篇CVPR2021:跳跃卷积、FrameExit减少计算量提高性能,轻量化目标检测模型MobileDets;【开源】PyTorch1.9发布移动端疯狂更新,商汤推理引擎PPL逐步开源,深度学习推理工具链 A...

    摘要图
  • 发布了文章 ·
    EdgeRec: 手机淘宝端上推荐的问题与挑战

    来源:NeuralTalk作者:张雨石打开淘宝主页,会有商品的推荐。类似的,打开抖音,快手,也会有视频推荐。这些一般被称之为瀑布流模型,它的框架则是cloud-to-edge,即每次打开,客户端会向服务器发送请求,将推荐列表从服务器上拉取下来。

    摘要图
  • 发布了文章 ·
    网易有道开源EMLL:高性能端侧机器学习计算库,大幅提高计算性能

    在人工智能技术不断深入发展的今天,我们对于计算的性能要求越来越高。传统的计算处理多数是基于云侧的,把所有图像、音频等数据通过网络传输到云中心进行处理后将结果反馈。但是随着数据的指数式增长,依靠云侧的计算已经显现了诸多不足,例如数据处理的实时性、网络条件制约、数据安全等,因此端侧的推理则愈发重要。

    摘要图
  • 发布了文章 ·
    从GPU谈异构,这是ARM处理器架构师的趣谈

    我这两年的工作重心从 general purpose CPU 逐渐分散了些到 HPC 和 Graphic,坊间俗称兼职做 GPU 。

    摘要图
  • 发布了文章 ·
    移动端GPU矩阵乘优化

    移动端GPU目前主要有3家供应商, Qualcomm的Adreno系列,Arm的mali系列和Imagination的PowerVR GPU。主流开发语言包括OpenCL、OpenGL以及Vulkan,本文不对各个语言的应用进行讨论,仅以OpenCL为例。不同设备的体系结构差异很大,即使同一供应商的设备,也存在多个系列,因此优化策略也有不同。本文仅介绍纹理内存在Adren...

    摘要图
  • 发布了文章 ·
    轻又快!TensorFlow Lite 设备端推荐解决方案

    TFLite 开源了一个端到端解决方案来解决设备端的推荐任务。该解决方案可提供个性化、低延迟和高质量的设备端侧推荐,同时还能保护用户隐私。

    摘要图
  • 发布了文章 ·
    从我开发过的Tensorflow、飞桨、无量框架看深度学习这几年

    和深度学习框架打交道已有多年时间。从Google的TensorFlow, 到百度的PaddlePaddle,再到现在腾讯的无量。很庆幸在AI技术爆发的这些年横跨中美几家公司,站在一个比较好的视角看着世界发生巨大的变化。在这些经历中,视角在不断切换,从最早的算法研究,到后来的框架开发,到机器学习平台和更多基础架构,每一段都有不同...

    摘要图
  • 发布了文章 ·
    Bolt v1.2加速深度学习推理,发挥x86 CPU极致性能

    Bolt是基于华为诺亚方舟实验室研究成果,开源社区孵化的高性能深度学习推理加速库。目前已经更新v1.2版本,主要新增如下特性:

    摘要图
认证与成就
获得 48 次点赞
2020年01月17日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息