潘伟涛

发布了文章 · 2022年08月11日

SIGCOMM2022：一种采用非流水线架构的P4网络可编程芯片-Trio

可编程数据平面从根本上改变网络元素的构建和管理方式，也在一定程度上平衡了灵活性和性能之间的矛盾，这种平衡行为的关键是对数据包处理的良好抽象。数据包处理的常见抽象是匹配动作流水线，最早由OpenFlow提出。通过匹配动作抽象，可以将包处理器建模为一系列匹配和动作流水线阶段。每个流水线阶段对流经的数据包执行...

发布了文章 · 2022年07月21日

DirectCXL：一种可能替换RDMA的内存分解架构

在上周的ATC'22会议上，韩国的科学技术高级研究所KAIST的CAME Lab发表了一篇DirectCXL内存分解原型实现的文章，该文章提出了世界上第一个基于CXL的直接访问，高性能内存分解框架。CAMEL为大型存储系统提供世界上第一个CXL解决方案框架，可以在大数据应用程序（如机器学习，内存数据库和现实图形分析）中实现出色的性能。...

发布了文章 · 2022年07月13日

FPGA工程师如何进行复杂系统设计？

对于一个FPGA团队来说，需要根据项目需要完成产品的设计和验证，保证项目的交付。为了在越来越复杂的系统设计中，FPGA工程师之间保持高效沟通和工作推进，这就需要找到一个适合的设计方法论。目标是通过在设计团队之间建立一个通用的方法来提高FPGA设计团队的生产力，同时允许跨团队交换设计模块。

发布了文章 · 2022年06月28日

从58Gbps到2Tbps：FPGA光子芯粒对传统收发器的降维打击

AWS的Nitro和阿里云的神龙都是这一系列的代表，随着对性能的需求，对虚拟机方案的延迟和虚拟损耗导致很多企业，特别是一些做数值仿真和低延迟交易的行业上云带来了阻碍，于是这两家算是一个代表，另一个代表就是Fungible，它们的DPU非常有趣：

发布了文章 · 2022年06月24日

高端FPGA揭秘之工艺及资源竞争

来源：内容由「网络交换FPGA」编译自「eejournal」，作者：Kevin Morris，谢谢。

发布了文章 · 2022年06月23日

高端FPGA揭秘之存储及高速接口

来源：内容由「网络交换FPGA」编译自「eejournal」，作者：Kevin Morris，谢谢。

发布了文章 · 2022年06月22日

评知乎热帖：熟悉计算机体系结构是种什么样的体验？

本文源自知乎，链接如下：[链接]。以下是对这篇文章的几点看法。作者为华为鲲鹏架构师夏晶晶博士。芯片设计行业内资深知名大佬级人物，在几年前就道出了国内芯片行业人才培养中的不足和缺陷。作者在知乎上发布了一个简单的独热码识别的面试题目，要求用（组合）逻辑实现，结果几百条回复的帖子里愣是没有一个正确的。虽...

发布了文章 · 2022年06月21日

未来已来：ASIC云和行星级应用程序的数据中心

本文是大牛Michael B. Taylor博士今年7月份的新作（个人主页网址：[链接]）。Taylor博士目前是西雅图华盛顿大学的保罗·艾伦计算机科学与工程学院和电气工程系的教授，也是Google的客座研究科学家，致力于数据中心加速器研究。在此之前的2005年至2016年，他是加州大学圣地亚哥分校计算机科学与工程系的终身教授。早在2016...

发布了文章 · 2022年06月20日

四月初，谷歌大脑团队使用 AI 进行芯片布局的一篇相关研究论文《Chip Placement with Deep Reinforcement Learning》在 ArXiv 上公布。在 Azalia Mirhoseini 这篇 ArXiv 论文中，她和谷歌高级软件工程师 Anna Goldie 表示，对芯片设计进行了足够长时间的学习之后，团队开发的算法可在不到 24 小时的时间内为谷歌 TPU 完...

发布了文章 · 2022年06月17日

一种介绍DPU架构（自适应交换机）的文章

推荐一篇论文，论文题目翻译过来为：自适应交换机：用于网络中心计算的异构交换机体系结构。该论文可以认为是一篇介绍DPU架构的文章。文章由新加坡Xilinx/西交大的胡成臣老师共同撰写，发表在2020年12月IEEE Communication Magazine上，其主旨思想，是利用FPGA作为协处理器，补充现有可编程交换ASIC的不足，给出了三个...

发布了文章 · 2022年06月14日

首个基于FPGA开源200Gbps数据包逆解析器的设计

P4改变了网络格局，因为它允许表达自定义数据包处理。近年来，有几篇著作将P4程序映射到FPGA。但是，这些工作大部分都集中在实现数据包解析器或match action阶段。迄今为止，尚未有报道提出关于FPGA的通用数据包逆解析的原理。推荐一篇2021年FPGA顶会会议论文，介绍基于FPGA开源200Gbps数据包逆解析器的设计与实现。开源...

赞了文章 · 2022年06月14日

技术的真相 | 机器学习在仓库控制中的探索：以某场景的排序问题为例

作为新一代托盘柔性物流解决方案，旷视智能托盘四向车系统具有高密度存储、场地适应性强、扩展灵活、交付周期短等优势，能为实体企业提供具备更优投资回报比（ROI）的自动化、智能化仓储解决方案。那么，在智能托盘仓库又是如何被设计出来的呢？这背后运用了怎样的分配策略？本期《技术的真相》，让我们一起走进智能托盘...

发布了文章 · 2022年06月13日

航天航空火了，可是你知道航天器中的宇航级芯片设计有什么特别之处？

电子装备系统是星链、火星探测器、玉兔、嫦娥等航天器的重要支撑，而宇航级芯片则是航天航空电子装备的心脏。

发布了文章 · 2022年06月08日

使用 CCIX进行高速缓存一致性主机到FPGA接口的评估

Chiplet技术和NoC技术目前已经成为解决摩尔定律无法延续的一种重要方法，现在的CPU芯片对外的接口已经不是普通的IO了，而是一套标准的NoC总线接口，可以与专门的NoC总线DIE（暂称为IO DIE）利用Chiplet技术连接，多个CPU核或异构核与多个IO DIE再通过Chiplet技术进行集成，就可以做出来更大规模的芯片。正是Chiplet技术...

发布了文章 · 2022年06月02日

基于FPGA的超低延时硬件加速行情解析系统

摘要：对于瞬息万变的证券交易市场，即时的行情信息是行情系统的基础。快速获取行情信息可以给市场参与者提供更宽裕的交易决策时间窗口，交易者获取的行情信息延时越低，往往意味着越多的交易机会和越大的决策空间。传统的基于软件的行情信息系统，信息的解析一般经过网络层数据获取、协议层数据解析、应用层数据处理等...

发布了文章 · 2022年06月01日

【Verilog开源】一种用于智能网卡或可编程交换机的，支持P4语言的高性能开源解析器的设计

推荐一篇本团队近期发表的论文，一种用于智能网卡或DPU或可编程交换机的，支持P4语言的高性能开源解析器的设计。通信芯片也如CPU和DPU一样面临着高性能和灵活性的取舍，可编程交换机和智能网卡发展使得通信芯片的灵活性越来越受到重视。可编程交换机采用ASIC来实现高吞吐量，具有较高灵活性的基于FPGA的智能网卡也越来越...

发布了文章 · 2022年05月27日

开源100 Gbps NIC Corundum环境搭建介绍（二）仿真及工程恢复

公众号文章《业界第一个真正意义上开源100 Gbps NIC Corundum介绍》和《揭秘：普通电脑换上Xilinx Alveo U50 100G网卡传文件会有多快？》发出后，得到了很多粉丝的关注，大家纷纷留言询问重现开源工程的详细过程。团队李钊同学详细写了一下具体的实现步骤，具体如下。前面的操作见前文《开源100 Gbps NIC Corundum环境搭...

发布了文章 · 2022年05月25日

一种不带CPU的DPU架构：Hyperion

人类自诞生之日起，就常常因为一些事情经常这样或那样做而形成一种惯例，我们称这种惯例为习惯。CPU就是这么一种产物，什么都可以做，灵活，好用。但随着定制化芯片的不断发展，是否真的需要CPU逐渐成为一种值得考虑的问题。尤其在定制计算领域，CPU的计算能耗比过高已经成为事实，甚至有几个数量级的差别。如本公众号之...

发布了文章 · 2022年05月23日

开源100 Gbps NIC Corundum环境搭建介绍（一）

公众号文章《业界第一个真正意义上开源100 Gbps NIC Corundum介绍》和《揭秘：普通电脑换上Xilinx Alveo U50 100G网卡传文件会有多快？》发出后，得到了很多粉丝的关注，大家纷纷留言询问重现开源工程的详细过程。团队李钊同学详细写了一下具体的实现步骤，具体如下。