FMS2016之一：别让网络拖了闪存的后腿

此文发布于2016年8月16日

本文内容非商业用途可无需授权转载，请务必注明作者及本微信公众号、微博ID：唐僧\_huangliang，以便更好地与读者互动。

为期3天的Flash Memory Summit 2016闪存峰会上周在美国落下帷幕，从今天开始我计划写几篇随笔，在会议资料中提取一些有价值的内容分享给大家。

本文我引用的是Demartek总裁Dennis Martin的演讲资料《_How Flash-Based Storage Performs on Real Applications_》。

作为一家咨询和评测机构，Demartek专注和擅长的领域是存储网络。上图描绘了一个SAN环境中的延时构成，除了存储硬件（阵列）之外，主机（软件处理）、HBA、交换机和线缆等也不容忽视。

1、NoSQL数据库+NVMe闪存测试

上面的测试环境，包括4台Dell PowerEdge R730xd服务器组成的数据库集群，上面运行Aerospike分布式NoSQL数据库，持久化存储为三星SM1715NVMe SSD。图中描述使用了Dell 10GbE交换机，而我查看原始报告应该是Mellanox的40GbE交换机（以便对比网卡性能）。

首先是吞吐量测试，横坐标单位MR代表百万次读，KU则表示千次update。可以看出在达到200万次读/50万次update之前，TPS性能基本都是理想状态提升；而在读提高到300万时，同时运行的update有所下降。

万兆网卡Intel X540和40GbE的Mellanox ConnectX-3 PRO在这里表现几乎一致，看来网卡带宽还没有影响闪存性能发挥？

延时方面的表现，Mellanox比Intel网卡的表现要好一些，40GbE在该场景中的优势终于体现出来。

2、NVRAM & 数据库日志

在这个测试环境中，存储位置有3种——8Gb FC连接的全闪存阵列、服务器本地NVMe SSD和MicroSemi（PMC）Flashtec NVRAM非易失性内存卡。

数据库Redo Log的写入速度影响着交易性能。如上表，SSD阵列的每分钟交易数刚超过50万，NVMe SSD达到了55万，而NVRAM则接近60万。

再来看看写Redo Log的响应时间。NVRAM的表现比NVMe SSD改善了6倍，相对SSD阵列（400微秒）的优势则达到20倍。

3、32G FC和数据仓库

以上测试环境，包括戴尔R930数据库服务器、SC9000全闪存阵列、Brocade G620 32Gb FC SAN交换机、三种不同速率的Emulex光纤HBA卡。产生应用负载的DellPowerEdge R730与数据库服务器之间使用更快的40Gb/s以太网连接，测试用的软件是SQL Server 2016。

与OLTP需要存储IOPS性能不同，OLAP分析类应用在意的是带宽。上表对比了5个并发用户的运行时间，32Gb FC以超过3.0GB/s的实际带宽比16Gb FC配置节省了46%的时间；而16Gb/s FC的运行时间比8Gb FC也节省了44%。

4、100GbE RoCE和NVMe存储

最后一项测试，是端到端100GbE互连，应用服务器和存储目标之间采用Mellanox网络设备连接。

该项测试对比的是SMB Direct vs. SMB文件共享存储性能，一看就是Windows环境。

在数据块大小8KB时，基于RDMA传输的SMB Direct读写吞吐带宽就明显领先于传统运行在TCP/IP上的SMB；256KB时SMB Direct读已经超过10,000MB/s；而非RDMA只有7,000多；写入带宽的差距随着数据块的增大而减小，瓶颈可能是出在了4个NVMe SSD上。

SMB Direct的优势在延时对比中进一步突出。测试表明，RDMA在40Gb、100Gb高速网络下的价值比10Gb要更加明显。

有些朋友应该知道RDMA支持绕过Kernel，直接在用户态（user-mode）传输减少内存拷贝提高效率。而微软SOFS是在操作系统的内核中，所以在这里RDMA网络的好处主要应该是避开TCP/IP协议栈和减少CPU中断开销。

敬请关注下一篇：FMS2016__闪存峰会系列随笔之二

推荐阅读

本文转载自企业存储技术微信公众号原文链接点这里
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录