V · 2022年06月09日

云计算的未来在哪?破解亚马逊云科技增长神话

本文转载自公众号:CloudTech2030
文章仅代表原作者个人观点

之前看亚马逊云科技创新大会直播,尤其是顾凡的主题演讲“重构云底座,加速向未来”,相比 re:Invent 的隆重的会场和丰盛的议题,这次更能总览亚马逊云科技全局产品和方案,我恰好在思考中美云计算的发展,本文有感而发。

云计算被形容为自来水,方便快捷。早年自来水没有表,按人头交钱浪费严重。仅剩一些农村这么干。可是你能想象到吗,中国的云计算过去十年跟农村自来水一样。最终用户不省钱,服务商也不赚钱。

本文有点儿长,先说结论。亚马逊电商有一套飞轮增长哲学,云计算业务也同样采用类似增长飞轮策略。“主动降价”增加客户粘性、“架构创新”客户实现业务价值,看起来简洁易懂,却蕴含着深厚的产品哲学。众多跟随者求而不得,无法模仿,我们来解读亚马逊云科技的产品之道,破解云计算增长之谜。

重构云底座

相对于总部的 re:Invent 大会,中文版的直播更好理解,而且信息浓缩,看一遍不过瘾,又看回放。终于“会当临绝顶,一览众山小”。keynote 关于云底座基础架构产品的演讲,让我从更全局的角度,再次认识云计算产品战略。萦绕在心中的问题,逐渐有了答案。为什么那么多用户选择亚马逊云科技,为什么 620 亿美元的规模,增长率还能达到 37%?

云计算产业的问题和思考

“亚马逊云业务 2021 年总营收 622 亿美元,同比增长 37%。四季度营收 177 亿美元,同比增长 40%。全年营业利润 185 亿美元,营业利润率为 29%。”年初看到这条新闻,感叹这么大的营收规模,如此高的利润率,是否因为绑定客户,产品定价过高?

反观国内的云计算亏钱降价策略,这样难道不应该更能做大市场吗?

先说结论,亚马逊云科技采用智慧的产品定位和不同定价战略,聪明地为客户省钱,同时获得利润投入技术创新和全球化。前文是总体战略的增长飞轮,以下是产品角度的分解。

云产品的增长飞轮:

对比云计算厂商的增长刺轮(部分跟随者),刺轮需要额外推力才能保持运转,比如客户补贴,重投入客户关系,定制化等。这也许就是很多厂商持续亏损,份额却无法增长的原因。

云计算为客户创造价值

到目前为止云计算还没有颠覆性技术发明,还没有人讲清楚未来它的价值在哪,有多大?

顾凡引用了 McKinsey Quarterly 报告,“到 2030 年云计算为 500 强创造价值规模超一万亿美元,节约成本 4300 亿,创造价值 7700 亿”。成本节约大大降低客户自建 IT 软硬件成本,同时,利用云上更加易用的 AI 和大数据技术,为企业业务创造价值。

文章有点长,咱们用麦肯锡的金字塔思维框架,结论先行。

云产品用户粘性和竞争力有以下 3 个方面:

  1. 节约成本:重新定义IT采购模型,帮助客户优化成本,实现双赢
  2. 创造价值:围绕用户价值重构云底座,从芯片到数据全栈构建先机的计算、产品和服务
  3. 全球化:通过全球化网络和资源布局、本地化合规、数据安全,帮助客户全球化

后面主要从前两个方面分享我的思考。

本文先重点讨论 1 和 2。

1. 重新定义IT,实现成本节约

还是结论先行,亚马逊云科技为客户节约成本,不靠低价格,而是靠贴近用户 IT 模型的产品定义。比如按量付费的 Amazon EC2,承诺用量的节省计划,到灵活切分的容器,低价抢占的 Spot,无服务器的 Amazon Lambda,再到自动降级省钱的 Amazon S3。

比如 Amazon EC2 的按秒付费,比常规包年的价格虽然单价高 50%,如果你的应用 1 天内高负载时间低于 16 小时,按量付费就更省钱。聪明的产品不靠低价,而且双赢。

传统 IT 玩法

过去:IT 老兵都知道,这个领域过去的玩法。IT 软硬件产品市场操作复杂,有厂商-渠道-代理-集成商,代理还分总代/一代/二代。厂商还要建团队去管理渠道、管理价格体系、行业/区域/代理级别折扣体系都不一样,还要防窜货,厂商花费大把资金用来做渠道激励和管理。

从客户侧看,甲方企业还要养着一个强大的采购团队,议价、比价、入围、签单,中间环节复杂且不透明,甲方老板也不放心,还需配套后端廉政、合规、审计。

比如我们常见的企业级高端服务器、存储、网络和安全产品定价官网是查不到的,折扣范围巨大,最低可以到 1 折,也可以 5 折。议价能力弱的客户,就需要找多个渠道询价,各种供应商比较,各种手段压价。本来 1 个月可以下单到货,经过多伦博弈要折腾半年,然后多家组合集成,再用半年来交付。

其他玩家捆绑大法

云计算被形容为自来水,方便快捷,按需使用,按量计费。但是最早是没有水表的,按月收费,现在还有农村这么操作。结果喝水的嫌贵,卖水的亏钱,只有浇田的没意见。
可是中国的云计算过去的十几年就是这么干的。主要售卖方式就是包年包月。看起来折扣低,最终用户没有省钱。终于想通了,要改变模式,却发现弹性能力不够、售卖率不行...  增长飞轮别人无法无法模仿。

参见某云产品 3 年价格调价通知:

2. 亚马逊云科技从哪些产品方面为客户考虑?

1)持续降价的产品战略

客户选择云计算,综合评估 TCO、性能、可靠安全,体验和服务能力;

如果服务商用低价来抢单,要小心是否有陷阱,是否会以次充好?是否先进店后宰客?超低折扣能否长期持续?

亚马逊云科技产品数十次降价,当相对其他玩家来讲,不采用低价策略,而是双赢的产品设计策略,值得思考。

我们接下来重点分析营收主力产品。企业的 IT 开支 IaaS 一般占大头,其中最大的产品是计算、存储加起来一般超过 50%。我们来看看云厂商的产品策略。

2)越来越轻的产品架构

从应用架构上节约:

虚拟机 Amazon EC2--> 容器 Amazon ECS/EKS--> Amazon Fargate--> Amazon Lambda

从过去物理服务器的形态,到越来越细粒度的切分,最终实现仅调用时占用资源。资源开销可以更加贴近客户的IT负载曲线。减少浪费,帮客户省钱。

从定价模式上节约:

按量付费-->预留实例-->节省计划--Spot,主打按量付费的同时,给用户多种灵活选择。

3)坚持按量付费模式

云计算提供的是服务与传统 IT 最大的区别,就是按订阅收费。常见的软件订阅一般按照月或者年的方式。但亚马逊云服务更加激进,服务订阅按秒付费(最小 60 秒),不做长时间绑定,恰恰解决了客户 IT 峰值痛点问题。按照当前的定价比例,如果每天使用时间低于 16 小时,按量比包年更划算。

表-多种付费方式的差别

长期坚持按量计费,提供多种弹性方案和定价策略,培养市场对按量使用资源习惯,自己也孵化出 Serverless 产品。从本次演讲也可以看出,客户弹性用的非常普遍。每天新创建 6000 万个实例,按照每实例 4vcpu 估算,代表 300 万台服务器,云上超50% 应用负载采用弹性方式创建。

过去 IT 服务厂商硬件设备无法实现按量订阅,只能按峰值需求采购。但是国内其他云厂商为什么不跟随?为什么还主推这种模式(很多服务商希望用低价包 N 年方式绑定客户)

本质来看,付费包服务商需要预留资源、容量、性能,保证在需要弹性的时候,兑付成功率高。背后需付出巨大的成本来支持,预留充足的服务器资源池;还要建设规模足够大的可用区机房并支付成本。亚马逊云计算在美国本土的 Region 一般 3-4AZ,国内服务商 AZ 数量经常达到 2 位数。节约短期成本,却造成资源池碎片化,影响客户弹性扩容体验。

4)抢占式实例--共享资源新范式

B2B 共享资源的新范式,闲置资源拍卖

使用 Amazon EC2 Spot 实例,可以请求 Amazon EC2 备用计算容量,与按需实例的价格相比,这类实例最多可以节省 90% 的成本。

计算过去 30 天内与按需相比节省的费用

中断频率表示 Spot 在过去一个月间回收容量的比率。

过去按量售卖,客户峰谷会非常多,削峰填谷非常难调度,导致经常有 30-40% 的限制,采用 spot 方式,可以低价抢占剩余资源。

实际上有不少做算力的公司把这种空余资源低价买入,分发给需要计算的客户;比如并行计算类似玩家,二次售卖 HPC 业务。

5)手中无剑--开创无服务器新赛道

一个做云服务器起家的服务商,竟然开启了无服务器新赛道。顶级高手追求手中无剑,心中有剑的层次。

基础设施无论怎么按量、弹性的方式使用资源,让人有 scale-out 水位,一般应用工作水位 30%,启动扩容的水位是 50-70%,缩容更加谨慎,需要等实例内的最后一个客户服务结束。

开创性地发布产品 Amazon Lambda,完全按照业务负载付费,把资源占用和浪费压缩到 0。

Amazon Lambda 费用=计算时间+请求次数+内存+存储+并发。

咱们看一个官方案例,一个具备峰谷特点的外卖订餐系统;每月处理 300 万个请求。函数计算实现执行时间为 120 ms,每次内存 1536 MB。扣掉 100 万免费额度,一个月下来才 20 美元;

当然,Serverless 还不是万能的,仅支持脚本语言、启动慢(50ms+)、有调用限制。

6)自动省钱的 Amazon S3

Amazon S3 是对象存储,是亚马逊云科技营收最大的存储产品。从开发中角度,数据在产生之时,并不知道未来如何使用,未来算冷还是热数据。而 Amazon S3 存储提供了冷热自动分级,超过 90 天不用,可以自动降级;

我想问一个问题,这么主动帮客户省钱,PD 不用承担营收 KPI 吗?

设计一个产品尽量从客户那儿多收钱,这才是职业化的 PD 。

Amazon S3 不只是一个产品,而是一个系列,有多种热度和性能的存续范式。

Amazon S3 的产品价格随着用量增加,单价下降。按照我的期待,容量达到 PB 后应该继续降价。后面应该留给了销售去申请折扣。

美中不足的是,Amazon S3 的收费复杂度,由六大成本组成:存储定价、请求和数据检索定价、数据传输和传输加速定价、数据管理和分析定价、复制定价以及使用Amazon S3 Object Lambda 处理数据的价格。

如何选择趁手兵器--购买方式总结

大胆设想,目前大客户还是有额外折扣的,有额外议价空间,未来的产业互联网,按照采购量自动生成阶梯折扣,更加透明,期待有云厂商早日迈出这一步。

主动帮助客户省钱,这也许是敢于用按量收费,而且客户粘性越来越强的原因。

成本管理和优化工具的七种武器

好的产品设计要对财务友好,企业IT部门每年都有降本 KPI。亚马逊云科技有如此多的工具组合,功能强大,很多账单还可以导出 excel,二次架构处理。

丰富的工具包:

a.Amazon Pricing Calculator 在亚马逊云科技中国区域估算云使用成本
b.产品内置:购买界面内置多种选项建议,比如 Saving Plan,输入需求,自动给出建议。
c.云上财务管理 (CFM) 使组织能够调整其流程以实现最大的业务价值和财务成功,同时优化亚马逊云科技上的成本。
d.Amazon Cost Explorer 查看和分析您的成本和使用情况。该工具提供默认报告,可帮助您直观地查看成本和使用情况(例如账户,服务)或资源级别(例如 Amazon EC2 实例 ID)
e.Amazon Trusted Advisor,这是一种线上工具,可帮助您按照最佳实践在五个方面配置资源:成本优化、性能、安全性、容错和限制。建议定期使用 Amazon Trusted Advisor 以最佳方式维护您的解决方案。
f.Amazon Compute Optimizer 会为您的工作负载推荐最佳实例种类及規格大小,以降低成本并提高性能,并使用机器学习来分析历史利用率指标。过度配置资源会导致不必要的基础设施成本,而资源不足会导致应用程序性能不佳。帮助您根据您的利用率数据为三种类型的资源选择最佳配置:Amazon EC2 、Amazon EBS 、Amazon Lambda。
g.Amazon QuickSight 成本可视化方案

技术创新围绕客户价值

自底向上的基础技术创新-芯片

亚马逊云深耕客户 IT 多年,为云原生场景设计芯片,从减少虚拟化损耗开始,逐步接管客户通用负载、ML 负载:

Amazon Nitro:就是支持虚拟化的智能网卡,带火了 DPU 概念。快速创新,性能让利给客户
Amazon Graviton:基于 ARM 架构的 CPU,如今已经发展到可以在生态、性能方面赶超 x86的水平。
Amazon Trainum 和 Amazon Inferentia:分别是 ML 的训练和推理芯片,对比 NVIDIA GPU 性价比更高。

Amazon Nitro 加速应用性能

亚马逊云科技早在 2006 年就推出了 Amazon EC2 虚拟主机服务,早期可用的虚拟化技术只有 VMware 商业软件和开源的只有 Xen 技术,KVM 刚刚诞生还未成熟。

Xen 的虚拟化采用全虚拟化技术,也就是靠软件虚拟出内存、IO、外设等设备,CPU 性能损耗达 20-30%,主流云服务商都切换到了 KVM,2013 年收购了 Annapurna labs。还在忍受低效的老技术。被 VM 性能吊打两年后,终于在 2017 年发布了Amazon Nitro 和 Amazon Nitro hypervisor,实现优化虚拟化负载。

表-Amazon EC2 Virtualization Types

过去 KVM 软件虚拟化虽然实现了 SRIOV,但是 vNIC、vBlock 设备还是需要大量内核来处理设备 IO,与应用负载争抢 CPU 资源。负载的比例大概 10-20%。采用 Amazon Nitro 硬件虚拟化技术帮客户应用实现性能提升,同时意味着降低资源需求,降低成本:

Memcahed:Amazon Nitro 领先 9-26%
Nginx:领先 11-20%
MySQL:领先 6%

Amazon Nitro SSD 优化存储时延:从 0.08ms 降低到 0.02ms;数据库、ML 需要更低时延提升应用响应速度。过去应该采用商用方案,现在 Amazon Nitro 加速,实现 SSD 虚拟化,统一监控和管理,且降低时延。

Amazon EC2快速推出新实例

亚马逊云科技主要以服务形式提供给客户,后台技术迭代,客户不需要感知,一个产品系列类型可以收敛到 1-3 个形态。但计算产品不同,客户的应用会感知到 CPU 平台的差异,不同应用也有不同的需求,这导致 Amazon EC2 产品实例系列快速爆炸,比如 CPU 分为 Intel、AMD、ARM,内存分为1:2、1:4、1:8 和 1:16,加速器分为推理、训练、FPGA、媒体转码,此外还有 IO 增强,如网络增强、本地盘等形态。几种组合,每一代有数十种硬件架构形态。亚马逊云科技可以快速推出新实例,得益于Amazon Nitro 实现了虚拟化卸载。

自研 Amazon Graviton-高性能低价格

随着 Intel 这几年挤牙膏,服务器处理器的性价比提升放缓,尤其是能耗快速增长。亚马逊云科技推出 ARM 处理器 Amazon Graviton 2 和 3 系列。

最近分析 ARM 技术,推测应该采用的是 Nerverous V1 架构,代号 Zeus,比 N1 核性能提高 50%(实际 SVE 提升更大)

创新的云原生芯片设计理念:

  • 性能:单核内存带宽和时延
  • ML:BF16 和 INT8 方面遥遥领先
  • 能耗:功耗是 ARM 强项,效率比 x86 优 60%
  • 放弃:随着核心增加 NUMA 作为独木桥,越来越影响性能,干脆放弃NUMA
  • 场景:单 core 性能强劲,HPC、媒体转码场景具备优势;

Amazon Graviton 3 比 G2 增加 200 亿晶体管;但是处理器主频不增加,核数没变,推测战略定位如下:

  • 性能战略:选择了 V1 架构,意味着走了性能路线,主打 ML 和 HPC
  • 成本更高:Amazon Graviton 3 仅 64core,相比较而言行业其他处理器的核密度更高,Ampere AltraMax、Yitian、NVIDIA 分别是 128core 和 144core(2chips) 
  • 让利客户:Amazon G3 实例 C7g 定价只比上一代 Amazon G2 提高 5%;5nm 500 亿晶体管,比7nm 300 亿晶体管成本预计翻倍。

ML芯片赋能AI场景

  • 成本降低 70%
  • Alex 都已经转到 Inf1 实例
  • 成本降低 35%
  • 吞吐提升 2.3 倍

EFA 支持 SRD 协议,帮助客户优化 HPC、ML 并行能力,减少 TCP 通信开销占比。

云上创新技术赋能业务

AI 赋能业务

CTO 格言:每一行代码都是业务逻辑。从 OPPO 案例可以看到,采用云上 Amazon EC2-Inf1,快速构建语音助手的案例。

智能运维

亚马逊云科技利用自身电商积累的经验,通过亚马逊云科技云服务帮助客户运维。包括对事件的分析、响应进行的机器学习.比如 trusted advisor,为客户提供超过 5000 万智能运维推荐。根据 Amazon 电商积累的经验,输出给客户,此外还有 IEM 等工具。

数据价值

数据为客户创造这块儿也很精彩,可以让只懂 SQL 的人玩转 AI。先不做详述,我把回放链接放在文末,感兴趣可以了解下。

数据服务提供:

冷热数据快速恢复
数据备份、安全
Amazon S3-redshift,打通湖与仓
数据安全,审计策略
用 SQL 实现 ML 创新

思考和启发

因为价值所以选择

通过为客户节约成本,创造业务价值,让亚马逊云科技受到全球用户欢迎。另外,云计算消耗占半壁江山的互联网企业,告别内卷奔赴全球化是 2022 年主题,全球化需要强大的安全、合规特性产品能力,需要全球网络。因此国内企业出海纷纷选择亚马逊云科技。

根据统计报告,虽然在国内市场亚马逊云科技只占 6%,但加上中国企业出海份额占到了 26%,足以说明亚马逊云科技强大的竞争力和客户粘性。

亚马逊云科技的秘籍你能学会吗

IT 服务商存在的意义就是为客户创造价值。最后我提几个问题,你的企业文化真的是客户第一吗?今年营收 KPI 和客户粘性需要牺牲一个,你怎么选择?

推荐阅读
关注数
4194
内容数
887
SegmentFault 思否旗下人工智能领域产业媒体,专注技术与产业,一起探索人工智能。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息