作者:Piyush Singh , Mostafa Mokhtar , Shankar Sivadasan
2022年4月18日
今天,我们很高兴地宣布Databricks对基于AWS Graviton2的亚马逊弹性计算云(Amazon EC2)实例的支持的公开预览。Graviton处理器由AWS进行定制设计和优化,为运行在Amazon EC2上的云工作负载提供最佳性价比。当与高性能DataRicks查询引擎Photon一起使用时,基于Graviron2的亚马逊EC2实例可以为您的data lakehouse工作负载提供比同类亚马逊EC2实例高3-4倍的性价比。在这篇博文中,我们将介绍Photon 与Graviton2的性价比,并为您提供进一步降低AWS基础设施成本的其他建议。
Photon 和Graviton2的性价比
为了确定Photon和Graviton2的性价比,我们在基于Graviton2的R6gd EC2实例和类似的I3 EC2实例上进行了一个简单测试,运行两种不同的工作负载(TPC-DS和带有批量插入和合并语句的标准ETL工作负载)。我们发现,对于EC2实例,仅Photon引擎就显著提高了性价比。但基于Graviton2的实例上的Photon更进一步,与I3实例上以前的Databricks运行时相比,ETL工作负载的性价比提高了3.3倍,TPC-DS工作负载的性价比提高了3.7倍。尝试基于Graviton2实例的客户报告了类似的结果,并分享了我们的兴奋!下面是一位Databricks客户的一句话,他碰巧对基于实例的Arm了如指掌。
Arm生产力工程业务副总裁Mark Galbraith说:“云计算正在推动半导体设计领域的重大创新,通过将我们的设计工作量转移到基于Arm的AWS Graviton2实例上,提供显著的性价比提升,我们亲眼看到了Arm Neoverse N1平台带来的好处。”。“这一点对于Graviton 2上的Databricks尤为明显,我们期待着将Databricks的生产使用迁移到Graviton 2上,以进一步增强用户体验并降低成本。”
Photon和Graviton2的性价比比较
通过Amazon EC2 Spot实例和Amazon EBS gp3卷支持,进一步节约了成本
除了Graviton2和Photon之外,还有其他方法可以提高AWS上Databricks工作负载的性价比。这些措施包括:
Amazon EC2 Spot Instances–Spot Instances可让您充分利用EC2的闲置容量,与按需价格相比,可享受高达90%的折扣。根据工作负载的性质,您可以使用Spot实例替换DataRicks集群中的按需或保留EC2实例,从而节省成本。
Amazon EBS gp3卷——存储可能是云基础设施成本的一大部分。Databricks支持gp3卷(https://databricks.com/blog/2...)。Amazon Elastic Block Store(Amazon EBS)的gp3 SSD卷使您能够提供独立于存储容量的性能,每GB的性价比比现有的gp2卷高20%。
要了解有关性价比优化的更多信息,请阅读我们的群集最佳实践文档。
(https://docs.databricks.com/clusters/cluster-config-best-practices.html?_ga=2.39323047.586000877.1650811897-1256218973.1650811879)
从Graviton开始
基于AWS Gravion2的公共预览实例支持目前正在推出,并将在未来几周在所有受支持的地区提供。要开始并获得迁移到Graviton 2和Photon的指导,请阅读我们的Graviton文档(https://docs.databricks.com/clusters/graviton.html?_ga=2.5702327.586000877.1650811897-1256218973.1650811879)。