欢迎访问深圳敏捷云计算科技有限公司!

高效能计算:在甲骨文云OCI基础设施上运行的STAR-CCM+ 助力突破性能极限

2024-03-20 原创文章

西门子Simcenter STAR-CCM+ 是一款全面的多物理场解决方案,用于产品和设计的仿真。

架构

该架构使用一个基准/主节点来连接HPC集群。

主节点包含STAR-CCM+安装和模型。它具备消息传递接口(MPI),并且协调并运行任务。任务结果保存在主节点上。

下图展示了此参考架构。

该架构包括以下组件:

地域

Oracle云基础设施地域是一个包含一个或多个数据中心的地理区域,这些数据中心称为可用性域。地域彼此独立,相隔很远(跨越国家甚至大洲)。

可用性域

可用性域是地域内独立的、独立的数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,这提供了容错能力。可用性域不共享基础设施,如电力或冷却,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该地区的其他可用性域。

故障域

故障域是一个可用性域内的硬件和基础设施分组。每个可用性域有三个具有独立电源和硬件的故障域。当您将资源跨多个故障域分布时,您的应用程序可以承受物理服务器故障、系统维护和故障域内的电力故障。

虚拟云网络(VCN)和子网

VCN是您在Oracle云基础设施地域中设置的可定制的、软件定义的网络。与传统数据中心网络一样,VCN使您可以完全控制网络环境。VCN可以有多个不重叠的CIDR块,您在创建VCN后可以更改这些块。您可以将VCN分割成子网,这些子网可以限定在一个地域或一个可用性域。每个子网由不与VCN中其他子网重叠的地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。

安全列表

对于每个子网,您可以创建安全规则,指定必须允许进出子网的流量的源、目的地和类型。

实例池

实例池使您可以在同一地域内以群组形式创建和管理多个计算实例。它们还支持与其他服务的集成,如负载均衡服务和IAM服务。

基准节点/主节点

使用基于Web的门户连接到主节点并安排HPC作业。作业请求通过FastConnect或IPSec VPN传输至主节点。主节点还将客户数据集发送到文件存储,并可以对数据进行一些预处理。

主节点配置HPC节点集群并在作业完成后删除HPC集群。

HPC集群节点

主节点配置并终止这些计算节点,这些计算节点是支持RDMA的集群。它们处理存储在文件存储中的数据,并将结果返回到文件存储。

云守卫

您可以使用Oracle Cloud Guard监控和维护云中资源的安全性。Cloud Guard检查您的资源以发现与配置相关的安全弱点,并监控操作者和用户的高风险活动。当识别出任何安全问题或风险时,Cloud Guard会推荐纠正措施,并根据您可以定义的安全配方协助您采取这些措施。

NFS服务器

将其中一个HPC节点升级为NFS服务器。

建议

您的需求可能与此处描述的架构不同。以下建议可作为起点。

VCN

创建VCN时,根据您计划附加到VCN子网中的资源数量,确定所需的CIDR块数量及每个块的大小。使用标准私有IP地址空间内的CIDR块。

选择不与您打算建立私有连接的任何其他网络(在Oracle云基础设施、您的本地数据中心或其他云提供商)重叠的CIDR块。

创建VCN后,您可以更改、添加和移除其CIDR块。

设计子网时,考虑您的流量流动和安全需求。将特定层或角色内的所有资源附加到同一个子网,可以作为安全边界。

安全

使用Oracle Cloud Guard主动监控和维护您在OCI中的资源安全。Cloud Guard使用您可以定义的检测器配方来检查您的资源以寻找安全弱点,并监控操作者和用户的高风险活动。当检测到任何错误配置或不安全活动时,Cloud Guard会推荐纠正措施,并根据您可以定义的响应配方协助这些措施。

对于需要最高安全级别的资源,Oracle建议您使用安全区。安全区是与Oracle定义的基于最佳实践的安全策略配方相关联的区域。例如,安全区内的资源必须不对公共互联网可访问,并且必须使用客户管理的密钥进行加密。在安全区内创建和更新资源时,Oracle云基础设施会根据安全区配方中的策略验证操作,并拒绝违反任何策略的操作。

HPC节点

有两种场景:

a. 使用实例池在VM形状上部署,如架构图所示。这种场景提供较低成本但也较低性能。

b. 使用VM.Standard.E3.Flex或VM.Standard.E4.Flex与文件存储服务。

c. 使用HPC裸金属形状部署以获得全部性能。

d. 使用BM.HPC2.36形状,每个节点具有6.4 TB本地NVMe SSD存储、36核和384 GB内存。

考虑因素

部署此参考架构时,请考虑以下几点。

性能

根据工作负载的大小,确定您希望OpenFOAM运行在多少核心上。这一决定确保了模拟能够及时完成。

为了获得最佳性能,选择具有适当带宽的正确计算形状。

可用性

根据您的部署需求和地域,考虑使用高可用性选项。选项包括在一个地区使用多个可用性域和故障域。

成本

裸金属GPU实例提供必要的CPU功率,但成本更高。评估您的需求以选择合适的计算形状。

当没有作业运行时,您可以删除集群。

监控和警报

为节点的CPU和内存使用情况设置监控和警报,以便根据需要扩展或缩减形状。

存储

除了HPC形状自带的NVMe SSD存储外,您还可以附加每个卷32k IOPS的块卷,由Oracle的最高性能SLA支持。如果您使用我们的解决方案来启动基础设施,默认情况下在/mnt的NVMe SSD存储上安装了nfs-share。根据您的性能需求,您也可以在NVMe SSD存储或块存储上安装自己的并行文件系统。

可视化节点

您可以根据需求创建一个可视化节点,例如GPU虚拟机(VM)或裸金属节点。这个可视化节点可以是您的基准主机或单独的。根据工作负载的安全需求,可视化节点可以放置在私有或公共子网中。

                     

部署

部署此参考架构所需的代码可在GitHub上获得。您可以一键将代码拉入Oracle云基础设施资源管理器,创建堆栈并部署。或者,从GitHub下载代码到您的电脑,自定义代码,并通过Terraform命令行界面(CLI)部署架构。

使用Oracle云基础设施资源管理器部署:

a. 点击,如果您尚未登录,输入租户和用户凭证。

b. 阅读并接受条款和条件。

c. 选择您希望部署堆栈的地域。

d. 按照屏幕上的提示和说明创建堆栈。

e. 创建堆栈后,点击Terraform操作,并选择计划。

f. 等待作业完成,并审查计划。

g. 如需进行任何更改,返回至堆栈详情页面,点击编辑堆栈,并进行必要更改。然后,再次运行计划操作。

h. 如果不需要进一步更改,返回至堆栈详情页面,点击Terraform操作,并选择应用。

使用GitHub中的Terraform代码部署:

a. 访问GitHub。

b. 克隆或下载仓库到您的本地电脑。

c. 遵循README文档中的说明操作。

开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。

Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。

利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门