欢迎访问深圳敏捷云计算科技有限公司!

部署IBM Spectrum LSF:为甲骨文云OCI配置资源连接器的全新解决方案

2024-01-15 原创文章

在高性能计算(HPC)环境中,通过IBM Spectrum LSF资源连接器自动扩缩功能动态调整分配给工作负载的资源数量,解决固定资源分配问题。这样可以根据实际需求优化资源使用,降低成本,提高整体效率。

IBM Spectrum LSF(负载共享设施)是一个用于分布式计算环境的工作负载管理平台。它允许用户在计算机网络或计算集群中管理和调度计算任务,确保任务高效且无干扰地完成。

IBM Spectrum LSF的资源连接器功能(之前称为主机工厂)使LSF集群能够从支持的资源提供者那里借用资源。当工作负载较低时,LSF使用资源连接器减少分配的资源数量,节约成本并提高利用率。当工作负载较高时,从云提供商那里请求更多资源。请注意,部署此架构需要管理权限。

架构设计

本参考架构展示了在现有子网中部署的IBM Spectrum LSF集群,包括主机、集群节点(当资源连接器调用OCI API时按需创建)和堡垒服务。LSF主机需要instance_principal授权来与OCI API交互,并具有默认配置(VM.Standard.E4.Flex / 2 OCPUs / 8 GBs),可在堆栈创建过程中调整。

LSF资源连接器为动态队列预配置,可以根据作业需求从OCI API请求两种类型的计算资源(amd2 - VM.Standard.E3.Flex / 2 OCPUs / 4 GBs 和 amd4 - VM.Standard.E4.Flex / 2 OCPUs / 8 GBs)。资源连接器可使用的模板可以在LSF配置文件中修改

(<lsf_top>/conf/resource_connector/oci/conf/oci_config.json  和 <lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json,并通过以下命令重新加载集群配置:


资源连接器从OCI请求的默认最大主机数量是每个可用模板的八个(如果需要更多节点,可以在文件<lsf_top>/conf/resource_connector/oci/conf/ociprov_templates.json中更改maxNumber)。

建议的部署方法是通过Oracle Cloud Infrastructure资源管理器使用一键部署链接。下图展示了这一参考架构。


架构组件

租户:

Oracle Cloud中的租户是Oracle在你注册Oracle Cloud Infrastructure时设置的安全且独立的分区。在你的租户内,你可以创建、组织和管理Oracle Cloud中的资源。租户相当于一个公司或组织。通常,一个公司将拥有一个单独的租户,并在该租户内反映其组织结构。一个租户通常与一个订阅相关联,而一个订阅通常只有一个租户。

区域:

Oracle Cloud Infrastructure的区域是包含一个或多个数据中心(称为可用性域)的本地化地理区域。各个区域相互独立,相距可能很远(跨越国家甚至大洲)。

分区:

分区是Oracle Cloud Infrastructure租户内的跨区域逻辑分区。使用分区来在Oracle Cloud中组织资源、控制对资源的访问并设置使用配额。要控制对给定分区中资源的访问,你需要定义规定谁可以访问资源以及他们可以执行什么操作的策略。

可用性域:

可用性域是区域内独立的数据中心。每个可用性域中的物理资源与其他可用性域中的资源隔离,提供了故障容忍。可用性域不共享如电力或冷却等基础设施,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该区域内的其他可用性域。

故障域:

故障域是可用性域内的硬件和基础设施分组。每个可用性域有三个故障域,拥有独立的电源和硬件。在多个故障域中分配资源时,你的应用程序可以容忍物理服务器故障、系统维护和故障域内的电源故障。

虚拟云网络(VCN)和子网:

VCN是你在Oracle Cloud Infrastructure区域设置的可定制、软件定义的网络。就像传统的数据中心网络一样,VCN让你完全控制你的网络环境。VCN可以拥有多个不重叠的CIDR块,你可以在创建VCN后更改这些块。你可以将VCN分割成子网,这些子网可以限定在一个区域或一个可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。你可以在创建后更改子网的大小。子网可以是公共的或私有的。

对于每个子网,你可以创建安全规则,指定必须允许进出子网的流量的来源、目的地和类型。

NAT网关使VCN中的私有资源能够访问互联网上的主机,同时不会将这些资源暴露给来自互联网的入站连接。

服务网关

服务网关提供了从VCN到其他服务(如Oracle Cloud Infrastructure对象存储)的访问。从VCN到Oracle服务的流量通过Oracle网络结构传输,不经过互联网。

互联网网关

互联网网关允许VCN中的公共子网与公共互联网之间的流量传输。

堡垒服务

Oracle Cloud Infrastructure堡垒提供对不具备公共端点且需要严格资源访问控制的资源的受限和有时限的安全访问,如裸机和虚拟机、Oracle MySQL数据库服务、自动事务处理(ATP)、Oracle容器引擎Kubernetes (OKE),以及任何其他允许安全壳协议(SSH)访问的资源。使用Oracle Cloud Infrastructure堡垒服务,你可以在不部署和维护跳板机的情况下启用对私有主机的访问。此外,你将获得更好的安全姿态,包括基于身份的权限和中心化、审计的、有时间限制的SSH会话。Oracle Cloud Infrastructure堡垒服务消除了使用公共IP进行堡垒访问的需要,减少了在提供远程访问时的麻烦和潜在的攻击面。

身份和访问管理(IAM)

Oracle Cloud Infrastructure身份和访问管理(IAM)是Oracle Cloud Infrastructure(OCI)和Oracle Cloud应用程序的访问控制平面。IAM API和用户界面使你能夠管理身份域和身份域内的资源。每个OCI IAM身份域代表一个独立的身份和访问管理解决方案或不同的用户群体。

Oracle Cloud Infrastructure资源管理器

OCI资源管理器自动化所有OCI资源的部署和运营。使用基础设施即代码(IaC)模型,该服务基于Terraform。

建议

以下建议可作为确保LSF集群可扩展性和可用性的起点,您的需求可能与此处描述的架构不同。

虚拟云网络(VCN)和子网

  • 当选择现有子网时,需要考虑足够大的CIDR块,以容纳LSF资源连接器请求的所有计算资源。
  • 在多可用性域区域中使用区域子网。
  • 允许子网内的所有通信(向子网的安全列表中添加规则,允许来自子网CIDR块的所有入站连接到所有目的端口)。

部署考虑因素

在部署时,考虑以下方面。

IBM Spectrum LSF二进制文件

  • 需要安装/运行LSF的二进制文件和许可证并未包含在内。此部署已经过LSF版本10.1和补丁版本601088的测试。
  • 部署前,你可以从IBM支持门户下载以下文件,将它们加载到OCI对象存储桶中,并创建预授权请求:
  • lsf10.1_lsfinstall.tar.Z
  • lsf10.1_lnx310-lib217-x86_64.tar.Z
  • lsf10.1_lnx310-lib217-x86_64-601088.tar.Z
  • lsf_entitlement.dat

虚拟云网络(VCN)

  • 必须为用于LSF主节点的VCN和子网启用DNS解析。

部署

在GitHub上提供了部署解决方案的Terraform代码。

  1. 访问GitHub。
  2. 克隆或下载仓库到你的本地计算机。
  3. 按照README文档中的说明操作。

开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。

Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。

利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。

如您想咨询 Oracle 的相关业务,可联系搜索微信号:lhh1843812463woshiwhw123

或者可以进入以下群组进行咨询:

微信公众号

微信技术交流社群: