用于深度学习和科学计算的计算框架是专门的工作负载,需要专门的计算形状。甲骨文云基础设施(OCI)提供从裸机到虚拟机(VM)GPU形状的多种选择。NVIDIA GPU云(NGC)是OCI上可用选项的一个例子。
架构
您可以使用此参考架构来支持多种与深度学习和科学计算相关的应用程序。
在这个示例中,它用于NVIDIA Clara Parabricks。Clara Parabricks是一个支持基因组学应用的计算框架。作为一种基于GPU的解决方案,它加速了分析整个基因组的过程。例如,在不到一小时内就可以分析人类染色体中的所有30亿个碱基对。Clara Parabricks可以确定蛋白质折叠、蛋白质-配体结合和细胞膜运输等模式,使其成为药物研究和发现的有用应用程序。
NVIDIA Clara Parabricks包括以下特性:
• 使用NVIDIA的CUDA、HPC、AI和数据分析堆栈。
• C++和Python API、参考应用程序,以及与第三方应用程序和工作流的集成,用于基因组学中的高性能计算、深度学习和数据分析工具。
• 使用Clara Parabricks工具包开发AI辅助工作流,优化从头开始的基因组组装的映射、对齐和抛光。
在这个简单的参考中,一个带有块存储的GPU节点部署在一个拥有公共子网和互联网网关的虚拟云网络(VCN)中。所有应用程序都存储在块存储中。
以下图表展示了这一参考架构。
架构包含以下组件:
地域
• 甲骨文云基础设施地域是一个地理区域,包含一个或多个数据中心,称为可用性域。地域彼此独立,相距遥远(跨越国家甚至大洲)。
可用性域
• 可用性域是区域内独立的、相互独立的数据中心。每个可用性域中的物理资源与其他可用性域的资源隔离,这提供了故障容错。可用性域不共享基础设施,如电力或冷却,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该地区的其他可用性域。
故障域
• 故障域是一个可用性域内的硬件和基础设施分组。每个可用性域有三个故障域,拥有独立的电力和硬件。在多个故障域中分布资源时,您的应用程序可以承受物理服务器故障、系统维护和故障域内的电力故障。
虚拟云网络(VCN)和子网
• VCN是您在甲骨文云基础设施地域中设置的可定制的软件定义网络。像传统数据中心网络一样,VCN让您完全控制您的网络环境。VCN可以拥有多个不重叠的CIDR块,您可以在创建VCN后更改这些块。您可以将VCN划分为子网,这些子网可以限定在一个地域或一个可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。
云守卫
• 您可以使用甲骨文云守卫来监控和维护您在甲骨文云基础设施中资源的安全。云守卫使用您可以定义的检测器配方来检查资源的安全弱点,并监控操作员和用户的高风险活动。当检测到任何错误配置或不安全活动时,云守卫会推荐纠正措施,并根据您可以定义的响应者配方帮助执行这些措施。
裸金属GPU
• 使用裸金属GPU形状进行硬件加速的分析和其他计算。
块存储
• 在块存储中存储您的应用程序。
互联网网关
• 互联网网关允许VCN中的公共子网与公共互联网之间的流量。
安全列表
• 对于每个子网,您可以创建安全规则,指定必须允许进出子网的流量的来源、目的地和类型。
路由表
• 虚拟路由表包含从子网到VCN外部目的地的流量路由规则,通常通过网关。
建议
您的需求可能与此处描述的架构不同。使用以下建议作为起点。
VCN
• 创建VCN时,根据您计划连接到VCN子网的资源数量,确定所需CIDR块的数量和每个块的大小。使用标准私有IP地址空间内的CIDR块。
• 选择不与任何您打算建立私有连接的其他网络(在甲骨文云基础设施、您的本地数据中心或其他云提供商中)重叠的CIDR块。
• 创建VCN后,您可以更改、添加和删除其CIDR块。
• 设计子网时,考虑您的流量流和安全需求。将特定层或角色内的所有资源连接到同一子网,这可以作为安全边界。
安全列表
• 使用安全列表定义适用于整个子网的入口和出口规则。
云守卫
• 克隆并自定义甲骨文提供的默认配方,以创建自定义检测器和响应者配方。这些配方使您能够指定哪些类型的安全违规会生成警告,以及允许对它们执行哪些操作。例如,您可能希望检测将可见性设置为公共的对象存储桶。
• 在租户级别应用云守卫,以覆盖最广泛的范围,并减少维护多个配置的管理负担。
• 您还可以使用托管列表功能将某些配置应用于检测器。
裸金属GPU
• 为了获得最佳性能,使用裸金属形状BM.GPU2.2或BM.GPU3.8。
考虑因素
部署此参考架构时,请考虑以下几点。
性能
• 为了获得最佳性能,请选择带宽适当的正确计算形状。
可用性
• 根据您的部署需求和地域,考虑使用高可用性选项。选项包括在一个地域中使用多个可用性域和故障域。
成本
• 裸金属GPU实例提供所需的CPU功率,但成本较高。评估您的需求以选择合适的计算形状。
监控和警报
• 为您的节点设置CPU和内存使用的监控和警报,以便根据需要对形状进行扩展或缩减。
部署
这个参考架构的Terraform代码可在GitHub上获取。您可以一键将代码拉入甲骨文云基础设施资源管理器,创建堆栈并部署。或者,您可以将代码从GitHub下载到您的计算机,自定义代码,然后使用Terraform CLI部署架构。
• 使用甲骨文云基础设施资源管理器中的样例堆栈进行部署:
a. 点击,若您尚未登录,请输入租户和用户凭证。
b. 查看并接受条款和条件。
c. 选择您想部署堆栈的区域。
d. 按照屏幕提示和指示创建堆栈。
e. 创建堆栈后,点击Terraform操作,并选择计划。
f. 等待工作完成,并审查计划。
g. 如需进行任何更改,请返回到堆栈详情页面,点击编辑堆栈,并进行必要更改。然后,再次运行计划操作。
h. 如果不需要进一步更改,请返回到堆栈详情页面,点击Terraform操作,并选择应用。
• 使用GitHub中的Terraform代码进行部署:
a. 访问GitHub。
b. 克隆或下载仓库到您的本地电脑。
c. 按照README文件中的指示操作。
开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴
作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。
Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。
利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。
Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门