欢迎访问深圳敏捷云计算科技有限公司!

将本地日志存储并在甲骨文云OCI基础设施中进行深度分析:数据驱动的智能决策之路

2024-04-11 原创文章

甲骨文云基础设施数据流是一个完全托管的Apache Spark™服务,非常适合处理大量的日志文件。日志文件始终在生成。从硬件、操作系统、网络设备、Web服务到应用程序,都不断地生成日志。分析这些日志数据有助于故障排除和诊断、预测性维修、入侵检测、Web访问模式等多种应用。


数据流允许将日志数据集中存储在甲骨文云基础设施对象存储中。它通过创建一次Apache Spark应用程序,然后在对象存储中新到达的日志文件上运行该应用程序,实现数据的分析。这项分析的输出随后可以加载到自动化数据仓库中进行查询和报告。所有这些都无需诸如配置集群或软件安装等开销。


架构

该架构展示了数据流连接到对象存储,分析日志文件,并将结果保存在自动化数据仓库中以供报告。以下图表说明了这一参考架构。

该架构包含以下组件:


区域

  • 甲骨文云基础设施区域是一个包含一个或多个数据中心的地理区域,这些数据中心称为可用性域。区域彼此独立,可能相隔很远(跨越国家甚至大洲)。

可用性域

  • 可用性域是区域内的独立、独立的数据中心。每个可用性域中的物理资源与其他可用性域的资源隔离,从而提供故障容忍。可用性域不共享基础设施,如电源或冷却系统,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该区域内其他可用性域。

故障域

  • 故障域是可用性域内的硬件和基础设施分组。每个可用性域有三个故障域,各自拥有独立的电源和硬件。当您在多个故障域中分布资源时,您的应用程序可以容忍故障域内的物理服务器故障、系统维护和电源故障。

虚拟云网络(VCN)和子网

  • VCN是您在甲骨文云基础设施区域中设置的可自定义的软件定义网络。与传统数据中心网络一样,VCN使您能够完全控制您的网络环境。VCN可以有多个不重叠的CIDR块,您可以在创建VCN后更改它们。您可以将VCN分割成子网,这些子网可以是区域范围或可用性域范围。每个子网由不与VCN中其他子网重叠的连续地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。

对象存储

  • 对象存储提供对大量结构化和非结构化数据的快速访问,包括数据库备份、分析数据和丰富内容,如图像和视频。使用标准存储作为您需要快速、即时和频繁访问的“热”存储。使用归档存储作为您长时间保留并很少或几乎不访问的“冷”存储。

自动化数据仓库

  • 甲骨文自动化数据仓库是一个自驾、自保护、自修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。甲骨文云基础设施负责创建数据库,以及数据库的备份、修补、升级和调优。

数据流

  • 甲骨文云基础设施数据流是一个完全托管的服务,用于运行Apache Spark™应用程序。它允许开发人员专注于他们的应用程序,并提供一个简单的运行环境来执行它们。它具有简单易用的用户界面,支持API集成应用程序和工作流。您无需花费时间在底层基础设施、集群配置或软件安装上。

                   


建议

您的需求可能与此处描述的架构不同。以下建议可作为起点。

VCN

  • 创建VCN时,根据您计划附加到VCN子网中的资源数量,确定所需的CIDR块数量和每个块的大小。使用位于标准私有IP地址空间内的CIDR块。
  • 选择不与您打算建立私有连接的任何其他网络(在甲骨文云基础设施、您的本地数据中心或其他云提供商)重叠的CIDR块。
  • 创建VCN后,您可以更改、添加和删除其CIDR块。
  • 在设计子网时,考虑您的流量流和安全需求。将特定层或角色内的所有资源附加到同一个子网,它可以作为安全边界。

对象存储

  • 将所有日志文件输入到甲骨文云基础设施对象存储。根据业务需求确定合适的批处理大小,并运行数据流应用程序处理文件。

数据流

  • 无需特殊配置。然而,根据每次应用程序运行中处理的日志数据量,建议为Spark驱动程序和执行器选择更大的VM形状。
  • 甲骨文自动化数据仓库
  • 确保用于访问数据仓库的钱包存放在安全的地方,并且只能被授权用户访问。部署自动化数据仓库的一个考虑因素是在VCN中以私有端点的形式创建它。

安全性

  • 使用甲骨文云基础设施身份和访问管理解决方案来应用政策并为用户、组和资源提供访问权限。Spark应用程序将需要访问存储桶以读取日志文件。使用保险库服务存储用于访问自动化数据仓库的密码。



考虑因素

频率

  • 您执行应用程序的频率取决于进入日志文件的体积和频率。Spark应用程序应该编写合适的逻辑,以便处理这批即将到来的数据。一个一般的指导原则是,处理每批数据所需的时间应与下游服务消耗处理后输出在自动化数据仓库中所需的刷新频率保持一致。

性能

  • 影响性能的因素有很多,但最重要的是进入日志文件的数据分布和分区。Spark应用程序可以针对每个分区并行运行,根据需要使用OCPU和内存资源。甲骨文云基础设施数据流为每次应用程序执行所需的资源管理提供了完全的弹性。

安全性

  • 使用政策限制谁可以访问甲骨文云基础设施资源以及访问程度。使用甲骨文云基础设施身份和访问管理(IAM)为数据流及其运行管理中的特定用户和用户组分配权限。
  • 甲骨文云基础设施对象存储默认启用加密,且不能关闭。

成本

  • 甲骨文云基础设施数据流是按使用付费的,因此您只在运行数据流应用程序时支付费用,而不是在创建时。建议使用不同层级存储日志:对象存储(“热”存储)和归档存储(“冷”存储)。处理后的数据可以存储在自动化数据仓库中。



部署

此参考架构的Terraform代码可在GitHub上找到。

  1. 访问GitHub。
  2. 克隆或下载仓库到您的本地电脑。
  3. 按照README文档中的指示操作。



开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。


Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。


利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。


Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门