--> 构建甲骨文云OCI多云数据湖:一体化集成架构的实现
欢迎访问深圳敏捷云计算科技有限公司!

构建甲骨文云OCI多云数据湖:一体化集成架构的实现

2024-01-17 原创文章

这个参考架构展示了组织如何将来自多个源的数据集成到Oracle云基础设施(OCI)数据湖中。

此参考架构代表了大型企业组织的一个用例,这些组织的业务策略包括作为长期增长计划的一部分收购新组织。该组织正在建设一个带有分析平台的数据湖,成本分析是范围内的一个模块。

该组织已经实施了Oracle Fusion Cloud应用程序用于财务管理,发票数据存储于此。

该组织最近收购了一家新公司,正在使用亚马逊网络服务(AWS)托管发票处理应用程序。有一个需求,将发票数据从AWS带到Oracle云基础设施(OCI),在此数据湖已实施,并在加载到数据湖之前,丰富高容量发票数据与成本中心/供应商信息。成本中心数据源自Oracle Fusion Cloud应用程序,供应商数据源自本地MySQL数据库。

架构

这个参考架构描述了如何将不同云提供商和本地数据源的数据带到托管在OCI的数据湖中。这个架构涵盖了批量集成、数据集成、实时集成和基于事件的集成场景。

以下图表说明了此参考架构的数据流程。


OCI数据集成:

  1. 通过原生适配器连接并提取数据:从AWS服务和Azure服务。通过私有连接(FastConnect/VPN)从本地数据源。通过BICC连接器从Oracle SaaS应用程序。
  2. 对提取的数据执行转换。
  3. 通过适配器(ADB/对象存储)将数据加载到OCI数据湖中。

Oracle集成云:

  1. 通过原生适配器从各种源系统接收实时数据,如Oracle SaaS应用程序/IOT/流媒体服务/社交媒体/本地系统/其他云提供商。
  2. 执行转换/编排逻辑。
  3. 通过适配器(ADB/对象存储)将数据加载到OCI数据湖中。

以下图表说明了此参考架构。

Oracle数据集成服务用于以下场景:

  • 通过从多个异构源系统捕获数据并集成到单一持久存储中来整合数据。这通常是通过提取、转换和加载(ETL)程序实现的。
  • 从源系统提取大量数据(HDFS、Oracle自主数据库、MySQL、Oracle数据库、Azure Synapse、AWS Redshift、对象存储、S3、Microsoft SQL、PostgreSQL等),这些系统托管在私有/公共网络(客户本地、第三方云网络(Azure VNet、AWS VPC))中,然后加载到OCI数据湖中。
  • 通过BICC/BI Publisher连接器从Oracle Fusion Cloud应用程序提取数据,然后加载到OCI数据湖中。
  • 使用编排模式从多个源提取大量数据。
  • 实施计划(每日、每月、每周、每月、cron表达式等)ETL作业。

Oracle集成云(OIC)用于以下场景:

  • 从Oracle云应用程序、CRM、电子商务和本地/第三方云应用程序实时接收数据,然后加载到数据湖中。
  • 从由数据源生成的文件(体积较小)中加载数据到数据湖中。
  • 向Webhook平台公开Oracle集成云REST API,实时接收数据并加载到数据湖中。
  • 一些IOT平台(如Geotab、CheckSafe等)具有Webhook功能,可将数据发送到任何https API以获取新事件,因此可以直接连接到API网关。
  • 从社交媒体平台(如Facebook、LinkedIn、Twitter、Slack等)接收数据并加载到OCI数据湖中。

Oracle API网关用于以下场景:

  • 发布具有私有端点的OIC API和应用程序API,这些端点可以在您的网络内访问,或者根据需要对公共互联网公开。端点支持API验证、请求和响应转换、CORS、身份验证和授权以及请求限制。
  • 在API开发中解耦安全性和业务逻辑。
  • 向具有安全控制的受限来源公开API,这些来源可能将数据提供给下游数据湖。


该架构包含以下组件:

区域

Oracle云基础设施区域是一个地理区域,包含一个或多个称为可用性域的数据中心。各个区域相互独立,可能相隔遥远(跨越国家或大洲)。

可用性域

可用性域是区域内独立的数据中心。每个可用性域内的物理资源与其他可用性域的资源隔离,提供容错能力。可用性域不共享基础设施,如电源或冷却系统,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该区域内的其他可用性域。

虚拟云网络(VCN)和子网

VCN是您在Oracle云基础设施区域中设置的可自定义的软件定义网络。与传统数据中心网络一样,VCN让您完全控制网络环境。VCN可以有多个不重叠的CIDR块,在创建VCN后可以更改。您可以将VCN分割成子网,这些子网可以范围到区域或可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。创建后可以更改子网的大小。子网可以是公共的或私有的。

集成

Oracle集成是一个完全托管的服务,允许您集成应用程序、自动化流程、洞察业务流程,并创建可视化应用程序。

Oracle数据集成

Oracle云基础设施数据集成是一种完全托管的、无服务器的、云原生服务,可以从多种数据源提取、加载、转换、清洁和重塑数据到目标Oracle云基础设施服务,如自治数据仓库和Oracle云基础设施对象存储。ETL(提取转换加载)利用Spark上的完全托管扩展处理,而ELT(提取加载转换)利用自治数据仓库的完整SQL下推功能来最小化数据移动并提高新摄入数据的价值时间。用户可以使用直观的、无代码用户界面设计数据集成流程,优化集成流程以生成最有效的引擎和编排,自动分配和扩展执行环境。Oracle云基础设施数据集成提供交互式探索和数据准备,并帮助数据工程师通过定义规则来应对模式变化,处理模式变更。

Oracle商务智能云连接器

Oracle BI云连接器(BICC)是一个从Fusion中提取数据并存储在如Oracle通用内容管理(UCM)服务器或云存储中CSV格式的共享资源中的有用工具。

OIC连接代理

使用OIC连接代理,您可以创建混合集成,并在私有或本地网络中的应用程序与Oracle集成云之间交换消息。

数据湖

数据湖是一个可扩展的、集中式存储库,可以存储原始数据,并使企业能够在成本效益高、弹性的环境中存储所有数据。数据湖为存储原始数据提供了灵活的存储机制。

对象存储

对象存储提供快速访问大量结构化和非结构化数据,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全、可靠地存储数据,然后直接从互联网或云平台内检索数据。您可以无缝扩展存储,同时不会遇到性能或服务可靠性下降。对于需要快速、立即、频繁访问的“热”存储,使用标准存储;对于长时间保留且很少或几乎不访问的“冷”存储,使用归档存储。

自主数据库

Oracle云基础设施自主数据库是一种完全托管、预配置的数据库环境,适用于交易处理和数据仓库工作负载。您无需配置或管理任何硬件,也无需安装任何软件。Oracle云基础设施负责创建数据库,并进行备份、打补丁、升级和调优。

分析

Oracle分析云是一个可扩展且安全的公共云服务,为商业分析师提供现代的、AI驱动的、自助式的分析能力,用于数据准备、可视化、企业报告、增强分析以及自然语言处理和生成。使用Oracle分析云,您还可以获得灵活的服务管理能力,包括快速设置、轻松扩展和打补丁以及自动化的生命周期管理。

数据目录

Oracle云基础设施数据目录是一种完全托管的、自助式的企业数据发现和治理解决方案。它为数据工程师、数据科学家、数据管理员和首席数据官提供了一个单一的协作环境,用于管理组织的技术、商业和运营元数据。

建议

以下建议可作为起点。您的需求可能与此处描述的架构不同。

安全

所有连接通过私有网络建立,所有ETL事务通过FastConnect路由到本地,通过Colt路由到AWS,通过Azure Interconnect路由到Azure。同时建议在源和目标使用加密和解密。这将确保传输过程中的安全。

考虑因素

部署此参考架构时,请考虑以下要点。

安全

使用OCI身份和访问管理(IAM)策略来控制谁可以访问您的云资源以及可以执行哪些操作。为了保护数据库密码或其他秘密,考虑使用OCI Vault服务。

  • 为IAM用户和组分配对DIS-family资源类型的最小权限访问。
  • 为了最小化由授权用户的意外删除或恶意删除导致的数据丢失,Oracle建议将DIS_WORKSPACE_DELETE权限分配给尽可能少的IAM用户和组。只将DIS_WORKSPACE_DELETE权限分配给租户和分区管理员。
  • 为了保护您的数据源不受任何安全漏洞的影响,仅提供只读帐户的凭据。数据集成仅需要读取权限来从数据资产中摄取数据。

成本

如果大规模数据频繁跨云边界传输,数据流向变得至关重要。云提供商通常不对数据入口收费,但所有提供商都对数据出口收费。数据出口费率因云提供商而异。考虑出口成本对多云设计的影响至关重要。此外,在移动数据时还必须考虑数据驻留问题。

  • OCI FastConnect:FastConnect的成本在所有OCI区域中是相同的。
  • Microsoft Azure ExpressRoute:Microsoft Azure ExpressRoute的成本因区域而异。Azure提供多种ExpressRoute SKU。Oracle建议使用Local设置,因为它没有单独的入口或出口收费,且最小带宽为1 Gbps。Standard和Premium配置提供较低带宽,但在计量设置中会产生单独的出口收费。
  • 使用低成本的存档存储服务存储很少访问但需要长期保留的数据。定义生命周期管理策略以在指定时间后自动将数据移动到存档存储或删除数据。

高可用性

每个互联电路(ExpressRoute和FastConnect)都配备了同一POP上不同物理路由器的冗余电路,提供高可用性。

通过这些考虑因素,企业可以确保其云架构的安全性、成本效益和高可用性,同时有效地整合和管理跨多个云环境和本地系统的数据。这种方法使企业能够灵活地部署其数据集成策略,优化资源使用并减少风险。

开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。

Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。

利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。

如您想咨询 Oracle 的相关业务,可联系搜索微信号:lhh1843812463woshiwhw123

或者可以进入以下群组进行咨询:

微信公众号

微信技术交流社群: