欢迎访问深圳敏捷云计算科技有限公司!

甲骨文云 OCI 数据平台 - 具有复杂集成的数据仓库:智能化数据管理与分析

2024-04-09 原创文章

企业应用数据通常分布在企业的多个系统中,并且不能轻易地集成和分析以产生可行的洞见。


这个参考架构提供了一个框架,用于丰富企业应用数据与来自其他来源的原始数据,并使用机器学习模型为商业流程带来智能化和预测性洞察。


这个参考架构将技术解决方案定位于整体业务环境中:

随着各部门将来自多个来源的数据整合到数据集市中以获得有针对性的洞见,企业数据仓库必须变革和适应,以便能够利用现有的数据集市和其他结构化及非结构化数据源。


数据仓库将分析工作负载与事务工作负载分离,使组织能够从多个来源整合数据。这有助于查询和分析历史数据,并以一种能够适应事务系统变化的商业导向格式展现。利用数据仓库中的数据进行机器学习和预测性分析是将智能融入商业流程的关键。智能化的商业流程有助于积极管理关键商业事件,如向正确的客户在正确的渠道推荐合适的产品,或检测潜在的欺诈行为。


架构

此架构收集并结合应用数据进行分析和机器学习,以提供可操作的洞见。


以下图表显示了上述架构与Oracle云基础设施(OCI)上提供的服务之间的映射,使用了最佳实践。

此架构专注于以下逻辑划分:


摄取、转换

  • 摄取并精炼数据,以便在架构中的每个数据层使用。


持久化、整理、创建

  • 促进对数据的访问和导航,展示当前和历史业务视图。它包含原始数据以及粒度和聚合的整理数据。对于关系型技术,数据可能在逻辑上或物理上以简单关系型、纵向、维度或OLAP形式进行结构化。对于非关系型数据,此层包含一个或多个数据池,无论是来自分析过程的输出还是为特定分析任务优化的数据。


分析、学习、预测

  • 抽象化数据的逻辑业务视图以供消费者使用。这种抽象化促进了敏捷的开发方法、迁移到目标架构的过程,并且提供了从多个联合源单一的报告层。



此架构包含以下组件:

  • 批量摄取
  • 批量摄取对于无法实时摄取或适应实时摄取成本过高的数据很有用。它对于将数据转换为可靠且值得信赖的信息,以便定期整理和持久化也很重要。您可以独立或联合使用以下服务来实现高度灵活有效的数据集成和转换工作流。Oracle云基础设施数据集成是一个完全托管的、无服务器的、原生云服务,可以从多种数据源提取、加载、转换、清洁和重塑数据到目标Oracle云基础设施服务,如自治数据仓库和Oracle云基础设施对象存储。ETL(提取转换加载)利用Spark的完全托管的扩展处理,ELT(提取加载转换)利用自治数据仓库的完整SQL下推能力,以最小化数据移动并提高新摄取数据的价值。用户使用直观的、无代码用户界面设计数据集成过程,优化集成流程以生成最有效的引擎和编排,自动分配和扩展执行环境。Oracle云基础设施数据集成提供交互式探索和数据准备,帮助数据工程师通过定义规则来处理模式变化,以防止模式漂移。Oracle数据转换基于Oracle数据集成器(ODI)集成工具,可从Oracle自治数据库数据库操作(Data Studio)部署。它为构建、部署和管理复杂数据仓库或作为SOA或商业智能环境中数据为中心的架构的一部分提供了完全统一的解决方案。此外,它结合了数据集成、数据移动、数据同步、数据质量和数据管理的所有元素,以确保复杂系统中的信息及时、准确、一致。Oracle数据集成器提供全面的数据集成,从高容量和高性能的批量加载,到事件驱动的细小流入集成过程,到SOA启用的数据服务。声明式设计方法确保更快、更简单的开发和维护,并提供了一种独特的提取加载转换(ELT)方法,以帮助保证数据转换和验证过程的最高性能水平。Oracle数据转换使用Web界面简化了ELT的配置和执行,并帮助用户使用声明式设计方法构建和安排数据和工作流。
  • 根据用例,这些组件可以独立或联合使用,以实现高度灵活且高性能的数据集成和转换。
  • 实时摄取
  • Oracle云基础设施GoldenGate是一种完全托管的服务,允许从位于本地或任何云中的源摄取数据,利用GoldenGate CDC技术进行非侵入性和高效的数据捕获,并实时且大规模地将数据传输到Oracle自治数据仓库,以便尽快向消费者提供相关信息。
  • 自治数据仓库
  • Oracle自治数据仓库是一种自驾、自保护、自修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。Oracle云基础设施负责创建数据库,以及备份、打补丁、升级和调优数据库。
  • 大量或冷存储的数据驻留在对象存储中,可以作为外部表和混合分区表与仓库数据结合。
  • 自治数据仓库可以使用之前存储在数据目录中的元数据来创建外部表,并可以自动同步数据目录中的元数据更新与外部表定义,以保持一致性、简化管理并减少工作量。
  • 此外,Oracle自治数据库的数据湖加速器组件可以无缝消费对象存储数据,扩展处理以提供快速查询,根据需要自动扩展数据库计算实例,并通过将对象存储查询与数据库计算实例隔离,减少对数据库工作负载的影响。


对象存储

  • 对象存储提供对大量结构化和非结构化数据的快速访问,包括数据库备份、分析数据以及丰富内容如图像和视频。您可以安全可靠地存储数据,然后直接从互联网或云平台内检索数据。您可以无缝扩展存储,而不会经历性能或服务可靠性的下降。对于需要快速、立即和频繁访问的“热”存储,使用标准存储。对于长期保留且很少或很少访问的“冷”存储,使用归档存储。


分析

  • Oracle分析云服务是一个可扩展且安全的公共云服务,为您、您的工作组和企业提供一整套探索和进行协作分析的功能。它支持公民数据科学家、高级商业分析培训和机器学习(ML)模型。机器学习模型可以在分析服务上执行,或直接在Oracle自治数据仓库上作为OML嵌入式模型执行,以进行大规模批量预测,利用仓库的处理能力、可扩展性和弹性。
  • 使用Oracle分析云服务,您还可以获得灵活的服务管理能力,包括快速设置、简单扩展和打补丁,以及自动化的生命周期管理。


机器学习

  • Oracle机器学习提供强大的机器学习功能,紧密集成在Oracle自治数据库中,支持Python和AutoML。它支持使用开源和可扩展的、数据库内算法的模型,减少数据准备和移动。AutoML帮助数据科学家加速公司机器学习计划的价值实现时间,通过自动算法选择、自适应数据采样、自动特征选择和自动模型调优。
  • 有了Oracle机器学习服务在Oracle自治数据仓库中的可用性,您不仅可以管理模型,还可以将这些模型部署为REST端点,以民主化公司内的实时预测,让业务能够在事件发生时而不是事后做出反应。


数据科学

  • 数据科学提供基础设施、开源技术、库、包和数据科学工具,供数据科学团队在Oracle云基础设施中构建、训练和管理机器学习(ML)模型。协作和以项目为驱动的工作空间提供端到端、连贯的用户体验,并支持预测模型的生命周期。
  • 数据科学模型部署功能允许数据科学家将训练好的模型部署为完全托管的HTTP端点,这些端点可以实时提供预测,将智能注入到流程和应用程序中,让业务能够在事件发生时做出反应。


数据目录

  • Oracle云基础设施数据目录提供对技术资产(如元数据和元数据属性)的可见性,并允许您维护映射到该技术元数据的业务术语表。Oracle云基础设施数据目录还向自治数据仓库提供元数据,以便于在数据仓库中创建外部表。



建议

  • 使用以下建议作为收集和结合应用数据进行分析和机器学习的起点。您的需求可能与这里描述的架构不同。
  • Oracle自治数据仓库
  • 此架构使用共享基础设施上的Oracle自治数据仓库。启用自动扩展以提供高达三倍的数据库工作负载处理能力。
  • 如果您希望在公共云上运行的私有数据库云环境中拥有自助服务数据库能力,请考虑使用专用基础设施上的Oracle自治数据仓库。
  • 考虑使用自治数据仓库的混合分区表功能,用于不经常消费的数据,以及您不需要相同性能的数据。通过这一功能,您可以将数据分区移至对象存储,并与存储在自治数据仓库中的分区结合,实现无缝交付。
  • 考虑使用外部表功能来实时消费存储在对象存储中的数据,无需将其复制到自治数据仓库。这允许数据仓库消费整理好的数据,无论格式(parquet、avro、orc、json、csv等)如何。
  • 当消费对象存储数据时,考虑使用数据湖加速器,以便为用户提供改进和更快的体验,用户将在数据仓库和数据湖之间消费和连接数据。
  • Oracle机器学习和Oracle云基础设施数据科学模型部署
  • 此架构利用Oracle机器学习和Oracle云基础设施数据科学实时运行预测,为人员和应用程序提供结果。
  • 如果实时预测被合作伙伴和外部实体消费,请考虑部署API网关,以确保部署模型的消费安全和受控。

数据目录

  • 为了对存储在平台上并在平台上流动的数据有完整和整体的端到端视图,请考虑采集不仅支持数据持久层的数据存储,还包括源数据存储。将这些采集到的技术元数据映射到业务术语表,并通过自定义属性丰富它,可以帮助您映射业务概念,并记录和管理安全性和访问定义。
  • 为了方便在自治数据仓库中创建虚拟化存储在对象存储中的数据的外部表,请利用之前存储在Oracle云基础设施数据目录中的采集元数据。这简化了外部表的创建,确保了数据存储间元数据的一致性,且不太容易出现人为错误。



考虑因素

  • 在收集和结合应用数据以及流式事件数据进行分析和机器学习时,请考虑以下实施选项。



部署

  • 此参考架构的Terraform代码可在GitHub上获取。您可以一键将代码拉入Oracle云基础设施资源管理器,创建堆栈并部署它。或者,您可以从GitHub下载代码到您的计算机上,自定义代码,然后使用Terraform CLI进行部署。
  • 使用Oracle云基础设施资源管理器部署:点击,如果您尚未登录,请输入租户和用户凭据。查看并接受条款和条件。选择您想部署堆栈的区域。按照屏幕提示和指示创建堆栈。创建堆栈后,点击Terraform操作,并选择计划(Plan)。等待作业完成,并审查计划。如需进行任何更改,请返回到堆栈详情页面,点击编辑堆栈,并进行所需更改。然后,再次运行计划操作。如果不需要进一步更改,请返回到堆栈详情页面,点击Terraform操作,并选择应用(Apply)。
  • 使用Terraform CLI部署:访问GitHub。下载或克隆代码到您的本地计算机。按照README中的指示操作。



开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。


Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。


利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。