欢迎访问深圳敏捷云计算科技有限公司!

甲骨文云数据平台:数据湖房的全新探索

2024-01-15 原创文章

你可以有效地收集和分析来自物联网(IoT)和社交媒体源的事件数据和流数据,但如何将其与广泛的企业数据资源相关联,以利用你的投资并获得你想要的洞察力呢?

利用云数据湖仓库,它结合了数据湖和数据仓库的能力,处理广泛的企业和流数据,用于商业分析和机器学习。

这个参考架构将技术解决方案定位于整体商业背景中:


数据湖使企业能够在成本效益高、弹性的环境中存储所有数据,同时提供必要的处理、持久化和分析服务,以发现新的商业洞察。数据湖存储和管理结构化和非结构化数据,并提供组织来自多个源的大量高度多样化数据的方法。

与数据仓库相比,你在将数据提交到数据仓库之前进行数据转换和清洗。而在数据湖中,你可以快速摄取数据,并在人们访问时即时准备数据。数据湖支持对实时访问数据和灵活分析以了解业务正在发生的情况的操作报告和业务监控。

功能架构

这种架构结合了数据湖和数据仓库的能力,提供了一个现代的数据湖仓平台,用于处理来自广泛企业数据资源的流数据和其他类型数据。利用此架构来支持商业分析、机器学习、数据服务和数据产品。

数据湖仓架构结合了数据湖和数据仓库的功能,以提高操作效率并提供增强的能力,使之能够:

  • 无需在数据湖和数据仓库之间复制即可无缝使用数据和信息
  • 在增强的多模型和多语言架构中支持多种数据类型
  • 实施治理和精细的数据安全,采用零信任安全模型
  • 完全解耦存储和计算资源,根据任何时间点的需要消费资源
  • 利用多种计算引擎(包括开源引擎)处理同一数据,以实现不同用例的最大数据复用、流动性和使用
  • 利用Oracle Cloud Infrastructure (OCI)原生服务,这些服务由Oracle管理,减少运营负担
  • 通过自动扩缩调整云资源基础设施以匹配实际需求,实现更佳的云经济性
  • 模块化设计,使服务使用由用例驱动
  • 与遵循开放标准的任何系统或云的互操作性
  • 支持包括流媒体、分析、数据科学和机器学习在内的多样化用例
  • 支持从集中式湖仓到分散式数据网格的不同架构方法
  • 下图展示了功能架构。


架构的逻辑划分重点

摄取、转换

摄取并精炼数据,使其适用于架构中的每个数据层。

存储、整理、创建

便于访问和导航数据,展示当前的商业视图。对于关系型技术,数据可能在简单关系型、纵向、维度或OLAP形式中逻辑或物理结构化。对于非关系型数据,此层包含一个或多个数据池,这些数据池要么是分析过程的输出,要么是针对特定分析任务优化的数据。

分析、学习、预测

抽象数据的逻辑业务视图以供消费者使用。这种抽象促进了敏捷开发方法、迁移到目标架构的过程,以及从多个联合源提供单一报告层的能力。

功能组件

批量摄取 Batch ingest

批量摄取对于无法实时摄取的数据或适应实时摄取成本过高的数据非常有用。它对于将数据转换成可靠且值得信赖的信息,以便定期消费、整理和存储也很重要。以下服务可以单独或联合使用,以实现高度灵活和有效的数据集成和转换工作流:

  • Oracle Cloud Infrastructure数据集成是一种完全托管的、无服务器的、原生云服务,它从多种数据源提取、加载、转换、清洗和重塑数据到Oracle Cloud Infrastructure目标服务,如自治数据仓库和Oracle Cloud Infrastructure对象存储。ETL(提取转换加载)利用Spark的完全托管扩展处理,而ELT(提取加载转换)利用自治数据仓库的完整SQL下推功能,以最小化数据移动并提高新摄取数据的价值时间。用户使用直观的、无代码的用户界面设计数据集成流程,优化集成流程以生成最高效的引擎和编排,自动分配和扩展执行环境。Oracle Cloud Infrastructure数据集成提供交互式探索和数据准备,并帮助数据工程师通过定义规则来处理模式变化,防止模式漂移。
  • Oracle数据集成器提供从高容量和高性能批量加载到事件驱动的细粒度集成流程,再到SOA启用的数据服务的全面数据集成。声明式设计方法确保了更快、更简单的开发和维护,并提供了一种独特的提取加载转换(ELT)方法,帮助保证数据转换和验证过程的最高性能水平。Oracle数据转换使用Web界面简化了ELT的配置和执行,并帮助用户使用声明式设计方法构建和安排数据和工作流。
  • Oracle数据转换为所支持的选定技术提供ELT,简化了数据管道的配置和执行,使用Web用户界面允许用户声明性地构建和安排数据流和工作流。Oracle数据转换作为Oracle自治数据仓库(ADW)内的完全托管环境提供,用于从多个数据源加载和转换数据到ADW实例。
  • 根据用例,这些组件可以独立或一起使用,以实现高度灵活和高性能的数据集成和转换。

实时摄取 Real-time ingest

Oracle Cloud Infrastructure GoldenGate是一种完全托管的服务,允许从位于本地或任何云中的来源摄取数据。它利用GoldenGate CDC技术进行非侵入性和高效的数据捕获,并实时、大规模地将数据传送到Oracle自治数据仓库、Oracle Cloud Infrastructure对象存储或Oracle Cloud Infrastructure流媒体,尽可能快地向消费者提供相关信息。

批量传输 Bulk transfer

批量传输允许你使用不同的方法移动大批量的数据。对于大规模数据湖仓,我们推荐使用Oracle Cloud Infrastructure FastConnect和数据传输服务。

  • Oracle Cloud Infrastructure FastConnect提供了一种在你的数据中心和Oracle Cloud Infrastructure之间创建专用、私有连接的简便方法。与基于互联网的连接相比,FastConnect提供了更高的带宽选项和更可靠的网络体验。
  • Oracle Cloud Infrastructure命令行界面(CLI)允许你执行和自动化从本地到OCI的数据传输,利用Oracle Cloud Infrastructure FastConnect私有电路。OCI SDK允许你编写代码,以多种编程语言(如Python、Java或Go)从本地或其他云复制数据和文件到Oracle Cloud Infrastructure对象存储。REST API允许你与OCI服务交互并控制它们,例如使用对象存储服务API将数据移动到对象存储中。
  • 存储网关是一个云存储网关,使本地应用程序能够与OCI连接。应用程序可以将数据写入位于本地的NFS目标,这些文件将上传到OCI对象存储,无需修改应用程序即可使用REST API。
  • Oracle Cloud Infrastructure数据传输是一种离线数据迁移服务,允许你安全地将PB级数据集从数据中心移动到Oracle Cloud Infrastructure对象存储或归档存储。通过公共互联网将数据移动到云端并不总是可行的,因为存在高网络成本、不可靠的网络连接、长时间的传输时间和安全问题。数据传输服务克服了这些挑战,并可以显著减少将数据迁移到云端所需的时间。数据传输通过磁盘或设备提供,选择哪一个主要取决于数据量,数据传输设备支持每个设备更大的数据集。

云服务的流式处理 Streaming ingest

在我们的云服务平台上,您可以实时地、高效地处理大量数据。这种流式处理技术,不仅能够快速同步数据到云存储,而且还是数据湖房(一种数据存储方法)的核心。通过这种方式,您可以保留历史数据,以便进一步加工和分析,从而挖掘出有价值的信息。

  • 我们的云流媒体服务提供了一个全面管理、可扩展且稳定的存储解决方案。不论是消息传递、应用日志、操作遥测、网页点击流数据,还是其他发布-订阅模式的应用场景,我们的服务都能够连续、顺序地处理这些数据。数据同步到云对象存储后,可以进行进一步的加工和转换,以提取有价值的洞察。
  • 通过我们的云服务连接器中心,您可以轻松地在不同云服务间传输数据。在这个架构中,它将帮助您将数据从云流媒体移动到云对象存储,进一步加强数据湖房的数据持久化层。

流媒体处理 Streaming processing

流媒体处理不仅丰富了流数据,还检测了事件模式,创建了不同的数据流,这些都被存储在数据湖房中。

  • 通过GoldenGate流媒体分析,您可以处理和分析大规模的实时信息,利用复杂的关联模式、数据丰富性和机器学习。用户可以通过实时图表、地图、可视化工具探索实时数据,并且无需编写任何代码就可以图形化构建流媒体管道。这些管道在与Oracle的连续查询引擎集成的Spark集群中执行,可处理现代企业的关键实时用例。

开源生态系统 Open source ecosystem

您还可以利用开源生态系统:

  • 利用Hadoop、Spark、Flink或Trino等流行的开源引擎进行批处理和流处理
  • 将Oracle云流媒体作为生产者和消费者
  • 结合Oracle云对象存储,进行数据持久化和消费
  • 您可以将Oracle云对象存储作为数据湖来持久化数据集,从而在不同的Oracle云服务之间共享数据。Oracle大数据云提供完全配置、安全、高可用的专用Hadoop、Spark或Flink集群,可根据需要扩展集群,以适应大数据和分析工作负载。通过自动伸缩配置,快速响应业务需求,优化成本。使用集群配置文件为特定工作负载或技术创建最佳集群。

批处理 Batch processing

批处理是一种在数据湖房中转换大规模数据集的技术。这种方法利用我们的云基础设施原生服务,与云对象存储无缝集成,使您能够创建用于数据聚合、丰富、数据仓库输入、以及大规模机器学习和人工智能数据使用的精选数据。

  • Oracle云基础设施数据集成是一项全面托管的无服务器云原生服务,它从多种数据源中提取、加载、转换、清理和重塑数据,然后导入目标Oracle云服务,如自治数据仓库和Oracle云对象存储。
  • Oracle云基础设施数据流是一项全面托管的大数据服务,它允许您运行Apache Spark应用程序而无需部署或管理基础设施。您可以更快地交付大数据和人工智能应用,因为您可以专注于应用程序而无需管理操作。数据流应用程序是可重复使用的模板,包括Spark应用程序及其依赖项、默认参数和默认运行时资源规范。

服务 Serving

  • Oracle自治数据仓库是一种自驾、自我保护、自我修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。Oracle云基础设施将创建数据库,并负责备份、修补、升级和调整数据库。
  • 部署后,您可以随时调整数据库的CPU核心数量或存储容量,而不影响可用性或性能。
  • Oracle自治数据仓库还可以将对象存储中的数据虚拟化为外部和混合分区表,使您能够将来自其他来源的数据与仓库数据结合使用。您还可以将仓库中的历史数据移动到对象存储中,然后使用混合分区表无缝使用这些数据。

云存储 Cloud storage

Oracle云基础设施对象存储是一个互联网规模、高性能的存储平台,提供可靠且成本效益高的数据持久性。Oracle云对象存储可以存储无限量的任何内容类型的非结构化数据,包括分析数据。您可以安全、安心地直接从互联网或云平台存储或检索数据。多种管理界面使您可以轻松地从小规模开始并无缝扩展,同时不会经历性能或服务可靠性的下降。

可视化和学习 Visualize and learn

Oracle分析云是一种可扩展且安全的公共云服务,为您、您的工作组和企业提供一整套探索和进行协作分析的功能。它支持市民数据科学家、高级业务分析师培训和执行机器学习(ML)模型。机器学习模型可以在分析服务上执行,也可以直接在Oracle自治数据仓库上以OML嵌入式模型的形式执行,以利用仓库和OCI人工智能服务(如Oracle云基础设施视觉)的处理能力、可扩展性和弹性进行大规模批量预测。

学习和预测 Learn and predict

  • 数据科学为数据科学团队提供基础设施、开源技术、库、软件包和数据科学工具,以便在Oracle云基础设施中构建、训练和管理机器学习(ML)模型。这个协作和项目驱动的工作空间提供了端到端的连贯用户体验,并支持预测模型的整个生命周期。
  • 数据科学工作功能使数据科学家能够定义和运行在完全托管的基础设施上的可重复机器学习任务。
  • 数据科学模型部署功能允许数据科学家将训练好的模型部署为完全托管的HTTP端点,这些端点可以实时提供预测,将智能融入流程和应用程序中,使业务能够在相关事件发生时做出反应。

人工智能服务 AI services

Oracle云基础设施的人工智能服务为您提供了一系列现成的AI服务,这些服务可用于从文本分析到预测性维护等多种用途。这些服务拥有预先构建且精细调整的模型,您可以通过API将它们集成到数据流程、分析和应用程序中。

  • Oracle云基础设施的异常检测提供了一套丰富的工具,可实时识别商业数据中的不良事件或观察结果,从而帮助您采取行动避免业务中断。
  • Oracle云基础设施的AI语言服务能够执行大规模的复杂文本分析。开发者可以利用预训练和定制模型处理非结构化文本并提取洞见,无需数据科学专业知识。预训练模型支持情感分析、关键短语提取、文本分类和命名实体识别。您还可以使用特定领域的数据集训练定制模型,进行命名实体识别和文本分类。翻译服务能够支持21种不同语言的文本翻译。
  • Oracle云基础设施的语音服务利用口语的力量,使您能够轻松地将包含人类语音的媒体文件转换为高度准确的文本转录。OCI语音可用于转录客户服务电话、自动化字幕制作,以及为媒体资产生成元数据,创建一个完全可搜索的档案。
  • Oracle云基础设施的视觉服务执行图像识别和文档分析任务,如分类图像、检测和识别面部、提取文本和识别表格。您可以利用预训练模型,或轻松创建适用于特定行业和客户场景的定制视觉模型。视觉服务是一种全面托管的、多租户的、原生云服务,帮助解决所有常见的计算机视觉任务。
  • Oracle云基础设施的文档理解服务执行文档分析任务,如提取文本和识别表格。OCI文档理解服务是一种全面托管的、多租户的、原生云服务,帮助解决所有常见的文档分析任务。

数据丰富 Data Enrichment

  • 数据丰富可以改善用于训练机器学习模型的数据,以实现更好、更准确的预测结果。
  • Oracle云基础设施的数据标记服务允许您创建和浏览数据集,查看文本或图像的数据记录,并为构建AI/ML模型应用标签。该服务还提供了交互式用户界面,以帮助标记过程。标记后的记录可以作为行分隔的JSON导出,用于AI/ML模型的开发。

搜索功能 Search

  • 搜索功能可作为一种补充功能,用于向那些需要经过预索引的运营分析数据的终端用户展示数据,因此可以实现低延迟的服务。
  • Oracle云基础设施搜索结合OpenSearch提供了一个分布式的、完全托管的、无需维护的全文搜索引擎。OpenSearch允许您快速存储、搜索和分析大量数据,响应时间快。该服务支持开源OpenSearch API和OpenSearch仪表板数据可视化。

流式分析 Streaming analytics

  • 流式分析提供仪表板,实时分析流式数据,并结合数据湖房中存储的精选和主数据,以检测感兴趣的模式,然后将其提供给用户、应用程序和设备。
  • GoldenGate流媒体分析通过使用复杂的关联模式、数据丰富和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图、可视化工具探索实时数据,并且无需编写代码就可以图形化地构建流式管道。这些管道在一个可扩展且高可用的集群大数据环境中执行,使用与Oracle连续查询引擎集成的Spark来处理现代企业的关键实时用例。GoldenGate流媒体分析可以利用与Oracle云基础设施大数据服务部署的Spark集群,以高度可扩展和弹性的方式处理流。

流媒体服务 Streaming serving

  • 数据和信息通过支持大量用户同时使用的流提供给消费者,这些用户几乎实时地获取信息,并且与流式分析系统解耦,以提高弹性和可扩展性。
  • Oracle云基础设施流媒体服务提供了一个全面管理的、可扩展的、持久的存储解决方案,用于摄取持续的、大量的数据流,您可以实时消费和处理这些数据。流媒体可以用于消息传递、高容量应用日志、运营遥感、网页点击流数据,或者其他发布-订阅消息模型的使用场景,其中数据被连续和顺序地产生和处理。

API层

API层允许您将从数据科学和Oracle机器学习中获得的智能融入应用程序、业务流程和设备中,以提升和改进其操作和功能。API层提供了安全的数据科学模型部署方式到Oracle机器学习REST端点,并能够管理系统以确保运行环境的可用性。您还可以根据需要利用函数执行额外的逻辑。

  • Oracle云基础设施API网关允许您发布API,这些API有私有端点,可以从您的网络内访问,如果您希望它们接受互联网流量,也可以暴露公共IP地址。这些端点支持API验证、请求和响应转换、CORS、身份验证和授权以及请求限制。它允许API可观测性,以监控使用情况并保证服务水平协议(SLA)。使用计划还可以用于监控和管理访问API的API消费者和API客户端,并为不同的客户设置不同的访问层级,以追踪通过API消费的数据使用情况。使用计划是数据货币化的关键功能。
  • Oracle云基础设施函数是一个完全托管的、多租户的、高度可扩展的、按需的功能即服务平台。它基于企业级Oracle云基础设施构建,并由Fn项目开源引擎提供动力。
  • Oracle REST数据服务(ORDS)是一个Java应用程序,使得具有SQL和数据库技能的开发者能够为Oracle数据库开发REST API。任何应用程序开发者都可以使用这些API,无需安装和维护客户端驱动程序,就像他们使用REST访问其他外部服务一样。

数据治理 Data Governance

Oracle云基础设施数据目录提供了对技术资产(如元数据及其相应属性)的位置的可见性,并提供了维护与技术元数据映射的业务词汇表的能力。数据目录还可以向Oracle自治数据仓库提供元数据,以便在数据仓库中创建外部表。

数据安全 Data Security

在充分利用数据湖房数据的过程中,数据安全至关重要。利用零信任安全模型、深度防御和基于角色的访问控制(RBAC)功能,并确保遵守最严格的法规,数据安全提供了预防性、检测性和纠正性的安全控制措施,以确保防止数据泄露和入侵。

  • Oracle数据安全是一个完全集成的Oracle云服务,专注于数据安全。它为Oracle云数据库中的敏感和受管制数据提供了一套完整且集成的功能,例如Oracle自治数据仓库。功能包括安全评估、用户评估、数据发现、数据掩码和活动审计。
  • Oracle云基础设施审计提供了与Oracle云基础设施(OCI)资源和租户相关活动的可见性。审计日志事件可用于安全审计,以跟踪OCI资源的使用情况和更改,并帮助确保符合标准和法规。
  • Oracle云基础设施日志提供了一个高度可扩展且完全托管的单一界面,用于租户中的所有日志,包括审计日志。使用OCI日志可以访问所有OCI资源的日志,以便启用、管理和搜索它们。
  • Oracle云基础设施金库是一个加密管理服务,存储和管理加密密钥和机密,以安全地访问资源。它使客户管理的密钥可用于Oracle自治数据仓库和数据湖的加密,以增强静态数据的保护。使秘密安全地存储服务和用户凭证,以提高安全姿态,确保凭证不被泄露和不当使用。

物理架构

该数据湖房的物理架构支持以下功能:

  • 数据通过微批处理、流式处理、API和文件从关系型和非关系型数据源安全地摄取。
  • 数据处理利用Oracle云基础设施数据集成和Oracle云基础设施数据流的组合。
  • 数据存储在Oracle自治数据仓库和Oracle云基础设施对象存储中,并根据其质量和价值进行组织。
  • Oracle自治数据仓库安全地向消费者提供仓库和湖数据服务。
  • Oracle分析云通过可视化向业务用户呈现数据。
  • Oracle分析云通过使用Oracle云基础设施负载平衡暴露,并由Oracle云基础设施Web应用程序防火墙(WAF)保护,以通过互联网提供访问。
  • Oracle云基础设施数据科学用于构建、训练和部署机器学习(ML)模型。
  • Oracle云基础设施API网关用于管理数据科学ML模型部署。Oracle云基础设施数据目录从Oracle自治数据仓库和对象存储收集元数据。
  • Oracle数据安全评估数据风险,实施和监控安全控制,评估用户安全性,监控用户活动,并解决数据安全合规性要求。
  • Oracle云基础设施堡垒由管理员用于管理私有云资源。

以下图表说明了这一参考架构。

  • 物理架构设计
  • 利用两个虚拟云网络(VCN),一个用于枢纽(hub),另一个用于工作负载本身。
  • 本地连接利用Oracle云基础设施FastConnect和点对点VPN来实现冗余。
  • 所有来自本地和互联网的流量首先路由到枢纽VCN,然后进入工作负载VCN。
  • 所有数据在传输和静止时都是安全的。
  • 服务部署时使用私有端点以增强安全性。
  • VCN被分割成几个私有子网,以提高安全性。
  • 数据湖数据在对象存储中被分隔到几个桶中,利用奖章架构。

为了简化,未在此部署中展示的潜在设计改进包括:

  • 利用完全符合CIS标准的登陆区。
  • 使用网络防火墙来提高整体安全姿态,通过检查所有流量并执行策略。

推荐

以下建议可作为处理流式数据和广泛的企业数据资源以进行业务分析和机器学习的起点:

您的需求可能与此处描述的架构有所不同。

Oracle自治数据仓库

  • 启用自动扩展,使数据库工作负载的处理能力提高至三倍。
  • 如果您想在公共云环境中的私有数据库云环境中使用自助服务数据库功能,请考虑使用Oracle自治数据仓库的专用基础设施。
  • 考虑使用自治数据仓库的混合分区表功能,将数据分区移至Oracle云基础设施对象存储,并透明地提供给用户和应用程序。我们建议您对不常使用且不需要与自治数据仓库中存储的数据相同性能的数据使用此功能。
  • 考虑使用外部表功能来实时消费存储在Oracle云基础设施对象存储中的数据,无需将其复制到自治数据仓库。此功能无缝且透明地连接自治数据仓库外部策划的数据集,无论格式如何(parquet、avro、orc、json、csv等),均可与自治数据仓库中的数据结合使用。
  • 考虑在消费对象存储数据时使用自治数据湖加速器,为用户提供改进和更快的体验。
  • 考虑使用分析视图在ADW中直接对DW星型或雪花型基础模式进行语义建模,以便在不需要预聚合的情况下自动聚合粒度数据,通过任何符合SQL标准的客户端一致地使用SQL消费语义模型。
  • 考虑使用客户管理的密钥,通过金库服务实现ADW加密密钥的完全控制。
  • 考虑使用ADW的数据库保险库,以防止未授权的特权用户访问敏感数据,从而防止数据外泄和数据泄露。
  • 考虑使用自治数据防护支持业务连续性计划,通过在同一地区或其他地区设置并保持数据在备用实例上的复制。

对象存储/数据湖

  • 考虑在不同的桶集中组织您的湖,利用奖章架构(铜、银、金)或其他分区逻辑,根据其质量和丰富程度对数据进行隔离,为消费者读取数据实施细粒度安全控制,并对不同层级应用不同的生命周期管理策略。
  • 考虑使用不同的对象存储层和生命周期策略,以优化大规模存储湖数据的成本。
  • 考虑使用客户管理的密钥,通过金库服务实现对象存储加密密钥的完全控制。
  • 考虑使用对象存储复制支持业务连续性计划,通过设置存储桶复制到另一个地区。由于对象存储高度耐用,可在单个地区为同一对象维护多个副本以便在同一地区桶恢复,因此不需要桶复制。

Oracle机器学习和Oracle云基础设施数据科学

  • 考虑在OCI数据科学或Oracle机器学习中使用AutoML加速ML模型开发。
  • 考虑使用开放神经网络交换(ONNX)实现互操作性。ONNX第三方模型可以部署到OML并作为REST端点公开,或部署到OCI数据科学并作为HTTP端点公开。
  • 考虑将模型保存为ONNX格式的OCI数据科学,并将其导入OCI GoldenGate流式分析,以实时数据管道中进行评分和预测。
  • 考虑在OCI数据科学Jupyter环境中使用数据流进行探索性数据分析、数据概况和数据准备,利用Spark扩展处理。
  • 考虑使用数据标记来标记数据(如图像、文本或文档),并用其训练OCI数据科学或OCI AI服务中构建的ML模型,从而提高预测的准确性。
  • 考虑部署API网关,以安全地管理部署模型的消费,如果实时预测由合作伙伴和外部实体消费。

Oracle云基础设施数据集成

  • 这种架构使用Oracle云基础设施数据集成来支持声明式和无代码或低代码的ETL(提取、转换、加载)和数据管道开发。利用Oracle云基础设施数据集成来协调和安排Oracle云基础设施数据流应用程序的运行,并能够将声明式ETL与自定义Spark代码逻辑混合使用。使用Oracle云基础设施数据集成中的功能来扩展数据管道的能力。考虑使用SQL下推,针对以ADW为目标的转换使用更高效、性能更强且更安全的ELT(提取、加载、转换)方法,与ETL相比。考虑允许OCI数据集成处理数据源架构漂移,以拥有更具弹性和面向未来的数据管道,这些管道将支持数据源架构变化。

Oracle云基础设施数据流

  • 这种架构使用Oracle云基础设施数据流来支持大规模Spark和Spark流处理,无需拥有和管理永久性集群。考虑使用Oracle云基础设施数据目录作为Oracle云基础设施数据流的Hive元数据存储,以安全地存储和检索非结构化和半结构化数据资产(如Oracle云基础设施对象存储)中对象的模式定义。考虑在OCI数据流中使用Delta Lake,如果需要ACID事务处理和流处理与批处理的统一,以处理湖数据。

大数据服务

  • 这种架构利用Oracle云基础设施大数据服务来部署各种开源技术(如Spark、Hadoop、Trino或Flink)的高可用性和可扩展性集群,这些技术可以处理批处理和流数据。大数据服务将数据持久化在HDFS中,从Oracle云基础设施对象存储中持久化和读取数据,并且可以与其他Oracle云基础设施服务(如Oracle云基础设施数据流和Oracle自治数据仓库)交换数据集。考虑使用自动伸缩,根据指标或计划自动横向或纵向扩展工作节点,以根据资源需求持续优化成本。考虑使用OCI HDFS连接器进行对象存储,以便从对象存储中读取和写入数据,从而提供一种机制来生成/消费与其他OCI服务共享的数据,无需复制和重复。考虑在OCI BDS中使用Delta Lake,如果需要ACID事务处理和流处理与批处理的统一,以处理湖数据。

Oracle云基础设施流媒体

  • 这种架构利用Oracle云基础设施流媒体来消费来源的流数据以及向消费者提供流数据。考虑利用Oracle云基础设施服务连接器中心,将数据从Oracle云基础设施流媒体移动并持久化存储在Oracle云基础设施对象存储上,以支持后续的历史数据分析。

Oracle分析云

  • 这种架构利用Oracle分析云(OAC)向终端用户提供增强型分析。考虑利用OAC与OCI人工智能服务(语言和视觉模型)和OML(任何模型)的预建集成,将智能嵌入到终端用户消费的数据流和可视化中,从而使AI和ML消费民主化。

Oracle云基础设施人工智能服务

  • 根据部署的用例,这种架构可以利用Oracle云基础设施人工智能服务。对于预测性维护和异常检测用例,考虑使用Oracle云基础设施异常检测服务,该服务通过利用信号之间的相互关系,帮助识别多变量数据集中的异常。考虑使用数据标记来标记训练数据,这些数据将用于调整并获得更准确的预测,以用于视觉、文档理解和语言等人工智能服务。

API网关

  • 这种架构利用API网关安全地暴露数据服务和实时推理给数据消费者。考虑使用Oracle云基础设施功能来添加最终可能需要支持特定API处理的运行时逻辑。考虑使用使用计划来管理订阅者对API的访问,监控和管理API消费,为不同的消费者设置不同的访问层次,并通过跟踪可提供给外部计费系统的使用指标来支持数据货币化。

Oracle云基础设施数据目录

  • 为了完整和全面地了解存储在平台上并流动的数据,请考虑不仅收集支持数据持久性层的数据存储,还要收集源数据存储。通过将收集的技术元数据映射到业务词汇表并用自定义属性丰富它,可以映射业务概念,并记录和管理安全性和访问定义。

Oracle云基础设施数据传输服务

  • 当使用公共互联网连接上传数据不可行时,使用Oracle云基础设施数据传输服务。如果通过公共互联网上传数据需要超过1-2周的时间,建议考虑使用数据传输服务。

数据安全和审计

  • 通过利用审计和警报功能提高安全姿态,可以防止数据外泄并在发生数据泄露时进行取证分析。考虑使用数据安全来审计数据仓库中的活动,并使用审计服务来审计湖数据的活动。考虑使用数据安全来发现ADW上的敏感数据,并在创建非生产环境的ADW克隆时静态掩蔽它,从而避免安全风险。

组织方法

  • 这种架构灵活,可以支持从集中式到完全分散式的不同类型的组织方法,因此可以被任何希望从其数据中提取价值的组织采用和使用。这种架构广泛利用了用于身份验证和授权的细粒度控制,结合OCI身份和访问管理(IAM)。如果您的组织希望采用分散的组织方法,请考虑使用IAM来分隔使用湖房的不同业务线和团队,以分散数据产品创建的所有权,并强制实施数据域隔离。OCI拥有自动化和基础设施即代码作为成功架构部署的关键能力,利用Terraform和Ansible等框架。

在收集、处理和策划应用数据以进行分析和机器学习时,请考虑以下实施选项:

  • 数据收集:确保在收集数据时维持数据完整性和准确性,这对于后续的分析和机器学习至关重要。
  • 数据处理:考虑使用高效的数据处理工具和技术,以确保数据清洁、一致,并适合分析。
  • 数据策划:在策划数据时,考虑数据的相关性和对目标分析的适应性。确保策划的数据可以有效支持所需的分析和机器学习任务。


部署

  • 这一参考架构的Terraform代码可在GitHub上获得。您可以一键将代码拉入Oracle云基础设施资源管理器,创建堆栈并部署。或者,您可以从GitHub下载代码到您的电脑,自定义代码,并使用Terraform命令行界面部署架构。
  • 使用Oracle云基础设施资源管理器部署:

点击 ,如果您尚未登录,请输入租户和用户凭据。

查看并接受条款和条件。

选择您想要部署堆栈的区域。

按照屏幕上的提示和指示创建堆栈。

创建堆栈后,点击Terraform操作,选择计划。

等待作业完成,并查看计划。

如需进行任何更改,请返回到堆栈详情页面,点击编辑堆栈,并进行所需更改。然后,再次运行计划操作。

如果不需要进一步更改,请返回到堆栈详情页面,点击Terraform操作,选择应用。

  • 使用Terraform命令行界面部署:

访问GitHub。

克隆或下载仓库到您的本地电脑。

按照README文档中的说明操作。

开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。

Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。

利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。

如您想咨询 Oracle 的相关业务,可联系搜索微信号:lhh1843812463woshiwhw123

或者可以进入以下群组进行咨询:

微信公众号

微信技术交流社群: