欢迎访问深圳敏捷云计算科技有限公司!

甲骨文云OCI -APP应用开发 - 大数据与分析

2024-03-20 原创文章

大数据是一系列能力和模式,使您能够管理、收集、存储、编目、准备、处理和分析所有类型的数据(无结构、半结构和结构化),无论它们来自数据库、视频、表格、文档、日志文件、网页还是图像等来源。甲骨文的大数据能力涵盖各种服务和工具,以便您根据自己的技能和偏好开始大数据之旅。

                     

设计原则

在实施大数据和分析模式时,请使用以下现代应用程序开发的设计原则。

  • 使用完全托管的服务消除应用程序开发、运行时和数据管理的复杂性
  • 您的数据价值取决于您使用它的能力。大数据工具在开源社区中很受欢迎,大多数能力都是通过像Hadoop、Spark和Hive这样的开源项目在本地部署的。
  • 使用甲骨文大数据服务,该服务在甲骨文云中作为托管服务提供所有流行的开源Hadoop组件。对于Spark应用程序,请使用甲骨文云基础设施数据流,它提供了一个完全托管的、无服务器的、云原生的Spark平台。使用这些服务可以确保您能够利用开源社区的最新创新和团队现有技能,而无需担心厂商锁定。继续使用开源的速度和价值,以及甲骨文的原生高级能力,如甲骨文自治数据仓库外部表和甲骨文云SQL。
  • 部署和运营大数据服务,尤其是开源组件,可能对运营费用(OpEx)产生指数级影响。首先使用我们的托管Hadoop产品或像数据流这样的PaaS服务,再考虑自己动手(DIY)的方法。通常,托管开源服务在考虑OpEx时长期成本更低。
  • 自动化构建、测试和部署
  • DataOps对于确保您能够从大数据管道中获得最大好处非常重要。使用甲骨文云基础设施数据集成服务摄取数据,实现ETL处理和ELT下推,并创建管道连接任务,以序列或并行方式促进过程。管道可以包括甲骨文云内外的各种流行数据源。使用数据集成的调度功能定义何时以及多久运行每个任务。对于大数据服务中基于Hadoop分布式文件系统(HDFS)的数据湖,请使用像Oozie和Airflow这样的工具来编排端到端数据管道。使用甲骨文数据库云服务管理定义对一组数据库定期运行的数据库作业。
  • 使用支持所有数据的全功能融合数据库
  • 使用最佳工具简化、自动化和加速数据整合以实现最大的商业价值。构建甲骨文云基础设施数据科学的数据湖时,使用对象存储服务存储无结构、半结构和结构化数据。要利用HDFS和开源Hadoop工具,请使用大数据服务构建数据湖。对于数据仓库、部门数据集市和结构化数据的服务和展示层,请使用自治数据仓库,它针对这些场景进行了优化。自治数据仓库还提供连接到分析、商业智能和报告工具的功能,如甲骨文分析云。
  • 实现端到端监控和追踪
  • 大数据应用程序通常包括多个不同的应用程序和业务团队拥有的服务。可观察性工具对于了解这些本质上分布式系统的行为非常重要。
  • 通过使您的所有工作负载向甲骨文云基础设施监控发送健康指标来监控端到端数据管道的运行健康状况。定义自定义指标阈值以进行告警,并在达到给定阈值时获得通知或采取行动。对于您租户中的所有OCI服务日志和您从数据应用程序提交的自定义日志,请使用OCI日志记录。为了排除问题和优化性能,请使用OCI数据库管理来查看自治数据仓库的数据库状态、平均活动会话、告警、CPU使用情况、存储使用情况、车队诊断和调优。
  • 实施深度防御方法保护应用程序生命周期
  • 计划保护您的数据安全。跟踪所有带入和带出数据湖的作业,保持数据血统元数据,并确保访问控制策略得到更新。使用数据目录来帮助治理。
  • 遵循最小特权原则,确保用户和服务账户只具有执行其任务所需的最小特权。通过使用甲骨文云基础设施身份和访问管理控制谁可以访问数据平台组件。在甲骨文云基础设施身份和访问管理中使用多因素认证来加强管理员的强认证。在甲骨文云基础设施金库服务中存储敏感信息,如密码和认证令牌。
  • 对于大数据服务,只配置必要的安全规则来控制网络,并使用Apache Ranger来管理Hadoop集群中的数据安全。使用甲骨文数据安全来保护自治数据仓库中的数据。为您的数据库创建强密码。在私有子网中创建数据库资源,并使用虚拟云网络(VCN)安全组或安全列表来强制执行对数据库实例的网络访问控制。尽可能少地授权甲骨文云基础设施身份和访问管理用户和组删除数据库的权限。
  • 为了保护您的数据源免受任何安全漏洞的影响,请只为数据目录和数据集成服务提供只读账户的凭据。


架构

  • 您可以使用以下具有针对性的架构和技术选择来实现设计原则。甲骨文云基础设施(OCI)数据和分析服务使您能够摄取、存储、编目、准备、处理和分析大数据。

此架构使用以下数据源:

  • 企业应用程序
  • 设备
  • 最终用户
  • 事件
  • 传感器
  • 任何数字资产


此架构在虚拟云网络(VCN)内包含以下组件:

虚拟云网络(VCN)

  • VCN是您在甲骨文云基础设施区域中设置的可自定义的软件定义网络。与传统的数据中心网络一样,VCN使您能够完全控制您的网络环境。VCN可以有多个不重叠的CIDR块,您可以在创建VCN后更改它们。您可以将VCN划分为子网,这些子网可以局限于一个区域或一个可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。

数据集成

  • 甲骨文云基础设施数据集成是一种完全托管的、无服务器的云服务,摄取和转换数据用于数据科学和分析。它有助于简化复杂的ETL和ELT到数据湖和仓库,并使用甲骨文的现代、无代码数据流设计器。您可以使用一个现成的运算符,如连接、聚合或表达式,来整理您的数据。

流媒体

  • 甲骨文云基础设施流媒体服务提供了一个完全托管、可扩展且持久的解决方案,用于实时摄取和消费大量数据流。在任何数据持续且按顺序在发布-订阅消息模型中产生和处理的用例中使用流媒体。例如,消息、指标和日志摄取、Web或移动活动数据摄取,以及基础设施和应用程序事件处理。

甲骨文大数据服务

  • 甲骨文大数据服务是一种完全托管、自动化的云服务,提供具有Hadoop环境的集群。大数据服务使客户能够轻松部署各种规模的Hadoop集群,并简化使Hadoop集群高可用和安全的过程。


甲骨文自治数据仓库

  • 甲骨文自治数据仓库是一种自驾、自保护、自修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。甲骨文云基础设施负责创建数据库,以及备份、打补丁、升级和调优数据库。

对象存储

  • 对象存储提供对大量结构化和非结构化数据的快速访问,适用于任何内容类型,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台内检索数据。您可以无缝扩展存储,而不会经历性能或服务可靠性的下降。使用标准存储作为您需要快速、立即和频繁访问的"热"存储。使用归档存储作为您长期保留且很少或极少访问的"冷"存储。

数据流

  • 甲骨文云基础设施数据流是一个完全托管的、PaaS级别的Spark分析平台,使您能够在任何规模上创建、编辑和运行Spark作业,而无需集群、运营团队或高度专业化的Spark知识。由于它是无服务器的,您无需部署或管理任何基础设施。它完全由REST API驱动,便于与应用程序或工作流集成。
  • 甲骨文分析云
  • 这个云中现代分析的最佳平台赋予了商业分析师和消费者能力。甲骨文分析云为数据准备、发现和可视化提供现代AI驱动的自助分析能力;智能企业和按需报告与增强分析;以及自然语言处理和生成。无论您是商业分析师、数据工程师、公民数据科学家、部门经理、领域专家还是高管,甲骨文分析云都可以帮助您将数据转化为洞察。


分析、机器学习和定制应用程序

  • 分析服务、甲骨文机器学习和定制应用程序,用于编目、准备、处理和分析大数据。

数据目录

  • 甲骨文云基础设施数据目录是一个完全托管的、自助式的企业数据发现和治理解决方案。它为数据工程师、数据科学家、数据管理员和首席数据官提供了一个单一的协作环境,以管理组织的技术、业务和运营元数据。 使用这种架构模式,您可以使用现代数据湖仓库模式管理所有类型的无结构、半结构和非结构化数据。通过使用数据集成和流媒体服务将所有类型的数据摄入基于对象存储的数据湖。使用甲骨文云基础设施数据流和甲骨文大数据服务进行处理,使用甲骨文云基础设施数据目录进行编目,使用甲骨文自治数据仓库作为服务存储,并使用甲骨文分析云进行分析和商业智能。以下过程描述了图表中显示的流程:
  • 甲骨文云基础设施数据集成和甲骨文云基础设施流媒体从不同类型的来源摄入数据。使用的服务取决于数据是批量的、流媒体的还是同步的数据库记录,以及数据是位于本地还是云中。
  • 数据可以交付到对象存储,以便云服务共享访问和在存储到甲骨文自治数据仓库或大数据服务之前进行处理。
  • 数据也可以直接交付到甲骨文自治数据仓库,然后使用ELT功能进行转换,或者可以直接摄入来自其他数据库的记录。数据也可以直接按原样交付到大数据服务。
  • 甲骨文自治数据仓库可以从对象存储查询数据,或通过API或数据集成的帮助从对象存储摄入数据。大数据服务可以从对象存储摄入数据或查询对象存储中的数据。
  • 甲骨文分析云可以访问甲骨文自治数据仓库中的数据,以实现该服务提供的任何可视化和商业分析功能。
  • 甲骨文云基础设施数据目录从甲骨文自治数据仓库、对象存储和大数据服务Hive数据源收集元数据。您与数据目录交互以收集、查找和管理数据。
  • 您可以使用来自甲骨文自治数据仓库、大数据服务和对象存储的数据实现任何自定义的分析和机器学习工作负载应用程序。
  • 商业分析师可以使用甲骨文分析云从甲骨文自治数据仓库和大数据服务消费数据。
  • 数据科学家可以在甲骨文自治数据仓库中使用甲骨文机器学习笔记本和在甲骨文大数据服务中使用甲骨文机器学习进行Spark,来训练机器学习模型并处理空间和图数据。


替代架构

考虑本模式所描述架构的替代方案。

使用单一数据库或数据仓库来存储和分析所有类型的数据。在这种替代架构中,各种数据源(最终用户、设备、事件、传感器和应用程序)通过数据集成(甲骨文GoldenGate)和甲骨文事务性事件队列将数据传输到数据库,用于流媒体数据。数据存储在甲骨文自治数据库(甲骨文自治事务处理和甲骨文自治数据仓库)中,同时支持使用Cloud SQL的对象存储来处理大数据。使用甲骨文机器学习进行模型构建和部署,并使用甲骨文分析云和甲骨文数据云来洞察数据。以下图表展示了这种替代架构。


此架构使用以下数据源:

  • 企业应用程序
  • 设备
  • 最终用户
  • 事件
  • 传感器
  • 任何数字资产

此架构在虚拟云网络(VCN)内包含以下组件:

虚拟云网络(VCN)

  • VCN是您在甲骨文云基础设施区域中设置的可自定义的软件定义网络。与传统的数据中心网络一样,VCN使您能够完全控制您的网络环境。VCN可以有多个不重叠的CIDR块,您可以在创建VCN后更改它们。您可以将VCN划分为子网,这些子网可以局限于一个区域或一个可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。

数据集成

  • 甲骨文云基础设施数据集成是一个完全托管的、无服务器的云服务,摄取和转换数据用于数据科学和分析。它有助于简化复杂的ETL和ELT到数据湖和仓库,并使用甲骨文的现代、无代码数据流设计器。您可以使用一个现成的运算符,如连接、聚合或表达式,来整理您的数据。

甲骨文云基础设施事务性事件队列(TEQ)在ADB中

  • 自主数据库中的甲骨文事务性事件队列提供与数据库集成的消息队列功能。这种高度优化和分区的实现利用了甲骨文数据库的功能,以便生产者和消费者可以通过持久存储消息和在不同数据库之间传播消息来高效交换消息。甲骨文事务性事件队列是一种高性能的分区实现,每个队列有多个事件流。

甲骨文自治数据仓库

  • 甲骨文自治数据仓库是一种自驾、自保护、自修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。甲骨文云基础设施负责创建数据库,以及备份、打补丁、升级和调优数据库。
  • 这种云数据仓库服务消除了运营数据仓库、保护数据和开发数据驱动应用程序的所有复杂性。它自动完成数据仓库的配置、配置、保护、调优、扩展和备份。它包括用于自助数据加载、数据转换、业务模型、自动洞察以及内置融合数据库功能的工具,使得跨多种数据类型的查询和机器学习分析变得更简单。

对象存储

  • 对象存储提供对大量结构化和非结构化数据的快速访问,适用于任何内容类型,包括数据库备份、分析数据以及图像和视频等丰富内容。您可以安全可靠地存储数据,然后直接从互联网或云平台内检索数据。您可以无缝扩展存储,而不会经历性能或服务可靠性的下降。使用标准存储作为您需要快速、立即和频繁访问的"热"存储。使用归档存储作为您长期保留且很少或极少访问的"冷"存储。
  • 这个互联网规模的高性能存储平台提供可靠且成本效益高的数据持久性。对象存储服务可以存储无限量的任何内容类型的非结构化数据,包括分析数据和丰富内容,如图像和视频。

自治数据库

  • 甲骨文云基础设施自治数据库是完全托管的、预配置的数据库环境,您可以用于事务处理和数据仓库工作负载。您无需配置或管理任何硬件,也无需安装任何软件。甲骨文云基础设施负责创建数据库,以及备份、打补丁、升级和调优数据库。

甲骨文机器学习在自治数据库中

  • 甲骨文自治数据库(自治事务处理和自治数据仓库)中的甲骨文机器学习。
  • 甲骨文分析云
  • 这个云中现代分析的最佳平台赋予了商业分析师和消费者能力。甲骨文分析云为数据准备、发现和可视化提供现代AI驱动的自助分析能力;智能企业和按需报告与增强分析;以及自然语言处理和生成。无论您是商业分析师、数据工程师、公民数据科学家、部门经理、领域专家还是高管,甲骨文分析云都可以帮助您将数据转化为洞察。



分析、机器学习和定制应用程序

  • 分析服务、甲骨文机器学习和定制应用程序,用于编目、准备、处理和分析大数据。

数据目录

  • 甲骨文云基础设施数据目录是一个完全托管的、自助式的企业数据发现和治理解决方案。它为数据工程师、数据科学家、数据管理员和首席数据官提供了一个单一的协作环境,以管理组织的技术、业务和运营元数据。
  • 甲骨文云基础设施数据目录是一个元数据管理服务,帮助数据专业人士发现数据并支持数据治理。

甲骨文GoldenGate

  • 这个完全托管的服务提供了一个实时的、基于日志的变更数据捕获(CDC)和复制软件平台,以满足当今事务驱动应用程序的需求。该软件提供实时跨异构环境的事务数据捕获、路由、转换和交付。 另一种选择是在甲骨文云基础设施计算上构建和运行您自己的开源平台。然而,这个选项可能导致高运营费用(OpEx)。





考虑因素和反模式

在大数据和分析方面,请考虑以下内容。

减少数据复制和移动

  • 数据移动成本高,消耗资源和时间,可能降低数据准确性。根据数据类型、数据质量和所需转换选择适合存储和处理数据的服务。对于所有类型的原始数据,使用对象存储作为数据湖存储。使用甲骨文大数据服务来利用HDFS和Hadoop生态系统工具。使用甲骨文自治数据仓库存储用于展示的转换数据。选择正确的存储可以帮助您避免复制和移动数据,减少难以维护和同步的数据副本。

为您的用户提供他们需要的数据接口

  • 企业数据和分析平台有许多类型的用户:数据工程师、数据分析师、应用程序开发人员、大数据工程师、数据库管理员、商业分析师、数据科学家、数据管理员和其他消费者。所有这些人都有不同的数据消费需求和偏好。了解所有用例和数据消费者要求非常重要。对于Hadoop生态系统工具,请使用大数据服务。对于SQL查询和与商业智能工具的接口,请使用自治数据仓库。对于Spark应用程序,请使用甲骨文云基础设施数据流服务。

编目您的数据资产并建立共同词汇

  • 企业中的数据通常是跨多个团队共享的资产。使用数据目录从OCI和本地的数据源收集元数据,以创建数据资产库。这样做可以帮助数据消费者轻松找到他们需要的分析数据。使用数据目录还可以创建和管理企业术语表,包括类别、子类别和业务术语,以构建业务概念的分类法,并添加用户添加的标签,使搜索更加高效。

成本和性能意识

  • 如果数据和分析平台的设计和运营不当,成本可能会迅速上升。所有数据都有一定的性能要求,与延迟和吞吐量相关。通过使用最小的计算形状和服务中最少的存储空间来合理配置环境,同时仍然满足您的性能要求。终止任何未使用的资源。使用数据流进行Spark应用程序,因为您可以选择用于工作的核心数量,这为您提供了所需的性能,同时最大限度地减少成本。对于自治数据仓库,根据您的需求调整数据库的CPU核心数量或存储容量。还可以使用其自动扩展功能,该功能允许您的数据库在任何时间使用当前基础CPU核心数量的三倍,并在不需要时自动减少核心数量。

反模式

在设计实施方案时,请考虑以下内容:

  • 缺乏数据编目和治理可能会使数据湖变成数据沼泽。
  • 在块存储而不是对象存储中存储数据湖数据会导致更高成本的解决方案。



大数据和分析模式

  • 此架构模式提供了如何使用Oracle云基础设施(OCI)数据和分析服务来摄取、存储、编目、准备、处理和分析大数据以实现多种用例的指导。这些用例包括数据仓库;分析、商业智能和报告;提取、转换和加载(ETL)和提取、加载和转换(ELT)模式;数据湖和湖仓模式;以及训练机器学习模型。
  • 以下图表展示了与数据和分析相关的Oracle服务。




  • 使用Oracle自治数据仓库编写SQL查询,处理结构化数据以及外部表的非结构化和半结构化数据。
  • 使用Oracle大数据服务利用Apache Hadoop生态系统工具,如Hive、Spark、Kafka和HBase,来摄取、存储和处理各种非结构化和半结构化数据。
  • 使用Oracle云基础设施对象存储来存储大数据,并为所有类型的数据构建数据湖。
  • 使用Oracle云基础设施数据流处理Apache Spark原生作业。
  • 使用Oracle云基础设施数据集成从各种数据源摄取数据,并简化ETL(提取、转换、加载)和ELT(提取、加载、转换)处理。
  • 使用Oracle云基础设施数据目录从各种数据源收集元数据,构建资产清单、业务词汇表和数据湖的公共元数据存储。
  • 使用流媒体技术摄取与Kafka兼容API的实时数据流。




开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。


Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。


利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。


Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门