欢迎访问深圳敏捷云计算科技有限公司!

甲骨文云-利用Oracle自治数据库发现数据中的关联并执行图形分析:探索隐藏的洞见

2024-03-05 原创文章

图数据库和图分析是Oracle融合数据库提供的核心部分。使用内置于Oracle数据库中的图功能,可以消除对单一用途数据库的需求和数据复制的必要。分析师和开发者可以进行全面的分析,以发现数据中的连接,这些连接可提供像客户趋势或欺诈检测的洞察,或在智能制造中提高可追溯性。他们可以在获得企业级安全性、数据摄入的便利性,以及对多种数据工作负载的支持的同时,进行这些分析。


Oracle自治数据库(ADB)提供了一个集成的、一键式配置的自助服务工具,称为图形工作室(Graph Studio),它自动化并简化了在数据生命周期中的建模、管理、分析和可视化图形的过程。图形工作室提供了对一整套图形分析的访问,包括60多种预构建的图算法和一种类似SQL的声明性语言,称为属性图查询语言(PGQL)。图形工作室支持笔记本,使数据爱好者和开发者能够使用内存中的图形分析引擎(PGX)进行逐步分析,以获得最高性能。


图形是一种直观的数据建模方式,重点在于数据实体之间的连接,因为大多数数据都是相互连接的。图形使得在连接的数据实体之间导航、探索链接和得出新结论变得更加容易。图形的主要组成部分是顶点(或节点)和边,边连接两个顶点。图形的典型示例包括社交网络、资金流动、物料清单或数据系统。


以下示例图像展示了如何通过图形分析来识别金融交易中的欺诈。



为了简化欺诈检测,您可以从实体间的交易以及分享某些信息(包括电子邮件地址、密码、地址等)的实体创建一个图。一旦创建了图,运行一个简单的查询就可以找到拥有相似信息的所有客户账户,并揭示哪些账户相互转账。


想要了解更多关于图的信息和典型示例,请参阅电子书《17个图数据库和图分析的用例》。您可以在此参考架构的“探索更多”部分找到它。


为了从数据中的复杂关系发现新的洞察,您可以:

  • 执行图算法
  • 图算法分析顶点之间的路径和距离、顶点的重要性或顶点的聚类。它们对以下方面非常有益:检测社群(例如,Louvain、标签传播)检测连接组件(例如,强连通组件、弱连通组件)评估结构(例如,循环检测、三角计数、可达性)预测链接(例如,谁会关注谁),在图中排名和遍历节点(例如,PageRank、度中心性、接近中心性、SALSA)寻找路径(例如,Bellman-Ford、迪杰斯特拉算法、最宽路径、跳数距离)
  • 运行图模式匹配查询
  • 图模式匹配查询可以检测诸如循环或间接依赖等模式,这些模式涉及匹配一组特定约束的顶点和边。


架构

此架构使用Oracle自治数据仓库作为中心化数据仓库,从多个企业资源库和部门数据源中加载和整理数据。


然后使用图形工作室对数据进行图建模。图形工作室集成的笔记本界面,带有Java、PGQL和Python的解释器,使您能够快速执行图算法、查询图形并可视化结果。此参考架构帮助您开始使用图形,并为图形分析创建一个实验环境,无需其他工具或软件组件。您可以处理包含数百万顶点和边的图,包括它们的属性。


以下图表是此参考架构的功能性表示。


这种功能性表示关注以下逻辑分区:


数据精炼

  • 摄取并精炼数据,以供架构中每个数据层使用。这个形状旨在展示在每个级别存储和精炼数据的处理成本差异,以及在它们之间移动数据的过程。
  • 数据持久化平台(策划信息层)
  • 便利地访问和导航数据,展示当前业务视图。这一层允许您从关系数据中创建图形视图或持久图形结构。
  • 访问和解读
  • 抽象化数据的逻辑业务视图,以供使用者使用。这种抽象化促进了对数据分析的敏捷方法,为您策划的数据提供了单一的分析层。


架构包含以下组件:

数据整合

  • Oracle自治数据库内嵌了必要的工具来获取、加载和转换数据,适用于许多部门场景和特定高级用例。自治数据仓库包括了快速从本地或对象存储加载数据的能力。还包括自治数据转换功能,允许您连接到许多不同来源类型的数据,并访问EL-T类型功能。
  • Oracle云基础设施数据集成云服务适用于更高级的用例。它是一种完全托管的、无服务器的、原生云服务。该服务允许您设计并执行提取、加载和转换(ETL)数据的任务,从不同来源获取数据。

对象存储

  • Oracle云基础设施对象存储是一个互联网规模的高性能存储平台,提供可靠且成本效益的数据持久性。Oracle云基础设施对象存储可以存储无限量的任何内容类型的非结构化数据,包括分析数据。例如,您可以安全地检索部门数据,并将其存储在对象存储桶中。然后,您可以使用自治数据库的数据加载工具从桶中加载数据到自治数据库。
  • 自治数据库(ADW, ATP)
  • Oracle自治数据库是一种自驾、自保护、自修复的


数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。Oracle云基础设施处理创建数据库、备份、打补丁、升级和调优数据库。使用自治数据仓库,您可以灵活地将数据加载成多种格式,包括结构化、JSON、XML、图形和空间数据。此服务捆绑了自治工具,允许您高效地将数据加载到表中并进行轻量级ETL工作。


  • 图形工作室
  • 图形工作室是Oracle自治数据库共享基础设施的一个特性。它内嵌于自治事务处理(ATP)和自治数据仓库(ADW)中。它为开发者、分析师、数据工程师和数据科学家提供了使用图形的工具。图形工作室包含一个低代码用户界面,自动化图形建模,从数据仓库中现有的关系表生成图形,执行图形分析,开发图形应用程序,以及可视化和共享结果。自治数据库和图形工作室的结合为您提供了一个完整的图形数据库平台,可以在几分钟内通过一键配置、集成工具和安全性部署。您不需要成为数据库专家或图形专家就可以开始使用并产生成效。


以下图表展示了上述架构与Oracle云基础设施服务之间的对应关系,以及在安全性方面的最佳实践。



此参考架构具有以下主要组件:


虚拟云网络(VCN)和子网

  • VCN是您在Oracle云基础设施区域设置的可自定义的软件定义网络。与传统的数据中心网络一样,VCN让您完全控制您的网络环境。VCN可以有多个不重叠的CIDR块,您可以在创建VCN后更改它们。您可以将VCN划分为子网,这些子网可以限定在一个区域或一个可用性域。每个子网由不与VCN中其他子网重叠的连续地址范围组成。您可以在创建后更改子网的大小。子网可以是公共的或私有的。


可用性域

  • 可用性域是区域内独立的、独立的数据中心。每个可用性域中的物理资源与其他可用性域的资源隔离,提供了容错能力。可用性域不共享基础设施,如电力或冷却,或内部可用性域网络。因此,一个可用性域的故障不太可能影响该区域内的其他可用性域。


堡垒主机

  • 堡垒主机是一个计算实例,作为从云外部进入拓扑的安全、受控的入口点。堡垒主机通常在非军事区(DMZ)中配置。它使您能够通过将敏感资源放置在不能从云外部直接访问的私有网络中来保护这些资源。拓扑具有单一、已知的入口点,您可以定期监控和审核。因此,您可以避免暴露拓扑中更敏感的组件,同时不妨碍对它们的访问。


网络地址转换(NAT)网关

  • NAT网关使VCN中的私有资源能够访问互联网上的主机,而不将这些资源暴露给传入的互联网连接。


互联网网关

  • 互联网网关允许VCN中的公共子网与公共互联网之间的流量。


服务网关

服务网关提供从VCN到其他服务(如Oracle云基础设施对象存储)的访问。从VCN到Oracle服务的流量经过Oracle网络结构,而不穿越互联网。


自动扩展的自治数据库

  • 在此架构中,Oracle自治数据库可以是配置了自动扩展和私有端点的自治数据仓库(ADW)或自治事务处理(ATP)。它用于存储特定于应用程序的数据,以及进行图的建模、创建、维护、查询和可视化。访问控制列表(ACL)限制了对自治数据库的网络访问。它具有一个预创建的应用程序用户,该用户被授予了开发和维护图形以及使用自治数据库嵌入工具图形工作室的必要权限。样本数据预先加载到数据库用户架构中,以便于使用图形工作室快速开始。


推荐事项

以下推荐可作为起点,以创建一个平台,使您能够将数据贯穿整个图形分析生命周期。您的需求可能与这里描述的架构有所不同。


数据精炼

  • 自治数据库工具是Oracle自治数据仓库内嵌的功能,提供加载、转换、编目、洞察甚至以简单直接的方式开发业务模型的能力。


图形工作室

  • 在连接到图形工作室之前,我们建议:创建一个具有必要权限的数据库用户。使用图形大小估算器来估算您的图形大小。加载到图形工作室内存中的图形的最大内存表示允许为109 GB。
  • 注意:如果您的图形预计将消耗超过109 GB的内存,考虑从Oracle MarketPlace部署Oracle Graph Server和Clients工具到具有所需内存的计算VM中。VM.Standard.E3.Flex和VM.Standard.E4.Flex形状可以拥有高达1024 GB的内存。


部署考虑事项

当将来自多个数据库和文件源的数据加载和配置到启用了图形分析的中心化数据仓库时,考虑以下实施选项:

在与云数据仓库结合创建图形分析环境时,考虑以下实施选项:

  • 数据重力:将图形分析操作保持在靠近数据的地方,以限制数据移动的高成本。


部署

此参考架构的Terraform代码作为示例堆栈在Oracle云基础设施资源管理器中可用。您也可以从GitHub下载代码,并根据您的具体需求进行自定义。

  • 使用Oracle云基础设施资源管理器中的示例堆栈部署:

点击,如果您尚未登录,请输入租户和用户凭证。

选择您想要部署堆栈的区域。

按照屏幕上的提示和指示创建堆栈。创建堆栈后,点击Terraform操作,并选择计划。

等待作业完成,并审查计划。

如需进行任何更改,请返回到堆栈详情页面,点击编辑堆栈,并进行必要更改。然后,再次运行计划操作。

如果不需要进一步更改,请返回到堆栈详情页面,点击Terraform操作,并选择应用。


使用GitHub中的Terraform代码部署:

 访问GitHub。

 克隆或下载仓库到您的本地计算机。

 按照README文档中的指示操作。


开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。


Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。


利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。


Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。