欢迎访问深圳敏捷云计算科技有限公司!

甲骨文云 OCI 自动化数据仓库上的机器学习平台:智能化数据处理的革命

2024-04-09 原创文章

为了跟上迅速变化的信息需求,组织正寻找各种机会来快速培训、部署和管理机器学习(ML)模型。

有了甲骨文自动化数据仓库(ADW),您拥有了加载和准备数据、训练、部署和管理机器学习模型所需的一切内置工具。这些服务包含在自动化数据仓库中,但您也可以灵活搭配其他工具,以最适合您的组织需求。这个参考架构将技术解决方案定位于整体商业环境中:

当组织在云中实施数据仓库或数据集市,结合机器学习平台时,他们通常需要拼凑多个服务来实现端到端的解决方案。虽然对某些组织来说这是可行的,但对于那些缺乏经验或资源的组织来说,这可能是一个艰巨的任务。

一个全面的机器学习平台至少应包括以下内容:

方便访问结构化和非结构化数据

建立和管理数据工程管道的能力

按照商业目标在规模上构建模型和评分数据的能力

用于构建机器学习模型的协作平台

简化的模型管理和部署过程

使用自动机器学习(AutoML),扩展能够构建机器学习模型的人员范围,加速数据科学家的工作

甲骨文自动化数据仓库中包含的机器学习工具平台为各部门和组织提供了一种有效的方式,利用机器学习的好处,而不必过分依赖 IT 资源和可用性。此外,产品更新和安全补丁通过自动化数据仓库自动处理。

架构

该架构利用甲骨文自动化数据仓库中嵌入的数据科学和机器学习功能,分析来自广泛企业数据资源的数据,用于商业分析和机器学习。下图展示了用户可以根据用例选择的多条路径。最简单的路径(实线)提供了一个简单的方法来执行数据工程任务、构建机器学习模型,以及使用自动化数据仓库(ADW)中嵌入的工具来管理和部署模型。对于更高级的用例(虚线),我们还包括了其他甲骨文云基础设施(OCI)服务,这些服务与ADW中包含的服务(灰线框内)无缝集成。

该架构聚焦于以下逻辑划分:

摄取、转换

摄取并精炼数据,用于架构中的每一层数据层。

持久化、整理、创建

促进对数据的访问和导航,展现当前商业视角。对于关系型技术,数据可能在简单的关系型、纵向、维度或OLAP形式中逻辑上或物理上结构化。对于非关系型数据,该层包含一个或多个数据池,无论是来自分析过程的输出,还是针对特定分析任务优化的数据。

分析、学习、预测

抽象数据的逻辑商业视角供消费者使用。这种抽象促进了敏捷的开发方法,迁移到目标架构,以及从多个联合源提供单一报告层。

下图展示了该架构到甲骨文云基础设施所提供服务的映射,使用了最佳安全实践。

该架构包括以下组件:

数据集成

自动化数据仓库附带必要的嵌入式工具,用于获取、加载和转换多种部门场景和特定高级用例的数据。自动化数据仓库包括一种加载功能,允许您快速从本地或对象存储中加载数据。此外,还包括自动化数据转换功能,允许您连接到多种不同的数据源类型,并访问ELT(提取、加载、转换)类型的功能。

对于更高级的用例,有甲骨文云基础设施数据集成。甲骨文云基础设施数据集成是一种完全托管的、无服务器的、原生云服务,帮助您执行常见的提取、加载和转换(ETL)任务,例如从不同源摄取数据、清洗、转换和重塑数据,然后高效地将其加载到甲骨文云基础设施上的目标数据源。

自动化数据仓库

甲骨文自动化数据仓库是一个自驾、自保护、自修复的数据库服务,专为数据仓库工作负载优化。您无需配置或管理任何硬件,也无需安装任何软件。甲骨文云基础设施负责创建数据库,以及数据库的备份、修补、升级和调优。

使用自动化数据仓库,您可以灵活地将数据加载成多种格式,包括结构化、JSON、XML、图形和空间数据。此服务捆绑的自动化工具使您能够轻松加载数据到表中,并进行轻量级ETL工作。

甲骨文机器学习内置于自动化数据仓库的核心。这使得在数据库内核中运行数据库算法成为可能,并产生用于立即部署的一流数据库对象。

对象存储

甲骨文云基础设施对象存储是一个具有互联网规模、高性能的存储平台,提供可靠且成本效益的数据耐久性。甲骨文云基础设施对象存储可以存储无限量的任何内容类型的非结构化数据,包括分析数据。您可以安全地直接从互联网或云平台内存储或检索数据。多种管理接口使您可以轻松地从小规模开始,并无缝扩展,而不会经历性能或服务可靠性的降低。

预测

甲骨文机器学习服务扩展了甲骨文机器学习(OML)的功能,支持通过REST API部署和管理数据库内的甲骨文机器学习模型和第三方开放神经网络交换(ONNX)机器学习模型的生命周期。甲骨文机器学习服务支持应用程序和仪表板的实时和小批量评分。

甲骨文机器学习服务的REST API通过自动化数据仓库提供了带有身份验证的REST端点。这些端点支持存储和管理机器学习模型及其元数据。这些端点还允许创建模型的评分端点。

甲骨文机器学习服务支持第三方分类或回归模型,这些模型可以使用Scikit-learn和TensorFlow等包构建,然后以ONNX格式导出。甲骨文机器学习服务支持集成的认知文本分析,用于主题发现、关键词、摘要、情感和相似度分析。甲骨文机器学习服务还支持通过第三方ONNX格式模型部署的图像分类,并支持使用图像或张量进行评分。

用户还可以直接在数据库中使用数据库内模型进行预测,这些模型来自SQL、R和Python,适用于单个、小批量和大规模批量评分。用户可以利用OML4Py嵌入式Python执行来调用由第三方包生成的用户定义的Python函数,并从Python和REST接口进行预测。

学习

甲骨文机器学习笔记本为数据科学家、商业和数据分析师提供了一个协作用户界面,他们可以在此界面中使用SQL和Python解释器,同时在甲骨文自动数据库中进行机器学习,包括自动化数据仓库(ADW)、自动交易处理(ATP)和自动JSON数据库(AJD)。甲骨文机器学习笔记本使更广泛的数据科学团队(数据科学家、公民数据科学家、数据分析师、数据工程师、数据库管理员)能够一起通过OML4SQL和OML4Py探索他们的数据并开发分析方法。笔记本界面提供了通过Python、SQL和PL/SQL访问甲骨文高性能、并行和可扩展的数据库内机器学习算法实现的途径。数据库内功能也可以通过连接到自动数据库以及通过外部接口访问,如SQL开发者、开源笔记本环境和第三方IDE。

OML4Py还提供了一个用于自动化机器学习(AutoML)的Python API,用于自动化算法和特征选择,以及自动化模型调优和选择。

甲骨文机器学习AutoML用户界面(OML AutoML UI)是一个无代码用户界面,提供自动化机器学习,并易于部署到甲骨文机器学习服务。没有广泛数据科学背景的商业用户可以使用OML AutoML UI创建和部署机器学习模型,并生成包含相应OML4Py代码的OML笔记本,以编程方式重建模型和评分数据。

专业数据科学家可能会使用OML AutoML UI作为快速模型探索的生产力加速器,用于部署的便利性,以及生成初始笔记本。

分析

甲骨文分析云是一种可扩展和安全的公共云服务,为您、您的工作组和您的企业提供了一整套功能,以探索和执行协作分析。

甲骨文分析云与甲骨文机器学习集成,可访问数据库内模型,这些模型可以在甲骨文分析云工作流和仪表板中搜索、可视化和部署。

使用甲骨文分析云,您还可以获得灵活的服务管理能力,包括快速设置、简易扩展和修补,以及自动化的生命周期管理。

建议

使用以下建议作为创建高级云数据仓库和机器学习操作框架平台的起点。

您的需求可能与这里描述的架构不同。

摄取、转换

自动化数据库工具是嵌入在甲骨文自动化数据仓库中的功能,提供加载、转换、编目、获取洞察甚至以简单直接的方式开发商业模型的能力。

分析、学习、预测

在将甲骨文分析云连接到甲骨文自动化数据仓库之前,需要数据库管理员允许您的甲骨文分析云实例的IP地址(或地址范围)。数据库管理员必须添加一个安全规则,允许甲骨文分析云到数据库的TCP/IP流量。

考虑因素

在结合您的云数据仓库创建机器学习操作框架时,请考虑以下实施选项。

数据引力:将您的机器学习操作框架保持在靠近您的数据的地方,以限制数据移动的高成本,无论是在金钱上还是在机器学习模型开发时间上(即使是使用机器学习模型进行数据评分)。

更快的价值实现时间:下表中的建议将帮助您更快地开始,减少开始实现解决方案价值所需的时间。

部署

部署此参考架构所需的代码可在GitHub上获取。您可以一键将代码拉入甲骨文云基础设施资源管理器,创建堆栈并部署。或者,从GitHub下载代码到您的电脑,自定义代码,并使用Terraform CLI部署架构。

使用甲骨文云基础设施资源管理器部署:

a. 点击,如果您还未登录,请输入租户和用户凭据。

b. 查看并接受条款和条件。

c. 选择您希望部署堆栈的区域。

d. 按照屏幕上的提示和指示创建堆栈。

e. 创建堆栈后,点击Terraform操作,并选择计划(Plan)。

f. 等待作业完成,并审查计划。

g. 如需进行任何更改,返回到堆栈详情页面,点击编辑堆栈,并进行必要的更改。然后,再次运行计划(Plan)操作。

h. 如果不需要进一步更改,返回到堆栈详情页面,点击Terraform操作,并选择应用(Apply)。

使用GitHub中的Terraform代码部署:

a. 前往GitHub。

b. 克隆或下载仓库到您的本地电脑。

c. 按照README文档中的指示操作。

开启您的Oracle云之旅:Agilewing - 您的智能云服务伙伴

作为Oracle的高级合作伙伴,Agilewing正重新定义企业体验Oracle云服务的方式。借助于其简化的开户流程和一流的技术支持,Agilewing将复杂的开户和操作流程转化为一种轻松、直观的体验。通过我们的一站式服务,您可以迅速开启并享受Oracle云的全方位服务,从而无缝融入云端世界。

Agilewing的AgileCDN服务,结合了OCI的云基础服务,提供了一流的全球内容加速解决方案。超过2800个全球POP节点和7000个直连点的强大网络,确保了无论您的业务扩展到全球哪个角落,都能保持高效稳定的运行。

利用Oracle云的先进技术,Agilewing致力于简化云服务搭建、云迁移和业务出海的过程。我们的合作模式为客户带来经济高效的解决方案,使他们能够更加专注于核心业务,同时享受Oracle云的高性能和安全保障。

Oracle云服务,作为一个充满潜力的领域,以其高性能、安全性和全球统一的服务标准,为各类企业开启了新的机遇之门。通过Agilewing的专业服务,无论是个人用户还是企业,都能轻松步入这个充满技术革新和高效能的新时代。现在,就让Agilewing引领您开始探索Oracle云服务,打开一个全新的世界大门。