集成整个组织的数据可以让您更好地了解客户、简化运营并帮助团队做出更好、更快的决策。但整合数据并不容易。
通常,组织使用各种工具和系统(例如数据摄取服务)从不同来源收集数据。数据通常存储在孤岛中,这意味着必须将其移至数据湖或数据仓库中,然后才能运行分析、人工智能 (AI) 或机器学习 (ML) 工作负载。在数据准备好进行分析之前,需要对其进行组合、清理和规范化,这一过程也称为提取、转换、加载 (ETL),这可能非常费力且容易出错。
在 AWS,我们的目标是让组织更轻松地连接到所有数据,并以客户所需的速度和敏捷性实现这一点。我们基于以下目标开发了实现零 ETL 未来的开创性方法:打破数据孤岛,使数据集成更容易,并加快数据驱动创新的步伐。
合并来自不同来源的数据就像将一堆砾石从一个地方移动到另一个地方一样,这是一项困难、耗时且常常令人不满意的工作。首先,ETL 经常要求数据工程师编写自定义代码。然后,DevOps 工程师或 IT 管理员必须部署和管理基础设施,以确保数据管道的扩展。当数据源发生变化时,数据工程师必须手动更改代码并重新部署。
此外,当数据工程师遇到数据复制滞后、架构更新中断以及源和目标之间的数据不一致等问题时,他们必须花费时间和资源来调试和修复数据管道。在准备数据时(这个过程可能需要几天时间),数据分析师无法运行交互式分析或构建仪表板,数据科学家无法构建机器学习模型或运行预测,较终用户(例如供应链经理)也无法做出数据驱动的决策。
这个漫长的过程扼杀了任何实时用例的机会,例如根据交通状况将司机分配到路线、放置在线广告或向乘客提供列车状态更新。在这些情况下,可能会失去改善客户体验或解决新业务前景的机会。

零 ETL 支持通过联合查询就地查询数据,并以零工作量自动将数据从源移动到目标。这意味着您可以近乎实时地对事务数据进行分析、连接到软件应用程序中的数据以及从数据存储中生成 ML 预测以更快地获得业务洞察,而不必将数据移动到 ML 工具。您还可以跨数据库、数据仓库和数据湖查询多个数据源,而移动数据。为了完成这些任务,我们在服务之间构建了各种零 ETL 集成,以解决许多不同的用例。
例如,假设一家在十几个国家/地区设有工厂的制造公司使用数据库集群来存储每个国家/地区的订单和库存数据。为了实时查看所有订单和库存,该公司必须在每个集群与中央数据仓库之间构建单独的数据管道,以便跨组合数据集进行查询。为此,数据集成团队必须编写代码来连接到 12 个不同的集群并管理和测试 12 个生产管道。团队部署代码后,必须不断监控和扩展管道以优化性能,当发生任何变化时,他们必须在 12 个不同的地方进行更新。通过使用Amazon Aurora 零 ETL 与 Amazon Redshift 集成,数据集成团队可以消除构建和管理自定义数据管道的工作。
另一个例子是销售和运营经理正在寻找公司销售团队应重点关注的领域。使用完全托管的无代码集成服务 Amazon AppFlow,数据分析师可以将销售机会记录从 Salesforce 提取到 Amazon Redshift 中,并将其与来自不同来源(例如计费系统、ERP 和营销数据库)的数据相结合。通过分析所有这些系统中的数据进行销售分析,销售经理能够无缝更新销售仪表板,并为团队提供正确的销售机会。

在一个现实世界的用例中, Magellan Rx Management (现在是 Prime Therapeutics 的一部分)。使用数据和分析来提供改善患者护理、优化成本和改善结果的临床解决方案。该公司通过其 MRx Predict 解决方案开发和提供这些分析,该解决方案使用各种数据(包括药房和医疗索赔以及人口普查数据)来优化预测模型的开发和部署,并较大限度地提高预测准确性。
在 Magellan Rx Management 开始使用 Redshift ML 之前,其数据科学家通过使用各种工具执行一系列步骤得出了预测。他们必须在 SageMaker 中确定适当的 ML 算法或使用 Amazon SageMaker Autopilot,从数据仓库导出数据,并准备训练数据以使用这些模型。部署模型后,科学家们使用新数据进行了各种迭代以进行预测(也称为推理)。这涉及通过一系列手动步骤在 Amazon Redshift 和 SageMaker 之间来回移动数据。
借助 Redshift ML,该公司的分析师可以通过轻松创建和使用 ML 模型来对新药进行市场分类。通过利用 Redshift ML 支持此流程所获得的效率提高了生产力、优化了资源并产生了高度的预测准确性。
我们的使命是让客户轻松地从他们的数据中获得较大价值,而集成服务是此过程的关键。这就是我们今天致力于构建零 ETL 未来的原因。通过数据工程师可以自由地专注于从数据中创造价值,组织可以加速数据的使用,以简化运营并推动业务增长。