程师和科学家运行大型计
Posted: Sun Jan 05, 2025 5:49 am
执行 通过在函数运行之间传递状态对象并在每次运行中更新该对象,我们可以维护一个指针,指示处理应该从哪里开始,并在每次运行中加载一小批数据。 每个函数实例都会调用下一个函数实例,直到数据被处理完毕。 arch 无服务器 Lambda 这并不理想,所以我们开始寻找让我们不必担心时间限制的替代方案。 AWS 提供 Batch 服务,专为工算批处理作业而设计。
您可以创建一个计算环境,将其与作业队列关联,然后 芬兰电话营销数据 定义作业定义以指定要运行哪些容器映像。 与 Lambda 相比,它需要更多设置,但另一方面,您无需再担心时间限制。我们目前正在使用它在我们的 DWH 任务中运行大量聚合,这很难仅使用 lambda 来完成。 虽然Glue、Lambda、Batch能够实现快速的代码开发和部署,但是QA可能会很麻烦。 随着开发出越来越关键和复杂的管道,确保进行正确的测试变得有些困难。
不可能在本地复制无服务器环境进行单元测试。 建立一个具有足够有意义的数据和元数据的专用无服务器测试环境是一项相当大的挑战,更不用说成本影响了。 为了缓解这种情况,对于 Glue,我们会在必要时创建 Glue 开发端点,以便在将代码工件投入生产之前对其进行测试。 对于 Lambda,由于我们使用 Python,因此我们创建本地虚拟环境,在其中我们可以运行单元测试,然后打包我们的应用程序。
您可以创建一个计算环境,将其与作业队列关联,然后 芬兰电话营销数据 定义作业定义以指定要运行哪些容器映像。 与 Lambda 相比,它需要更多设置,但另一方面,您无需再担心时间限制。我们目前正在使用它在我们的 DWH 任务中运行大量聚合,这很难仅使用 lambda 来完成。 虽然Glue、Lambda、Batch能够实现快速的代码开发和部署,但是QA可能会很麻烦。 随着开发出越来越关键和复杂的管道,确保进行正确的测试变得有些困难。
不可能在本地复制无服务器环境进行单元测试。 建立一个具有足够有意义的数据和元数据的专用无服务器测试环境是一项相当大的挑战,更不用说成本影响了。 为了缓解这种情况,对于 Glue,我们会在必要时创建 Glue 开发端点,以便在将代码工件投入生产之前对其进行测试。 对于 Lambda,由于我们使用 Python,因此我们创建本地虚拟环境,在其中我们可以运行单元测试,然后打包我们的应用程序。