找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 68|回复: 0

均匀分配您的数据

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-12-7 12:21:22 | 显示全部楼层 |阅读模式
由于 Redshift 是一个大规模并行处理 (MPP) 数据库,因此它一次从多个节点获取数据,从而允许同时运行许多并发查询。乍一看,并发运行多个查询似乎会大大减少执行时间,但事实并非如此。您的吞吐量将取决于您在任何给定时间运行的查询的优化程度。


集群被划分为节点,节点又被划分为切片。在 Redshift 中,任何查询的运行时速度都只能与所有节点集群中最慢的切片一样快。因此,您必须在节点和切片之间均匀分布数据,以实现并发扩展、避免超时并保持 ETL 进程在默认队列及其他队列中高效运行。

当然,请记住,超级用户负责配置设置,除非您将正确的访 电子邮件营销列表 问权限分配给另一个用户组。如果您正在运行多个查询,请确保检查参数组并进行相应调整,以便实现您希望在查询队列中看到的并发级别指标。通过几个步骤,您的 WLM 查询将运行得更加顺畅。

定期维护表
Redshift可以快速创建表和行。但是,Redshift 不会实际删除未使用的空间,而是将它们标记为删除。随着时间的推移,这些旧空间可能会占用集群内过多的空间并减慢运行时间。



要维护系统表,请定期运行 VACUUM 和 ANALYZE 等函数。这样做,您将能够识别并删除未使用的行和表。

一次运行整个转换
大多数 ETL 转换需要几个步骤才能完成,但每次 COMMIT 都非常消耗资源。因此,单独运行步骤会消耗 CPU 并增加运行时间。为了避免这种情况,请使用带有语句的括号,将整个转换过程作为单个事务运行。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱零愛菁 ( 粤ICP备2022038107号 )

GMT+8, 2025-1-24 11:37 , Processed in 0.015029 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表