找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 56|回复: 0

添加节点的过程很简单

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2023-11-26 12:31:40 | 显示全部楼层 |阅读模式
只需在 AWS 控制台中单击几下即可。 我们在用例故事“ Intuit 的云分析之旅”中描述了 Redshift 的线性可扩展性。线性扩展的关键是集群的正确配置。就像任何其他数据库一样,如果配置不正确,您将无法享受性能优势。您可以在我们的文章“我们如何配置 Amazon Redshift 以提高性能”中阅读更多内容。 对于传统的 MPP 数据库,存储和计算耦合在一起。这意味着如果您添加更多节点,您就会以相同的速率添加存储和计算。这也意味着您正在为高峰消耗分配资源。这是低效的,因为您最终会遇到计算量过多或存储量过多的情况。 有一个解决方案,即使用数据湖架构。 Amazon Redshift – 两个主要定价组成部分 让我们看看定价是如何融入这个等式的。


我们从数据湖和 Redshift Spectrum 开始。这里也有一个技术组件,但我们可以更多地了解运行查询的经济性和成本。 Amazon Redshift 和数据湖 公司将最新的“热门”数据保存在仓库中,例如 Redshift。是最接近当 电子邮件营销列表 前业务的数据。 它的“其余”部分会发生什么情况,例如历史或“未使用”的数据,例如没有人查询的列和表?您不想删除该数据,但也不想支付将其保留在集群中的费用。 数据湖 答案是存储在您的数据湖中。数据湖是 结构化和非结构化数据的廉价长期存储。在 AWS 中,该产品是 Amazon S3。在 S3 中存储数据的成本大约是在 Redshift 集群中存储数据的十分之一。 图:典型的 S3 – Redshift 工作流程(来源:AWS)。



如果您仍想查询数据,将数据存储在 S3 中意味着 S3 和 Redshift 之间需要频繁通信。一种方法是构建提取-转换-加载 (ETL) 管道并将数据加载到集群中,然后在分析完成后再次卸载。这很复杂而且效率不高。 将存储与计算解耦 另一种方法是通过称为“ Redshift Spectrum ”的功能查询 S3 中的数据并将其与集群中的数据连接起来。Spectrum 是一个“无服务器查询引擎”。“无服务器”意味着无需设置或管理任何基础设施。 指向 S3 中的数据,定义架构,然后您就可以开始使用标准 SQL 查询进行查询。Redshift Spectrum 直接在 S3 上运行查询,就像普通的 Redshift 表一样。通过使用 S3 和 Redshift Spectrum,您可以将集群的存储与计算分开。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱零愛菁 ( 粤ICP备2022038107号 )

GMT+8, 2025-1-24 04:58 , Processed in 0.014348 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表