Primeiros passos para analisar dados em nuvem: Criando um cluster Redshift na AWS (Amazon Web Services)

Primeiros passos para analisar dados em nuvem: Criando um cluster Redshift na AWS (Amazon Web Services)

Inscreva-se

Abordamos dados e análises dentro das empresas.

Receba novos artigos por e-mail


Compartilhe

Esse artigo é parte da nossa série para ajudar você a dar os primeiros passos para analisar dados em nuvem. Esperamos que você já tenha lido o nosso artigo anterior, onde ensinamos como criar uma conta na AWS.

O Amazon Redshift é um produto de data warehouse totalmente gerenciado e oferecido pela Amazon Web Services para análise de dados até uma escala de petabytes.

Criando um cluster Redshift na AWS

Para criar o seu cluster Redshift na AWS, faça login na sua conta e siga os passos abaixo:

1) Escolha a sua região. No lado direito do menu superior, você tem a opção de escolher a região onde irá criar o banco. As regiões da AWS indicam em qual data center será criado o seu banco de dados e os preços por hora desse banco irão variar conforme a região. Criar um banco de dados em São Paulo, por exemplo, é bem mais caro do que criar na Virgínia, apesar de oferecer uma latência melhor. Como esse artigo é dedicado a bancos de dados analíticos (Data Warehouses e Data Lakes), achamos aceitável uma latência de alguns micro-segundos e iremos criar na região US East 1 (N. Virgínia):

Preparando serviços de apoio

Antes de criar o Redshift de fato, precisaremos preparar outros serviços da AWS que serão utilizados: security group, elastic IP e cluster subnet group

Criando um security group

Os security groups da AWS permitem o controle de acesso aos seus recursos de forma granularizada. Iremos utilizá-lo para que o seu cluster possa ser acessado de forma segura por aplicações externas (e apenas por elas!).

2) Na barra de buscas superior, digite “security groups” depois, na seção de resultados “Features” selecione “Security groups (VPC feature)”

3) À direita, clique no botão “Create security group”

4) Na seção de detalhes básicos, dê um nome (identificação interna na AWS) para seu security grouo, como “sg:kondado-redshift”, informe uma descrição (também algo interno da AWS) e selecione a VPC deste security group – caso sua conta seja nova, haverá apenas uma VPC

5) Vá para a seção de “Inbound rules”, clique no botão “Add rule” para adicionar uma regra de acesso para o security group

6) Para preencher os dados do grupo de acesso, iremos utilizar a porta padrão do Redshift (5439) neste tutorial, então, em “Type”, basta preencher “Redshift” e informar um IP em “Source”. Clique em Add rule novamente para adicionar vários IPs

7) Todos os IPs da Kondado estão listados aqui e todos eles precisam ser adicionados para liberação no security group. Você também deve incluir outros IPs (como ou seu próprio ou de alguma ferramenta de visualização) que deseja que acessem o seu cluster

8) Após preencher todos os IPs/recursos que poderão acessar o seu cluster, agora basta ir até o final da página e clicar em “Create security group”

Criando um IP elástico (elastic IP)

IPs elásticos (elastic IPs) permitem manter fixo o endereço de acesso externo a certos recursos da AWS, como instâncias EC2 e o próprio Redshift. Dessa forma, alterações na configuração do cluster não afetarão como aplicações externas conectam-se a ele.

9) Para criar um IP elástico que possa ser posteriormente utilizado pelo Redshift, pesquise por “elastic ip” na barra superior e em “Features” selecione “Elastic IP addresses (VPC feature)”

10) Clique em “Allocate Elastic IP address”

11) Basta manter todas as configurações e, ao final, clique em “Allocate”

12) Você será direcionado para a listagem de IPs elásticos, mostrando o IP que acabou de criar. Neste caso, o endereço é 54.235.128.213

Cluster subnet group

13) Este recurso é criado diretamente na página do Redshift. Na barra de busca superior busque por “Redshift” e então selecione o serviço

14) Abra a barra lateral esquerda, clique em “Configurations” e depois “Subnet groups”

15) Clique em “Create cluster subnet group”

14) Na página de criação, dê um nome para o seu cluster subnet group como por exemplo “kondado-cluster-subnet-group” e informe uma descrição para referência interna

15) Selecione a VPC que você irá utilizar e adicione as subnets desta VPC que serão utilizadas ou clique em “Add all the subnets for this VPC” para utilizar todas

16) Ao final, clique em “Create cluster subnet group”

17) Você verá o seu novo cluster subnet group criado

Agora, o Redshift

18) Agora que o security group, IP elástico e subnet group já estão criados, podemos criar o Redshift de fato. Vá para a página principal do Redshift buscando na barra superior conforme passo 13

19) Na tela principal do Redshift selecione “Create cluster” em “Provision and manage clusters”:

20) Na tela de criação, na primeira seção, dê um nome para o seu cluster, como “redshift-kondado” (essa é apenas uma identificação interna da AWS) e selecione “Production” como o que planeja fazer com o cluster

21) Ainda nessa seção, para dimensionamento do cluster, selecione a opção “I’ll choose” e configure o tamanho do cluster. Para o nosso exemplo, utilizaremos a configuração mais econômica, com “Node type” = “dc2.large” e “Number of nodes”=1

22) Vá para a seção de “Database configurations”, informe um nome do usuário admin do banco de dados, por exemplo, “kondado” e, então, escolha a senha deste usuário – anote esta senha porque será utilizada posteriormente

23) Pule para a seção de “Additional configurations” e desmarque a opção de “Use defaults”

24) Na seção “Network and security”, selecione a VPC utilizada para criar os recursos utilizados anteriormente

25) Na opção “VPC security groups”, desmarque as opções selecionadas e, então, busque e selecione o security group criado no passo 8 (no nosso exemplo, “sg:kondado-redshift”)

Opção VPC security groups
Selecione o security group criado no passo 8

26) Em “Cluster subnet group” selecione o item criado no passo 17 (no nosso exemplo, “kondado-cluster-subnet-group”)

27) Ao final desta mesma seção “Network and security”, pocure pela opção “Publicly accessible” e marque “Turn on” e selecione o Elastic IP address que criamos no passo 12 (no nosso exemplo, 54.235.128.213). Esta configuração é importante para que o seu cluster possa ser acessado por aplicações fora da sua VPC, como os servidores da Kondado. Lembre-se que as regras de acesso do security group que criamos no passo 8 servirão para evitar acessos não autorizados

28) Procure pela seção “Database configurations”, preencha o “Database name” da forma como preferir (por exemplo, “kondado”) e em “Database port”, mantenha o valor 5439, pois esta é a porta que está configurada no security group que criamos

29) Clique em “Create cluster” para que seu data warehouse Redshift seja criado

Adicionando o seu novo cluster Redshift como destino na plataforma Kondado

Para saber como adicionar o cluster Redshift que você acabou de criar como destino na plataforma Kondado, basta clicar aqui

Este seriam os parâmetros a serem preenchidos na Kondado, conforme foram utilizados neste tutorial:

Publicado em 2022-07-07