Tutorial: como observar a variação de mortes por covid entre pessoas com fatores de risco para a doença

Nossos alunos do MBA em Jornalismo de Dados produziram uma série de tutoriais como trabalho final na disciplina Low Code: Transformando dados em pautas sem programar, ministrada pelo professor Adriano Belisário. Este mês você poderá conferir alguns dos trabalhos e se aventurar com os tutoriais elaborados por eles. Hoje você confere o tutorial feito por Mariana Hallal.

A vacinação contra a covid-19 no Brasil começou com os grupos de maior vulnerabilidade à doença ou que estão mais expostos ao vírus. Idosos, pessoas que vivem em instituições de longa permanência, profissionais de saúde e povos indígenas estavam no topo da lista. 

Recentemente, em maio, as pessoas com comorbidades começaram a ser contempladas. Veja como descobrir o impacto dessa vacinação no número de pessoas internadas. Para isso, vamos explorar os dados do Sivep-Gripe do Ministério da Saúde no SQL e no Google Sheets. 

Passo a passo

1 – Baixe os dados do Ministério da Saúde. Para essa análise, vamos usar apenas os dados de 2021. Clique aqui para baixar a planilha.Para fazer o download, você precisa clicar em “SRAG” > “Explorar” > “Baixar”

2 – Se você nunca usou o SQL, precisa baixar o programa. Vamos usar o DB Browser for SQLite. Faça o download aqui

3 – No SQL, clique em “Novo banco de dados”, nomeie esse banco de dados como “comorbidade” e salve. 

3 – Vai abrir uma janela pedindo que você crie uma tabela. Clique em cancelar porque vamos importar os dados.

4 – Clique em “Arquivo” > “Importar” > “Tabela a partir de arquivo CSV”

5 – Selecione o arquivo que baixamos do Ministério da Saúde, configure a tabela como mostra a imagem e clique em OK

7 – O nome da tabela contém elementos que podem prejudicar a análise, como o hífen (-). Vamos renomear a tabela para eliminar este problema. Clique com o botão direito sobre o nome da tabela e clique em “Modificar tabela”. 

8 – Renomeie a tabela como “srag2021” e clique em OK.

9 – Agora vamos partir para a análise. Vamos selecionar as colunas que usaremos. Clique em “Executar SQL”, digite o comando abaixo e aperte o botão de “play”.

SELECT FATOR_RISC, substr (DT_INTERNA, 4, 10) AS mes_interna

FROM srag2021

WHERE CLASSI_FIN = 5

A função SELECT diz ao programa quais colunas queremos. A função FROM diz de qual tabela queremos puxar essas colunas. A função WHERE faz um filtro. Neste caso, queremos apenas as linhas onde a classificação final é 5 (covid).

O termo “substr” no fim da função SELECT serve para cortar caracteres de uma coluna inteira. Vamos aplicá-lo à coluna DT_INTERNA para ficar apenas com o mês e ano de internação – isso vai facilitar a análise. 

10 – Essa tabela é a que vamos usar. Por isso, vamos criar uma vista para poder trabalhar melhor com ela. Clique em “Salvar vista de resultados” > “Salvar como vista”. Nomeie essa vista como “fatorderisco”

11 – Dê dois Enters depois da última linha e vamos para mais uma sentença. Nosso objetivo final é descobrir quantos % dos internados apresentavam fator de risco a cada mês. Então vamos pedir ao SQL para contar quantas pessoas com e sem fator de risco foram internadas em cada mês.

SELECT *, count (FATOR_RISC) AS totalfator

FROM fatorderisco

WHERE mes_interna LIKE ‘%2021%’

GROUP BY mes_interna, FATOR_RISC

Com essa sentença, filtramos só os meses de 2021. Apesar de a planilha, teoricamente, só trazer dados de 2021, há muitos erros de digitação no campo “data” que atrapalham a análise.

Depois de digitar a sentença, selecione-a e clique em “Executar”.

12 – Vamos salvar esse resultado e passar para o Google Sheets. Clique no mesmo botão de salvar vista, escolha “Exportar para CSV”, clique em “save” e nomeie como “fatorderisco”.

13 –  Crie uma nova planilha no Google Sheets. Clique em “Arquivo” > “Importar” > “Upload” > “Selecionar um arquivo do seu dispositivo”. Desmarque a caixinha que diz “Converter texto em números, datas e fórmulas” e clique em “Importar dados”.

14 – Clique em “Ver” > “Congelar” > “1 linha” para marcar a primeira linha como cabeçalho. 

15 – Selecione a coluna “totalfator”, clique no botão “123” e selecione a opção “0” ou “número”. 

16 – Vamos criar uma tabela dinâmica. Clique em “Dados” > “Tabela Dinâmica” > “Criar”. Clique em “Adicionar” ao lado de “Linhas” no menu à esquerda e selecione “mes_interna”. 

Clique em “Adicionar” ao lado de “Valores” e selecione “totalfator”. Na aba “Resumir por”, selecione “SUM”.

Copie o resultado e cole somente os valores (CTRL + SHIFT + V) na célula F1 da aba principal.

17 – Na célula D1 da primeira aba, digite “total_por_mes”. Na célula D2, digite a seguinte fórmula: =PROCV(B:B;F:G;2;FALSO).

18 – Dê dois cliques no pontinho azul no canto da célula D2 para aplicar essa informação na coluna inteira.

19 – Na célula E1, digite “porcentagem”. Na célula E2, digite a seguinte fórmula: =C2/D2. Clique no quadradinho azul no canto da célula para aplicar a fórmula a toda a coluna. Selecione toda a coluna E, clique no “123” e selecione porcentagem.

20 – Pronto! Esse é o resultado. Na coluna FATOR_RISC, o número 1 significa “sim, o paciente tem fator e risco” e o número 2 significa “o paciente não tem fator de risco”. Essa informação está no dicionário de dados

Conseguimos observar que em janeiro 65,6% das mortes aconteceram entre pessoas com fator de risco. Em junho, a porcentagem já caiu para 52,37%. Lembre-se sempre de conversar com um especialista antes de tirar conclusões sobre um banco de dados.

A vacinação de pessoas com comorbidades começou em maio na maior parte dos Estados. Portanto, até o momento, a maior parte dessas pessoas tomou apenas a primeira dose da vacina.  Nas próximas semanas, as pessoas com fator de risco devem representar um grupo ainda menor entre os internados. Para filtrar por UF, você pode colocar a UF desejada na cláusula WHERE na primeira sentença no SQL.