No dia 06 de Junho de 2021, foi publicada uma notícia de que um hospital de campanha em Natal/RN havia conseguido 100% de sucesso no tratamento de 100 pacientes com Covid ao utilizar o protocolo do "tratamento precoce". A notícia foi repassada em diversas mídias como uma comprovação de que o referido protocolo funciona. Nesse post, nos propomos a fazer um simples teste de hipótese para verificar essa afirmação.
A primeira informação que precisamos verificar é a taxa de letalidade da Covid. Idealmente, deveríamos comparar grupos semelhantes, com controle de faixa etária e comorbidades, por exemplo. Contudo, como essa informação não foi publicada na notícia, vamos agrupar todos os pacientes em um grupo único.
Informações verificadas no site Our World in Data no dia 13/06/2021 mostram que o mundo havia registrado um total de 176.551.089 casos de Covid-19, contabilizando um total de 3.813.319 mortes. A divisão do segundo número pelo primeiro sugere uma proporção de mortes
A pergunta que devemos nos fazer é: assumindo uma distribuição normal, qual a probabilidade de o fenômenos observado (recuperação total dos pacientes) ser simplesmente um efeito estatístico, e não uma contribuição do tratamento precoce para a recuperação dos pacientes?
Estabelecemos então as seguintes premissas:
Hipótese Nula (
Hipótese Alternativa (
Nível de Significância (
Iremos utilizar uma das formulações mais simples em testes de hipótese, o teste Z. Para que o teste de inferência seja válido, as amostras coletadas devem satisfazer três critérios: Aleatoriedade, Independência e Normalidade.
Amostras aleatórias devem prover estatísticas não-enviesadas sobre a população amostrada. Ao lermos a notícia, descobrimos que o hospital em que o estudo foi realizado "...conta com 41 leitos exclusivos de Covid -19, sendo inicialmente 33 leitos de enfermaria clínica, quatro semi-intensivos, dois de estabilização e dois de admissão...". Percebe-se que não há leitos de terapia intensiva, ou seja, é bastante provável que pacientes com sintomas mais graves NÃO estejam representados em nossa estatística, o que poderia justificar a taxa de mortalidade abaixo da esperada. De toda forma, por simplicidade e conservadorismo, assumiremos que nossa amostra atende ao critério de aleatoriedade.
Uma segunda premissa que deve ser investigada é sobre a independência das nossas amostras, ou seja, se cada medida é independente da outra. Numa seleção independente, deveríamos amostrar a população com reposição, o que certamente não é o nosso caso. Contudo, quando a amostra representa menos de 10% da população estudada, podemos assumir a premissa de independência com certa confiança. Dado o número superior a 17 milhões de casos confirmados de Covid-19 no Brasil até o momento, nos parece seguro dizer que essa premissa é atendida.
A terceira premissa é de que a amostra selecionada tem distribuição normal. Essa premissa normalmente é valida se tivermos, representados em nossa amostra, um número superior a 10 de "sucessos" e "fracassos". Ou seja, numa amostra de tamanho
Uma vez detalhadas as hipóteses acima, o próximo passo é calcular o Z-score, ou a estatística Z da amostra. O cálculo do Z-score nada mais é do que a "padronização" da estatística - a aplicação uma transformação linear que transforma a amostra em sua equivalente de média 0 e desvio padrão 1. Para isso, usamos a expressão
em que
Combinando as expressões acima,
Intuitivamente, o Z-score representa quantos desvios-padrão (normalizados) de distância há entre a proporção observada na amostra (zero) e a proporção da hipótese nula (0.0216). Valores negativos indicam que, em uma curva normal, a amostra está à esquerda da média. A imagem abaixo mostra uma distribuição normal e o z-score obtido (linha pontilhada vermelha).
Vamos voltar nossa atenção para a área hachurada em vermelho. Essa área representa a probabilidade de uma amostra aleatória apresentar um z-score igual ou inferior ao calculado - ou, equivalentemente, a probabilidade de uma amostra apresentar uma proporção inferior à proporção assumida na hipótese nula, caso esta seja verdadeira. Para esse caso específico, essa área é de aproximadamente 6.9% da área total. Matematicamente, podemos escrever isso como
O valor de 6.9%, ou 0.069, representa o valor-p, ou probabilidade de significância para essa amostra. Como nesse caso o valor-p foi superior ao nível de significância definido para esse teste (5%), não podemos rejeitar a hipótese nula, ou seja, com base nessa amostra, não podemos afirmar que o protocolo de tratamento precoce diminuiu a letalidade da Covid-19.