O grande objetivo da ciência é identificar fenômenos causais e entender como eles ocorrem.
Durante esse processo, os resultados podem ser influenciados por dois fenômenos. Viés e acaso.
Os viéses também chamados de erros sistemáticos nada mais são do que falhas sistemáticas na metodologia da pesquisa que fazem com que os resultados de um estudo sejam diferentes dos valores verdadeiros.
Erros sistemáticos podem ser evitados através de uma boa metodologia de pesquisa - escolhendo o delineamento mais adequado para aquilo que pretende-se observar, ou controlando fatores, como por exemplo, de confusão e seleção por intermédio do uso de análises multivariadas.
Passado o desafio de controlá-los existe um fenômeno onipresente - o acaso - que pode ser minimizado , mas não evitado, porque este evento pode exercer sua influência tanto do lado verdadeiro como do outro.
Dentro do método estatístico, existem basicamente duas formas de se avaliar a influência do acaso em uma observação. Uma abordagem estimativa ( mais modernamente utilizada) e a abordagem mais tradicional que é realizada através do teste de hipóteses.
O que é o teste de hipóteses ?
No desafio de determinar a causalidade de uma associação, o pesquisador lança mão de ferramentas estatísticas que tentem "descartar" o acaso como responsável possível pelos resultados daquela observação.
O teste de hipótese levanta a questão de que uma diferença entre os grupos pode ou não estar presente, partido-se sempre da premissa de que um fenômeno é inexistente até que prove-se o contrário, o que chamamos de hipótese nula.
De forma análoga, poderíamos sintetizar a definição da hipótese nula, na máxima de que todos são inocentes até que seja provado o oposto. O pesquisador faz o papel de "promotor", com intuito de rejeitar a hipótese de não associação entre as variáveis.
Quando determinados através desse mesmo teste que uma diferença (efeito) entre os grupos existe, ficamos com a hipótese alternativa.
Para avaliar este fato os testes estatísticos utilizam o valor P.
A maioria das estatísticas encontradas na literatura médica, dizem respeito ao valor P , muitas vezes interpretado de forma errônea.
Portanto, o valor P refere-se a medida quantitativa da probabilidade de que as diferenças de efeito evidenciada no tratamento de uma determinada doença em algum trabalho científico poderiam ter apenas decorrido em função do acaso, presumindo inicialmente que de fato não existem diferenças entre os grupos.
Uma outra forma interessante de estabelecer o que seria o valor P, seria o seguinte questionamento:
Presumindo que não houvesse diferença de efeito no tratamento observado entre os grupos, e o estudo fosse repetido muitas vezes, quantos estudos concluíriam que a diferença entre os grupos foi tão grande quanto a encontrada no estudo?
Na literatura frequentista o valor P é chamado de P(alfa) e isto é utilizado para diferenciá-lo das estimativas de outro erro - o erro do tipo II , chamado de P(beta).
Além disso, o ponto de corte adotado geralmente para estabelecer uma significância ao valor P, seria o valor P < 0,05. Quando o valor P alcança um valor inferior a este ponto diz-se que houve uma associação estatisticamente significativa.
Alguns críticos dizem que é arbitrário oferecer um valor fixo ao P, argumentando que os valores podem ser mais baixos ou mais altos, dependendo das consequências em uma observação falso-positiva.
Tomamos como exemplo, um estudo que tem como objetivo avaliar o efeito de uma intervenção em uma doença muito grave - devido a gravidade da própria doença acho que seria razoável em estabelecer um ponto de corte maior para o valor P, levando-se em consideração também, a existência ou não de um tratamento efetivo e a segurança deste novo tratamento.
Em contrapartida, um autor poderia ter uma menor tolerância com um falso-positivo na avaliação de uma doença que já tem um tratamento efetivo e o novo tratamento pudesse não ser tão seguro.
Contemplando este argumento sobre a influência do acaso, autores poderiam pré-definir um valor P menor que 0,03, 0,05, 0,011 - entretanto, geralmente o valor inferior a 5% é observado.
Quanto menor o valor P, menor a probabilidade de o resultado de uma análise ter sido influenciado pelo acaso, logo quando um estudo apresenta uma associação estatística com um valor P = 0,03, considerando um valor P menor que 0,05 , quer dizer que existe apenas uma probabilidade de 3 % daquela diferença ter sido observada em decorrência do acaso, sob a óptica da hipótese nula, contudo o valor P isoladamente é insuficiente para estabelecer precisão e significância clínica.
Significância estatística x significância clínica.
É um equívoco achar que um valor P muito pequeno é sinônimo de significância clínica, pesquisadores muitas vezes ficam tão atentos ao valor P no intuito de demonstrarem um estudo positivo, ou mesmo indivíduos na análise de um artigo científico, que esquecem de mensurar a relevância do tamanho do efeito. O efeito da intervenção pode ser medido através de variáveis dicotômicas e a melhor maneira de medi-lo é através da diferença em relação ao tamanho do efeito observado entre os grupos.
Vamos fazer a suposição bem simplista de que quero testar o efeito de uma droga ( um anti-inflamatório) na redução da sensação dolorosa em pacientes portadores de artrose de joelhos. O desfecho diminuição da dor foi aferido através de uma escala numérica pontuada de 0 a 10, em que zero significaria ausência de dor e 10 a dor mais insuportável que se poderia ter.
Alocando os paciente de maneira aleatória entre indivíduos que receberam a droga e indivíduos que receberam placebo, ao final do estudo observou-se uma significância estatística entre os grupos com um valor de P = 0,02, contudo o grupo que recebeu a medicação teve a dor reduzida em 4 pontos e o grupo placebo apenas em 1 ponto. Conclui-se então que embora refutada a hipótese nula, a melhor estimativa é que houve uma redução de 3 pontos na presença de dor.
Cabe ao autor e ao crítico decidir se isso é uma diferença clinicamente relevante que possa ser útil no contexto da prática clínica.
Um exemplo interessante a citar para a prática é que o uso de Diacereína tem um efeito nulo ou pouco significante ( em termos de magnitude) na redução da dor proveniente da osteoartrose, como atesta este estudo realizado pela Cochrane. A medicação é frequentemente utilizada, porque médicos muitas vezes não utilizam o princípio da hipótese nula e ficam "ansiosos" em realizar "alguma coisa" - a mentalidade do médico ativo - ou consideram que para um desfecho subjetivo como a dor , essa pequena magnitude pode ser relevante para alguns indivíduos.
Outro ponto a considerar nesta mesma análise é que pequenas diferenças, muitas vezes suficientes para demonstrar relevância clínica de tratamentos fortes, podem não ocorrer devido ao tamanho amostral da pesquisa.
E as interpretações de valores P limítrofes ?
Na busca exagerada por significância estatística, autores tendem a interpretar valores limítrofes do P como uma tendência a significância. Muitas vezes usam e abusam de malabarismos estatísticos durante a análise de dados da pesquisa para alcançar um resultado positivo, o que chamamos em estatística de "P hacking". O fato é que o uso dessa expressão é errôneo, se um estudo detectou valor para P = 0,056 ou a 0,06 , assumindo um nível de significância menor que 5%, significa que a probabilidade de se obter um resultado decorrente do acaso é de 6%, assumindo que o mesmo tratamento não tenha efeito real, nesse caso a hipótese nula não pode ser refutada.
Um exemplo interessante, seria citar o estudo WOSCOPS que não demonstrou redução de mortalidade por todas as causas com uso de pravastatina para prevenção primária , com um valor P = 0,051.
Recentemente a conceituada revista americana de medicina ( JAMA), publicou um artigo científico a respeito do valor P e o teste de hipóteses e como eles devem ser interpretados.
Segue um anexo abaixo, sobre os principais equívocos a respeito da interpretação destes conceitos e que resume basicamente tudo que foi abordado nesse post.