Teste de hipóteses: definição, exemplos

testando hipóteses

Lembre-se de que a estatística muitas vezes visa fazer inferências sobre parâmetros populacionais desconhecidos com base em informações contidas em dados amostrais. Estas inferências são formuladas de duas maneiras;

  • como estimativas dos respectivos parâmetros ou
  • como testes de hipóteses sobre seus valores.

Em muitos aspectos, o procedimento formal para testar hipóteses é semelhante ao método científico. O cientista observa a natureza, formula uma teoria e depois testa essa teoria em relação às observações.

No nosso contexto de teste de hipóteses, o investigador estabelece uma hipótese relativa a um ou mais parâmetros populacionais – que são iguais a alguns valores especificados.

Ele então amostra a população e compara suas observações com a hipótese. Se as observações discordarem da hipótese, o pesquisador a rejeita.

Caso contrário, o pesquisador conclui que a hipótese é verdadeira ou que a amostra não conseguiu detectar as diferenças entre o valor verdadeiro e o valor hipotético dos parâmetros populacionais.

Examine os seguintes casos:

  • Um bioquímico pode desejar determinar a sensibilidade de um novo teste para o diagnóstico de câncer;
  • Um gerente de produção afirma que o número médio de conjuntos defeituosos (que não atendem aos padrões de qualidade) produzidos a cada dia é 25;
  • Um servidor de Internet pode precisar verificar se os usuários de computador no país gastam, em média, mais de 20 horas navegando;
  • Um pesquisador médico pode levantar a hipótese de que um novo medicamento é mais eficaz que outro no combate a uma doença;
  • Um engenheiro eletricista pode suspeitar que as falhas de eletricidade em áreas urbanas são mais frequentes em áreas rurais do que em áreas urbanas.

O teste de hipótese estatística aborda as questões acima com os dados obtidos. Podemos agora apresentar a seguinte definição de uma hipótese estatística.

Significado da hipótese

Uma hipótese estatística é uma afirmação ou suposição sobre um ou mais parâmetros populacionais. Nosso objetivo no teste de hipóteses é verificar se a hipótese é verdadeira ou não com base em dados amostrais.

A abordagem convencional para testar hipóteses não consiste em construir uma única hipótese, mas em formular duas hipóteses diferentes e opostas.

Essas hipóteses devem ser construídas de forma que se uma hipótese for rejeitada, a outra seja aceita e vice-versa. Essas duas hipóteses em um teste estatístico são normalmente chamadas de hipóteses nula e alternativa.

A hipótese nula, denotada por Hó, é a hipótese a ser testada. A hipótese alternativa, denotada por H1 é a hipótese que, em certo sentido, contradiz a hipótese nula.

Exemplo 1

Uma área atual de interesse de pesquisa é a agregação familiar de fatores de risco cardiovascular em geral e dos níveis lipídicos em particular. Suponha que se saiba que o nível médio de colesterol em crianças é de 175 mg/dl. Um grupo de homens que morreram de doença cardíaca no último ano é identificado e os níveis de colesterol de seus filhos são medidos.

Queremos verificar se

  • O nível médio de colesterol dessas crianças é de 175 mg/dl.
  • O nível médio de colesterol dessas crianças é superior a 175 mg/dl.

Este tipo de questão é formulada em uma estrutura de teste de hipóteses, especificando as hipóteses nula e alternativa. No exemplo acima, a hipótese nula é que o nível médio de colesterol dessas crianças é de 175 mg/dl.

Esta é a hipótese que queremos testar. A hipótese alternativa é que o nível médio de colesterol dessas crianças seja superior a 175 mg/dl. As hipóteses subjacentes podem ser formuladas da seguinte forma;

Hipótese NulaH0 : μ = 175
Hipótese alternativaH1 : μ > 175

Também assumimos que a distribuição subjacente é normal em qualquer uma das hipóteses. Essas hipóteses podem ser escritas em termos mais gerais da seguinte forma:

Hipótese NulaH0 : μ = μ0
Hipótese alternativaH1 : μ > μ1

Podemos encontrar dois tipos de erro ao aceitar ou rejeitar uma hipótese nula. Podemos rejeitar erroneamente uma hipótese nula verdadeira. Isso leva a um erro, que chamamos de erro tipo I.

O segundo tipo de erro, denominado erro tipo II, ocorre quando aceitamos uma hipótese nula quando ela é falsa, ou seja, quando uma alternativa é verdadeira.

Quando nenhum erro é cometido, chegamos a uma decisão correta. A decisão correta pode ser alcançada aceitando uma hipótese nula verdadeira ou rejeitando uma hipótese nula falsa. Quatro resultados possíveis com tipos de erros associados que cometemos na nossa decisão são mostrados na tabela anexa:

DecisãoHo é verdadeOi é verdade
Rejeitar HóErro tipo I
P (erro tipo I) = α
Decisão correta
P(Decisão correta) = 1 – ß
Aceitar HóDecisão correta
P(decisão correta) = 1-α
Erro tipo II
P(erro tipo II) = ß

A probabilidade de cometer um erro tipo I é geralmente denotada por a e é comumente referida como o nível de significância de um teste:

α = P (erro tipo I) = P (rejeitando H0 quando h0 é verdade )

A probabilidade de cometer um erro tipo II é geralmente denotada por ß:

ß = P (erro tipo II) = P (aceitando H0 quando é H1 verdadeiro )

O complemento de ß, ou seja, 1- ß é comumente conhecido como poder de um teste.

1- ß = 1 – P = P (rejeitando H0 quando h1 é verdade )

Quais são os erros tipo I e tipo II para os dados em Exemplo#1?

O erro tipo I será cometido se decidirmos que os descendentes de homens que morreram de doenças cardíacas têm colesterol médio superior a 170 mg/dl quando o seu nível médio de colesterol é de 175 mg/dl.

O erro tipo II será cometido se decidirmos que os descendentes têm níveis normais de colesterol quando, na verdade, os seus níveis de colesterol estão acima da média.

Nível de significância

O nível de significância é a probabilidade crítica na escolha entre a hipótese nula e a alternativa. O nível de probabilidade é muito baixo para garantir o apoio da hipótese nula.

O nível de significância é habitualmente expresso em percentagem, como 5% ou 1%. Um nível de significância de, digamos, 5% é a probabilidade de rejeitar a hipótese nula se ela for verdadeira.

Quando a hipótese em questão é aceita no nível 5%, o estatístico corre o risco de, no longo prazo, tomar a decisão errada sobre o 5% da época.

Estatística de teste

O Estatística de teste (como um estimador) é uma função das observações da amostra nas quais a decisão estatística se baseará. O região de rejeição (RR) especifica os valores da estatística de teste para os quais a hipótese nula é rejeitado em favor da hipótese alternativa.

Se, para uma amostra específica, o valor calculado da estatística de teste cair em RR, rejeitamos a hipótese nula Hó e aceite a hipótese alternativa H1.

Se o valor da estatística de teste não cair na região de rejeição (crítica), aceitamos Ho. A região diferente da região de rejeição é a região de aceitação.

Estatística de teste

Tomando decisões

Uma decisão estatística é rejeitar ou aceitar a hipótese nula. A decisão dependerá se o valor calculado da estatística de teste cai na região de rejeição ou na região de aceitação.

Suponha que a hipótese esteja sendo testada em um nível de significância 5% e os resultados observados tenham probabilidades inferiores a 5%. Nesse caso, consideramos significativa a diferença entre as estatísticas da amostra e o parâmetro desconhecido.

teste de hipótese, tomada de decisão, exemplo 1

Em outras palavras, pensamos que o resultado da amostra é tão raro que não pode ser explicado apenas pela variação aleatória. Rejeitamos então a hipótese nula e afirmamos que as observações da amostra são inconsistentes com a hipótese nula.

teste de hipótese, tomada de decisão, exemplo 2

Por outro lado, se a um nível de significância 5%, o conjunto de valores observado tem uma probabilidade superior a 5%, damos uma razão de que a diferença entre o resultado da amostra e o valor do parâmetro desconhecido pode ser explicada pela variação aleatória e, portanto, não é estatisticamente significativo.

Consequentemente, decidimos não rejeitar a hipótese nula e afirmar que as observações da amostra não são inconsistentes com a hipótese nula.

Teste unicaudal e bicaudal

Um teste unilateral é um teste no qual os valores do parâmetro em estudo (em nosso exemplo anterior, o nível médio de colesterol) sob a hipótese alternativa podem ser maiores ou menores que os valores do parâmetro sob a hipótese nula. hipótese, mas não ambas.

Ou seja, formulamos hipóteses nulas e alternativas para um teste unilateral da seguinte forma:

Hipótese NulaH0 : μ = μ0
Hipótese alternativaH1 : μ < μ0 ou μ > μ0

Um teste bicaudal é um teste no qual os valores do parâmetro que está sendo estudado sob a hipótese alternativa podem ser maiores ou menores que os valores do parâmetro sob a hipótese nula.

Formulamos as hipóteses no teste bicaudal da seguinte forma:

Hipótese NulaH0 : μ = μ0
Hipótese alternativaH1 : μ ≠ μ1

É muito importante perceber se estamos interessados em um teste unicaudal ou bicaudal em uma aplicação específica.

Valor p e sua interpretação

Existem duas abordagens para testar uma hipótese estatística: método do valor crítico e método dos 72 valores.

A abordagem geral em que calculamos uma estatística de teste e determinamos o resultado de um teste comparando a estatística de teste a um valor crítico determinado pelo erro tipo I é chamada de método de valor crítico de teste de hipótese.

O valor p para qualquer teste de hipótese é o nível alfa (a) no qual seríamos indiferentes entre aceitar e rejeitar a hipótese nula, dados os dados da amostra em questão.

Ou seja, o valor é o nível no qual o valor fornecido da estatística de teste (como t, F, qui-quadrado) estaria na fronteira entre as regiões de aceitação e rejeição.

O valor p também pode ser pensado como a probabilidade de obter uma estatística de teste tão extrema ou mais extrema do que a estatística de teste real obtida, desde que a hipótese nula seja verdadeira.

Os programas de análise estatística de dados geralmente calculam os valores p durante a execução do teste de hipótese. As regras de decisão, que a maioria dos pesquisadores segue ao declarar seus resultados, são as seguintes:

  • Se o p-valor for inferior a 0,01, os resultados são altamente significativos.
  • Se o valor p estiver entre 0,01 e 0,05, os resultados são considerados estatisticamente significativos.
  • Se o valor p estiver entre 0,05 e 0,10, os resultados tendem apenas para significância estatística.
  • Se o valor p for superior a 0,10, os resultados são considerados insignificantes.

Etapas em um teste estatístico

Qualquer teste estatístico de hipóteses funciona de forma semelhante e é composto pelos mesmos elementos essenciais. O procedimento geral para um teste estatístico é o seguinte:

  1. Configure a hipótese nula (Hó) e sua alternativa (Ht). É um teste unilateral se a hipótese alternativa indicar a direção da diferença. Se nenhuma direção de diferença for fornecida, é um teste bicaudal.
  2. Escolha o nível de significância desejado. Embora α=0,05 e α=0,01 sejam os mais comuns, muitos outros também são usados.
  3. Calcule a estatística de teste apropriada dos dados amostrais (normal, t).
  4. Encontre o(s) valor(es) crítico(s) usando tabelas de integrais normais correspondentes à região crítica estabelecida.
  5. Com os valores críticos determinados na etapa 4, compare a estatística de teste calculada na etapa 3.
  6. Tomar a decisão: rejeitar a hipótese nula se a estatística do teste computado cair na região crítica e aceitar a alternativa (ou reter a decisão)

Alguns testes de significância comumente usados

Esta seção fornece uma visão geral de alguns testes estatísticos representativos da vasta gama disponível aos pesquisadores.

Esta seção reconhece duas classes gerais de testes de significância: paramétricos e não paramétricos.

Os procedimentos estatísticos que requerem a especificação da distribuição de probabilidade da população são denominados testes paramétricos.

Em contraste, os procedimentos não paramétricos são abordagens livres de distribuição, que não exigem nenhuma especificação da distribuição da população subjacente.

Os testes paramétricos são mais poderosos porque seus dados são derivados de medições de intervalo e razão.

Testes não paramétricos são usados para testar hipóteses com dados nominais e ordinais. Nosso objetivo neste texto é discutir principalmente os testes paramétricos de uso comum.

As suposições para testes paramétricos incluem o seguinte:

  • As observações devem ser independentes.
  • As observações são extraídas de populações normais.
  • As populações devem ter variâncias iguais.
  • Os níveis de medição devem ser pelo menos intervalados.

Ao tentar escolher um teste de significância específico, deve-se considerar pelo menos três pontos:

  • O teste envolve uma amostra, duas amostras ou k-amostras?
  • Os casos individuais nas amostras são independentes ou dependentes?
  • A quais níveis de medição os dados se referem: nominal, ordinal, intervalo ou razão?

Considerando as questões acima, discutiremos alguns testes comuns de significância. Estes incluem, entre outros.

  • Os testes normais
  • Os testes t
  • O teste qui-quadrado
  • O teste F

Qual é o objetivo principal do teste de hipóteses em estatística?

O objetivo principal do teste de hipóteses em estatística é fazer inferências sobre parâmetros populacionais desconhecidos com base nas informações contidas nos dados amostrais. Estas inferências podem ser formuladas como estimativas dos parâmetros ou como testes de hipóteses sobre os seus valores.

Quais são as duas principais hipóteses usadas em um teste estatístico?

As duas principais hipóteses utilizadas em um teste estatístico são a hipótese nula (Ho) e a hipótese alternativa (H1). A hipótese nula é a hipótese a ser testada, enquanto a hipótese alternativa contradiz a hipótese nula em algum sentido.

Qual a diferença entre um teste unilateral e um teste bicaudal?

Um teste unilateral é um teste no qual os valores do parâmetro que está sendo estudado sob a hipótese alternativa podem ser maiores ou menores que os valores do parâmetro sob a hipótese nula, mas não ambos. Um teste bicaudal permite que os valores do parâmetro sob a hipótese alternativa sejam maiores e menores que os valores sob a hipótese nula.

Qual é o nível de significância no teste de hipóteses?

O nível de significância é a probabilidade crítica na escolha entre a hipótese nula e a alternativa. Representa o nível de probabilidade que é muito baixo para garantir o apoio da hipótese nula. Os níveis de significância comuns incluem 5% ou 1%.

O que são erros tipo I e tipo II em testes de hipóteses?

Um erro tipo I ocorre quando uma hipótese nula verdadeira é rejeitada erroneamente. Um erro tipo II ocorre quando uma hipótese nula falsa é aceita erroneamente. A probabilidade de cometer um erro tipo I é denotada por α, e a probabilidade de cometer um erro tipo II é denotada por ß.

Como o valor p é usado no teste de hipóteses?

O valor p é a probabilidade de obter uma estatística de teste tão extrema ou mais extrema do que a estatística de teste real obtida, desde que a hipótese nula seja verdadeira. Ajuda a determinar a importância dos resultados. Se o valor p for menor que o nível de significância escolhido, a hipótese nula é rejeitada.

Quais são alguns testes comuns de significância em estatísticas?

Alguns testes comuns de significância incluem os testes normais, testes t, teste qui-quadrado e teste F. A escolha do teste depende de fatores como o número de amostras, a independência dos casos e o nível de medição dos dados.