Amostragem PPS: Probabilidade proporcional à definição de amostragem de tamanho, exemplos

Amostragem PPS: Probabilidade proporcional à definição de amostragem de tamanho, exemplos

O procedimento de amostragem de probabilidade proporcional ao tamanho (PPC) é uma variação da amostragem em vários estágios, onde a probabilidade de selecionar uma PSU é proporcional ao seu tamanho e um número igual de elementos é amostrado dentro de cada PSU.

Se uma UPA tiver uma população duas vezes maior que outra, ela terá duas vezes mais chances de ser selecionada.

Se o mesmo número de pessoas for selecionado de cada uma das UPAs selecionadas, a probabilidade geral de seleção de qualquer pessoa será a mesma. A amostragem PPS exata de PSUs alcança, assim, controle completo sobre o tamanho da amostra.

O método de seleção PPS é útil quando as PSUs variam muito em tamanho.

A diferença inerente entre a amostragem aleatória simples e a amostragem PPS é que a probabilidade de sortear qualquer unidade especificada em qualquer sorteio é a mesma do método anterior.

Em contraste, a probabilidade do último método difere de sorteio para sorteio. Como resultado, a teoria da amostragem PPS é mais complexa do que a amostragem aleatória simples.

Como isto funciona na pratica? Ilustraremos o método (chamado método total cumulativo) com um exemplo.

Exemplo de amostragem PPS

Uma população consiste em 10 aldeias com um total de 212 famílias. A segunda coluna da tabela anexa mostra o número de agregados familiares correspondentes a cada aldeia. Uma amostra de 6 aldeias será selecionada pelo método PPS.

Para fazer isso, siga as etapas:

  1. Prepare uma coluna de total cumulativo com os agregados familiares na coluna 2. Estes totais aparecem na coluna 3.
  2. Faça uma coluna exibindo o intervalo implícito nos totais acumulados.
  3. Leia os números aleatórios no Apêndice. Esses números aleatórios são 173, 95.210, ..,32. (Ignore todos os números aleatórios fora do intervalo 001-212).
  4. As colunas correspondentes aos nossos números aleatórios selecionados serão as nossas aldeias amostradas.
  5. A Tabela 5.9 mostra a subamostragem das aldeias seleccionadas com e sem reposição.

O procedimento garantiu que as probabilidades de inclusão sejam proporcionais ao tamanho das aldeias (número de agregados familiares) em cada sorteio.

Se o tamanho dos agregados familiares não for conhecido, algumas outras variáveis auxiliares, altamente correlacionadas com o tamanho do agregado familiar (tais como o tamanho da população), poderiam ser utilizadas como medida de tamanho.

Tabela: Seleção da Amostra PPS

VilaNº de domicíliosTotal cumulativoFaixaProbabilidade de seleção
13535001-03535/212
22863036-06328/212
32083064-08320/212
425108084-10825/212
530138109-13830/212
619157139-15719/212
710167158-16710/212
812179168-17912/212
918197180-19718/212
1015212198-21215/212
Total2121.000
Aleatório# 1739521011914015232
Aldeia # 84105661
ROE 123456
SWOR * 1
Amostragem SWR com reposição, SWOR: Amostragem sem reposição
23456
Tabela: Resultados da Amostragem PPS

Amostragem Sistemática PPS

Você já está familiarizado com o conceito de amostragem PPS. Esta seção ilustra como esse método também pode ser empregado na amostragem sistemática.

Ilustramos esta abordagem pelo exemplo anterior para amostragem sem reposição. Para enquadrar o problema no contexto da amostragem linear sistemática, selecionamos 4 aldeias de modo que o total de 212 seja divisível pelo tamanho da amostra.

Consulte as primeiras quatro colunas da Tabela 5.7. Agora, para selecionar 4 aldeias, siga as etapas detalhadas abaixo:

  1. Divida o número total de domicílios (aqui 212) por 4, o tamanho da amostra. Isso dá o intervalo de amostragem k=53.
  2. Escolha um número aleatório entre 1 e 33 inclusive. Digamos que este número seja 20. Ele está localizado no intervalo 001-035. Isto identifica a aldeia com o número de série 1 como a nossa primeira seleção.
  3. Adicionar k (=53) ao número 20 escolhido na etapa 2. Isso resulta em 53+20=73, que fica no intervalo de 64-83. Isso nos leva a selecionar a aldeia com número de série 3.
  4. Para selecionar a terceira unidade, adicione 53 a 73, resultando em 126, que está no intervalo 109-138. Isso nos obriga a selecionar uma aldeia com número de série 5.
  5. Finalmente, adicione 53 a 126, resultando num total de 179. Isto seleciona a aldeia 8.
  6. Isso completa o procedimento de seleção da amostra. Selecionamos aldeias com números de série: 1,3,5 e 8.

Se este fosse um caso de n = 6, k teria sido 35,33, levando o processo de seleção a uma amostragem circular sistemática.

Para realizar a tarefa neste procedimento, arredondamos o intervalo de amostragem para o próximo dígito mais alto, 36. Conforme determina o método, escolhemos nosso número aleatório entre 1 e 212 inclusive para garantir uma seleção de probabilidade igual.

É fácil verificar que a escolha de qualquer número aleatório no intervalo de 1 a 32 não causará nenhum problema na seleção de 6 aldeias. Se for além disso, deverá seguir a estratégia de amostragem sistemática circular para garantir 6 aldeias.

Suponha que o número aleatório escolhido seja 40. Isso está no intervalo 36-63, dando-nos assim a aldeia 2 como nossa seleção. Adicione agora 36 a 40, o que resulta em 76. Isto situa-se no intervalo 64-83, identificando a aldeia 3 como a nossa segunda selecção.

Continuando o processo, as restantes 4 aldeias selecionadas são aquelas que possuem os números de série 5, 6, 9 e 1. A tabela anexa mostra o número aleatório escolhido e as aldeias selecionadas associadas.

Número aleatórioFaixaAldeias Selecionadas
40036-0632
76064-0833
112109-1385
148139-1576
184180-1978
220001-0351
220-212=8, que se enquadra na primeira faixa, identificando a primeira aldeia.
Seleção de Amostras pelo Método PPS