Amostragem Aleatória Simples

A amostragem aleatória simples é um procedimento que dá a cada unidade amostral da população uma probabilidade igual e conhecida diferente de zero de ser selecionada. A seleção de uma amostra aleatória simples pode ser realizada com o auxílio de um software de computador, uma tabela de números aleatórios ou uma calculadora científica.

Na maioria dos casos, números aleatórios são empregados para selecionar amostras. Tal procedimento de seleção garante que cada unidade populacional tenha igual probabilidade de ser incluída na amostra.

A retirada de uma amostra aleatória simples de uma população exige que a cada unidade populacional elegível seja atribuída uma probabilidade igual de seleção em cada sorteio. Isto garante a aleatoriedade na seleção, tornando a amostra independente do julgamento humano.

Na realidade, uma amostra aleatória simples é extraída unidade por unidade.

Se uma lista (base de amostragem) das unidades populacionais estiver disponível, a seleção aleatória da amostra pode ser facilmente realizada usando números aleatórios.

O seguinte procedimento de 8 etapas pode ser seguido na extração de uma amostra aleatória simples de n unidades usando números aleatórios de uma população de N unidades.

Atribua números de série às unidades da população de 1 a
Decida a tabela de números aleatórios a ser usada.
Escolha um número aleatório de N dígitos em qualquer ponto da tabela de números aleatórios.
Se este número aleatório for menor ou igual a N, esta é sua primeira unidade selecionada.
Passe para o próximo número aleatório que não exceda N, verticalmente, horizontalmente ou em qualquer outra direção sistematicamente e escolha sua segunda unidade.
Se em qualquer fase da sua seleção, o número aleatório escolhido exceder N, descarte-o e escolha o próximo número aleatório.
Se ainda algum número aleatório for repetido, ele também deverá ser descartado e substituído por um novo número aleatório que apareça a seguir.
O processo é interrompido quando você chega ao tamanho de amostra desejado.

Os exemplos seguintes destinam-se a ilustrar como a selecção dos elementos da população pode ser feita na prática.

Exemplo 1: Extraia uma amostra aleatória simples de tamanho 5 de uma população composta por 150 unidades, empregando um método de amostragem aleatória simples.

Aqui n=5 e 7V=150. Atribua os números de série 001, 002,….,150 às 150 unidades da população. Como 150 é um número de três dígitos, apenas lemos os números aleatórios de três dígitos apresentados no Apêndice.

Suponha que comecemos pelo dígito mais à esquerda da primeira linha da tabela de números aleatórios no Apêndice 1 e prossigamos para baixo até atingirmos uma amostra de 5 unidades.

Os números aleatórios foram os seguintes:

277	130	802	108	541	603	497	786	666	440
414	945	416	502	413	258	061	608	809	195
493	063	609	923	779	381	396	840	474	433
642	668	724	210	953	407	582	895	154	121

Observe que escolhemos apenas os números que estão no intervalo 001-150. Qualquer número fora deste intervalo é omitido, pois não corresponde a nenhuma unidade da população. O processo para quando chegamos a cinco números.

Observe que os números selecionados são 130, 108, 61, 63 e 121. Esses números estão sublinhados em negrito. Todos esses números são distintos.

Se um número aleatório ocorrer duas vezes, a segunda ocorrência será omitida e outro número será selecionado como seu substituto.

Exemplo #2: Suponha que existam 77=1000 registros de salários diários dos empregados da indústria farmacêutica. Desenhe uma amostra de 25 registros usando os números aleatórios mostrados no Apêndice 1 para extrair uma amostra de 25 registros.

O primeiro passo é organizar os salários de 1000 funcionários, atribuindo um número de 000 a 999. Ou seja, temos 1000 números de três dígitos onde 001 representa o primeiro registro, 999 o 999^º recorde e 000 a 1000^º.

Podemos usar os três primeiros dígitos da segunda coluna de números aleatórios no Apêndice 1, consistindo em 10 dígitos aleatórios, eliminando os últimos 7 dígitos de cada número aleatório. Vemos que o primeiro número selecionado é 853, o segundo é 540, o terceiro é 985 e assim por diante. Prosseguindo mais abaixo na coluna, os seguintes números aleatórios são escolhidos:

853	540	985	903	266
373	920	164	998	073
495	496	641	417	906
906	715	883	744	104
467	236	159	118	782

Observe que a renumeração dos seriados facilitou muito a tarefa de escolha dos casos e não houve rejeição no processo.

Se os registros salariais dos empregados estiverem realmente numerados, apenas escolhemos os registros com os números correspondentes, e esses registros representam uma amostra aleatória simples de tamanho w=25 de .¥=1000.

Ilustramos abaixo, com um exemplo, um método relativamente eficiente de extrair uma amostra aleatória simples que tem menor taxa de rejeição.

Exemplo #3: Consulte o Exemplo #1. A população da qual uma amostra de 5 deve ser escolhida contém 150 unidades. Para selecionar uma unidade de 001 a 150, siga as etapas abaixo:

Escolha um número aleatório na tabela de números aleatórios fornecida a você (consulte os números aleatórios mostrados no Exemplo 5.3). Esse número é 277, que ultrapassa 150.
Divida 277 por 150. O restante é 127. A unidade denominada 127 na população é a primeira unidade selecionada.
Para selecionar a segunda unidade, escolha o próximo número aleatório. Esse número é 130, que é menor que 150. Escolhemos diretamente esse número como nossa segunda unidade na amostra.
O próximo número aleatório é 802, o que resulta num resto de 52 quando dividido por 150. A unidade correspondente a este número é a nossa terceira unidade selecionada.
Continuando esse processo, chegamos aos próximos dois números. Estes são 108 e 91.
Os números aleatórios assim escolhidos são 52, 91, 108, 127 e 130.

O procedimento acima é conhecido como método restante. Esse procedimento tem a vantagem de ter menor taxa de rejeição no processo seletivo.

Determinação do tamanho da amostra em uma amostra aleatória simples

Um dos problemas mais importantes no planeamento de um inquérito por amostragem é determinar o tamanho da amostra necessária para que as estimativas sejam suficientemente fiáveis para cumprir os objectivos do inquérito.

A decisão é importante por vários motivos. Uma amostra muito grande envolve enormes custos, mão de obra, materiais e tempo, enquanto uma amostra muito pequena invalida os resultados. Então a questão é: qual é o tamanho ideal da amostra?

Embora seja difícil estabelecer regras gerais para o tamanho da amostra sem o conhecimento da população específica, cerca de 30 casos parecem ser o mínimo para estudos em que a análise de dados estatísticos deve ser feita (Champion 1970: 89).

Contudo, muitos investigadores consideram 50, e alguns defendem 100 casos como o mínimo (Fisher et al. 1991).

Uma razão é que muitas vezes existem várias subpopulações que os investigadores desejam estudar separadamente ou várias variáveis a serem controladas.

Se não houver casos suficientes em cada subgrupo da população, por vezes é difícil cumprir o pressuposto dos testes estatísticos padrão, como o qui-quadrado em particular. Além disso, as percentagens calculadas com base em menos de 30 casos tendem a não ser fiáveis.

Fischer et al. (1991) sugerem uma abordagem simples nos casos em que se pretende analisar dados de uma forma tabela de contingência. Esta abordagem garante um número mínimo de casos como frequências de células em uma tabela cruzada de variáveis.

Seguindo a abordagem, consideremos o problema de analisar a associação entre o conhecimento nutricional das mães e o seu nível de escolaridade. Para analisar tal tabela, dois pontos devem ser mantidos em mente ao determinar o tamanho da amostra:

Cada categoria da variável independente deve conter pelo menos um determinado número de casos;
O número esperado de casos de cada célula deve ser pelo menos 5 (para permitir testes estatísticos, como qui-quadrado).

No presente exemplo, a escolaridade é a variável independente, enquanto o conhecimento nutricional é a variável dependente. Deixe a variável 'educação' ter 4 níveis conforme abaixo:

Nível de educação	% de mães
Nenhum	60
Primário	20
Secundário	15
Acima do secundário	5
Total	100

A nossa suposição é que as quatro categorias acima constituem, respectivamente, 60%, 20%, 15% e 5% de todos os entrevistados na população (ver coluna 2 na tabela acima).

Portanto, para ter uma amostra grande o suficiente para garantir pelo menos 30 casos (digamos) na menor categoria da variável (aqui 5% de casos) do número total de casos, o tamanho da amostra necessário é

determinação do tamanho da amostra em amostragem aleatória simples

Agora suponhamos que o conhecimento nutricional das mães tenha 3 categorias: 'nenhum conhecimento', 'conhecimento moderado' e 'alto conhecimento' que representam respectivamente 30%, 20% e 50% de todas as mães

Nível de conhecimento	% de mães
Nenhum conhecimento	30
Conhecimento moderado	20
Alto conhecimento	50
Total	100

Para encontrar o tamanho mínimo da amostra necessário para garantir uma frequência celular esperada de pelo menos 5, dividimos 5 pelo produto da proporção que cai nas menores categorias das duas variáveis (ou seja: 5% para o secundário acima e 20% para o moderado). conhecimento):

determinação do tamanho da amostra em amostragem aleatória simples 2

Como o tamanho da amostra necessário deve atender a ambos os critérios (30 casos em cada categoria de variável e 5 casos em cada célula), a maior das duas estimativas (600 vs. 500) deve ser adotada como tamanho final da amostra.

Este critério leva à escolha de n=600 como tamanho final da amostra. Podemos verificar que o procedimento acima garante que nenhuma das células contém menos de 5 casos e, ao mesmo tempo, a categoria da variável independente contém pelo menos 30 casos:

Tabela: Tabela Cruzada de Escolaridade e Nível Nutricional
Nível de educação
Nível nutricional	Nenhum	Primário	Secundário	Acima do secundário	Total (%)
Nenhum conhecimento	108	36	27	9	180 (30%)
Conhecimento moderado	72	24	18	6	120 (20%)
Alto conhecimento	180	60	45	15	300 (50%)
Total	360	120	90	30	600
(%)	(60%)	(20%)	(15%)	(5%)	(100%)

Os valores das células na tabela acima são calculados como o produto das porcentagens de linhas e colunas e o tamanho estimado da amostra (n = 600). Por exemplo, o primeiro valor de 108 é calculado da seguinte forma:

108=0.30×0.60×600

Da mesma forma, o segundo valor 60 na terceira linha é calculado como

60 = 0,50 x 0,20 x 600

Apresentamos agora abaixo uma abordagem estatisticamente mais sólida para determinar o tamanho da amostra. Ao fazer isso, consideramos dois casos:

Determinação do tamanho da amostra (n) na estimativa da proporção populacional;
Determinação do tamanho da amostra (n) na estimativa da média populacional.

Tamanho da amostra ao estimar uma proporção populacional

Em inquéritos por amostragem, deparamo-nos frequentemente com o problema de estimar proporções ou percentagens populacionais, tais como a proporção de pessoas que fumam, a proporção de crianças que sofrem de subnutrição, a proporção de eleitores a favor de um determinado candidato, a percentagem de clientes que chegam a um supermercado com um cartão de crédito e similares.

Assim se p é uma proporção que possui um determinado atributo, então, para uma população suficientemente grande, a fórmula para estimar o tamanho da amostra é onde:

n₀ = tamanho da amostra desejado
z =desvio normal padrão normalmente definido em 1,96, o que corresponde ao nível de confiança de 95%.
p=proporção presumida na população-alvo estimada como tendo uma característica particular.
d =erro marginal admissível na estimativa de uma proporção populacional.

Exemplo: Uma pesquisa nutricional será realizada em um campo de refugiados. Suponha que 40% das crianças sofram de desnutrição. Qual é o tamanho da amostra necessária para ter 95% de certeza de que a prevalência estimada não difere da prevalência real em mais de 0,05?

Supondo que a população seja grande, empregamos a fórmula (c) acima. Aqui z=1,96,6/=0,05 e /y=0,40. Queremos agora estimar a verdadeira proporção da população dentro de 5 pontos percentuais de p. Isso está dentro p = 0,40±0,05. Por isso

Tamanho da amostra ao estimar uma proporção populacional 1

Se p não for conhecido ou for difícil de assumir, será o procedimento mais seguro considerá-lo como 0,50, o que maximiza a variância esperada e, portanto, indica um tamanho de amostra que certamente será grande o suficiente. Se for esperada a proporção entre dois valores, é selecionado o valor mais próximo de 50%. Por exemplo, se se pensa que p está entre 15% e 30%, então 30% (o maior dos dois) deve ser escolhido como o valor de p para calcular n.

Uma escolha comum de d é 0,05. Este valor não parece ser realista para cenários onde o verdadeiro valor de p está fora do intervalo 0,2 <p<0.8 when a small value for or consideration of a relative margin of error r is recommended. The quantity r is computed as portion of the assumed true proportion p. Consideration of this relative rate of allowable error margin would convert the equation to:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 1

Verificamos abaixo que a fórmula (c) produz um valor de 139 para n quando cZ=0,5 ep=0,90:

Com os mesmos valores r (0,05) e p (0,90), (c*) produz:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 3

Se N for pequeno, a fórmula a ser utilizada assume a seguinte forma:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 4

A fórmula (d) acima também pode ser expressa da seguinte forma:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 5

Na prática, primeiro calculamos n₀. Fi n₀/N é insignificante, então n_0o é uma aproximação satisfatória para n.

Supondo que p seja difícil de fixar antecipadamente, consideramos que é 0,50. Naquele evento

Tamanho da amostra ao estimar um exemplo de proporção populacional - 6

Suponha que jV=2000, e consideramos isto como uma população pequena. Então revisaríamos nossa estimativa de n do seguinte modo:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 7

Yamane (1967) fornece uma fórmula mais simplificada para calcular n. Isso é

Tamanho da amostra ao estimar um exemplo de proporção populacional - 8

Quando (e*) for aplicado ao caso acima;

Tamanho da amostra ao estimar um exemplo de proporção populacional - 9

Como pode ser observado, o tamanho da amostra utilizando a fórmula (e) resulta numa amostragem de menos crianças do que a fórmula (c).

É ainda mais fácil verificar que a fórmula (c), para um dado z e d valores, fornecerá o mesmo tamanho de amostra, independentemente do tamanho da população. A tabela a seguir compara as duas fórmulas numericamente:

Tabela: Comparação de duas fórmulas de tamanho de amostra para p=0,5, <£=0,05 e z=1,96
Tamanho da população	Tamanho estimado da amostra quando N é grande	Tamanho estimado da amostra quando N é pequeno
50	385	45
100	385	80
500	385	218
1,000	385	279
5,000	385	357
10,000	385	371
50,000	385	382

Em estudos comparativos, geralmente se deseja demonstrar que existe uma diferença significativa entre os dois grupos. Se assumirmos um número igual de casos (n ₁ = n ₂ =n) nas duas subpopulações, a fórmula para n é muito semelhante ao acima:

Tamanho da amostra ao estimar um exemplo de proporção populacional - 10

O tamanho da amostra para estimar a média populacional

Muitas vezes, queremos fazer inferências sobre a média e o valor total de variáveis como renda, despesas, idade ou IMC.

O tamanho da amostra necessário para fazer tal inferência é um pouco diferente daquele discutido para a proporção. Para a média, a fórmula é onde <r2 is the population variance.

Tamanho da amostra para estimar a média populacional

Exemplo: Para uma população de 10.000 mulheres, a distribuição do índice de massa corporal (IMC) mostrou uma variação de 15. Qual o tamanho da amostra que devemos extrair se quisermos ter 95% de confiança de que nossa estimativa do IMC médio na população está errada? em ± 0,3?

tamanho da amostra para estimar o exemplo da média da população

Aqui 7V = 10.000, a² =15, <£=0,3. Portanto, para estimar a média, o tamanho da amostra é obtido de (g) conforme abaixo:

Assim, será necessária uma amostra de 602 mulheres para atingir o grau de confiança desejado na estimativa. Se N eram grandes, n teria sido em virtude de (h);

tamanho da amostra para estimar a média populacional exemplo 2

853	540	985	903	266
373	920	164	998	073
495	496	641	417	906
906	715	883	744	104
467	236	159	118	782

853	540	985	903	266
373	920	164	998	073
495	496	641	417	906
906	715	883	744	104
467	236	159	118	782

853	540	985	903	266
373	920	164	998	073
495	496	641	417	906
906	715	883	744	104
467	236	159	118	782