Tipos de procedimentos analíticos

Tipos de procedimento analítico

Tendo assegurado que realizamos com sucesso a nossa pesquisa, o nosso hipóteses de pesquisa foram formulados corretamente; nossa amostragem foi projetada cientificamente, nossos instrumentos de pesquisa foram construídos corretamente, testados e validados e, finalmente, os dados foram inseridos corretamente no computador, nossa próxima tarefa é planejar a análise dos dados.

A análise de dados é particularmente necessária para testar hipóteses ou de outra forma responder às nossas questões de pesquisa e para promover nosso objetivo geral de compreender os fenômenos sociais.

Nossos dados podem ser interpretados e apresentados em termos inteiramente verbais, particularmente em estudos observacionais e estudos documentais.

Porém, quando lidamos com dados quantitativos, preferimos empregar técnicas estatísticas para analisar nossos dados. Nosso objetivo na análise estatística pode ser alcançado por meio do processo de descrição, explicação e previsão.

Das três tarefas, a análise descritiva refere-se à transformação de dados brutos em um formato que os tornará fáceis de compreender e interpretar. Descrever respostas ou observações é normalmente a primeira forma de análise.

A análise descritiva é simplesmente uma tentativa de dizer qual é a “aparência” dos dados, por exemplo, quantos casos foram analisados, qual foi o intervalo de pontuação, qual foi a pontuação média, como as pontuações individuais diferem umas das outras, e assim por diante.

Isto é frequentemente realizado para uma variável de cada vez, para o qual é qualificado como análise univariada.

A explicação e as previsões são geralmente mais complicadas do que a descrição e requerem mais compreensão e também mais interpretação.

A análise estatística explicativa pode assumir diversas formas, mas geralmente consiste na análise da relação entre duas ou mais variáveis.

Isto é conseguido geralmente através de diversas técnicas estatísticas: teste de significância, análise de correlação, análise de regressão e similares.

Tipos de procedimento analítico

A seção a seguir fornecerá uma breve visão geral dos métodos de análise de dados sobre;

  1. Univariado,
  2. Bivariada,
  3. Yri-variável, e
  4. Análise multivariada.

Análise Univariada

A primeira etapa para ver a aparência dos seus dados é examinar cada variável separadamente. Isso pode ser conseguido obtendo a distribuição de cada variável, uma por uma.

Essa análise de variável única é chamada análise univariada, isto é, análise baseada em uma variável. O A forma mais simples de análise de variável única é contar o número de casos em cada categoria.

A contagem resultante é chamada de distribuição de frequência. Podemos formar distribuições de frequência de variáveis ​​​​individuais como religião (que é medida em uma escala nominal), nível de educação (escala ordinal), temperatura (escala de intervalo) e idade (escala de proporção).

Uma distribuição de frequência, entretanto, geralmente não é muito interessante e informativa sem manipulações estatísticas adicionais.

Várias medidas estatísticas podem ser obtidas a partir de uma distribuição de frequência. Ainda assim, a natureza precisa das medidas permitidas dependerá do tipo de variável ou, mais precisamente, do nível de medição.

Os níveis de medição comumente usados ​​são nominal, ordinal e intervalar, que discutimos anteriormente. A tabela anexa mostra o nível de escolaridade de um grupo de mulheres obtido no Inquérito BDH de 1993-94.

exemplo de análise univariada 1

O nível de escolaridade apresentado na coluna 1 é a única variável medida numa escala ordinal. A distribuição é univariada.

A segunda e terceira colunas representam as frequências absolutas e percentuais, respectivamente. As frequências são números absolutos e não se prestam a uma interpretação significativa, a menos que sejam padronizadas quanto ao tamanho. Isto é ainda mais verdadeiro quando duas ou mais distribuições devem ser comparadas.

Formando proporções ou porcentagens, esse problema pode ser eliminado. As porcentagens servem a dois propósitos na análise de dados. Eles simplificam reduzindo todos os números para um intervalo de 0 a 100.

Em segundo lugar, traduzem os dados em formato padrão, com base 100, para comparação relativa.

Deve-se, no entanto, ter cautela no uso de porcentagens. Observe que todos os valores percentuais devem somar 100 (a menos que haja múltiplas respostas). E os valores percentuais não podem ser calculados normalmente.

Note-se que a variável ‘nível de escolaridade’ é uma variável medida numa escala ordinal, para a qual não podemos ir muito além do tipo de análise apresentado na tabela acima.

Contudo, podemos tentar obter uma mediana, uma medida de tendência central, uma vez que é possível ordenar as mulheres de acordo com o seu nível de escolaridade.

A categoria mediana é a categoria “sem educação”, uma vez que, no acumulado, 100/2=50 mulheres pertencem a esta categoria quando dispostas num nível de educação superior.

A moda, outra medida de tendência central, também possui a mesma categoria neste caso particular.

A apresentação gráfica dos dados também pode funcionar bem no presente caso para descrever os dados em questão. Os diagramas de pizza e de barras parecem ser as melhores escolhas neste caso.

Quando dados quantitativos (intervalo ou razão) estão disponíveis, outras medidas descritivas, como média, desvio padrão, coeficiente de variação, etc., além da mediana e da moda, podem ser tentadas no âmbito da análise univariada.

Consideremos os dados dos “Trabalhadores do Sexo”, onde recolhemos dados como idade, altura, peso, rendimento e IMC.

Podemos calcular média, mediana e moda para cada uma dessas variáveis ​​diretamente a partir dos dados brutos, por meio de uma calculadora ou de um computador usando SPSS.

Estas estatísticas, no entanto, não dizem muito sobre os dados, a menos que os analisemos numa perspectiva comparativa.

exemplo de análise univariada 2

As estimativas acima foram feitas a partir de duas distribuições separadas e de uma única variável: as das trabalhadoras do sexo baseadas em bordéis e as das trabalhadoras do sexo de rua.

O desvio padrão fornece a distância média ou variabilidade das observações de medição individuais em relação à média do grupo.

Outras medidas de variabilidade são intervalo, desvio quartil e coeficiente de variação. Os dois grupos de profissionais do sexo diferem significativamente em termos de idade, rendimento, etc.?

Para responder a esta questão, pode-se realizar o 'teste de igualdade de duas médias' para avaliar se as diferenças são significativas.

Análise Bivariada

A apresentação bivariada coloca duas variáveis ​​juntas em uma única tabela de forma que essas inter-relações possam ser examinadas. A tabela pode ser baseada em duas variáveis ​​nominais em escala, duas variáveis ​​de nível de razão ou qualquer combinação delas.

Tais tabelas são chamadas tabelas bivariadas ou tabelas cruzadas. Tabelas cruzadas baseadas em dados numéricos (intervalo ou razão) são algumas vezes chamadas tabelas de correlação. As tabelas construídas exclusivamente com base em dados nominais são chamadas Tabelas de contingência.

Por tradição e convenção, uma variável chamada variável de coluna é geralmente rotulada na parte superior para que suas categorias formem colunas verticalmente na página.

A segunda variável ou variável de linha é rotulada na margem esquerda com suas categorias formando uma linha horizontalmente na página.

Como sempre é possível trocar as linhas e colunas de qualquer tabela, não podem ser fornecidas regras gerais sobre quando usar porcentagens de linhas e colunas. No entanto, é geralmente aconselhável calcular a percentagem juntamente com a variável independente.

Se a variável independente for a variável de linha, selecione as porcentagens de linha; se a variável independente for a variável da coluna, selecione as porcentagens da coluna.

Como exemplo, imagine que estamos analisando uma pergunta de pesquisa que pergunta: Você aprova o aborto (Sim/Não).

Concluímos, a partir de uma análise preliminar, que o género é uma variável importante na determinação da resposta a esta questão e decidimos construir uma tabela bivariada contendo estas duas variáveis.

A opinião de uma pessoa não pode afetar o seu sexo, mas o sexo pode afetar a opinião. Assim, o sexo é a variável independente e a opinião sobre o aborto é a variável dependente.

A tabela abaixo mostra os resultados desta investigação.

Pela porcentagem da variável independente (sexo), podemos ver se uma mudança na variável independente (por exemplo, de homem para mulher) resulta em uma distribuição diferente de pontuação de sim/não (isto é, favorece/não favorece) no dependente. variável.

Aqui está uma possível análise da tabela;

exemplo de análise bivariada

Os tipos de técnicas analíticas apropriadas para estudar relações bivariadas dependem da natureza das variáveis ​​– sejam elas nominais, ordinais ou intervalares.

Apresentamos a seguir um breve panorama dos tipos de dados necessários para realizar diferentes tipos de análises bivariadas indicando o possível teste estatístico que pode ser aplicado.

Quando os dados são medidos em uma escala nominal

Na maioria das vezes, estamos interessados ​​em determinar se as diferenças observadas nos dados poderiam ter ocorrido apenas por acaso. No exemplo acima, onde ambas as variáveis ​​são nominais, 40% dos homens em contraste com 60% das mulheres são a favor do aborto.

Essa diferença é estatisticamente significativa ou poderia ter acontecido apenas por acaso? Provavelmente, o teste estatístico mais utilizado é o teste do qui-quadrado para responder à questão.

No entanto, a estatística qui-quadrado não mede a força da relação.

Para tanto, é necessária uma “medida de associação”. Para este propósito, podemos empregar medidas como coeficiente phi e V de Cramer, que são derivados do valor qui-quadrado.

Quando os dados são medidos na escala ordinal

Existem diversas medidas diferentes de associação para tabulações cruzadas de variáveis medidas ordinalmente.

Talvez a medida de associação mais comumente usada para tais tabelas seja chamada Gama. A forma quádrupla de gama é chamada Q de Yule.

Quando a tabela tem mais de quatro células, o coeficiente Q é chamado de gama em vez de Q. A principal desvantagem do gama como medida de associação é que não existe uma significância simples para avaliar o gama.

Quando os dados são medidos em uma escala de intervalo

As relações entre variáveis ​​intervalares podem ser estudadas com ou sem tabulação cruzada.

Se a tabulação cruzada for feita de variáveis ​​de intervalo, pode-se tentar calcular o gama ou o V de Cramer, examinando a natureza aparente da relação entre as variáveis.

É, no entanto, mais comum medir a relação entre pares de variáveis ​​​​de intervalo sem referência a quaisquer tabelas cruzadas usando o coeficiente de correlação produto-momento de Pearson denotado por R. Um teste t pode avaliar a significância estatística de r.

O coeficiente de correlação nos diz o quão fortemente duas variáveis ​​medidas em pelo menos uma escala de intervalo estão relacionadas. Ainda assim, não nos permite prever o valor ou a pontuação de um indivíduo numa variável a partir do conhecimento da sua pontuação na segunda variável.

A análise de regressão é uma técnica que nos permite fazer tal previsão.

Nesse caso, a medida de associação é o coeficiente de regressão de ordem zero, que indica a quantidade média de mudança na variável dependente associada a uma mudança unitária na variável independente.

Também aqui temos margem para testar estatisticamente a significância do coeficiente de regressão.

Análise Trivariada

O reconhecimento de uma relação significativa entre variáveis ​​geralmente sinaliza a necessidade de investigação adicional. Mesmo que se encontre uma relação estatisticamente significativa, permanece a questão de saber porquê e em que condições.

A introdução de uma terceira variável chamada variável de controle interpretar o relacionamento é muitas vezes necessário.

Tabulações cruzadas de três variáveis ​​servem como estrutura para tal análise. A tabela de três variáveis ​​mais comum é a tabela 2x2x2 contendo 3 variáveis ​​dicotômicas.

Voltemos à tabela 2×2 que descreve a opinião de 90 entrevistados por sexo. Podemos estender esta tabela 2×2 para uma tabela 2x2x2 simplesmente adicionando outra variável, digamos religião, que se acredita afetar a relação entre gênero e

Ou seja, o efeito do género na atitude em relação ao aborto pode ser diferente para os muçulmanos e para os não-muçulmanos.

A tabela resultante agora terá a seguinte aparência:

Exemplo de análise trivariada

Neste caso, a religião é chamada de variável de 'controle'. A tabela anterior mostrava a relação entre gênero e atitude em relação ao aborto, onde a religião não era conhecida.

Se sentirmos que a relação entre género e atitude será a mesma independentemente da religião da pessoa, então não há necessidade de construir a tabela 2, uma vez que ambas as partes da tabela 2 produzirão resultados idênticos.

Se, no entanto, sentirmos que a raça afectará a relação entre género e atitude, então estamos a prever que as frequências das células interiores nas duas metades da tabela 2 serão diferentes.

Aquilo é uma * e, b, e assim por diante.

Este efeito, no qual a relação entre duas variáveis ​​depende da terceira variável, é denominado efeito de interação estatística'.

Se sentirmos que a religião terá esse efeito, então a relação mostrada na tabela 1 é inadequada e enganosa e precisa de ser calculada controlando a religião.

Dizemos que a raça é controlada porque, dentro de cada célula da tabela 2, a religião é constante (todos os muçulmanos ou todos os não-muçulmanos) e, portanto, não pode afectar o resultado.

Análise multivariada

Análises que permitem ao pesquisador estudar o efeito do controle de um ou mais variáveis ​​são chamadas de análises multivariadas já que envolvem múltiplo (mais de dois) variáveis.

A maioria das técnicas multivariadas também permitir a medição do grau de relacionamento entre uma variável dependente e duas ou mais variáveis ​​independentes consideradas simultaneamente.

As técnicas multivariadas mais comumente utilizadas incluem, entre outras, análise de regressão múltipla, análise de classificação múltipla (MCA), análise discriminante, análise multivariada de variância (MANOVA), análise de regressão logística e análise de risco.

Outros métodos em ambientes multivariados são análise fatorial, análise de cluster e escalonamento multidimensional. As técnicas multivariadas podem ser ferramentas analíticas muito poderosas, mas devem ser utilizadas com muito cuidado.

Todas elas se baseiam em numerosas suposições que são muito difíceis de encontrar na maioria das pesquisas em ciências sociais. Como a Como resultado, as descobertas nem sempre são válidas.

Seu plano de análise não deve incluir nenhuma técnica multivariada sem ter certeza de sua aplicabilidade.

Antes de concluir esta seção, enfatizamos aqui que, como primeira análise multivariada de dados, os leitores são aconselhados a começar com a análise de regressão.

Qual é o objetivo principal da análise de dados em pesquisa?

O objetivo principal da análise de dados em pesquisa é testar hipóteses, responder a questões de pesquisa e promover o objetivo geral de compreensão dos fenômenos sociais.

O que é análise univariada e como ela é usada?

A análise univariada refere-se ao exame de cada variável separadamente. Envolve a transformação de dados brutos em um formato que os torna fáceis de entender e interpretar, muitas vezes formando distribuições de frequência de variáveis ​​únicas.

Como a análise bivariada difere da análise univariada?

A análise bivariada examina a relação entre duas variáveis ​​simultaneamente, enquanto a análise univariada analisa uma variável de cada vez. A análise bivariada pode ser utilizada para estudar as inter-relações entre duas variáveis ​​em uma única tabela.

Qual é o papel de uma variável de controle na análise trivariada?

Uma variável de controle é introduzida na análise trivariada para interpretar a relação entre duas outras variáveis. Ajuda a determinar se a relação entre as duas variáveis ​​principais depende da terceira variável, conhecida como efeito de interação estatística.

Quais são algumas técnicas multivariadas comumente usadas na análise de dados?

As técnicas multivariadas comumente usadas incluem análise de regressão múltipla, análise de classificação múltipla (MCA), análise discriminante, análise multivariada de variância (MANOVA), análise de regressão logística e análise de risco.

Por que as técnicas multivariadas devem ser usadas com cautela?

As técnicas multivariadas devem ser utilizadas com cautela porque se baseiam em numerosos pressupostos que são muitas vezes difíceis de concretizar na maior parte da investigação em ciências sociais, tornando as conclusões potencialmente inválidas.

Qual é a importância das porcentagens na análise de dados?

As porcentagens simplificam os dados reduzindo todos os números para um intervalo de 0 a 100. Elas também traduzem os dados em um formato padrão para comparação relativa, facilitando a interpretação e comparação de diferentes conjuntos de dados.