Análisis de datos en investigación

Análisis de datos en investigación

El investigador de cualquier disciplina se enfrenta al problema de qué hacer con los datos una vez recopilados. La masa de datos puede ser tan grande que el investigador no pueda expresarlos todos en la forma en que se recogen en su informe.

Gran parte de los datos deben reducirse a alguna forma adecuada para el análisis, de modo que se pueda informar a una audiencia científica de un conjunto conciso de conclusiones o hallazgos.

En un intento de analizar los datos, primero debemos decidir

  • Si la tabulación de datos se realizará a mano o por computadora
  • ¿Cómo se puede convertir la información en una forma que permita procesarla eficientemente y
  • ¿Qué herramientas o métodos estadísticos se emplearán?

En los últimos tiempos las computadoras se han convertido en una herramienta esencial para la tabulación y análisis de datos de encuestas.

Incluso en estudios a pequeña escala que emplean procedimientos estadísticos relativamente simples, se recomienda la tabulación por computadora para un manejo fácil y flexible de los datos.

Las microcomputadoras y las computadoras portátiles pueden producir tablas de cualquier dimensión y realizar operaciones estadísticas mucho más fácilmente y generalmente con mucho menos error que lo que es posible manualmente.

Suponiendo que la base de datos es grande y que el procesamiento de los datos se realizará por computadora, abordaremos las siguientes cuestiones importantes en la tarea de análisis de datos:

  • Preparación de datos que incluye;
    • edición,
    • codificación, y
    • entrada de datos.
  • Explorar, mostrar y examinar datos que implican descomponer, examinar y reorganizar datos para buscar descripciones, patrones y relaciones significativas.

Edición

El primer paso habitual en el análisis es editar los datos sin procesar. La edición detecta errores y omisiones, los corrige siempre que sea posible y certifica que se alcanzan los estándares mínimos de calidad de los datos.

La responsabilidad del editor es garantizar que los datos sean;

  1. preciso,
  2. consistente con la intención de la pregunta u otra información,
  3. ingresado uniformemente,
  4. completo, y
  5. organizados para simplificar la codificación y tabulación.

La edición de datos se puede realizar de dos maneras: edición de campo y edición interna, también llamada edición central.

Edición de campo es la edición preliminar de los datos por parte de un supervisor de campo el mismo día de la entrevista. Su propósito es identificar omisiones técnicas, verificar la legibilidad y aclarar respuestas que sean lógica o conceptualmente inconsistentes.

Cuando existen lagunas en las entrevistas, se debe volver a llamar en lugar de adivinar lo que el encuestado “probablemente habría dicho”.

Una segunda tarea importante del supervisor es volver a entrevistar a algunos encuestados, al menos sobre algunas preguntas preseleccionadas, como verificación de validez. En central o edición interna, Todos los cuestionarios se someten a una edición exhaustiva. Es un trabajo riguroso realizado por el personal de la oficina central.

Codificación

La codificación es el proceso de asignar números u otros símbolos a las respuestas para que las respuestas puedan agruparse en un número limitado de clases o categorías. La codificación ayuda al investigador a reducir varios miles de respuestas a unas pocas categorías que contienen la información crítica destinada a la pregunta formulada.

La codificación numérica se puede incorporar cuando se prepara el propio cuestionario, a lo que llamamos precodificación o después de que se haya administrado el cuestionario. Las preguntas respondidas, que llamamos poscodificación.

La precodificación se limita necesariamente principalmente a preguntas cuyas categorías de respuestas se conocen de antemano.

Se trata principalmente de preguntas cerradas (como sexo, religión) o preguntas cuya respuesta ya es un número y, por lo tanto, no es necesario convertirlas (como edad, número de hijos).

La precodificación es particularmente útil para el ingreso de datos porque hace innecesario el paso intermedio de completar una hoja de codificación. Los datos son accesibles directamente desde el cuestionario.

Un encuestado, entrevistador, supervisor de campo o investigador (según el método de recopilación de datos) puede asignar respuestas numéricas apropiadas en el instrumento marcándolo o encerrándolo en un círculo en la ubicación de codificación adecuada.

La principal ventaja de la poscodificación sobre la precodificación es que la poscodificación permite al codificador determinar qué respuestas da el encuestado antes de comenzar a codificar.

Esto puede llevar a una gran simplificación. La poscodificación también permite al investigador codificar múltiples respuestas para una sola variable escribiendo un número de código diferente para cada combinación de respuestas dadas.

La codificación, ya sea previa o posterior, es un procedimiento de dos partes que involucra:

  1. elección de un número diferente para cada posible categoría de respuesta; y
  2. elección de la columna o columnas apropiadas en la tarjeta de computadora que debe contener los números de código para esas variables.

La codificación de datos sacrifica algunos detalles de los datos, pero es necesaria para un análisis eficiente. En lugar de solicitar la palabra musulmán o cristiano a una pregunta que solicita la identificación de la religión de uno, podríamos usar el código "M" o "C".

Normalmente esta variable se codificaría 1 para musulmanes y 2 para cristianos. Los códigos del tipo “QI” o “VI” se denominan códigos alfanuméricos. Cuando se utilizan números exclusivamente (por ejemplo, 1, 2, etc.), los códigos son numéricos.

Libro de códigos y su construcción

El libro de códigos es un tipo de folleto compilado por el personal de la encuesta que indica el significado de cada código de cada pregunta de un cuestionario.

Por ejemplo, el libro de códigos podría revelar que para la pregunta número 10, el hombre está codificado como 1 y la mujer como 2.

El investigador utiliza el libro de códigos como guía para hacer que la entrada de datos sea menos propensa a errores y más eficiente. También es el

la fuente definitiva para localizar las posiciones de las variables en el archivo de datos durante el análisis.

Si un cuestionario puede precodificarse completamente, con un código de borde que indique la ubicación de la variable en el archivo de datos, entonces no es necesario un libro de códigos separado y se puede utilizar un cuestionario en blanco como libro de códigos.

Sin embargo, particularmente para la poscodificación y para las preguntas abiertas que reciben muchas respuestas, no hay suficiente espacio en el cuestionario para identificar todos los códigos.

El siguiente es un ejemplo de la parte de un libro de códigos.

Libro de códigos de muestra

Pregunta no.Ubicación de la columnanumero variableDescripción de variablesNombre de la variable
1-3V101Número de encuestado

Código propio 999=Falta

IDENTIFICACIÓN
4V102Lugar de residencia: l=Rural 2=Urbano 9=DesaparecidoRES
25V103Sexo del encuestado: l=Hombre 2=Mujer 9=DesaparecidoSEXO
36-7V104Edad:

autocódigo
99=Falta

EDAD
48V105Estado civil: l=Soltero 2=Casado 3=Viudo 4=Divorciado 5=Separado 9=DesaparecidoMARITAL

Codificación de no respuestas

La falta de respuesta (o los casos faltantes) se producen como resultado de no dar respuesta alguna a una pregunta, y esto es inevitable en cualquier cuestionario.

Se debe tener cuidado para evitar las faltas de respuesta, pero si esto ocurre, el investigador debe idear algún esquema para codificarlas, preferiblemente un esquema estándar para que pueda usarse el mismo código para las faltas de respuesta independientemente de la pregunta en particular.

Se debe asignar un código numérico a la falta de respuesta.

Los números utilizados con mayor frecuencia para la falta de respuesta son 0 y 9. Para las variables que requieren más de una columna, el número simplemente se repite para cada columna (por ejemplo, 99, 999).

Cualquier código numérico es satisfactorio para la falta de respuesta siempre que no sea un número que pueda aparecer como una respuesta legítima.

Por ejemplo, si le pidiera al encuestado que enumerara el número de hijos de su familia, no debería utilizar 9 para la falta de respuesta porque no podría distinguir una falta de respuesta de una familia de nueve hijos.

Además de los ítems sin respuesta, es posible que también sea necesario asignar un código para las respuestas abreviadas “NS” “no sé” y para las respuestas “no aplicable (NA)”, cuando la pregunta no se aplica a un encuestado en particular. Las respuestas de "No sé" suelen codificarse como "O" u "OO".

Entrada de datos

Una vez finalizada la codificación, el siguiente paso es ingresar la información codificada en un archivo, que se puede almacenar en a disco, disquete o cinta.

Si los cuestionarios están precodificados, incluida la codificación de bordes para indicar las columnas adecuadas en el archivo de datos para cada variable, los códigos se pueden extraer directamente de los cuestionarios.

Esto es aconsejable si es posible ya que ahorra trabajo administrativo, que no sólo cuesta tiempo y dinero sino que también genera la posibilidad de errores adicionales.

Sin embargo, si el cuestionario ha sido codificado posteriormente y los códigos son complicados y requieren un libro de códigos extenso, será difícil o imposible trabajar directamente a partir de los cuestionarios. En tal caso, un procedimiento estándar es dividir la tarea de construir el archivo de datos en dos operaciones separadas;

  1. leer los cuestionarios y el libro de códigos y transferir los códigos numéricos correctos para cada pregunta a una transcripción o hoja de transferencia, y
  2. introducir los datos en la computadora a través de una terminal de computadora.

Hasta hace muy poco, el uso de tarjetas perforadas Era la forma más común de ingresar datos en las computadoras.

Este sistema prácticamente ha desaparecido. En los últimos tiempos, muchas computadoras permiten la entrada de datos desde formularios de escaneo óptico. En los exámenes, los examinados oscurecen pequeños círculos, elipses o conjuntos de líneas paralelas para elegir una respuesta de prueba.

Los escáneres ópticos procesan los cuestionarios marcados y almacenan las respuestas en un archivo de datos sin procesar en la computadora. Actualmente se desarrollan algunos cuestionarios que tienen formularios de escaneo óptico como hojas de respuestas, o el cuestionario en sí puede superponerse a un formulario de escaneo óptico.

Si este es el caso, el investigador no necesitará trasladar los datos a los formularios.

Esta tecnología ha sido adoptada por los diseñadores de cuestionarios para la recopilación de datos más rutinaria. Reduce la cantidad de veces que se manejan los datos, reduciendo así la cantidad de errores que se introducen.

Además del procedimiento anterior, la entrada por teclado sigue siendo un pilar para los investigadores que necesitan crear un archivo de datos de inmediato y almacenarlo en un espacio mínimo en una variedad de medios.

Para este procedimiento, uno debe tomar sus datos codificados, sentarse frente a una terminal de computadora e ingresar sus datos en el teclado de la terminal, caso por caso. Una vez ingresados ​​los datos, podemos obtener un listado de la computadora de lo que ha ingresado y verificar la lista con los datos codificados originales.

Respuesta del teclado telefónico es otra capacidad posible gracias a las computadoras conectadas a líneas telefónicas.

Usando el teclado del teléfono (toque uno), el encuestado responde preguntas presionando el número apropiado.

La computadora captura los datos “escuchando”, decodificando la señal eléctrica del tono y almacenando la respuesta numérica o alfabética en un archivo de datos.

Hoy en día, Lectores de códigos de barras se utilizan ampliamente en los negocios. Esta tecnología se puede utilizar para simplificar el papel del entrevistador como registrador de datos.

En lugar de escribir o mecanografiar información sobre los encuestados y sus respuestas a mano, el entrevistador puede pasar una varilla de códigos de barras sobre los códigos apropiados. Los datos se registran en una unidad pequeña y liviana para su traducción posterior.

Transformación de variables

A menudo es necesario transformar o modificar datos para análisis posteriores. Es el proceso de cambiar los datos de su forma original a un formato que admita mejor el análisis de datos para lograr los objetivos de la investigación.

Muchos investigadores creen que el sesgo de respuesta será menor si los entrevistadores preguntan a los encuestados su año de nacimiento en lugar de su edad, aunque el objetivo del análisis de datos es investigar la edad de los encuestados en años.

Los datos brutos codificados como año de nacimiento se pueden transformar fácilmente a la edad actual restando el año de nacimiento del año actual.

Dado que este cálculo se puede realizar con mayor facilidad y precisión con una computadora que con la mano, se debe realizar durante el análisis de los datos fase en lugar de durante la codificación.

Colapsar o combinar categorías adyacentes de una variable es una transformación de datos común que reduce el número de categorías, y toda esa transformación se puede realizar en la computadora en cualquier etapa del análisis. Por ejemplo, los años de edad individuales (como 0, 1,...) se pueden contraer y transformar como categorías de edad. 0-4, 5-9, 10-14, etc.

Una de las desventajas de este proceso de colapso es que la identidad individual de las observaciones se pierde permanentemente.

Para evitar esto, es aconsejable crear una nueva variable a partir de la anterior conservando la variable original.

En cualquier caso, se debe conservar la variable original y se debe dar un nuevo nombre a la variable transformada para que pueda realizar más transformaciones cuando sea necesario.

Calcular una nueva variable

A veces, es necesario calcular una nueva variable combinando dos o más variables para el análisis.

Suponga que para un individuo, registró el número de hijas (x1) y el número de hijos (x2) él o ella tiene.

Desea combinar estas dos variables en una sola variable (x), que denota el número total de hijos que tiene el individuo, de modo que x=x1+x2.

Al calcular una nueva variable, puede realizar sumas, restas, multiplicaciones y divisiones con una o más variables originales.

Para calcular su margen de beneficio P, puede restar el valor de compra (Y) del valor de venta (X). P=XY. Por tanto, P es su variable calculada. Todas estas operaciones pueden realizarse fácilmente mediante un programa de computadora en cualquier etapa del análisis de datos.

Grabación de datos

La recodificación es un procedimiento de manipulación común que debe adoptar al configurar su variable para el análisis.

El propósito del registro generalmente es reducir el número de categorías en una variable a una más manejable para el análisis numérico.

Supongamos, por ejemplo, que ha codificado la religión de la siguiente manera:

Musulmán=1, Hindú=2, Cristiano=3, Budista=4, Otros=5

Supongamos que un análisis de frecuencia muestra que los cristianos, los budistas y la categoría "otros" juntos constituyen sólo una pequeña proporción del total. En ese caso, está convencido de que un análisis separado de sus datos por estas categorías subrepresentadas puede no ser significativo.

En ese caso, tendrá la tentación de combinar estas tres categorías y asignar un nuevo código '3'.

¿Cuál es el principal desafío que enfrentan los investigadores después de recopilar datos?

Después de recopilar datos, los investigadores se enfrentan al desafío de procesar y analizar la gran cantidad de datos para presentarlos de manera concisa y significativa, adecuados para informar a un comité científico. audiencia.

¿Por qué las computadoras se consideran herramientas esenciales para tabular y analizar datos de encuestas?

Las computadoras son esenciales para tabular y analizar datos de encuestas porque pueden producir tablas de cualquier dimensión, realizar operaciones estadísticas más fácilmente y, por lo general, con muchos menos errores que los métodos manuales, lo que hace que el procesamiento de datos sea eficiente y flexible.

¿Cuál es el propósito de editar datos sin procesar en la investigación?

La edición de datos sin procesar detecta errores y omisiones, los corrige siempre que sea posible y garantiza que los datos cumplan con los estándares mínimos de calidad. Garantiza que los datos sean precisos, consistentes, ingresados ​​de manera uniforme y organizados para simplificar la codificación y tabulación posteriores.

¿Qué es la codificación en el contexto del análisis de datos y por qué es necesaria?

La codificación es el proceso de asignar números u otros símbolos a las respuestas, lo que permite agrupar las respuestas en un número limitado de clases o categorías. Ayuda a reducir numerosas respuestas a unas pocas categorías que contienen la información crítica destinada a la pregunta formulada.

¿Cuál es la diferencia entre precodificación y poscodificación?

La precodificación asigna códigos numéricos a las respuestas cuando se prepara el cuestionario, principalmente para preguntas con categorías de respuesta conocidas. La poscodificación asigna códigos después de que se ha administrado el cuestionario, lo que permite una mayor flexibilidad a la hora de codificar respuestas múltiples o inesperadas.

¿Cómo se manejan las faltas de respuesta o los casos faltantes en el análisis de datos?

Las faltas de respuesta son inevitables en cualquier cuestionario. Se les asigna un código numérico, a menudo 0 o 9, para distinguirlas de las respuestas legítimas. Se tiene cuidado para garantizar que el código de falta de respuesta no pueda confundirse con una respuesta válida.

¿Qué es la transformación de variables en el análisis de datos?

La transformación variable es el proceso de cambiar los datos de su forma original a un formato que respalde mejor el análisis de datos para lograr los objetivos de la investigación. Puede implicar operaciones como suma, resta, multiplicación o división en una o más variables originales.