INTRODUCCIÓN
En esta unidad didáctica del curso en línea de “Estadística”, se aborda conceptos y temas básicos que son claves para entender mejor las unidades siguientes. Aquí conocerá la definición de estadística y sus componentes, el lugar y la importancia de esta disciplina dentro de la investigación científica, algunas fuentes comunes de información (de las que se vale el investigador) para analizar los datos que contienen, los cuales generalmente están disponibles en forma de números. Se presentan las definiciones de algunos términos básicos, como: población, muestra, dato, variable, entre otros. Se estudia que el tipo básico de muestreo para hacer inferencias válidas es el muestreo aleatorio simple y describe cómo utilizar las tablas de números aleatorios para obtener muestras de una población. También se habla acerca de lo que significa medir en términos estadísticos y de las escalas de medición de las variables: nominal, ordinal, de intervalo y de razón. Por último, se menciona la importancia de las computadoras y el software en el desarrollo de las actividades propias de la estadística.
CONTENIDO
1.1 Conceptos básicos
1.1.1 Descripción de la estadística
La Estadística es la disciplina matemática que explora metodológicamente conjuntos de datos o una parte de estos; los recoge, organiza, presenta, analiza e interpreta para obtener inferencias basadas en probabilidades a fin de facilitar la toma eficaz de decisiones. Se compone de una parte teórica y una aplicada, la primera produce resultados que pueden ser implementados en diferentes áreas del conocimiento, la segunda resuelve problemas específicos basados en los resultados teóricos.
Clasificación de la estadística
Diagrama 1. Clasificación de la estadística
La figura 1 es solo uno de varios enfoques de clasificación, el lector encontrará muchas maneras en la literatura. La estadística tiene entonces dos ramas: descriptiva e inferencial, las cuales se describen a continuación:
Estadística descriptiva
Detalla las relaciones de interés en las muestras exploradas, organiza, resume, presenta y describe (incluyendo la construcción de cuadros y gráficas), la información que contienen los datos de manera informativa.
Se divide en:
- Gráfica: elabora gráficas para presentar distribuciones tales como: histogramas, gráficos circulares, polígonos de frecuencias, por mencionar algunos. Que permiten visualizar la información de manera rápida y sencilla, demostrando con mayor claridad la relación que estos datos tienen entre sí. (fig. 2).
- Numérica: describe y resume la distribución de los datos de forma numérica buscando relaciones entre ellos que puedan ser presentados no solo en gráficos sino también ordenados en cuadros. Para tal fin hace cálculos por medio de parámetros estadísticos como las medidas de resumen (fig. 3).
Diagrama 2. Medidas de resumen
Estadística inferencial
Valora en qué medida las relaciones encontradas en los datos de la muestra pueden extrapolarse a la población general. Por medio de estimaciones y pruebas de hipótesis basadas en probabilidades para establecer una decisión, predecir o generalizar una característica. Se divide según la distribución de los datos en: análisis paramétrico y análisis no paramétrico.
Análisis paramétrico: comprende procedimientos estadísticos basados en distribuciones comunes*.
*Nota: Por ejemplo, si medimos el tamaño de las hojas de un árbol veremos que las mediciones tienden a distribuirse en forma muy peculiar conocida como distribución gaussiana (en honor a Karl F. Gauss (1799-1830) quien la describió́) y es tan común, que se le ha llamado distribución normal. Los parámetros que la caracterizan son: media igual a 0 (μ=0) y desviación estándar igual a 1 (σ=1). Gráficamente, tiene forma similar al de una campana por lo que también se le conoce como “campana de Gauss”.
Análisis no paramétrico: procedimientos estadísticos basados en distribuciones que no se ajustan a los criterios paramétricos. Su utilización es recomendable cuando no se puede asumir que los datos tienen una distribución conocida.
1.1.2 Importancia de la estadística dentro del proceso de investigación
La estadística es un apoyo fundamental en la obtención de conocimiento científico debido a que tiene metodologías que se pueden aplicar en ciertas etapas de dicho proceso. Los métodos de muestreo y la experimentación permiten observar la naturaleza y la sociedad con un mínimo de interferencia del observador (investigador), dando como resultado una mayor claridad en la amplitud y el tipo de inferencias que pueden hacerse usando los datos obtenidos.
Estos se procesan usando los métodos de la estadística descriptiva e inferencial, además permite revisar el contexto en el que se obtuvieron. Por tanto, todo investigador serio debe presentar sus trabajos con argumentos bien fundamentados y sustentarlos con un análisis estadístico que acompañe sus hallazgos para que sea punto de partida de nuevas investigaciones basadas en evidencias válidas. Dado lo anterior, la estadística interviene en diferentes etapas del proceso de la investigación científica a saber:
- En el diseño
- Selección de sujetos
- Control de sesgos
- Instrumentos de medición
- En el análisis
- En la toma de decisiones
Ahora bien, para fines de informe y divulgación de su trabajo el investigador debe incluir en su escrito el diseño y las pruebas estadísticas que realizó para comprobar sus preguntas de investigación, sus hipótesis y sus objetivos. Y estas van incluidas en el apartado de material y métodos. Apartado muy importante pues es la única parte en todo el escrito que responde a las preguntas: ¿cómo? y ¿con qué? y que dan a otros investigadores la posibilidad de replicar el trabajo y así poder apoyar o refutar los resultados del primero.
Fuentes de información
A lo largo toda investigación científica y durante la recogida de los datos (fase de campo del estudio) la información de los distintos individuos implicados se captura en una base de datos que es un listado que contiene a cada sujeto de estudio susceptible a ser seleccionado en la muestra y que pueden ser:
- Historias clínicas (estudios hospitalarios),
- Bitácoras de laboratorio (investigaciones básicas con animales o cultivos)
- Encuestas y entrevistas sanitarias (estudios epidemiológicos)
- Fuentes externas (informes publicados, bancos de datos, entre otros)
11.3 Entendiendo los datos
¿Qué son los datos?
Son la materia prima de la estadística, números producto de una medición o por conteos. Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura; como: 53.8 kg o 37ºC se obtiene una medida. Por otro lado, cuando el administrador de un hospital revisa el número de pacientes dados de alta en un día, digamos 20 se obtiene otro tipo de dato; esta vez, por conteo. Cada uno de los tres números es un dato (datum) y en conjunto son datos. Pero estos provienen de una fuente aún más grande, es decir, son parte de una población (en este caso de personas) y este concepto en estadística es importante pues determina la forma de obtener y analizar los datos.
Concepto de población y muestra
Una población es el conjunto más grande de entidades (personas, animales o cosas) de interés en un momento particular que en estadística se denota por la letra (N). Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el sistema de educación primaria del estado, la población está formada por todos esos pesos. Si, por el contrario, solo se quiere saber el peso de los estudiantes inscritos en el primer grado, la población está compuesta por los pesos de los estudiantes de ese grado. Por lo tanto, las poblaciones se determinan o definen con base al interés del investigador. Y estas pueden ser finitas o infinitas, si está en un número fijo de datos, se dice que la población es finita. Si, por otra parte, es en una sucesión interminable de datos, entonces es una población infinita. Muchas veces, las poblaciones son muy grandes por lo que resulta poco práctico analizarla toda, es por eso que es habitual tomar una muestra representativa, es decir; hacer muestreo.
Una muestra, por tanto; es la porción o parte de la población de interés que en estadística se denota por la letra (n). Supongamos el caso de los pesos de todos los niños inscritos en el sistema de educación primaria del estado, y se escoge aleatoriamente (de preferencia) para el análisis solo una fracción de ellos; entonces se tiene únicamente una parte de la población, es decir, se tiene una muestra y de esta es posible hacer inferencia hacia la población de origen (figura 4).
Diagrama 3. Concepto de población y muestra.
Entendido lo anterior, entonces la pregunta obligada es ¿ cómo seleccionar esa muestra? En otras palabras, como hacer muestreo.
Selección de la muestra
Existen dos tipos de muestreo:
- Probabilístico, que a su vez puede ser:
- Muestreo aleatorio simple
- Muestreo estratificado
- Muestreo por racimos o clusters
- No probabilístico o dirigido
El primero, requiere de precisar el tamaño de la muestra a través de seleccionar unidades o elementos muestrales por medio de:
- Listado o marco muestral
- Otros procedimientos
- Tómbolas
- Tablas de números aleatorios
- Selección sistemática
Mientras que, el muestreo no probabilístico selecciona casos o unidades por uno o varios propósitos y no pretende que los casos sean estadísticamente representativos de la población. Por el momento y en esta unidad abordaremos solo el método de muestreo probabilístico (el más común) que el aleatorio simple.
Pero de donde se obtiene la población para hacer el muestreo, pues de alguna fuente de información como las mencionadas antes como lo son las historias clínicas. Por ejemplo, se selecciona una muestra de una población de pacientes que fueron internados en el hospital. Suponga que el muestreo comprende a la selección de una muestra de expedientes, tornados del archivo del departamento de registro médico, de los pacientes dados de alta. Cabe mencionar que hay dos maneras de tomar esa muestra: con reemplazo o sin él. En el primer caso se selecciona un expediente para incluirlo en la muestra, se registra la duración de la estancia y se devuelve el expediente al archivo.
Al devolverlo a la «población» es decir, al archivo este puede ser seleccionado de nuevo, en cuyo caso; el tiempo de estancia se registrará otra vez. Por otro lado, en un muestreo sin reemplazo el expediente extraído no se regresa al archivo después de registrar el dato que se investiga (duración de la estancia), sino que se separa hasta extraer toda la muestra. Con este procedimiento, un expediente debe aparecer solo una vez en la muestra. En la práctica, por lo general, un muestreo siempre se hace sin reemplazo.
Para asegurar una selección totalmente aleatoria, se debe seguir algún procedimiento objetivo, pues se intenta evitar el uso de juicios subjetivos para decidir que elementos de la población constituyen una muestra aleatoria. Y uno de esos procedimientos es el muestreo aleatorio simple.
Muestreo aleatorio simple
Este método extrae una muestra de tamaño n de una población de tamaño N, de manera que cada muestra posible de tamaño n tenga la misma probabilidad de ser seleccionada. El siguiente ejemplo muestra un método para elegir una muestra aleatoria simple a partir de una población. Se tiene un marco muestral con los datos de 200 individuos en los que se ha recogido, entre otras, las variables: sexo, grupo sanguíneo, numero de caries, peso y edad. Siendo la población de tamaño N=200 de la que se quiere obtener una muestra aleatoria simple de tamaño n=10 (figura 5).
Tabla 1. Ejemplo de marco muestra.
Para cada individuo, cada variable toma un valor concreto. Por ejemplo, el primer individuo, identificado con el número 1 es un hombre (codificamos con “1” a los hombres y con “2” a las mujeres), tiene grupo sanguíneo “AB”, tiene 3 caries, pesa 65.9 kg y tiene 18 años. Note que la figura 5 se trata de una recopilación de información relevante debidamente organizada, donde cada fila corresponde a un individuo o caso y cada columna corresponde a una variable de interés, esta forma de organizar los datos se llama marco muestral.
Ahora, una forma de seleccionar una muestra aleatoria simple es utilizar una tabla de números aleatorios (ver anexo al final de esta unidad) cabe mencionar que las tablas de números aleatorios que se pueden encontrar difieren en su diseño, la descripción que sigue es para la tabla del anexo. EI primer paso es localizar un punto de partida aleatorio en la tabla. Esto se puede hacer de varias formas: una de ellas es quitar la vista de la tabla mientras se toca esta con la punta del lápiz.
El punto de partida aleatorio es el dígito más cercano al lugar donde apunte el lápiz. Suponga que el punto de partida aleatorio, obtenido mediante este procedimiento, se encuentra en la intersección del renglón 21 y la columna 28. El dígito en ese punto es 5. Puesto que se tienen únicamente 200 valores para elegir, solo se puede utilizar números aleatorios del 1 al 200. Resulta conveniente seleccionar números de tres dígitos (pues la N es de tres dígitos). El primer número de tres dígitos para el punto de partida aleatorio es 532, número que no se pueden utilizar.
Al recorrer la tabla hacia abajo, aparecen los números: 196, 372, 654, 928 y 137, de estos solo el primero y el último se pueden utilizar. Los sujetos que tengan los lugares 196 y 137 se buscan en el marco muestral y se procede a registrar estos números y los datos que contiene en la nueva tabla. Los números aleatorios se registran para ver cuales fueron seleccionados. Puesto que se trata de una muestra sin reemplazos, no se incluye dos veces un mismo valor. Al continuar con este procedimiento se obtienen los ocho números aleatorios restantes.
1.2 Clasificación de las variables
1.2.1 Definición de variable
Variable:
Es una propiedad o característica de interés (magnitud, vector o número) que adopta diferentes valores en cada uno de los casos de un estudio y cuya variación es medible o contable. Estas pueden clasificarse según su tipo o según su interrelación-asociación (figura 6).
Diagrama 4. Clasificación de las variables (según su naturaleza) y (según interrelación-asociación).
1.2.2 Tipos de variables
Básicamente, hay dos tipos: cualitativas y cuantitativas, las primeras recogen alguna cualidad del individuo. Se llaman dicotómicas si presentan solamente dos posibilidades y politómicas si presentan varias posibilidades (ordenables o no). Permiten distribuir a los individuos de acuerdo a ciertas propiedades por medio de las cuales pueden distinguirse de otros que no las poseen. Sus características son:
- Identifican categorías no numéricas.
- No es posible comparar la distancia entre los valores.
- Entre dos valores no hay puntos intermedios.
- La variable bajo estudio es contable.
Cuando los datos son cualitativos, importa la cantidad o proporción de cada categoría.
Mientras que las variables cuantitativas son más precisas porque señalan diferencias. Sus características son:
- Identifican categorías numéricas
- Es posible comparar la distancia entre los valores
- Entre dos valores hay puntos intermedios
- La variable bajo estudio es medible
Este tipo de variable se clasifican en:
- Variables cuantitativas discretas o discontinuas:
- Adoptan solo valores enteros.
- Son el resultado de una relación numérica.
- Variables cuantitativas continuas:
- Toman cualquier valor dentro de un intervalo específico.
- Son el resultado de mediciones.
La figura 7 resume las características descritas y da algunos ejemplos de cada tipo.
Tabla 2. Resumen de clasificación de las variables cualitativas y cuantitativas
La siguiente figura recopila algunos ejemplos de cada tipo de variable hasta ahora estudiada:
Tabla 3. Algunos ejemplos de variables cualitativas y cuantitativas según su naturaleza.
1.2.3 Concepto de medida y escalas de medición
El proceso de medición implica la asignación de números a objetos o eventos de acuerdo a un conjunto de reglas. Expertos en el tema, hablan de escalas de medición que dan como resultado la categorización de acuerdo con su naturaleza. Estas escalas son consecuencia de que la medición puede llevarse a cabo según diferentes conjuntos de reglas.
La escala o nivel de medición de las variables rige los cálculos que se llevan a cabo a fin de resumir y presentar los datos. Hay 4 niveles:
- Nominal o cardinal
- Ordinal
- Intervalo
- Razón
Se presentan a continuación las características de cada una de ellas:
Variable de nivel nominal:
- Sus datos solo se clasifican y cuentan
- Es posible categorizar (mutuamente excluyente) y conjuntamente exhaustiva (todas las opciones)
- Sus categorías NO tienen en cuenta un orden
- No tienen relación lógica entre si
- Se pueden codificar con nombres, letras o números sin afectar la información
- Generalmente son dicotómicas
- Estadística descriptiva como: F y Mo es aplicable
- No tiene sentido hacer operaciones aritméticas
Variable de nivel ordinal:
- Sus valores TIENEN en cuenta un orden
- Es posible categorizar (mutuamente excluyente) y conjuntamente exhaustiva (todas las opciones)
- Tienen relación lógica entre si
- Se pueden codificar con nombres, letras o números respetando el orden
- Posible establecer jerarquías cuyos valores son relativos
- Generalmente son politómicas
- Estadística descriptiva como: F, Mo y Me es aplicable
- No tiene sentido hacer operaciones aritméticas
Variable de nivel de intervalo:
- La diferencia entre valores constituye una magnitud constante dentro de una ESCALA
- Se conoce el orden y la distancia entre valores
- El cero tiene un valor arbitrario y no representa la usencia de la característica
- Se pueden realizar sumas y restas peo no tiene sentido la división
- Medidas de resumen como: la media, estándar, Coef var, etc, es aplicable
Variables de nivel de razón:
- Representan cambios graduales en la intensidad de la característica
- Existe un orden en las diferentes modalidades de la característica
- Solo números enteros no negativos
- El cero denota ausencia de característica
- Es posible establecer relaciones de razón entre dos números. : 80 es el doble de 40
- Es posible realizar cualquier operación aritmética
Diagrama 5. Cuadro de decisión para clasificación de las variables
1.3 Papel de las computadoras y el software en el análisis estadístico
El uso de la computadora ha tenido un gran impacto, particularmente en el análisis estadístico y, en general, en la investigación científica. La necesidad de efectuar un gran número de cálculos aritméticos como parte del análisis de los datos ya es poco usual en la era de la información. Las computadoras pueden ejecutar cálculos más rápidos y precisos de lo que puede un ser humano. Su uso hace posible que los investigadores dediquen más tiempo a mejorar la calidad de los datos originales y a la interpretación de resultados.
El predominio actual de las computadoras y la disponibilidad de gran cantidad de programas o software para estadística han revolucionado aún más el cálculo.
1.3.1 Programas no especializados
Muchas de las computadoras actualmente en el mercado tienen la capacidad para generar números aleatorios. Los investigadores pueden utilizar las computadoras para generarlos, como alternativa al uso de tablas impresas. En realidad, los números «aleatorios» generados por muchas computadoras son realmente números pseudoaleatorios porque son el resultado de una formula determinística. Sin embargo, parecen ser satisfactorios para muchos propósitos prácticos. Programas como Excel® de la suite Office® de Microsoft™ tienen la capacidad de hacer análisis y generar gráficos pues dentro de sus herramientas incorporan paquetes para realizar todo tipo de análisis entre ellos, el estadístico; otras hojas de cálculo alternativas a Excel® son las que incorporan: iWork, OpenOffice, LibreOffice, Google Docs, Free Office y Office online®, por mencionar solo algunos; estos pueden hacer el mismo trabajo con la ventaja de ser gratuitas en muchos de los casos. Sin embargo, de todos los ejemplos mencionados (incluyendo al mismo Excel®) palidecen ante los programas dedicados al análisis estadístico dado que estos últimos tienen mayores prestaciones.
1.3.2 Programas especializados
El uso de las computadoras en el análisis estadístico; ha impulsado el desarrollo de programas especializados. Entre los paquetes de software dedicado están: GraphPad PRISM, MINITAB, Statistical Package for Social Science (SPSS) de IBM™, JMP y SAS®, por mencionar los más conocidos. Estos programas posen herramientas más potentes en comparación con lo que las hojas de cálculo pueden ofrecer, pero obedecen al mismo propósito.
CONCLUSIÓN
Con esto terminamos la unidad 1 que tuvo como objetivo introducir al estudiante en el estudio de la estadística por medio de definiciones y conceptos teóricos básicos que son la puerta de entrada para entender mejor los conceptos que vienen. Esperando que la presente unidad haya sido lo suficientemente comprensible e introductoria como lo pretende el autor. Invito al lector a que se pase por la clase virtual de esta misma unidad donde encontrará material extra como la síntesis de lo más relevante y los ejercicios para completar su aprendizaje.
BIBLIOGRAFÍA CONSULTADA
- Daniel, Wayne (2005). Bioestadística: base para el análisis de las ciencias de la salud. 4a ed., México: Limusa-Wiley.
- Prieto VL., Herranz T.I. (2010). Bioestadística sin dificultades matemáticas. En busca de tesoros Análisis estadístico de datos en investigación médica y sociológica. México: Editores Díaz de Santos.