Fundamentos de Estadísticas
HISTORIA Y ORIGEN DE LA ESTADISTICA
La palabra estadística procede del latín statísticum collégium (consejo de Estado) y de su derivado italiano statista (hombre de Estado o político). El término alemán statistik, que fue primeramente introducido por Gottfried Achenwall (1749), designaba originalmente el análisis de datos del Estado, es decir, la ciencia del Estado. No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el inglés John Sinclair. Desde los comienzos de la civilización han existido maneras sencillas de estadística, pues ya se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Hacia el año 3000 a. C. los babilónicos usaban ya pequeñas tablillas de arcilla para recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C.
Los métodos estadístico matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre Pierre de Fermat y Blaise Pascal (1654). Christian Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El Ars Conjectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de Posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemáticas. En la era moderna, el trabajo de Kolmogorov ha sido un pilar en la formulación del modelo fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística.
Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinación de observaciones desde los principios de la teoría de probabilidades. Laplace representó la ley de probabilidades de errores mediante una curva y dedujo una formula para la media de tres observaciones. También, en 1871, obtiene la formula para la ley de facilidad del error (término introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las probabilidades de un sistema de errores concurrentes.
El método de mínimos cuadrados, el cual fue usado para minimizar los errores en mediciones, fue publicado independientemente por Adrien-Marie Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado el método en su famosa predicción de la localización del planeta enano Ceres en 1801. Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W.F. Donkin (1844, 1856), John Herschel (1850) y Morgan Crofton (1870). Otros contribuidores fueron Ellis (1844), Augustus De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters para r, el probable error de una observación simple es bien conocido. El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre, Didion y Karl Pearson. Augustus De Morgan y George Boole mejoraron la presentación de la teoría. Adolphe Quetelet (1796-1874), fue otro importante fundador de la estadística y quien introdujo la noción del “hombre promedio” (l’homme moyen) como un medio de entender los fenómenos sociales complejos tales como tasas de criminalidad, tasas de matrimonio o tasas de suicidios.
DEFINICIÓN
a) Datos Estadísticos
Los datos estadísticos son números que pueden ser comparados, analizados e interpretados.
b) Población y muestra
La Población Se define como la totalidad entre todas las posibles mediciones y observaciones bajo consideración en una situación dada de un problema. A las características medibles de una población se les denomina parámetros. También llamada universo o colectivo, es el conjunto de elementos de referencia sobre el que se realizan las observaciones.
Una muestra estadística (también llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o individuos de una población estadística.
Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser representativas de la misma.
c) Variables
Una variable es una característica (magnitud, vector o número) que puede ser medida, adoptando diferentes valores en cada uno de los casos de un estudio.
Se pueden clasificar en:
– Variables cualitativas se refieren a características o cualidades que no pueden ser medidas con números.
– Variable cuantitativa es la que se expresa mediante un número, por tanto se pueden realizar operaciones aritméticas con ella.
d) Cuadros estadísticos
Un cuadro estadístico es una representación grafica de las diversas situaciones que se nos presentan diariamente. Es la forma esquemática de comprender las tendencias de nuestra forma de ser y de vivir. En un cuadro estadístico puedes identificar tantas variables como quieras. El cuadro estadístico es aquel que se realiza como un resumen del conjunto de datos que se poseen, distribuidos según las variables que se estudian.
e) Registro de Datos y Gráficas
Un registro de datos se corresponde con una sucesión de valores. Se suele representar, esquemáticamente, como un conjunto de cajas pequeñas, cada una conteniendo un valor. Los valores se representan de dos formas, formateados o sin formatear. Si los valores de los datos son caracteres leíbles por una persona, cada carácter es un valor y diremos que el dato está formateado.
En términos simples, una tabla de una base de datos puede imaginarse formada de filas y columnas o campos. Cada fila de una tabla representa un conjunto de datos relacionados, y todas las filas de la misma tabla tienen la misma estructura.
Una gráfica es una representación de datos, generalmente numéricos, mediante líneas, superficies o Símbolos, para ver la relación que esos datos guardan entre sí. También puede ser un conjunto de puntos, que se plasman en coordenadas cartesianas, y sirven para analizar el comportamiento de un proceso, o un conjunto de elementos o signos que permiten la interpretación de un fenómeno. La representación gráfica permite establecer valores que no han sido obtenidos experimentalmente, es decir, mediante la interpolación (lectura entre puntos) y la extrapolación (valores fuera del intervalo experimental).
f) Graficas de Barras
Un gráfico de barras es rectangular también conocido como gráfico de columnas, es un diagrama con barras rectangulares de longitudes proporcional al de los valores que representan. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden estar orientadas horizontal o verticalmente. A veces se usa un gráfico extendido en vez de una barra sólida.
g) Gráficas circulares
Denominadas también gráfica de pastel o gráficas del 100%, se utilizan para mostrar porcentajes y proporciones. El número de elementos comparados dentro de un gráfico circular, no deben ser más de 5, ordenando los segmentos de mayor a menor, iniciando con el más amplio a partir de las 12 como en un reloj. Una manera sencilla de diferenciar los segmentos es sombreándolos de claro a oscuro, siendo el de mayor tamaño el más claro y el de menor tamaño el más oscuro. Se utiliza para representar datos cualitativos y datos cuantitativos discretos.
h) Gráficas lineales
Las gráficas lineales se representan los valores en dos ejes cartesianos ortogonales entre sí. Las gráficas lineales se recomiendan para representar series en el tiempo, y es donde se muestran valores máximos y mínimos; también se utilizan para varias muestras en un diagrama.
i) Método de ordenación de datos
Los datos estadísticos suelen registrarse en forma desordenada lo que dificulta obtener conclusiones, por esta razón primero debemos ordenarlos y tomar en cuenta qué tipo de datos son:
– Cuantitativos,
– Cualitativos,
– Cronológicos
– Geográficos.
j) Distribución de frecuencia simple
La distribución de frecuencias simple es una tabla que se construye con base en los siguientes datos: clase o variable en orden descendente o ascendente, tabulaciones o marcas de recuento y frecuencia. Por ejemplo, si se construye una distribución de frecuencias sobre los resultados finales que arrojó la evaluación de un curso de planeación estratégica para estudiantes de administración correspondientes al semestre agosto-diciembre de 1998, se tienen los siguientes datos brutos: 86, 80, 84, 84, 74, 88, 87, 84, 74, 77, 77, 82, 68, 78, 67, 74, 66, 86, 65, 88,69 se procede a organizarlos en forma ascendente o descendente y se tiene en orden descendente: 88, 88, 87, 86, 86, 84, 84, 84, 82, 80, 78, 77, 77, 74, 74, 74, 69, 698, 67, 66, 65.
k) Distribución de frecuencia con intervalos
Si se reúnen grandes cantidades de datos sueltos es útil distribuirlos en clases o categorías y determinar el número de individuos que pertenecen a cada categoría, a lo que se le llama frecuencia de clase. A una disposición tabular de los datos por clases, con sus correspondientes frecuencias de clase, se le conoce como distribución de frecuencia o tabla de frecuencias. Para construir una tabla de distribución de frecuencia con intervalos se debe realizar los siguientes pasos:
– Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el rango (la diferencia entre ambos).
– Dividir el rango en un número adecuado de intervalo de clase del mismo tamaño. Si esto no es posible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos. Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen también de modo tal que las marcas de clase coincidan con los datos realmente observados. Ello tiende a disminuir el llamado error de agrupamiento que se produce en análisis matemáticos posteriores. No obstante, las fronteras de clase no debieran coincidir con los datos realmente observados.
– Determinar el número de observaciones que corresponden a cada intervalo de clase; es decir, hallar las frecuencias de clase.
l) Representación gráfica de la distribución de frecuencia
Existen también dos tipos de representaciones gráficas dependiendo de si la distribución de frecuencias en estudio es de datos acumulados o de datos sin acumular. Estas son:
– Histograma: Al ser esta representación una representación por áreas, hay que distinguir si los intervalos en los que aparecen agrupados los datos son de igualamplitud o no. Si la amplitud de los intervalos es constante, dicha amplitud puede tomarse como unidad y al ser Frecuencia (área) = amplitud del intervalo · altura. la altura correspondiente a cada intervalo puede tomarse igual a la frecuencia. Si los intervalos tienen diferente amplitud, se toma alguna de ellas como unidad (generalmente la menor) y se levantan alturas para cada intervalo de forma que la ecuación anterior se cumpla.
Polígono de frecuencias acumuladas: Se utiliza para representar distribuciones de frecuencias (relativas o absolutas) acumuladas. Consiste en representar la gráfica de una función que una por segmentos las alturas correspondientes a los extremos superiores de cada intervalo, tengan o no todos igual amplitud, siendo dicha altura igual a la frecuencia acumulada, dando una altura cero al extremo inferior del primer intervalo y siendo constante a partir del extremo superior del último.
m) Definición y construcción de un histograma
Se puede considerar como un gráfico de columnas especial. Se realiza sobre el primer cuadrante del plano cartesiano. La diferencia radica en que el histograma se utiliza más a menudo para representar tablas tipo B, donde el ancho de la columna equivale al ancho del intervalo de clase. Las frecuencias absolutas se colocan en el eje vertical y también puede emplearse las frecuencias relativas. Otra diferencia importante es que no existe espacio entre las barras. Realizar un histograma a partir de la siguiente tabla de frecuencia:
Al igual que en gráfico de sectores y el gráfico de columnas, seguiremos 2 pasos para la construcción del histograma.
PASO 1: Representar las escalas en los ejes horizontal y vertical del primer cuadrante de un plano de cartesiano. En el eje vertical colocaremos las frecuencias y en el eje horizontal las marcas de clases. Para diferenciar este paso del anterior, trabajaremos con un ancho de columna único, y dejaremos la mitad de ese espacio entre el vertical y la primera columna, y el final del eje horizontal y la última columna.
PASO 2: A cada clase se representa con una columna cuya altura concuerda con su frecuencia expuesta en el eje vertical. Podemos decir que la marca de clase 4.1 es representada por una frecuencia 12: Las barras estarán pegadas una junto a la otra, es decir, ocupando el total del ancho de cada intervalo de clase dispuesto en el gráfico.
Citar este texto en formato APA: _______. (2010). WEBSCOLAR. Fundamentos de Estadísticas. https://www.webscolar.com/fundamentos-de-estadisticas. Fecha de consulta: 21 de enero de 2025.