Estadística discreta con pandas y LyX

En esta ocasión se trata de realizar un ejercicio tipo del título del artículo. Para ello se usa pandas para crear las tablas de frecuencias y hacer los cálculos. Para realizar los gráficos se ha usado matplotlib (gráfico de barras y de sectores) y tikz para dibujar el semicírculo graduado.

En el fichero LyX solo se tiene que cambiar la línea:

#datos del problema
datos=[2, 1, 3, 1, 1, 0, 0, 3, 0, 1, 4, 2, 1, 0, 0, 0, 1, 1, 2, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 1, 3, 2 ]

para obtener como resultado:

Una pequeña empresa de seguros está realizando un estudio de los accidentes de tráfico que han tenido sus asegurados en el último mes, con intención de revisar el precio de las primas. Ha elegido aleatoriamente \(40\) asegurados y obtenido los siguientes datos

2, 1, 3, 1, 1, 0, 0, 3, 0, 1, 4, 2, 1, 0, 0, 0, 1, 1, 2, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 1, 3, 2

  1. Completa la tabla de frecuencias
  2. Representa la distribución utilizando un diagrama de barras
  3. Representa la distribución utilizando un diagrama de sectores
  4. Calcula las medidas de centralización: moda, mediana y media.
  5. Calcula las medidas de dispersión: rango, desviación típica y coeficiente de variación.

Solución

  1. \(x_{i}\) valores que toma la variable

    \(f_{i}\) frecuencia absoluta: número de veces que aparece un determinado resultado de la variable estadística entre todos los datos que se han recogido

    \(F_{i}={\displaystyle \sum_{j\leq i}f_{j}}\) frecuencia absoluta acumulada: suma de todas las frecuencias absolutas de ese resultado y todos lo que están antes que él.

    \(h_{i}=\dfrac{f_{i}}{N}\) frecuencia relativa: cociente entre su frecuencia absoluta y el número total de datos.

    \(H_{i}=\dfrac{Fi}{N}={\displaystyle \sum_{j\leq i}h_{i}}\) frecuencia relativa acumulada: suma de las frecuencia relativa del resultado y de todos los anteriores.

    \(\%=h_{i}*100\) porcentaje

    \(x_i\) \(f_i\) \(F_i\) \(h_i\) \(H_i\) \(\%\)
    0.0 20.0 20.0 0.500 0.500 50.0
    1.0 11.0 31.0 0.275 0.775 27.5
    2.0 5.0 36.0 0.125 0.900 12.5
    3.0 3.0 39.0 0.075 0.975 7.5
    4.0 1.0 40.0 0.025 1.000 2.5
  2. Representa la distribución utilizando un diagrama de barras image

  3. Representa la distribución utilizando un diagrama de sectores

    En primer lugar tendremos que obtener al ángulo de cada sector, teniendo en cuenta que \(\acute{a}ngulo=h_{i}\cdot360\) . Podemos usar la tabla de frecuencias y añadir una última columna para la amplitud del ángulo de cada sector circular:

    \(x_i\) \(f_i\) \(F_i\) \(h_i\) \(H_i\) \(\%\) Ángulo
    0.0 20.0 20.0 0.500 0.500 50.0 180.0
    1.0 11.0 31.0 0.275 0.775 27.5 99.0
    2.0 5.0 36.0 0.125 0.900 12.5 45.0
    3.0 3.0 39.0 0.075 0.975 7.5 27.0
    4.0 1.0 40.0 0.025 1.000 2.5 9.0

    Diagrama de sectores image1

    Transportador de ángulos

    image2

  4. Calcula las medidas de centralización: moda, mediana y media.

    \(M_{o}\) moda: valor que más se repite entre los datos de que disponemos

    \(M_{e}\) mediana: si suponemos que los datos están ordenados numéricamente de menor a mayor, es el valor que está en el centro, es decir, el valor que tiene por delante la mitad de los valores y por detrás la otra mitad.

    media (aritmética): suma de todos los valores obtenidos y divididos entre el número total de datos.

    \begin{equation*} \overline{x}=\dfrac{\sum f_{i}\cdot x_{i}}{N} \end{equation*}

    Para las dos primera nos basaremos en la tabla de frecuencias.

    \(M_{o}=0\), \(M_{e}=0.5\) ya que \(\dfrac{40}{2}=20.0\) y tenemos que coger la media aritmética de los valores que están en la posición nº \(20.0\) y \(21.0\)

    \(x_i\) \(f_i\) \(f_i \cdot x_i\) \(f_i \cdot x_i^2\)
    0 20 0 0
    1 11 11 11
    2 5 10 20
    3 3 9 27
    4 1 4 16
    \(\sum\) 40 34 74

    A partir de la tabla tenemos que: \(\bar{x}=\dfrac{\sum f_{i}\cdot x_{i}}{N}=\dfrac{34}{40}=0.85\)

  5. Calcula las medidas de dispersión: rango, desviación típica y coeficiente de variación.

    rango: diferencia entre el mayor y el menor valor de la variable

    varianza: media aritmética de los cuadrados de las diferencias entre los valores de la variable y la media.

    \begin{equation*} s^{2}=\sigma^{2}=Var(X)={\displaystyle \dfrac{\sum f_{i}\cdot(x_{i}-\overline{x})^{2}}{N}=\dfrac{\sum f_{i}\cdot x_{i}^{2}}{N}-\bar{x}^{2}} \end{equation*}

    desviación típica: raíz cuadrada de la varianza.

    \begin{equation*} s=\sigma=\sqrt{Var(X)} \end{equation*}

    coeficiente de variación: es un número neutro, es decir, no está referido a ninguna medida. Por ello nos permite comparar datos correspondientes a elementos distintos.

    \begin{equation*} cv=\dfrac{\sigma}{\overline{x}} \end{equation*}
    • rango: \(4-0=4\)
    • \(\sigma^{2}=\dfrac{\sum f_{i}\cdot x_{i}^{2}}{N}-\bar{x}^{2}=\dfrac{74}{40}-0.85^{2}=1.128\)\(\Rightarrow\sigma=\sqrt{1.128}=1.062\)
    • \(cv(X)=\dfrac{\sigma}{\bar{x}}=\dfrac{1.062}{0.85}=1.249\)