Ejercicio de estadística bidimensional

Retomo el tema de la estadística con un ejercicio de bidimensional típico en el que se pide representar la nube de puntos, obtener el coeficiente de correlación de Pearson, interpretarlo y hallar algunas estimaciones. En esta ocasión, para resolver el ejercicio, en el fichero LyX/pythontex hago uso de algunas librerías poco usadas hasta ahora en los ejercicios anteriores, en concreto de PyLaTeX y del módulo statistics. Además, se hace un uso básico de matplotlib para hacer las representaciones gráficas del problema: representar la nube de puntos y las rectas de regresión.

Con PyLaTex he creado la primera tabla, la que se usa para mostrar los datos del problema. PyLaTeX es una biblioteca de Python para crear y compilar archivos LaTeX. En realidad se puede hacer con una tabla de LaTeX sin tener que usarla, pero creo que puede ser interesante ver la forma en que se trabaja con ella. Para poder disponer de esa librería debemos instalarla con

pip install pylatex

Además, para no tener problemas al compilar el fichero debemos tener en nuestro sistema instalado type1ec.sty que en una distribución como Ubuntu forma parte del paquete cm-super-minimal. Con él podemos disponer de fuentes EC, TC y LH en tamaños arbitrarios. En consecuencia, si no lo tenemos instalado, hay que instalarlo con:

# apt install cm-super-minimal

El ejercicio resuelto se puede hacer sin usar ninguna de las librerías anteriores, pero creo que es interesante conocerlas y por eso he optado por ellas. Lo mismo ocurre con statistics, es fácil de usar y he optado por no usar otras herramientas más complejas como puede ser numpy o scipy.stats o sympy.stats.

Para trabajar con nuestro fichero, podemos optar por introducir los datos de forma manual u obtenerlos de forma aleatoria:

#Opción con la que trabajar, datos manuales o datos aleatorios
opcion="m"

#Parámetros de los datos aleatorios
#Valor mínimo y máximo de la X
minimo=2
maximo=20
#Oscilación sobre los datos de X con que se calcula Y
min1=0
max1=10
#Númerto de datos
n=20
#Valor mínimo positivo del coeficiente de correlación con el que obtener las listas
rmin=0

Si optamos por ponerlos de forma manual debemos mantener opcion=’m’ e introducir los datos en:

#Defino los datos con lo que trabajar, ojo tienen que tener la misma dimensión
    x=[1,2,3,4,5,6,7,8]
    y=[4,5,8,11,12,14,17,20]

Para cualquier otro valor de opcion se obtendrán de forma aleatoria, en ese caso podemos ajustar:

  • Valores mínimos y máximos de \(X\)
  • Valores entre los que <<oscilan>> los valores de \(Y\) a partir de los valores de \(X\)
  • Número de datos.
  • Valor mínimo positivo del coeficiente de correlación con el que obtener las listas.

Por último, se ha automatizado el valor en el que se piden las estimaciones de \(y\) y de \(x\), a partir del código:

#Valor para hacer la estimación,
#De y a partir de x
#le sumo uno al máximo de x
esx = max(x)+1
#Se puede optar por poner manual
#esx=22

#De x a partir de y
#le resto uno al mínimo de la y
esy = min(y)-1
#Se puede optar por poner manual
#esy=22

pero como se comenta en él, se puede optar por ponerlos de forma manual.

Para unos datos obtenidos de forma aleatoria, se ha obtenido un enunciado del tipo:

Ejercicio

Dada la variable estadística bidimensional (X, Y), cuya distribución puedes ver en la siguiente tabla:

X 11 10 5 14 11 13 10 8 8 13 14 2 15 15 2
Y 12 12 9 24 21 13 20 16 17 17 20 2 24 18 12
  1. Representa su nube de puntos e indica el tipo de dependencia que observas.
  2. Halla el coeficiente de correlación lineal y el coeficiente de determinación e interprétalos.
  3. Halla las ecuaciones de las dos rectas de regresión.
  4. ¿Qué valor de la variable Y cabe esperar si en la X se ha obtenido un valor de \(16\)?
  5. ¿Qué valor de la variable X cabe esperar si en la Y se ha obtenido un valor de \(1\)?

y se obtiene de solución:

Solución

  1. image

    Se observa una correlación positiva  fuerte .

  2. Tabla para obtener \(r\)

    \(x_{i}\) \(y_{i}\) \(x_{i}^{2}\) \(y_{i}^{2}\) \(x_{i}\cdot y_{i}\)
    11 12 121 144 132
    10 12 100 144 120
    5 9 25 81 45
    14 24 196 576 336
    11 21 121 441 231
    13 13 169 169 169
    10 20 100 400 200
    8 16 64 256 128
    8 17 64 289 136
    13 17 169 289 221
    14 20 196 400 280
    2 2 4 4 4
    15 24 225 576 360
    15 18 225 324 270
    2 12 4 144 24
    151 237 1783 4237 2656
    • Medias marginales

      \(\bar{x}=\dfrac{\sum x_{i}}{N}=\)\(\dfrac{151}{15}=10.067\) \(\bar{y}=\dfrac{\sum y_{i}}{N}=\)\(\dfrac{237}{15}=15.8\)

    • Varianzas y desviaciones típicas marginales

      \(S_{x}^{2}=\dfrac{\sum x_{i}^{2}}{N}-\bar{x}^{2}=\)\(\dfrac{1783}{15}-{10.067}^{2}=17.529\)\(\Rightarrow S_{x}=4.187\)

      \(S_{y}^{2}=\dfrac{\sum y_{i}^{2}}{N}-\bar{y}^{2}=\)\(\dfrac{4237}{15}-{15.8}^{2}=32.827\)\(\Rightarrow S_{y}=5.729\)

    • Covarianza

      \(S_{xy}=\dfrac{\sum x_{i}\cdot y_{i}}{N}-\bar{x}\cdot\bar{y}=\) \(\dfrac{2656}{15}-{10.067\cdot15.8}=18.013\)

    • Coeficiente de correlación de Pearson y coeficiente de determinación

      \(r=\dfrac{S_{xy}}{S_{x}\cdot S_{y}}=\)\(\dfrac{18.013}{4.187\cdot5.729}=\)\(0.751\) \(\Rightarrow\)

      \(R^{2}=\)\(\left({0.751}\right)^{2}=0.564\)

      • El coeficiente de correlación de Pearson sale \(r=0.751\) \(\Rightarrow\) existe una correlación positiva  fuerte .
      • El valor de \(R^{2}\) nos indica que aproximadamente un \(56.3906\)\(\%\) de la variabilidad de las variables puede atribuirse a una relación lineal.
  3. \(r_{y/x}:\,y=\bar{y}+\dfrac{S_{xy}}{S_{x}^{2}}\cdot(x-\bar{x})\,\Rightarrow\)

    \(r_{y/x}:\,y=\)\(15.8+\dfrac{18.013}{17.529}\cdot(x-10.067)=1.028\cdot x+(5.455)\)

    \(r_{x/y}:\,x=\bar{x}+\dfrac{S_{xy}}{S_{y}^{2}}\cdot(y-\bar{y})\,\Rightarrow\)

    \(r_{x/y}:\,x=\)\(10.067+\dfrac{18.013}{32.827}\cdot(y-15.8)=0.549\cdot x+(1.397)\)

  4. \(\hat{y}=1.028\cdot16+(5.455)=21.903\)

  5. \(\hat{x}=0.549\cdot1+(1.397)=1.946\)

image1

Fichero fuente y el pdf final de una posible compilación con los datos de entrada anteriores.