A partir de los datos observados de la variable "y" y de algunos, intentamos inferir las propiedades estocásticas del vector de variables
.
La función de distribución conjunta de todas estas variables es el PROCESO GENERADOR DE DATOS ( a partir de unos datos buscamos la relación de la que proceden los datos). Como el número de variables explicativas es suficientemente grande , marginalizamos el estudio de las propiedades estocásticas.
Pasamos de ese vector a otro
siendo "z" poco relevante para explicar "y". Las "x" las podemos contemplar como exógenas. El estudio de
se reduce al estudio de
( esto es "y" condicionado a "x").
Si suponemos una distribución normal multivariante , el estudio quedaría reducido a:
a.- , esto es, la regresión de "y" frene a "x"; y
b.- , esto es, el comportamiento medio de "y" respecto al comportamiento medio de x. Si suponemos que
son series temporales , suponemos también que los procesos que generan esas series temporales son estacionarios. La dependencia entre
no sabemos " a priori" si es dinámica o contemporánea.
Modelo de Regresión Lineal Clásico
El modelo de regresión lineal clásico (MRLC) recoge relaciones contemporáneas, y por eso , porque son los parámetros que recogen las relaciones dinámicas.
I .- Representación del MRLC con k variables:
Hay un término no implícito con el MRLC, y es , ya que no es necesario, sólo en algunos casos aparece la constante (
).
Población |
( Modelo Lineal Uniecuacional estático) |
Muestra i=1,..n |
|
" A priori" podríamos haber observado infinitas muestras ( principio de variabilidad muestral).
Mj es la muestra que observamos.
El problema de la inferencia es, una vez observada Mj, ¿ Qué parámetros poblacionales son los que han generado la muestra?. Hay que dotarse de criterios para trasladar la muestra a la población y esos serán mínimos cuadrados y máxima verosimilitud.
Criterio Mínimos Cuadrados |
Criterio Máxima verosimilitud |
|
I |
No hay necesidad de introducir supuestos sobre la función de distribución. |
Necesitamos introducir supuestos sobre la función de distribución. |
II |
|
Siempre ocurre lo más probable ( si hemos cogido Mj, es que es la más probable en función de los valores poblacionales). Busco el estimador de máxima probabilidad ( Verosimilitud máxima respecto a los |
III |
|
entonces |
II .- Resultados algebraicos: Son resultados que no dependen del MRLC.
1.- ; si
La suma de la diferencia es cero ,; y si premultiplicamos todo por
.
2.- La suma de cuadrados de los valores observados es igual a la suma de cuadrados de los valores ajustados más la suma de cuadrados de los residuos.
3.- Variabilidad en torno al nivel medio ( a veces en libros como suma de cuadrados).
1.- Variabilidad total: ; Suma de cuadrados de la regresión.
2.- Variabilidad explicada:
3.- Variabilidad no explicada:
En el caso en el que el modelo hay una constante la SCT=SCE+SCR
Si hay constante
.
Demostración:
4.- A efectos prácticos es aproximadamente igual considerar un modelo en el que hay un término constante , y las observaciones de las variables no tienen ninguna transformación a contemplar un modelo sin constante en que las observaciones aparecen en desviaciones respecto a la media muestral.
5.-
Si no existe constante en el modelo (
b1), no tiene porqué verificarse No se debe usar R2 para seleccionar uno de entre varios modelos en los que la variable dependiente "y" no sea la misma, por ejemplo, : en este caso no se puede utilizar R2 porque no sirve para discernir entre la forma funcional con la que las variables aparecen en el modelo. Intuitivamente podemos observar la relación entre el R2 y el coeficiente de correlación entre y e
.
6.- Correlación:
Correlación
El rango de la matriz de observaciones debe ser k<n .
II .- Hipótesis del Modelo de Regresión Lineal General:
A.- Hipótesis que afectan a las X:
1.- el rango de la matriz de observaciones debe ser pleno.
2.- Las x deben ser fijas, no estocásticas; el estudio se realiza en base a las x que han aparecido, no a cualquier valor posible.
B.- Hipótesis que afectan a la u:
3.- E(u)=0
4.- E(u’u)=s2I, matriz escalar.
* luego la diagonal principal esta completada s2 (Homoscedasticidad),
* Ausencia de autocorrelación (lo de fuera de la diagonal son ceros).
III.- Propiedades de los estimadores si se cumplen las hipótesis:
1.- Lineales: Los obtenemos como una combinación lineal de las observaciones de la variable endógena.
es la matriz de proyección.
2.- Insesgados: La esperanza del estimador coincide con el parámetro poblacional.
3.- Óptimos: dentro de los estimadores lineales e insesgados son los de mínima varianza (de Gauss-Markov) que son los mínimo cuadráticos. Demostrar esta teoría supone encontrar un estimador lineal insesgado, distinto de
El nuevo estimador sería .
¿ Qué condiciones tiene que cumplir para que sea insesgado ?
Es necesario que
La varianza del nuevo estimador es la mínima cuadrática , más la diferencia .
4.- Consistencia: Un tipo de convergencia. Sea una sucesión de números reales.
si
se verifica
.
Ej:
IV.- Tipos de Convergencia:
A.- Convergencia en Probabilidad: Dado una sucesión de variables aleatorias está en su convergencia en probabilidad a una constante.
Si
Probabilidad de que la distancia entre xt y c sea tan pequeña como queramos que sea mayor 1-
d siendo s una cantidad pequeña.Convergencia casi segura, o con probabilidad igual 1, implica convergencia en probabilidad.
Convergencia en probabilidad.
B.- Convergencia en media cuadrática:
Implica varianza asintótica nula y sesgo asintótico nulo. Sea una sucesión de variables aleatorias.
, esto ocurre cuando
Asintóticamente el sesgo y la varianza son cero.
C.- Convergencia en distribución:
Sea una sucesión de variables aleatorias con función de distribución
. Y=X
Y es aleatoria, porque lo es u, siendo x no estocástica, y el estimador de
"converge en distribución cuando su función de distribución converge".
, siendo F la función de distribución asintótica de X ( cuando n es suficientemente grande).
CS:
:Es un estimador insesgado en todas las muestras ( asintóticamente insesgado)) y cuando
La media muestral es un estadístico asintóticamente insesgado y cuya varianza asintótica es ceroconverge en media cuadrática y por tanto en probabilidad a la poblacional
cumple condición suficiente para que converja en distribución.
Cuando toda la masa de probabilidad se concentra en un punto; será cero en todos los puntos menos en uno que es media, luego para evitar el problema lo expresaremos como:
, pero la distribución asintótica sería:
la transformaremos para que s2 no sea cero.
Si cuento con dos o más estimadores consistentes elegiremos el que converja más rápido. Esta necesidad justifica el presentar los ordenes de magnitud.
Sean dos sucesiones de números realesy
:
1.- tiene al menos un orden de magnitud
2.- tiene al menos un orden de magnitud
si
, es decir tiene límite finito.
Los ordenes marcan la tasa de convergencia. En términos estocásticos tendríamos ordenes estocásticos de magnitud.
Variables aleatorias, y
1.- .
2.- (finito).
Otra forma de expresarlo:
¿ A qué tasa converge la media muestral en la media poblacional?
Sea y
;
y utilizando la desigualdad de Tchebycheff.
hacemos un cambio de variable y nos queda
es la tasa de convergencia.
Teorema de Cramer: Dada dos sucesiones de vectores de variables aleatorias y
,
siendo D cualquier función de distribución y la Matriz de varianzas y covarianzas.
Se verifica que .
¿Cómo usamos todo esto en el MRLC? Y=X
b+u siendo x no estocásticaResulta que: .
Pueden ocurrir dos situaciones:
a.- Admitimos la distribución del vector de estimadores es
;
b.- No admitimos hablamos de la distribución de probabilidad asintótica de los estimadores por mínimos cuadrados ordinarios.
La distribución depende del número de observaciones que utilicemos en su cálculo, lo que nos obliga a introducir una hipótesis que afecta a las x : siendo M una matriz de
definida positiva.
Si el estimador es consistente el segundo término debe ser cero, ya que el .
La distribución de probabilidad asintótica del estimador m.c.o.
La consistencia equivale a decir que
definida positiva, luego para que haya convergencia es CN:
. Para ver si converge en media cuadrática tenemos que ver que
.
Hasta ahora mantenemos que X’ son fijas, pero podemos modificarlo diciendo que son variables aleatorias siempre y cuando verifiquen que lo que significa que hay incorrelación contemporanea entre las variables explicativas y el término de perturvación.
La varianza asintótica también es cero.
Lo escribimos así porque buscamos la varianza asintótica, es decir, que ocurra cuando:
La distribución de probabilidad asíntótica del estimador, cuando n tiende a infinito converge a cero, por lo que tenemos una distribución degenerada para solucionar el problema.
El estadístico tiene distribución de probabilidad asintótica no degenerada. La distribución del estadístico será igual a la distribución de es una constante.
La varianza asintótica: que no es una distribución de probabilidad degenerada ( el límite es distinto de cero). por lo que sobre este estadístico y aplicando el teorema central del límite en la versión de Mann-Wald.
(Aplicación del TCL-Teorema de Mann-Wald).
Entonces, la varianza asintótica del estadístico inicial nos quedaría
La distriución asintótica expresada de forma degenerada nos quedaría:
Para encontrar la diferencia entre ambas expresiones tenemos que tener en cuenta que en la primera estamos en el límite y que , y entonces ya encontramos términos comunes.
Cuando n no tiene distribución normal lo que hacemos es aproximar la varianza en el límite desde ese estimador.
Como conclusión independientemente de que el error siga o no una distribución normal.
Podemos modificar las hipótesis de tal forma ue:
1.- Que las "x" sean no estocástica y si lo son estén incorrelacionadas de forma contemporanea con la perturbación (X’U=0);
2.- Que la matriz de varianza y covarianzas sea una matriz escalar finita.
3.- Que la esperanza del error sea cero. E(u)=0.
Esto tiene interés a efecto del contraste de hipótesis, y para llevarlos a cabo hay dos opciones:
1.- Generamos una tabla de valores críticos mediante simulaciones, sin importar la distribución de probabilidad.
2.- Conocer la distribución de probabilidad total o asíntótica del estimador al ir a las tablas.