Descargar Archivo Regresar

A partir de los datos observados de la variable "y" y de algunos, intentamos inferir las propiedades estocásticas del vector de variables .

La función de distribución conjunta de todas estas variables es el PROCESO GENERADOR DE DATOS ( a partir de unos datos buscamos la relación de la que proceden los datos). Como el número de variables explicativas es suficientemente grande , marginalizamos el estudio de las propiedades estocásticas.

Pasamos de ese vector a otro siendo "z" poco relevante para explicar "y". Las "x" las podemos contemplar como exógenas. El estudio de se reduce al estudio de( esto es "y" condicionado a "x").

Si suponemos una distribución normal multivariante , el estudio quedaría reducido a:

a.- , esto es, la regresión de "y" frene a "x"; y

b.- , esto es, el comportamiento medio de "y" respecto al comportamiento medio de x. Si suponemos que son series temporales , suponemos también que los procesos que generan esas series temporales son estacionarios. La dependencia entre no sabemos " a priori" si es dinámica o contemporánea.

Modelo de Regresión Lineal Clásico

 

El modelo de regresión lineal clásico (MRLC) recoge relaciones contemporáneas, y por eso , porque son los parámetros que recogen las relaciones dinámicas.

I .- Representación del MRLC con k variables:

Hay un término no implícito con el MRLC, y es , ya que no es necesario, sólo en algunos casos aparece la constante ().

Población

( Modelo Lineal Uniecuacional estático)

Muestra

i=1,..n

 

" A priori" podríamos haber observado infinitas muestras ( principio de variabilidad muestral).

Mj es la muestra que observamos.

El problema de la inferencia es, una vez observada Mj, ¿ Qué parámetros poblacionales son los que han generado la muestra?. Hay que dotarse de criterios para trasladar la muestra a la población y esos serán mínimos cuadrados y máxima verosimilitud.

 

 

 

 

 

 

 

 

 

Criterio Mínimos Cuadrados

Criterio Máxima verosimilitud

I

No hay necesidad de introducir supuestos sobre la función de distribución.

Necesitamos introducir supuestos sobre la función de distribución.

II

permite calcular los poblacionales que hacen mínimos la suma de cuadrados de los residuos.

Siempre ocurre lo más probable ( si hemos cogido Mj, es que es la más probable en función de los valores poblacionales). Busco el estimador de máxima probabilidad ( Verosimilitud máxima respecto a los poblacionales).

III

; si además

entonces

II .- Resultados algebraicos: Son resultados que no dependen del MRLC.

1.- ; si

La suma de la diferencia es cero ,; y si premultiplicamos todo por .

2.- La suma de cuadrados de los valores observados es igual a la suma de cuadrados de los valores ajustados más la suma de cuadrados de los residuos.

3.- Variabilidad en torno al nivel medio ( a veces en libros como suma de cuadrados).

1.- Variabilidad total: ; Suma de cuadrados de la regresión.

2.- Variabilidad explicada:

3.- Variabilidad no explicada:

En el caso en el que el modelo hay una constante la SCT=SCE+SCR

Si hay constante .

Demostración:

 

4.- A efectos prácticos es aproximadamente igual considerar un modelo en el que hay un término constante , y las observaciones de las variables no tienen ninguna transformación a contemplar un modelo sin constante en que las observaciones aparecen en desviaciones respecto a la media muestral.

5.-

Si no existe constante en el modelo (b1), no tiene porqué verificarse .

No se debe usar R2 para seleccionar uno de entre varios modelos en los que la variable dependiente "y" no sea la misma, por ejemplo, : en este caso no se puede utilizar R2 porque no sirve para discernir entre la forma funcional con la que las variables aparecen en el modelo. Intuitivamente podemos observar la relación entre el R2 y el coeficiente de correlación entre y e .

6.- Correlación:

Correlación

El rango de la matriz de observaciones debe ser k<n .

II .- Hipótesis del Modelo de Regresión Lineal General:

A.- Hipótesis que afectan a las X:

1.- el rango de la matriz de observaciones debe ser pleno.

2.- Las x deben ser fijas, no estocásticas; el estudio se realiza en base a las x que han aparecido, no a cualquier valor posible.

B.- Hipótesis que afectan a la u:

3.- E(u)=0

4.- E(u’u)=s2I, matriz escalar.

* luego la diagonal principal esta completada s2 (Homoscedasticidad),

* Ausencia de autocorrelación (lo de fuera de la diagonal son ceros).

III.- Propiedades de los estimadores si se cumplen las hipótesis:

1.- Lineales: Los obtenemos como una combinación lineal de las observaciones de la variable endógena.

es la matriz de proyección.

2.- Insesgados: La esperanza del estimador coincide con el parámetro poblacional.

 

 

 

 

 

3.- Óptimos: dentro de los estimadores lineales e insesgados son los de mínima varianza (de Gauss-Markov) que son los mínimo cuadráticos. Demostrar esta teoría supone encontrar un estimador lineal insesgado, distinto de , y se que su varianza es mayor que la de los
b.

El nuevo estimador sería .

¿ Qué condiciones tiene que cumplir para que sea insesgado ?

Es necesario que

La varianza del nuevo estimador es la mínima cuadrática , más la diferencia .

4.- Consistencia: Un tipo de convergencia. Sea una sucesión de números reales.

si se verifica.

Ej:

IV.- Tipos de Convergencia:

A.- Convergencia en Probabilidad: Dado una sucesión de variables aleatorias está en su convergencia en probabilidad a una constante.

Si

Probabilidad de que la distancia entre xt y c sea tan pequeña como queramos que sea mayor 1-d siendo s una cantidad pequeña.

Convergencia casi segura, o con probabilidad igual 1, implica convergencia en probabilidad.

Convergencia en probabilidad.

 

 

 

 

 

B.- Convergencia en media cuadrática:

Implica varianza asintótica nula y sesgo asintótico nulo. Sea una sucesión de variables aleatorias. , esto ocurre cuando

Asintóticamente el sesgo y la varianza son cero.

C.- Convergencia en distribución:

Sea una sucesión de variables aleatorias con función de distribución . Y=Xb+U / U sigue una distribución normal. Si u no sigue una distribución normal, ¿qué es lo que pasa con la distribución de los estimadores?

Y es aleatoria, porque lo es u, siendo x no estocástica, y el estimador de b también es aleatorio. Cuando la muestra es pequeña si no conocemos la distribución de probabilidad de u, no podemos conocer la distribución de probabilidad de , luego no podemos hacer contrastes de hipótesis sobre esos parámetros.

"converge en distribución cuando su función de distribución converge".

, siendo F la función de distribución asintótica de X ( cuando n es suficientemente grande).

CS::. Ejemplo: =x1,...xt. .

Es un estimador insesgado en todas las muestras ( asintóticamente insesgado)) y cuando

La media muestral es un estadístico asintóticamente insesgado y cuya varianza asintótica es ceroconverge en media cuadrática y por tanto en probabilidad a la poblacionalcumple condición suficiente para que converja en distribución.

 

Cuando toda la masa de probabilidad se concentra en un punto; será cero en todos los puntos menos en uno que es media, luego para evitar el problema lo expresaremos como:

 

 

 

, pero la distribución asintótica sería:

la transformaremos para que s2 no sea cero.

Si cuento con dos o más estimadores consistentes elegiremos el que converja más rápido. Esta necesidad justifica el presentar los ordenes de magnitud.

Sean dos sucesiones de números realesy :

1.- tiene al menos un orden de magnitud si cuando , o el , si entonces el orden > orden.

2.- tiene al menos un orden de magnitudsi , es decir tiene límite finito.

Los ordenes marcan la tasa de convergencia. En términos estocásticos tendríamos ordenes estocásticos de magnitud.

Variables aleatorias, y sucesión de números reales positivos.

1.- .

2.- (finito).

Otra forma de expresarlo:

¿ A qué tasa converge la media muestral en la media poblacional?

Sea y ;

y utilizando la desigualdad de Tchebycheff.

hacemos un cambio de variable y nos queda

es la tasa de convergencia.

Teorema de Cramer: Dada dos sucesiones de vectores de variables aleatorias y ,

siendo D cualquier función de distribución y la Matriz de varianzas y covarianzas.

Se verifica que .

¿Cómo usamos todo esto en el MRLC? Y=Xb+u siendo x no estocástica

Resulta que: .

Pueden ocurrir dos situaciones:

a.- Admitimos la distribución del vector de estimadores es

;

b.- No admitimos hablamos de la distribución de probabilidad asintótica de los estimadores por mínimos cuadrados ordinarios.

La distribución depende del número de observaciones que utilicemos en su cálculo, lo que nos obliga a introducir una hipótesis que afecta a las x : siendo M una matriz de

definida positiva.

Si el estimador es consistente el segundo término debe ser cero, ya que el .

La distribución de probabilidad asintótica del estimador m.c.o.

La consistencia equivale a decir que

definida positiva, luego para que haya convergencia es CN:. Para ver si converge en media cuadrática tenemos que ver que .

Hasta ahora mantenemos que X’ son fijas, pero podemos modificarlo diciendo que son variables aleatorias siempre y cuando verifiquen que lo que significa que hay incorrelación contemporanea entre las variables explicativas y el término de perturvación.

La varianza asintótica también es cero.

Lo escribimos así porque buscamos la varianza asintótica, es decir, que ocurra cuando:

La distribución de probabilidad asíntótica del estimador, cuando n tiende a infinito converge a cero, por lo que tenemos una distribución degenerada para solucionar el problema.

El estadístico tiene distribución de probabilidad asintótica no degenerada. La distribución del estadístico será igual a la distribución de es una constante.

La varianza asintótica: que no es una distribución de probabilidad degenerada ( el límite es distinto de cero). por lo que sobre este estadístico y aplicando el teorema central del límite en la versión de Mann-Wald.

(Aplicación del TCL-Teorema de Mann-Wald).

Entonces, la varianza asintótica del estadístico inicial nos quedaría

La distriución asintótica expresada de forma degenerada nos quedaría:

Para encontrar la diferencia entre ambas expresiones tenemos que tener en cuenta que en la primera estamos en el límite y que , y entonces ya encontramos términos comunes.

Cuando n no tiene distribución normal lo que hacemos es aproximar la varianza en el límite desde ese estimador.

Como conclusión independientemente de que el error siga o no una distribución normal.

Podemos modificar las hipótesis de tal forma ue:

1.- Que las "x" sean no estocástica y si lo son estén incorrelacionadas de forma contemporanea con la perturbación (X’U=0);

2.- Que la matriz de varianza y covarianzas sea una matriz escalar finita.

3.- Que la esperanza del error sea cero. E(u)=0.

Esto tiene interés a efecto del contraste de hipótesis, y para llevarlos a cabo hay dos opciones:

1.- Generamos una tabla de valores críticos mediante simulaciones, sin importar la distribución de probabilidad.

2.- Conocer la distribución de probabilidad total o asíntótica del estimador al ir a las tablas.



Ir a la siguiente parte del documento

Descargar Archivo Regresar