Teoría Modelos para Datos en Panel#
Panel: Panel Data Models
Introducción#
Antes: Datos en formato de corte transversal o en series de tiempo.
Ahora: Varias unidades de corte transversal en differentes períodos de tiempo.
Balanceado \(\{y_{it},x_{it}\}\), para \(i=1,2,...,N\) y \(t=1,2,...,T\).
Desbalanceado \(\{y_{it},x_{it}\}\), para \(i=1,2,...,N\) y \(t=\underline{t}_i,...,\bar{t}_i\).
Ejemplos de paneles:
Panel Study of Income Dynamics (PSID, en EEUU)
National Longitudinal Survey of Labor Market Experience (NLS, en EEUU)
Encuesta Nacional Industrial Anual (ENIA, en Chile durante 1995-2007).
Algunas ventajas
Permite considerar heterogeneidad individual no medible en datos (latent individual heterogeneity)
facilita reduccion de problemas asociados a colinearidad
mejora en eficiencia de estimadores
Desafíos:
Obtener los datos
emergen dificultades cuando X’s no pueden asumirse exógenas (técnicas en panel estándar son inconsistentes)
dificultades si errores en unidades de corte transversal son dependientes (falla inferencia, estimadores inconsistentes)
Organización general de la literatura (Pesaran, M.H.)
Small N, Large T: SURE (Zellner, 1962)
Small T, Large N: contexto «más realista» con el cual partiremos y asumiremos que las X’s son exógenas
Large T, Large N: abarca una literatura más reciente (posible gracias a acumulación actual de información).
Regresión Agrupada - Pooled OLS#
Panel con X’s (estrictamente) exógenas#
Panel con X’s (estrictamente) exógenas
Sea \(y_{it}\) la i-th unidad de corte transversal en el periodo de tiempo \(t\).
Modelo: La especificación estándar es que hay un efecto (no observado) individual (o específico) que entra al modelo lineal,
\[y_{it}=\alpha_i+x_{it}'\beta+u_{it}\hspace{0.3cm},\hspace{0.3cm}\forall\,i=1,2,...,N\,\,;\,t=1,2,...T\]donde \(x_{it}\) es un vector \(k\times1\); \(u_{it}\) es un residuo; \(\beta\) es un vector de parámetros; y, finalmente, \(\alpha_i\) es un efecto individual no observado (no cambia en el tiempo).
Dos alternativas de reescribir el modelo:
\[\begin{split}\begin{eqnarray} \underbrace{y_i}_{T\times1}&=&\alpha_i\cdot i_T + x_i\beta+u_i\\ ó &\,& \\ \underbrace{y_i}_{N\times1}&=&\alpha + x_t\beta+u_t \end{eqnarray}\end{split}\]donde \(i_T\) es un vector \(T\times 1\) de unos; \(\alpha\) es un vector \(N\times1\) con elementos \(\alpha_i\).
Panel con X’s (estrictamente) exógenas
O de forma más compacta,
\[\begin{eqnarray*} y &=& (\alpha\otimes i_T) + x\beta+u \end{eqnarray*}\]Supuesto: \(\mathbb{E}(u_{it}|X_i)=0\), \(\forall\,i,t\) (X’s strictamente exógenas)
Se asume \(\alpha_i=\alpha\), \(\forall\,i\). Es decir, \(y_{it}=\alpha+x_{it}'\beta+u_{it}\), con \(\alpha\) como una constante (escalar).
Se usa MCO para la estimación:
\[\begin{eqnarray*} \hat{\beta}_{OLS}=\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}-\bar{y})'\right)\end{eqnarray*}\]donde \(\bar{x}=(NT)^{-1}\sum_{i}\sum_{t}{x_{it}}\).
Supuestos:
\(\mathbb{E}(u_{it}|x_{it})=0\)
\(||x_{i}||<\kappa<\infty\) (deterministic bounded; \(||\cdot||\): Frobenius norm)
\(u_{it}\) independencia en unidades de corte transversal. Pero, podría existir hereoscedasticidad, \(\sigma^2_i\), y/o autocoorelación temporal, \(\mathbb{E}(u_{it}u_{it'}) = \gamma_i(t,t')\,\,\forall\,t\neq t'\).
Observaciones adicionales sobre Pooled OLS#
Notar que \(\bar{y}=\alpha+\bar{x}'\beta+\bar{u}\)
Por ende, \((y_{it}-\bar{y})=(x_{it}-\bar{x})'\beta+(u_{it}-\bar{u})\). Así, al estimar vía MCO, \(\hat{\beta}_{OLS}=\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}-\bar{y})'\right)\)
Además,
\(\begin{eqnarray*} \hat{\beta}_{OLS}&=&\left(\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x})(y_{it}- \bar{y})'\right)\\ &=&\beta+Q_{P,NT}^{-1}\left(\frac{\sum_i\sum_t(x_{it}-\bar{x})(u_{it}-\bar{u})}{NT}\right) \end{eqnarray*}\)
donde, \(Q_{P,NT}=(NT)^{-1}\sum_i\sum_t(x_{it}-\bar{x})(x_{it}-\bar{x})'\)
Observaciones adicionales sobre Pooled OLS (cont.)#
por ende, considerando que
\[\begin{split}\begin{eqnarray}\mathbb{E}(u_{it}u_{it'})&=& \left\{ \begin{array}{ccc}0&i\neq j&\forall\,t,t' \\ \gamma_i(t,t')&i=j& t\neq t'\\ \sigma_i^2 & i=j & t=t' \\ \end{array} \right.\end{eqnarray}\end{split}\]se obtiene que
\[\mathbb{E}_x(\hat{\beta}_{OLS})=\beta\]
Efectos Fijos - Fixed Effects (FE)#
Assumiendo,
- $\alpha_i$ son parámetros fijos (a ser estimados)
- restricción: $|\alpha_i|<\kappa<\infty\,\,,\,\,\forall\,i$ (boundedness)
- $\alpha_i$ puede (en algún grado) estar relacionado con $x_{it}$ ó $u_{it}$.
- se incluye el caso en donde $\alpha_i$ es aleatorio (realizaciones de una distribución dada)
- $x$ siguen siendo exógenas. Serán deterministicas y acotadas, satisfaciendo: $\mathbb{E}||(x_{it}-\bar{x}_{i\cdot})(x_{jt'}-\bar{x}_{j\cdot})||<\kappa<\infty$
Estimación FE#
La idea general en FE es estimar \(\beta\) después de «remover» \(\alpha_i\). También conocido como estimador within.
Notar que \(\bar{y}_{i\bullet}=\alpha_i+\bar{x}_{i\bullet}'\beta+\bar{u}_{i\bullet}\), con \(\bar{y}_{i\bullet}=T^{-1}\sum_ty_{it}\)
Por ende, $\((y_{it}-\bar{y}_{i\bullet})=(x_{it}-\bar{x}_{i\bullet})'\beta+(u_{it}-\bar{u}_{i\bullet})\)$
así, se puede usar MCO para estimar el vector de parámetros
\[\begin{eqnarray*}\hat{\beta}_{FE} = \left(\sum_i\sum_t(x_{it}-\bar{x}_{i\bullet})(x_{it}-\bar{x}_{i\bullet})'\right)^{-1}\left(\sum_i\sum_t(x_{it}-\bar{x}_{i\bullet})(y_{it}-\bar{y}_{i\bullet})'\right)\end{eqnarray*}\]y, en caso de ser de interés, se puede recuperar un estimado del efecto fijo mediante: \(\hat{\alpha}_i=\bar{y}_{i\bullet}-\bar{x}_{i\bullet}'\hat{\beta}_{FE}\)
Se puede escribir el estimador de forma alternativa.
La siguiente matrix \(M\) facilita el computo de las a la media, y por ende remover el efecto individual en el modelo de regresión. Sea \(M_T=I_T-(1/N)i_Ti_T'\), por ende,
\[\begin{split}\begin{eqnarray*} y_i&=&\alpha_i\cdot i_T + x_i\beta+u_i \\ M_Ty_i&=&M_T\alpha_i\cdot i_T + M_Tx_i\beta+M_Tu_i \\ &=&M_Tx_i\beta+M_Tu_i \end{eqnarray*}\end{split}\]es decir, el estimador de FE se puede escribir como
\[\begin{eqnarray*} \hat{\beta}_{FE} = \left(\sum_i x_i'M_Tx_i\right)^{-1}\left(\sum_i x_i'M_Ty_i\right)= Q^{-1}_{FE,NT}\cdot\left(\frac{1}{NT}\sum_i x_i'M_Ty_i\right) \end{eqnarray*}\]
Es decir,
Así, bajo lo supuestos del modelo, se tiene
donde,
Estimador FE: Condiciones para consistencia#
\(T\) fijo, \(N\rightarrow\infty\): consistencia basada en los supuestos de \(||x_{it}||\) acotado y \(Q_{FE,NT}\) def. positiva, además de \(\mathbb{E}_x(\hat{\beta}_{FE})=\beta\).
\((T,N)\rightarrow\infty\): una condición sufuciente para consistencia es \((NT)^{-2}\sum_i\sum_t\sum_{t'}\gamma_i^2(t,t')\rightarrow0\), lo cual se satisface ya que \(|\gamma_i^2(t,t')|<\kappa\)
\(N\) fijo, \(T\rightarrow\infty\): \(T^{-2}\sum_t\sum_{t'}\gamma_i^2(t,t')\rightarrow0\), \(\forall\,i\) (condición usual de series de tiempo: condición de ergodicidad). Se satisface si \(\Gamma_i=(\gamma_i(t,t'))_{T\times T}\) tiene norma de suma fila(columna) acotada.
Estimador FE: Distribución asintótica#
Si \(u_{it}\) tiene distribución normal, bajo los supuestos del modelo,
\[\begin{eqnarray*} \sqrt{NT}\left( \hat{\beta}_{FE} - \beta \right)\sim \mathcal{N}(0,\Omega_{FE,NT})\end{eqnarray*}\]donde
\[\begin{eqnarray*}\Omega_{FE,NT}=Q^{-1}_{FE,NT}\cdot V_{FE,NT} \cdot Q^{-1}_{FE,NT}\end{eqnarray*}\]Para \(T\) fijo y \(N\rightarrow\infty\):
\[\begin{eqnarray*}\sqrt{NT}\left( \hat{\beta}_{FE} - \beta \right)\rightarrow_d \mathcal{N}(0,\Omega_{FE,T})\end{eqnarray*}\]donde \(\Omega_{FE,T}=Q^{-1}_{FE,T}\cdot V_{FE,T} \cdot Q^{-1}_{FE,T}\) y \(V_{FE,T}=plim_{N\rightarrow\infty}\left(\frac{1}{N}\sum_i\left(\frac{x_i'M_T\Gamma_iM_Tx_i}{T}\right)\right)\)
Estimador FE y estimador LSDV#
LSDV: Least Squares Dummy Variable (Estimator).
Notar que el modelo \(y_{it}=\alpha_i+x_{it}'\beta+u_{it}\) podemos representarlo mediante la incorporación de variables dummy,
ó
Es decir, LSDV incorporar variables dummy para los effectos fijos, y luego estimar el modelo por MCO para obenter un estimador de \(\beta\). El resultado obtenido sería igual al estimador \(\hat{\beta}_{FE}\).
Por eso el estimador FE también se conoce como el estimador LSDV (the Least Squares Dummy Variable Estimator).
Sin embargo, los efectos individuales generalmente no son parámetros de interés central (nuisance parameters).
Además, si \(N\) es grande, no es computacionalmente eficiente incorporar tantas variables dummy. Adicionalmente, los erroes estándar en LSDV están basados en supuestos más fuertes.
En general, se recomienda usar FE y luego corregir los errores estándar mediante estimación robusta (usando, por ejemplo, la matriz HAC).
FE: múltiples efectos fijos#
Two-way FE
Sean los siguientes dos efectos fijos: uno asociado a la unidad \(i\) y al tiempo \(t\),
\[y_{it}=\alpha_i+\mu_t+x_{it}'\beta+u_{it}\]equivalentemente,
\[y=(\alpha\otimes i_T)+(i_N\otimes\mu) + x\beta+u\]
Two-way FE
Sea \(P_j=i_j(i_j'i_j)i_j'\) para \(j\in{N,T}\)
Definimos \(Q\) como
\[Q=I_N\otimes I_T - I_N\otimes P_T - P_N\otimes I_T + P_N\otimes P_T\]tal que \(Q(\alpha\otimes i_T)=0\), \(Q(i_N\otimes\mu)=0\)
Por ende,
\[\begin{split}\begin{eqnarray*} Qy &=& Q(\alpha\otimes i_T)+Q(i_N\otimes\mu) + Qx \beta + Qu \\ Qy &=& Qx\beta+Qu \\ y^* &=& x^* \beta+ u^* \end{eqnarray*}\end{split}\]al eliminar los efectos fijos, se puede proceder a usar MCO,
\[\hat{\beta} = (x^{*'} x^*)^{-1}(x^{*'} y^{*})\]
Nota: High Dimensional FE
-Una nota (ilustrativa) en el caso de más de dos FE. Supongamos los siguientes datos
i |
t |
Industria |
y (salario) |
x (escolaridad) |
---|---|---|---|---|
1 |
1 |
1 |
100 |
10 |
1 |
2 |
1 |
105 |
10 |
2 |
1 |
1 |
80 |
5 |
2 |
2 |
2 |
50 |
5 |
Nota: High Dimensional FE (cont.)
-Al incorporar variables dummy:
i=1 |
i=2 |
t=1 |
t=2 |
Ind=1 |
Ind=2 |
y (salario) |
x (escolaridad) |
---|---|---|---|---|---|---|---|
1 |
0 |
1 |
0 |
1 |
0 |
100 |
10 |
1 |
0 |
0 |
1 |
1 |
0 |
105 |
10 |
0 |
1 |
1 |
0 |
1 |
0 |
80 |
5 |
0 |
1 |
0 |
1 |
0 |
1 |
50 |
5 |
Sea \(D1\) la matrix que contiene las dummy de efecto individual (las dos primeras columnas), D2 la de efectos de tiempo, y D3 la de efectos asociados a la industria.
Sea \(P_D=D(D'D)^{-1}D'\)
Por ende, ahora \(Q\) esta dada por \(Q=I-P_D\). Se puede premultiplicar el vector \(y\) y la matrix \(x\), para proceder con MCO (tal como en el caso de dos efectos fijos).
Un potencial desafío es que \((D'D)\) no es necesariamente de rango completo. Sin embargo, se puede lograr mediante algunas normalizaciones de la matrix. Les recomiendo ver el comando de Sergio Correia basado en “spectral graph theory”.
Efectos Aleatorios - Random Effects (RE)#
\(\alpha_i\) ya no es algo fijo (determinístico), sino que es es un término aleatorio (“no observado”) a modelar.
Supuestos:
Sean \(\alpha_i\) realizaciones de una función de distribución de probabilidad con un número fijo de parámetros, i.i.d.
Además,
\[\begin{split}\begin{eqnarray*}\begin{array}{ccc} \mathbb{E}(u_{it}|x_{i\bullet},\alpha_i)=0 & \, & \mathbb{E}(u_{i}u_{i}'|x_{i},\alpha_i)=\sigma^2\cdot I_T \\ \mathbb{E}(\alpha_i|x_{i\bullet})=0 & \, & \mathbb{E}(\alpha_i^2 |x_{i}) = \sigma^2_{\alpha} \,\,\,,\,\,\,\forall\,\,i \\ \end{array}\end{eqnarray*}\end{split}\]
Sea \(\nu_{it}=\alpha_i+u_{it}\), tal que,
\[\begin{split}\begin{eqnarray*} \mathbb{E}(\nu_{it}^2)&=&\sigma^2_\alpha + \sigma^2 + 2Cov(\alpha_i,u_{it})=\sigma^2_\alpha + \sigma^2 \\ \mathbb{E}(\nu_{it}\nu_{is})&=&\mathbb{E}(\alpha_i+u_{it})(\alpha_i+u_{is})=\sigma^2_\alpha \end{eqnarray*}\end{split}\]Por ende,
\[\begin{split}\begin{eqnarray*} \Sigma_\nu = \mathbb{E}(\nu_{i}\nu_{i}') = (\sigma^2_\alpha + \sigma^2) \left[\begin{array}{cccc} 1 & \rho & \ldots & \rho \\ \rho & 1 & \ldots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ \rho & \rho & \ldots & 1 \\ \end{array}\right]\end{eqnarray*}\end{split}\]donde \(\rho=\sigma^2_\alpha/(\sigma^2_\alpha+\sigma^2)\)
Estimador: GLS
\[\hat{\beta}_{RE}=\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)^{-1}\left(\sum_i x_i'\Sigma_\nu^{-1} y_i \right)\]Bajo el supuesto \((NT)^{-1}\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)\) es no singular,
\[Var(\hat{\beta}_{RE})=\left(\sum_i x_i'\Sigma_\nu^{-1} x_i \right)^{-1}\]
Considerando que \(\sigma^2_\alpha\) y \(\sigma^2\) son desconocidas,
Usando residuales del estimador within, procedimiento en dos pasos:
\[\begin{split}\begin{eqnarray*} \hat{\sigma}^2 &=& \frac{1}{N(T-1)-1}\sum_i{(y_{i\bullet}-x_{i\bullet}\hat{\beta}_{FE})'\cdot M_T\cdot (y_{i\bullet}-x_{i\bullet}\hat{\beta}_{FE} ) } \\ \hat{\sigma}^2_\alpha &=& \frac{1}{(N-T)}\sum_i{ (\bar{y}_i - \bar{x}_i \hat{\beta}_{FE})^2 - \frac{1}{T} \hat{\sigma}^2 } \end{eqnarray*}\end{split}\]GLS.
Considerando que no hay garantía que \(\hat{\sigma}^2_\alpha>0\) para T pequeño, alternativamente: \(\widetilde{\sigma}^2_\alpha = \sum_i(\hat{\alpha}_i - \bar{\hat{\alpha}})^2/(N-1)\)
Evaluando (Test) FE#
Test F#
Un simple test para evaluar FE podría ser evaluar la hipótesis nula \(H_0:\,\alpha_1=\alpha_2=...=\alpha_N=0\) usando un test-F (Econometría 1),
\[F=\frac{(RRSS-URSS)/(N-1)}{URSS/(N(T-1)-k)} \sim F_{(N-1),N(T-1)-k}\]donde \(RRSS\) y \(URSS\) es la suma de cuadrados de los modelos restringidos y sin restringir, respectivamente.
Test de Hausman#
Otra alternativa más común es el test de Hausman (Hausman’s misspecification test)).
Idea general: Si hay dos estimadores disponibles, y sabemos que unoi es consistente y eficiente bajo \(H_0\) e inconsistente bajo \(H_1\), mientras que el otro estimador es consisitente bajo \(H_0\) sin ser necesariamente eficiente, la idea es construir un test basado en la diferencia entre los dos estimadores.
Sea e: eficiente, c: no eficiente pero consistente, el test es $\((\hat{\theta}_c - \hat{\theta}_e)[Var(\hat{\theta}_c) - Var(\hat{\theta}_e)]^{-1}(\hat{\theta}_c - \hat{\theta}_e)\)$
el cual es consistente si \([Var(\hat{\theta}_c) - Var(\hat{\theta}_e)]\) converge a una matrix definida positiva; \((\hat{\theta}_c - \hat{\theta}_e)\) converge a un límite no cero bajo la hipótesis alternativa.
Aplicado al modelo para datos en panel,
\(H_0\) sería \(\mathbb{E}(\alpha_i|x_i)=0\).
Bajo \(H_0\) RE alcanza la cota Cramer-Rao y bajo \(H_1\) sería sesgado. En contraste, FE es consistente bajo \(H_0\) y \(H_1\), pero no es eficiente bajo \(H_0\).
El test H se puede expresar como, $\(H=(\hat{\beta}_{FE} - \hat{\beta}_{RE})[V(\hat{\beta}_{FE}) - V(\hat{\beta}_{RE})]^{-1}(\hat{\beta}_{FE} - \hat{\beta}_{RE})\)$
Para \(N\rightarrow\infty\), \(u_{it}\) homocedásticos y sin correlación serial,
\[H\sim\chi^2_k\]Nota: si no se cumple condiciones para \(u\), RE no es eficiente.
Panel Dinámico#
Ahora la variable dependiente entra de forma rezagada, \(y_{it-1}\), como regresor:
Es (trivial) mostrar que FE - estimador within, es inconsistente (emerge un problema de endogeneidad).
Idea general para estimación:
Primero usar primera diferencia para eliminar efecto fijo.
Usar variables instrumentales para problema de endogeneidad.
Estimación de Panel Dinámico#
Paso 1: Primera diferencia para eliminar \(\alpha_i\),
Notar del modelo anterior que
Así, para \(W\):
Arrellano y Bond: Uso de varios rezagos. Sea \(\Delta y_i = \gamma\Delta y_{i,(-1)}+\Delta x_i\beta+\Delta u_{i}\), con \(\Delta y_i=(\Delta y_{i2},...,\Delta y_{iT})'\), por ende, para
\[\begin{split}\begin{eqnarray*} W_i = \left[\begin{array}{cccc} y_{i1} & 0 & \ldots & \rho \\ 0 & (y_{i1},y_{i2}) & \ldots & \rho \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & (y_{i1},...,y_{iT-2}) \\ \end{array}\right] \end{eqnarray*}\end{split}\]se tiene $\(\mathbb{E}(W_i'\Delta u_i)=0\)$
Arellano y Bover: Para RE.
Blundell y Bond (GMM): Inclusión de restricciones en la distribución de \(y_{i0}\)
System-GMM: Variables en niveles pueden ser instrumentos débiles, por ende, se propone usar también variables en diferencias como instrumentos.