Processus autorégressif

Un processus autorégressif est un modèle de régression pour séries temporelles dans lequel la série est expliquée par ses valeurs passées plutôt que par d'autres variables.

Définition

Un processus autorégressif d'ordre p, noté AR(p) est donné par :

Définition — AR(p): X t = c + φ 1 X t 1 + φ 2 X t 2 + + φ p X t p + ε t . {\displaystyle X_{t}=c+\varphi _{1}X_{t-1}+\varphi _{2}X_{t-2}+\ldots +\varphi _{p}X_{t-p}+\varepsilon _{t}.\,}

φ 1 , , φ p {\displaystyle \varphi _{1},\ldots ,\varphi _{p}} sont les paramètres du modèle, c {\displaystyle c} est une constante et ε t {\displaystyle \varepsilon _{t}} un bruit blanc.

En utilisant L {\displaystyle L} l'opérateur des retards, on peut l'écrire : ( 1 φ 1 L φ 2 L 2 φ p L p ) X t = c + ε t . {\displaystyle (1-\varphi _{1}L-\varphi _{2}L^{2}-\ldots -\varphi _{p}L^{p})X_{t}=c+\varepsilon _{t}.\,}

Processus AR(1)

Un processus autorégressif d'ordre 1 s'écrit :

X t = c + φ X t 1 + ε t . {\displaystyle X_{t}=c+\varphi X_{t-1}+\varepsilon _{t}.\,}


Représentation en moyenne mobile

On peut formuler le processus AR(1) de manière récursive par rapport aux conditions précédentes :

X t = c k = 0 t 1 φ k + φ t X 0 + k = 0 t 1 φ k ε t k . {\displaystyle X_{t}=c\sum _{k=0}^{t-1}\varphi ^{k}+\varphi ^{t}X_{0}+\sum _{k=0}^{t-1}\varphi ^{k}\varepsilon _{t-k}.}

En remontant aux valeurs initiales, on aboutit à :

Propriété —  X t = c i = 0 φ i + i = 0 φ i ε t i {\displaystyle X_{t}=c\sum _{i=0}^{\infty }\varphi ^{i}+\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}}

Démonstration

X t = c + φ X t 1 + ε t = c + φ ( c + φ X t 2 + ε t 1 ) + ε t = ( 1 + φ ) c + φ 2 X t 2 + ε t + φ ε t 1 = = ( 1 + φ + φ 2 + φ 3 + ) c + ε t + φ ε t 1 + φ 2 ε t 2 + φ 3 ε t 3 + = c i = 0 φ i + i = 0 φ i ε t i {\displaystyle {\begin{aligned}X_{t}&=c+\varphi X_{t-1}+\varepsilon _{t}=c+\varphi (c+\varphi X_{t-2}+\varepsilon _{t-1})+\varepsilon _{t}\\&=(1+\varphi )c+\varphi ^{2}X_{t-2}+\varepsilon _{t}+\varphi \varepsilon _{t-1}\\&=\ldots \\&=(1+\varphi +\varphi ^{2}+\varphi ^{3}+\ldots )c+\varepsilon _{t}+\varphi \varepsilon _{t-1}+\varphi ^{2}\varepsilon _{t-2}+\varphi ^{3}\varepsilon _{t-3}+\ldots \\&=c\sum _{i=0}^{\infty }\varphi ^{i}+\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}\end{aligned}}}

Il est à noter que les sommes vont ici jusqu'à l'infini. Cela est dû au fait que les séries temporelles sont souvent supposées commencer depuis t 0 = {\displaystyle t_{0}=-\infty } et non pas t 0 = 0 {\displaystyle t_{0}=0} . Certains auteurs considèrent cependant que la série commence en t 0 = 0 {\displaystyle t_{0}=0} et ajoutent alors la valeur initiale X 0 {\displaystyle X_{0}} dans la formule.

On peut voir que X t {\displaystyle X_{t}} est le bruit blanc convolué avec le noyau φ k {\displaystyle \varphi ^{k}} plus une moyenne constante. Si le bruit blanc est gaussien, alors X t {\displaystyle X_{t}} est aussi un processus normal.

Représentation dans le domaine de la fréquence

La Densité spectrale de puissance est la Transformée de Fourier de la fonction d'autocovariance. Dans le cas discret, cela s'écrit :

Φ ( ω ) = 1 2 π n = B n e i ω n = 1 2 π ( σ 2 1 + φ 2 2 φ cos ( ω ) ) . {\displaystyle \Phi (\omega )={\frac {1}{\sqrt {2\pi }}}\,\sum _{n=-\infty }^{\infty }B_{n}e^{-i\omega n}={\frac {1}{\sqrt {2\pi }}}\,\left({\frac {\sigma ^{2}}{1+\varphi ^{2}-2\varphi \cos(\omega )}}\right).}

Ce développement est périodique dû à la présence du terme en cosinus au dénominateur. En supposant que le temps d'échantillonnage ( Δ t = 1 {\displaystyle \Delta t=1} ) est plus petit que le decay time ( τ {\displaystyle \tau } ), alors on peut utiliser une approximation continue de B n {\displaystyle B_{n}} :

B ( t ) σ 2 1 φ 2 φ | t | {\displaystyle B(t)\approx {\frac {\sigma ^{2}}{1-\varphi ^{2}}}\,\,\varphi ^{|t|}}

qui présente une forme lorentzienne pour la densité spectrale :

Φ ( ω ) = 1 2 π σ 2 1 φ 2 γ π ( γ 2 + ω 2 ) {\displaystyle \Phi (\omega )={\frac {1}{\sqrt {2\pi }}}\,{\frac {\sigma ^{2}}{1-\varphi ^{2}}}\,{\frac {\gamma }{\pi (\gamma ^{2}+\omega ^{2})}}}

γ = 1 / τ {\displaystyle \gamma =1/\tau } est la fréquence angulaire associée à τ {\displaystyle \tau } .

Moments d'un processus AR(1)

Pour calculer les différents moments d'un processus AR(1), soit son espérance, sa variance, son autocovariance et son autocorrélation, on va supposer que les bruits blancs sont indépendamment et identiquement distribués, d'espérance nulle et de variance σ 2 {\displaystyle \sigma ^{2}} (que l'on note ε i i i d ( 0 , σ 2 ) {\displaystyle \varepsilon _{i}\sim iid(0,\sigma ^{2})} ).

Espérance

E [ X t ] = φ t X 0 + c i = 0 t 1 φ i {\displaystyle \operatorname {E} [X_{t}]=\varphi ^{t}X_{0}+c\sum _{i=0}^{t-1}\varphi ^{i}\,}

Démonstration par raisonnement par récurrence

  • P(0) (initialisation): E [ X 0 ] = X 0 {\displaystyle \operatorname {E} [X_{0}]=X_{0}\,} , parce que X0 est déterministe. L'expression est :
φ 0 X 0 + c i = 0 1 φ i = 1 X 0 + 0 = X 0 {\displaystyle \varphi ^{0}X_{0}+c\sum _{i=0}^{-1}\varphi ^{i}=1X_{0}+0=X_{0}\,}
  • P(t+1) (hérédité ) :
E [ X t + 1 ] = E [ c + φ X t + ε t ] {\displaystyle \operatorname {E} [X_{t+1}]=\operatorname {E} [c+\varphi X_{t}+\varepsilon _{t}]\,}

Comme E est un opérateur linéaire :

E [ X t + 1 ] = c + φ E [ X t ] {\displaystyle \operatorname {E} [X_{t+1}]=c+\varphi \operatorname {E} [X_{t}]\,}

Avec l'hypothèse d'induction :

E [ X t + 1 ] = c + φ ( φ t X 0 + c i = 0 t 1 φ i ) {\displaystyle \operatorname {E} [X_{t+1}]=c+\varphi (\varphi ^{t}X_{0}+c\sum _{i=0}^{t-1}\varphi ^{i})\,}
E [ X t + 1 ] = c + φ t + 1 X 0 + c i = 0 t 1 φ i + 1 {\displaystyle \operatorname {E} [X_{t+1}]=c+\varphi ^{t+1}X_{0}+c\sum _{i=0}^{t-1}\varphi ^{i+1}\,}

Par un changement de variables dans la somme, i → i-1 :

E [ X t + 1 ] = φ t + 1 X 0 + c + c i = 1 t φ i {\displaystyle \operatorname {E} [X_{t+1}]=\varphi ^{t+1}X_{0}+c+c\sum _{i=1}^{t}\varphi ^{i}\,}

Et, avec c = c i = 0 0 φ i {\displaystyle c=c\sum _{i=0}^{0}\varphi ^{i}\,} :

E [ X t + 1 ] = φ t + 1 X 0 + c i = 0 t φ i {\displaystyle \operatorname {E} [X_{t+1}]=\varphi ^{t+1}X_{0}+c\sum _{i=0}^{t}\varphi ^{i}\,}

Variance

Var [ X t ] = i = 0 t φ 2 i σ 2 {\displaystyle \operatorname {Var} [X_{t}]=\sum _{i=0}^{t}\varphi ^{2i}\sigma ^{2}}

Preuve

Var [ X t ] = E [ ( X t E [ X t ] ) 2 ] = E [ ( c i = 0 φ i + i = 0 φ i ε t i c i = 0 φ i ) 2 ] Selon resultat obtenu plus haut = E [ ( i = 0 φ i ε t i ) 2 ] = Var [ i = 0 φ i ε t i ] car  E ( X 2 ) = Var ( X ) + E ( X ) 2 et  E [ i = 0 φ i ε t i ] = i = 0 φ i E [ ε t i ] = 0 par l'hypothèse  E [ ε t ] = 0 = i = 0 Var [ φ i ε t i ] par indépendance des  ε t  et a fortiori des  φ i ε t i = i = 0 φ 2 i Var [ ε t i ]  car  Var [ a X ] = a 2 Var [ X ] = i = 0 φ 2 i σ 2 {\displaystyle {\begin{aligned}\operatorname {Var} [X_{t}]&=\operatorname {E} \left[(X_{t}-\operatorname {E} [X_{t}])^{2}\right]\\&=\operatorname {E} \left[\left(c\sum _{i=0}^{\infty }\varphi ^{i}+\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}-c\sum _{i=0}^{\infty }\varphi ^{i}\right)^{2}\right]{\text{Selon resultat obtenu plus haut}}\\&=\operatorname {E} \left[\left(\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}\right)^{2}\right]\\&=\operatorname {Var} \left[\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}\right]\quad {\text{car }}\operatorname {E} \left(X^{2}\right)=\operatorname {Var} (X)+\operatorname {E} (X)^{2}\quad {\text{et }}\\&\quad \quad \quad \quad \quad \quad \quad \quad \operatorname {E} \left[\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i}\right]=\sum _{i=0}^{\infty }\varphi ^{i}\operatorname {E} [\varepsilon _{t-i}]=0\\&\quad \quad \quad \quad \quad \quad \quad \quad {\text{par l'hypothèse }}\operatorname {E} [\varepsilon _{t}]=0\\&=\sum _{i=0}^{\infty }\operatorname {Var} \left[\varphi ^{i}\varepsilon _{t-i}\right]\quad {\text{par indépendance des }}\varepsilon _{t}{\text{ et a fortiori des }}\varphi ^{i}\varepsilon _{t-i}\\&=\sum _{i=0}^{\infty }\varphi ^{2i}\operatorname {Var} [\varepsilon _{t-i}]\quad {\text{ car }}\operatorname {Var} [aX]=a^{2}\operatorname {Var} [X]\\&=\sum _{i=0}^{\infty }\varphi ^{2i}\sigma ^{2}\end{aligned}}}

Autocovariance

Cov [ X t , X t j ] = φ j i = 0 φ 2 i σ 2 {\displaystyle \operatorname {Cov} [X_{t},X_{t-j}]=\varphi ^{j}\sum _{i=0}^{\infty }\varphi ^{2i}\sigma ^{2}}

Preuve

Cov [ X t , X t j ] = E [ ( X t E [ X t ] ) ( X t j E [ X t j ] ) ] = E [ ( i = 0 φ i ε t i ) ( k = 0 φ k ε t k j ) ] = E [ i = 0 k = 0 φ i + k ε t i ε t k j ] = i = 0 k = 0 ,   k + j i φ i + k E [ ε t i ε t k j ] + k = 0 φ 2 k + j E [ ε t k j 2 ] = k = 0 φ 2 k + j Var [ ε t k j ] car par hypothèse d’indépendance des  ε l E [ ε t i ε t k j ] = E [ ε t i ] E [ ε t k j ] = 0 ,                                                                                et  E [ ε t k j 2 ] = Var [ ε t k j ] + E [ ε t k j ] 2 = Var [ ε t k j ] = φ j i = 0 φ 2 i σ 2 {\displaystyle {\begin{aligned}\operatorname {Cov} [X_{t},X_{t-j}]&=\operatorname {E} \left[(X_{t}-\operatorname {E} [X_{t}])(X_{t-j}-\operatorname {E} [X_{t-j}])\right]\\&=\operatorname {E} \left[(\sum _{i=0}^{\infty }\varphi ^{i}\varepsilon _{t-i})(\sum _{k=0}^{\infty }\varphi ^{k}\varepsilon _{t-k-j})\right]\\&=\operatorname {E} \left[\sum _{i=0}^{\infty }\sum _{k=0}^{\infty }\varphi ^{i+k}\varepsilon _{t-i}\varepsilon _{t-k-j}\right]\\&=\sum _{i=0}^{\infty }\sum _{k=0,~k+j\neq i}^{\infty }\varphi ^{i+k}\operatorname {E} \left[\varepsilon _{t-i}\varepsilon _{t-k-j}\right]+\sum _{k=0}^{\infty }\varphi ^{2k+j}\operatorname {E} \left[\varepsilon _{t-k-j}^{2}\right]\\&=\sum _{k=0}^{\infty }\varphi ^{2k+j}\operatorname {Var} [\varepsilon _{t-k-j}]\qquad {\text{car par hypothèse d’indépendance des }}\varepsilon _{l}{\text{, }}\operatorname {E} \left[\varepsilon _{t-i}\varepsilon _{t-k-j}\right]=\operatorname {E} [\varepsilon _{t-i}]\operatorname {E} [\varepsilon _{t-k-j}]=0{\text{,}}\\&\qquad ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~{\text{ et }}\operatorname {E} \left[\varepsilon _{t-k-j}^{2}\right]=\operatorname {Var} [\varepsilon _{t-k-j}]+\operatorname {E} [\varepsilon _{t-k-j}]^{2}=\operatorname {Var} [\varepsilon _{t-k-j}]\\&=\varphi ^{j}\sum _{i=0}^{\infty }\varphi ^{2i}\sigma ^{2}\end{aligned}}}

Autocorrélation

Corr [ X t , X t j ] Cov [ X t , X t j ] Var ( X t ) Var ( X t j ) = φ j 1 φ 2 ( t j ) + 2 1 φ 2 t + 2 {\displaystyle \operatorname {Corr} [X_{t},X_{t-j}]\equiv {\frac {\operatorname {Cov} [X_{t},X_{t-j}]}{\sqrt {\operatorname {Var} (X_{t})\operatorname {Var} (X_{t-j})}}}=\varphi ^{j}{\sqrt {\frac {1-\varphi ^{2(t-j)+2}}{1-\varphi ^{2t+2}}}}}

Conditions de stationnarité

Le paramètre φ {\displaystyle \varphi } détermine si le processus AR(1) est stationnaire ou non : | φ | = { < 1 Le processus est stationnaire = 1 Marche aléatoire : le processus est donc non stationnaire > 1 Le processus est explosif {\displaystyle |\varphi |={\begin{cases}<1&{\text{Le processus est stationnaire}}\\=1&{\text{Marche aléatoire : le processus est donc non stationnaire}}\\>1&{\text{Le processus est explosif}}\end{cases}}}

ϕ<1

Sous la condition X 0 = c 1 φ {\displaystyle X_{0}={\frac {c}{1-\varphi }}} , les résultats suivants viennent du fait que si | q | < 1 {\displaystyle |q|<1} alors la série géométrique n = 0 a q n = a 1 q {\displaystyle \sum _{n=0}^{\infty }aq^{n}={\frac {a}{1-q}}} .

si  | φ | < 1 : {\displaystyle {\text{si }}|\varphi |<1:}

E [ X t ] = c 1 φ {\displaystyle \operatorname {E} [X_{t}]={\frac {c}{1-\varphi }}}
Var [ X t ] = σ 2 1 φ 2 {\displaystyle \operatorname {Var} [X_{t}]={\frac {\sigma ^{2}}{1-\varphi ^{2}}}}
Cov [ X t , X t j ] = φ j 1 φ 2 σ 2 {\displaystyle \operatorname {Cov} [X_{t},X_{t-j}]={\frac {\varphi ^{j}}{1-\varphi ^{2}}}\sigma ^{2}}
Corr [ X t , X t j ] = φ j {\displaystyle \operatorname {Corr} [X_{t},X_{t-j}]=\varphi ^{j}}

On peut voir que la fonction d'autocovariance décroît avec un taux de τ = 1 / ln ( φ ) {\displaystyle \tau =-1/\ln(\varphi )} . On voit ici que l'espérance et la variance sont constantes et que l'autocovariance ne dépend pas du temps : le processus est donc stationnaire.

ϕ=1

Lorsque φ = 1 {\displaystyle \varphi =1} , le processus s'écrit : X t = c + X t 1 + ε t {\displaystyle X_{t}=c+X_{t-1}+\varepsilon _{t}} et donc, en considérant contrairement à avant que t 0 = 0 {\displaystyle t_{0}=0} , X t = c t + X 0 + i = 0 t 1 ε t i {\displaystyle X_{t}=ct+X_{0}+\sum _{i=0}^{t-1}\varepsilon _{t-i}}

si  | φ | = 1 : {\displaystyle {\text{si }}|\varphi |=1:}

E [ X t ] = c t + E [ X 0 ] {\displaystyle \operatorname {E} [X_{t}]=ct+\operatorname {E} [X_{0}]\,}
Var [ X t ] = t σ 2 {\displaystyle \operatorname {Var} [X_{t}]=t\sigma ^{2}\,}
Cov [ X t , X t j ] = ( t j ) σ 2 {\displaystyle \operatorname {Cov} [X_{t},X_{t-j}]=(t-j)\sigma ^{2}\,}

Processus AR(p)

Un processus AR(p) s'écrit :

X t = c + φ 1 X t 1 + φ 2 X t 2 + + φ p X t p + ε t . {\displaystyle X_{t}=c+\varphi _{1}X_{t-1}+\varphi _{2}X_{t-2}+\ldots +\varphi _{p}X_{t-p}+\varepsilon _{t}.\,}

Moments

Les différents moments d'un processus stationnaire (voir section suivante) sont[1] :

E ( X t ) = c 1 φ 1 φ 2 φ p {\displaystyle \operatorname {E} (X_{t})={\frac {c}{1-\varphi _{1}-\varphi _{2}-\ldots -\varphi _{p}}}}

Var ( X t ) = φ 1 γ 1 + φ 2 γ 2 + + φ p γ p + σ 2 {\displaystyle \operatorname {Var} (X_{t})=\varphi _{1}\gamma _{1}+\varphi _{2}\gamma _{2}+\ldots +\varphi _{p}\gamma _{p}+\sigma ^{2}}

Cov ( X t , X t j ) = φ 1 γ j 1 + φ 2 γ j 2 + + φ p γ j p {\displaystyle \operatorname {Cov} (X_{t},X_{t-j})=\varphi _{1}\gamma _{j-1}+\varphi _{2}\gamma _{j-2}+\ldots +\varphi _{p}\gamma _{j-p}}

Les formules de la variance et de la covariance correspondent aux équations dites de Yule et walker (voir plus bas).

Condition de stationnarité

Théorème — Un processus AR(p) est stationnaire si le module des solutions (les racines) de son équation caractéristique est à chaque fois strictement supérieur à 1 en valeur absolue.

La condition est souvent formulée différemment, selon laquelle les racines doivent être en dehors du cercle complexe unitaire.

Exemple: AR(1)

Le polynôme des retards d'un processus AR(1) X t = φ X t 1 + ε t {\displaystyle X_{t}=\varphi X_{t-1}+\varepsilon _{t}} s'écrit: ( 1 φ L ) X t = ε t {\displaystyle (1-\varphi L)X_{t}=\varepsilon _{t}} . Sa résolution (en remplaçant l'opérateur retard L par la simple valeur x) donne 1 φ x = 0 x = 1 φ {\displaystyle 1-\varphi x=0\Rightarrow x={\frac {1}{\varphi }}} . La condition que la solution soit plus grande que 1 revient à | 1 φ | > 1 | φ | < 1 {\displaystyle |{\frac {1}{\varphi }}|>1\Rightarrow |\varphi |<1}

Exemple: AR(2)

Le polynôme des retards d'un processus AR(2) X t = φ 1 X t 1 + φ 2 X t 2 + ε t {\displaystyle X_{t}=\varphi _{1}X_{t-1}+\varphi _{2}X_{t-2}+\varepsilon _{t}} s'écrit: ( 1 φ 1 L φ 2 L 2 ) X t = ε t {\displaystyle (1-\varphi _{1}L-\varphi _{2}L^{2})X_{t}=\varepsilon _{t}} . La résolution de l'équation du second degré ( 1 φ 1 x φ 2 x 2 ) {\displaystyle (1-\varphi _{1}x-\varphi _{2}x^{2})} amène aux conditions suivantes[2] :

  • φ 1 + φ 2 < 1 {\displaystyle \varphi _{1}+\varphi _{2}<1}
  • φ 2 φ 1 < 1 {\displaystyle \varphi _{2}-\varphi _{1}<1}
  • | φ 2 | < 1 {\displaystyle |\varphi _{2}|<1}

Exemple: AR(p)

Le polynôme des retards d'un processus AR(p) X t = φ 1 X t 1 + φ 2 X t 2 + + φ p X t p + ε t {\displaystyle X_{t}=\varphi _{1}X_{t-1}+\varphi _{2}X_{t-2}+\dots +\varphi _{p}X_{t-p}+\varepsilon _{t}} s'écrit: ( 1 φ 1 L φ 2 L 2 φ p L p ) X t = ε t {\displaystyle (1-\varphi _{1}L-\varphi _{2}L^{2}-\dots -\varphi _{p}L^{p})X_{t}=\varepsilon _{t}} . La résolution de l'équation ( 1 φ 1 x φ 2 x 2 φ p x p ) {\displaystyle (1-\varphi _{1}x-\varphi _{2}x^{2}-\dots -\varphi _{p}x^{p})} amène aux conditions nécessaires (mais pas suffisantes) suivantes[3] :

  • φ 1 + φ 2 + + φ p < 1 {\displaystyle \varphi _{1}+\varphi _{2}+\dots +\varphi _{p}<1}
  • | φ p | < 1 {\displaystyle |\varphi _{p}|<1}

Équations de Yule-Walker

Les équations de Yule-Walker établissent une correspondance directe entre les paramètres du modèle (les φ {\displaystyle \varphi } et c {\displaystyle c} ) et ses autocovariances. Elles sont utiles pour déterminer la fonction d'autocorrélation ou estimer les paramètres. Elles établissent que :

équation YW —  γ j = k = 1 p φ k γ j k j = 1 , , p {\displaystyle \gamma _{j}=\sum _{k=1}^{p}\varphi _{k}\gamma _{j-k}\qquad \forall j=1,\ldots ,p}

Les coefficients γ j {\displaystyle \gamma _{j}} représentent la fonction d'autocovariance de X d'ordre j.

Lorsque l'on inclut également l'autocovariance d'ordre 0 (en fait la variance), il faut également rajouter la variance des résidus pour la première équation. Ce terme supplémentaire ne se retrouve que dans la première équation car on a fait l'hypothèse d'indépendance des résidus (et donc Cov ( ε ) = 0 {\displaystyle \operatorname {Cov} (\varepsilon )=0} ).

équation YW —  γ j = k = 1 p φ k γ j k + σ ε 2 δ j j = 0 , , p {\displaystyle \gamma _{j}=\sum _{k=1}^{p}\varphi _{k}\gamma _{j-k}+\sigma _{\varepsilon }^{2}\delta _{j}\qquad \forall j=0,\ldots ,p}

σ ε {\displaystyle \sigma _{\varepsilon }} est la déviation (écart-type) du bruit blanc et δj le Symbole de Kronecker, qui vaut 1 si j=0 et 0 autrement.

Il est aussi possible d'exprimer ces équations en fonction de l'autocorrélation :

équation YW —  ρ j = k = 1 p φ k ρ j k + σ ε 2 γ 0 δ j j = 0 , , p {\displaystyle \rho _{j}=\sum _{k=1}^{p}\varphi _{k}\rho _{j-k}+{\frac {\sigma _{\varepsilon }^{2}}{\gamma _{0}}}\delta _{j}\qquad \forall j=0,\ldots ,p}

Exemples

AR(1)

Pour un processus AR(1), on a :

γ j = φ γ j 1 j = 1 , , p {\displaystyle \gamma _{j}=\varphi \gamma _{j-1}\qquad \forall j=1,\ldots ,p}

On remarque que l'on retrouve rapidement, avec j=1, le résultat obtenu plus haut :

ρ 1 = γ 1 γ 0 = φ {\displaystyle \rho _{1}={\frac {\gamma _{1}}{\gamma _{0}}}=\varphi }
Var [ X t ] = σ 2 1 φ 2 {\displaystyle \operatorname {Var} [X_{t}]={\frac {\sigma ^{2}}{1-\varphi ^{2}}}} en prenant l'équation supplémentaire pour γ 0 = φ γ 1 + σ ε 2 {\displaystyle \gamma _{0}=\varphi \gamma _{1}+\sigma _{\varepsilon }^{2}} , qui devient alors γ 0 = φ γ 0 φ + σ ε 2 = φ 2 γ 0 + σ ε 2 ( 1 φ 2 ) γ 0 = σ 2 γ 0 = σ 2 1 φ 2 {\displaystyle \gamma _{0}=\varphi \gamma _{0}\varphi +\sigma _{\varepsilon }^{2}=\varphi ^{2}\gamma _{0}+\sigma _{\varepsilon }^{2}\Rightarrow (1-\varphi ^{2})\gamma _{0}=\sigma ^{2}\Rightarrow \gamma _{0}={\frac {\sigma ^{2}}{1-\varphi ^{2}}}}
AR(p)
{ γ 1 = φ 1 γ 0 + φ 2 γ 1 + + φ p γ ( p 1 ) γ 2 = φ 1 γ 1 + φ 2 γ 0 + + φ p γ ( p 2 ) γ p = φ 1 γ p 1 + φ 2 γ p 2 + + φ p γ 0 {\displaystyle {\begin{cases}\gamma _{1}=\varphi _{1}\gamma _{0}+\varphi _{2}\gamma _{-1}+\ldots +\varphi _{p}\gamma _{-(p-1)}\\\gamma _{2}=\varphi _{1}\gamma _{1}+\varphi _{2}\gamma _{0}+\ldots +\varphi _{p}\gamma _{-(p-2)}\\\vdots \\\gamma _{p}=\varphi _{1}\gamma _{p-1}+\varphi _{2}\gamma _{p-2}+\ldots +\varphi _{p}\gamma _{0}\end{cases}}}

Que l'on peut écrire sous forme matricielle :

[ γ 1 γ 2 γ 3 ] = [ γ 0 γ 1 γ 2 γ 1 γ 0 γ 1 γ 2 γ 1 γ 0 ] [ φ 1 φ 2 φ 3 ] {\displaystyle {\begin{bmatrix}\gamma _{1}\\\gamma _{2}\\\gamma _{3}\\\vdots \\\end{bmatrix}}={\begin{bmatrix}\gamma _{0}&\gamma _{-1}&\gamma _{-2}&\dots \\\gamma _{1}&\gamma _{0}&\gamma _{-1}&\dots \\\gamma _{2}&\gamma _{1}&\gamma _{0}&\dots \\\vdots &\vdots &\vdots &\ddots \\\end{bmatrix}}{\begin{bmatrix}\varphi _{1}\\\varphi _{2}\\\varphi _{3}\\\vdots \\\end{bmatrix}}}

Preuve

L'équation définissante du processus AR est

X t = i = 1 p φ i X t i + ε t . {\displaystyle X_{t}=\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}+\varepsilon _{t}.\,}

En multipliant les deux membres par Xt − j et en prenant l'espérance, on obtient

E [ X t X t j ] = E [ i = 1 p φ i X t i X t j ] + E [ ε t X t j ] . {\displaystyle E[X_{t}X_{t-j}]=E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]+E[\varepsilon _{t}X_{t-j}].}

Or, il se trouve que E [ X t X t j ] = γ j + E [ X t ] E [ X t j ] {\displaystyle E[X_{t}X_{t-j}]=\gamma _{j}+E[X_{t}]E[X_{t-j}]} . Dans le cas où on considère le processus X {\displaystyle X} de moyenne nulle ( c = 0 {\displaystyle c=0} ), E [ X t X t j ] {\displaystyle E[X_{t}X_{t-j}]} se ramène à la fonction d’auto-corrélation. Les termes du bruit blancs sont indépendants les uns des autres et, de plus, X t j {\displaystyle X_{t-j}} est indépendant de ε t {\displaystyle \varepsilon _{t}} j {\displaystyle j} est plus grand que zéro. Pour j > 0 , E [ ε t X t j ] = 0 {\displaystyle j>0,E[\varepsilon _{t}X_{t-j}]=0} . Pour j = 0 {\displaystyle j=0} ,

E [ ε t X t ] = E [ ε t ( i = 1 p φ i X t i + ε t ) ] = i = 1 p φ i E [ ε t X t i ] + E [ ε t 2 ] = 0 + σ ε 2 , {\displaystyle E[\varepsilon _{t}X_{t}]=E\left[\varepsilon _{t}\left(\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}+\varepsilon _{t}\right)\right]=\sum _{i=1}^{p}\varphi _{i}\,E[\varepsilon _{t}\,X_{t-i}]+E[\varepsilon _{t}^{2}]=0+\sigma _{\varepsilon }^{2},}

Maintenant, on a pour j ≥ 0,

γ j = E [ i = 1 p φ i X t i X t j ] + σ ε 2 δ j . {\displaystyle \gamma _{j}=E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]+\sigma _{\varepsilon }^{2}\delta _{j}.}

Par ailleurs,

E [ i = 1 p φ i X t i X t j ] = i = 1 p φ i E [ X t X t j + i ] = i = 1 p φ i γ j i , {\displaystyle E\left[\sum _{i=1}^{p}\varphi _{i}\,X_{t-i}X_{t-j}\right]=\sum _{i=1}^{p}\varphi _{i}\,E[X_{t}X_{t-j+i}]=\sum _{i=1}^{p}\varphi _{i}\,\gamma _{j-i},}

qui donne les équations de Yule-Walker :

γ j = i = 1 p φ i γ j i + σ ε 2 δ j . {\displaystyle \gamma _{j}=\sum _{i=1}^{p}\varphi _{i}\gamma _{j-i}+\sigma _{\varepsilon }^{2}\delta _{j}.}

pour j ≥ 0. Pour j < 0,

γ j = γ j = i = 1 p φ i γ | j | i + σ ε 2 δ j . {\displaystyle \gamma _{j}=\gamma _{-j}=\sum _{i=1}^{p}\varphi _{i}\gamma _{|j|-i}+\sigma _{\varepsilon }^{2}\delta _{j}.}

Estimation

En partant du modèle AR(p) sans constante donné par :

X t = i = 1 p φ i X t i + ε t . {\displaystyle X_{t}=\sum _{i=1}^{p}\varphi _{i}X_{t-i}+\varepsilon _{t}.\,}

Les paramètres à estimer sont les φ i i = 1 , , p {\displaystyle \varphi _{i}\quad i=1,\ldots ,p} et σ ε 2 {\displaystyle \sigma _{\varepsilon }^{2}} .

Méthode de Yule-Walker

La méthode consiste à reprendre les équations de Yule-Walker en inversant les relations : on exprime les coefficients en fonction des autocovariances. On applique alors le raisonnement de la Méthode des moments: on trouve les paramètres estimés d'après les autocovariances estimées.

En prenant l'équation sous sa forme matricielle :

[ γ 0 γ 1 γ 2 γ 3 ] = [ γ 1 γ 2 γ 3 1 γ 0 γ 1 γ 2 0 γ 1 γ 0 γ 1 0 γ 2 γ 1 γ 0 0 0 ] [ φ 1 φ 2 φ 3 σ ε 2 ] {\displaystyle {\begin{bmatrix}\gamma _{0}\\\gamma _{1}\\\gamma _{2}\\\gamma _{3}\\\vdots \\\end{bmatrix}}={\begin{bmatrix}\gamma _{-1}&\gamma _{-2}&\gamma _{-3}&\dots &1\\\gamma _{0}&\gamma _{-1}&\gamma _{-2}&\dots &0\\\gamma _{1}&\gamma _{0}&\gamma _{-1}&\dots &0\\\gamma _{2}&\gamma _{1}&\gamma _{0}&\dots &0\\\vdots &\vdots &\vdots &\ddots &0\\\end{bmatrix}}{\begin{bmatrix}\varphi _{1}\\\varphi _{2}\\\varphi _{3}\\\vdots \\\sigma _{\varepsilon }^{2}\end{bmatrix}}}

Le vecteur des paramètres θ ^ = ( φ ^ 1 σ ^ ε 2 ) {\displaystyle {\hat {\theta }}={\begin{pmatrix}{\hat {\varphi }}_{1}\\\vdots \\{\hat {\sigma }}_{\varepsilon }^{2}\end{pmatrix}}} peut alors être obtenu.

La matrice du système est une matrice de Toeplitz. Un algorithme que l'on peut employer pour l'inversion du système est l'algorithme de Levinson-Durbin.

Maximum de vraisemblance inconditionnel

L'estimation d'un modèle AR(P) par la méthode du maximum de vraisemblance est délicate car la fonction de vraisemblance est très complexe et n'a pas de dérivée analytique. Cette difficulté provient de l'interdépendance des valeurs, ainsi que du fait que les observations antérieures ne sont pas toutes disponibles pour les p premières valeurs.

Maximum de vraisemblance conditionnel

Une manière de simplifier la complexité de la fonction de vraisemblance est de conditionner cette fonction aux p premières observations. La fonction de log-vraisemblance devient : L ( x 1 , x 2 , , x T ) = ( T P ) 2 log ( 2 π ) ( T P ) 2 log ( σ 2 ) t = p + 1 T ( y t c φ 1 y t 1 φ 2 y t 2 φ p y t p ) 2 2 σ 2 {\displaystyle {\begin{aligned}L(x_{1},x_{2},\ldots ,x_{T})&=-{\frac {(T-P)}{2}}\log(2\pi )-{\frac {(T-P)}{2}}\log(\sigma ^{2})\\&-\sum _{t=p+1}^{T}{\frac {(y_{t}-c-\varphi _{1}y_{t-1}-\varphi _{2}y_{t-2}-\ldots -\varphi _{p}y_{t-p})^{2}}{2\sigma ^{2}}}\end{aligned}}}

La maximisation de cette fonction par rapport aux paramètres φ {\displaystyle \varphi } correspond à la minimisation des erreurs du modèle. L'estimateur du maximum de vraisemblance conditionnel correspond ainsi à celui des moindres carrés.

L'estimateur obtenu sera équivalent à l'estimateur inconditionnel dans de grands échantillons et tous deux ont la même distribution asymptotique (Hamilton 1994, p. 126). Il peut être biaisé[4].

Propriétés des estimateurs

Davidson et McKinnon (1993) rapportent que l'estimateur des moindres carrés conditionnel est biaisé, mais néanmoins convergent. Cryer et Chan (2008) proposent une simulation Monte-Carlo pour tester les différents estimateurs.

Annexes

Bibliographie

  • (en) Jonathan D. Cryer et Kung-Sik Chan (trad. de l'anglais), Time Series Analysis : With Applications in R, New York, Springer, , 2e éd., 491 p. (ISBN 978-0-387-75958-6, LCCN 2008923058, lire en ligne), p. 491
  • (en) Russell Davidson et James G. MacKinnon (trad. de l'anglais), Estimation and Inference in Econometrics, New York, Oxford University Press, (ISBN 978-0-19-506011-9, LCCN 92012048), p. 874
  • (en) William H Greene (trad. de l'anglais), Econométrie, Paris, Pearson Education, , 5e éd., 943 p. (ISBN 978-2-7440-7097-6), p. 2
  • (en) James Douglas Hamilton (trad. de l'anglais), Time Series Analysis, Princeton N.J, Princeton University Press, , 799 p. (ISBN 978-0-691-04289-3, LCCN 93004958), p. 799
  • (en) G. S. Maddala et In-Moo Kim (trad. de l'anglais), Unit Roots, Cointegration and Structural Change, Cambridge, Cambridge University Press, , 5e éd., relié (ISBN 978-0-521-58257-5, LCCN 98017325), p. 505

Notes et références

  1. selon Hamilton (1994, p. 59)
  2. voir Cryer (2008, p. 84)
  3. voir Cryer (2008, p. 76)
  4. voir Greene (2005, p. 256)

Articles connexes

  • icône décorative Portail des probabilités et de la statistique