時系列分析(ARモデル・MAモデル)

今回より、数回に渡って時系列分析の勉強した内容を
自らの備忘録も兼ねてブログに残していきたいと思います。

テーマとしては、AR・MA・ARMA・ARIMA・SARIMA・状態空間モデルと
分けて説明していこうと思います。

もし、誤りなどございましたらご指摘いただけると大変うれしいです。
また、皆様が時系列の勉強をされる際の参考になれば、もっと嬉しいです。

参考文献

経済・ファイナンスデータの計量時系列分析 (統計ライブラリー)

作者: 沖本竜義
出版社/メーカー: 朝倉書店
発売日: 2010/02/01
メディア: 単行本
購入: 4人クリック: 101回
この商品を含むブログ (6件) を見る

現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~

作者: 横内大介,青木義充
出版社/メーカー: 技術評論社
発売日: 2014/02/18
メディア: 単行本（ソフトカバー）
この商品を含むブログ (6件) を見る

前提条件

先程提示したテーマに取り組む前に、頻出の用語を先に説明してしまいますね。

ホワイトノイズ

ホワイトノイズとは、未来を予測する情報がほとんど含まれていない純粋な雑音と認識してください。

ホワイトノイズが満たす要件は、

期待値が0
分散が一定
自己相関が0

となります。

定常性

定常性を持つデータを「定常過程に従うデータ」と呼びます。

定常過程とは、任意の $t, k$ に対して以下が成立します。

$E(y_t) = \mu$

$Cov(y_t, y_{t-k}) = E[(y_t - \mu)(y_{t-k} - \mu)] = \gamma_k$

期待値は時点によらず一定です。
自己共分散も時点によらず、時間差のみに依存します。

つまり、定常過程とは、データの水準やばらつき、自己相関の関係が
時間によらず一定であると言えます。

例えば、2000年1月1日と2日の気温の自己相関と
2010年3月4日と5日の気温の自己相関の強さは同じになります。
どちらも１日の差しかないデータのため、相関関係も同じとなります。

非定常性

定常過程に従わないデータを非定常と呼びます。
例えば右肩上がりのトレンドがあるようなデータは、非定常です。
また、期待値が時間によって変化するようなデータも非定常なデータになります。

非定常のデータは分析がしにくいデータになりますので、
定常にするなどの対処が必要になります。

ARモデル（自己回帰モデル）

自己回帰モデル（AutoRegressice model）から始めましょう。

名称に”自己”とあることから、このARモデルは「過去の自分のデータ」を用いて、
予測モデルを作成します。

1時点前のデータを参照する場合は、AR(1)と記載します。

ARモデルは以下のように定式化されます。

$y = c + \phi_1y_{t-1} + \epsilon_t$

この数式のcを定数項、 $\phi_1$ を係数と呼びます。

通常の回帰式（ $y = a + bx$ ）では、変数を用いて予測を行いますが、
自己回帰モデルでは、過去の自分を説明変数として回帰モデルを作成します。

また、重回帰分析と同じように説明変数を増やすことも可能です。
p地点前までのデータを使う自己回帰モデルをAR(p)と表記します。

すこし言い方を変えると、自己回帰モデルは、現在の情報 $y_t$ に対して、
過去の情報 $y_{t-1}$ が与える影響を表現しております。

定数項cと自己回帰係数 $\phi_1$ が既知の場合には、 $y_{t-1}$ も過去の情報のため、
$y_t$ に新たな情報を与える要素は $\epsilon_t$ のみです。

$\epsilon_t$ は、ホワイトノイズを仮定しているため自己相関性がなく、
過去時点の情報（ $\epsilon_{t-1}$ ・・・）は、 $\epsilon_t$ に影響を与えない。

そのことから、AR(1)モデルにおける $y_t$ の構成要素は、
- 過去の情報を元に確定的に定まる部分： $c + \phi_1y_{t-1}$
- 過去の情報とは無関係に確率的に新たな情報を与える部分： $\epsilon_t$

に分けることができます。

条件付期待値

$y_t$ 時点の値がわかっている場合、
例えば「 $t_1$ 時点が0.6の値だった条件における、 $t$ 時点の期待値を求めることができます。
これを条件付き期待値と呼びます。

以下のようなARモデルでデータを表現できたとする。

$y_t = 0.5 + 0.7y_{t-1} + \epsilon_t$

$t-1$ 時点がわかっている条件で、t時点の条件付期待値は以下のように計算することができます。

$E(y_t| y_{t-1}) = 0.5 + 0.7y_{t-1}$

※ノイズ $\epsilon_t$ の期待値は0なので、無視できます。

$t-1$ 時点が0.6ならば、t時点の条件付期待値は、0.5 + 0.7*0.6 = 0.92となります。  

MAモデル（移動平均モデル）

移動平均モデル（Moving Average model）は、
時系列データの自己相関を表現するモデルの一つです。
移動平均モデルでは、同じ値を用いることで自己相関を表現します。

移動平均モデルを説明する前に、移動平均の概念に関して説明していきましょう。
{3,4,2,9,4,5}という数値があります。これに対して3区間移動平均を取ります。
具体的には、データを3つずつずらして平均値を計算します。

1番目の移動平均：3 = 3 + 4 + 2 ÷ 3
2番目の移動平均：5 = 4 + 2 + 9 ÷ 3
3番目の移動平均：5 = 2 + 9 + 4 ÷ 3
4番目の移動平均：6 = 9 + 4 + 5 ÷ 3

下線を引いた部分に着目してください。
4番目の計算に用いられているデータは、3番目・２番目の計算でも用いられております。
このように同じ数値が使われている→類似している→相関があると考えることができます。

3次の移動平均モデルはMA(3)と表記します。

さて、今回はここまでです。
今回はARモデル・MAモデルを扱いました！
次回以降はARIMA・SARIMAについても記載していきたいと思います！

ちょこっとPython