ARIMA
- Time-Series Prediction(시계열 예측)을 다루는 여러 가지 통계적 기법 중에 가장 널리 알려짐
- 탄탄한 통계학 이론적 기반을 갖추고 있음
Others
- Prophet(Facebook), LSTM
- 시계열 데이터의 특성과 안정적 (Stationary) 시계열의 개념 이해
- ARIMA 모델을 구성하는 AR, MA, Diffencing의 개념을 이해하고 간단한 시계열 데이터에 적용
- 실제 주식 데이터에 ARIMA를 적용해서 예측 정확도 확인
- 시간 순서대로 발생한 데이터의 수열
-
미래 예측은 불가능함
-
그럼에도 불구하고 예측하려 든다면 두 가지의 전제 필요
- 과거의 데이터에 일정한 패턴이 발견
- 과거의 패턴은 미래에도 동일하게
→ Stationary(안정적) : 데이터에 대해서만 미래 예측이 가능함
-
시계열 데이터의 통계적 특성이 변하지 않음
-
시계열 데이터를 만들어내는 시간의 변화에 무관하게 일정한 프로세스가 존재
-
시계열 데이터 분석은 완벽한 미래 예측을 보장하지는 않음
-
외부적 변수에 의해 시계열 데이터 분석의 전제가 되는 안정성이 훼손될 여지가 있기 때문
-
그럼에도 불구하고, 시계열 데이터 분석은 내재적인 시간적 변화를 묘사하는데 아주 훌륭
-
시계열의 안정적인 특성이랑 무엇인지 좀 더 구체적으로 살펴보자
- X의 편차와 Y의 편차를 곱한 것의 평균
- X와 Y가 독립이면 공분산이 0이됨
- 공분산은 단위의 크기를 고려하지 않음
- -1 ≤ P ≤ 1 사이의 범위로 변환
- 선형 상관관계라면 -1 혹은 1, 독립이라면 0
- 공분산과 h라는 시간만큼 차이를 가진 같은 공분산을 곱하여 구해줌
- t라는 시간이 어떠든지에 변함없이 일정한 값을 나타내야하는게 전제조건
p-value
귀무가설이 틀리다고 주장할때, 내 말이 틀릴 확률
- p-value가 0.05 이하이면 귀무가설을 기각하고 대립가설을 세울 수 있음
- 로그함수 변환
- Moving average 제거 - 추세 (Trend) 상쇄
- 차분(Differencing) - 계절성(Seasonality) 상쇄
- statsmodels 라이브러리안에
seasonal_decompose
메소드를 통해 시계열 안에 존재하는 trend, seasonality를 직접 분리해 낼 수 있는 기능
AR(Autoregressive) + I(Intergrated) + MA(Moving Average)
- 시계열 데이터 예측 모델을 자동으로 만듦
- 과거 값들에 대한 회귀로 미래 값을 예측하는 방법
- 시계열의
Residual
에 해당하는 부분을 모델링
- 시계열의
Trend
에 해당하는 부분을 모델링 - 주식값이 최근의 증감 패턴을 지속할 것이라고 보는 관점음
MA
로 모델링하는 관점
-
$Y_t$ 이 이전 데이터와$d$ 차 차분의 누적(integration) 합이라고 보는 모델 - 시계열의
Seasonality
에 해당하는 부분을 모델링
많은 시계열 데이터가 AR
이나 MA
중 하나의 경향만 가지기 때문입니다.
- 시차(lag)에 따른 관측치들 사이의 관련성 측정
- 주어진 시계열의 현재 값이 과거값과 어떻게 설명되는지
- ACF plot에서 X축은 상관 관계, y축은 시차 수
- 다른 관측치의 영향력을 배제하고 두 시차 관측치 간 관련성 측정
- k 이외의 모든 시차를 갖는 관측치의 영향력을 배제한 가운데 특정 두 관측치가 얼마나 관련이 있는지 나타내는 척도