Skip to content

Latest commit

 

History

History

14_stock_price_anticipate

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

개요

ARIMA

  • Time-Series Prediction(시계열 예측)을 다루는 여러 가지 통계적 기법 중에 가장 널리 알려짐
  • 탄탄한 통계학 이론적 기반을 갖추고 있음

Others

  • Prophet(Facebook), LSTM

학습 목표

  • 시계열 데이터의 특성안정적 (Stationary) 시계열의 개념 이해
  • ARIMA 모델을 구성하는 AR, MA, Diffencing의 개념을 이해하고 간단한 시계열 데이터에 적용
  • 실제 주식 데이터에 ARIMA를 적용해서 예측 정확도 확인

시계열

  • 시간 순서대로 발생한 데이터의 수열

시계열 데이터로 미래를 예측할 수 있나?

  • 미래 예측은 불가능함

  • 그럼에도 불구하고 예측하려 든다면 두 가지의 전제 필요

    1. 과거의 데이터에 일정한 패턴이 발견
    2. 과거의 패턴은 미래에도 동일하게

    → Stationary(안정적) : 데이터에 대해서만 미래 예측이 가능함

Stationary (안정적)

  • 시계열 데이터의 통계적 특성이 변하지 않음

  • 시계열 데이터를 만들어내는 시간의 변화에 무관하게 일정한 프로세스가 존재

  • 시계열 데이터 분석은 완벽한 미래 예측을 보장하지는 않음

  • 외부적 변수에 의해 시계열 데이터 분석의 전제가 되는 안정성이 훼손될 여지가 있기 때문

  • 그럼에도 불구하고, 시계열 데이터 분석은 내재적인 시간적 변화를 묘사하는데 아주 훌륭

  • 시계열의 안정적인 특성이랑 무엇인지 좀 더 구체적으로 살펴보자

Stationary Time-Series

Covariance(공분산)

  • X의 편차와 Y의 편차를 곱한 것의 평균
  • X와 Y가 독립이면 공분산이 0이됨
  • 공분산은 단위의 크기를 고려하지 않음

Correlation(상관계수)

  • -1 ≤ P ≤ 1 사이의 범위로 변환
  • 선형 상관관계라면 -1 혹은 1, 독립이라면 0

Autocovariance와 Autocorrelation

  • 공분산과 h라는 시간만큼 차이를 가진 같은 공분산을 곱하여 구해줌
  • t라는 시간이 어떠든지에 변함없이 일정한 값을 나타내야하는게 전제조건

ADF Test

p-value

귀무가설이 틀리다고 주장할때, 내 말이 틀릴 확률

  • p-value가 0.05 이하이면 귀무가설을 기각하고 대립가설을 세울 수 있음

Sationary한 시계열로 가공하기

  1. 로그함수 변환
  2. Moving average 제거 - 추세 (Trend) 상쇄
  3. 차분(Differencing) - 계절성(Seasonality) 상쇄

Time series descomposition

  • statsmodels 라이브러리안에 seasonal_decompose 메소드를 통해 시계열 안에 존재하는 trend, seasonality를 직접 분리해 낼 수 있는 기능

ARIMA


AR(Autoregressive) + I(Intergrated) + MA(Moving Average)

  • 시계열 데이터 예측 모델을 자동으로 만듦

AR

  • 과거 값들에 대한 회귀로 미래 값을 예측하는 방법
  • 시계열의 Residual 에 해당하는 부분을 모델링

MA

  • 시계열의 Trend 에 해당하는 부분을 모델링
  • 주식값이 최근의 증감 패턴을 지속할 것이라고 보는 관점음 MA 로 모델링하는 관점

I (Integration)

  • $Y_t$이 이전 데이터와 $d$차 차분의 누적(integration) 합이라고 보는 모델
  • 시계열의 Seasonality 에 해당하는 부분을 모델링

많은 시계열 데이터가 AR이나 MA 중 하나의 경향만 가지기 때문입니다.

ACF

  • 시차(lag)에 따른 관측치들 사이의 관련성 측정
  • 주어진 시계열의 현재 값이 과거값과 어떻게 설명되는지
  • ACF plot에서 X축은 상관 관계, y축은 시차 수

PACF

  • 다른 관측치의 영향력을 배제하고 두 시차 관측치 간 관련성 측정
  • k 이외의 모든 시차를 갖는 관측치의 영향력을 배제한 가운데 특정 두 관측치가 얼마나 관련이 있는지 나타내는 척도