잡스 행정학/행정이론

시계열(時系列, time series), 시계열 해석(time series analysis), 시계열 예측(time series prediction)

Jobs 9 2023. 5. 2. 17:07
반응형

시계열(時系列,time series)은 일정 시간 간격으로 배치된 데이터들의 수열을 말한다. 시계열 해석(time series analysis)라고 하는 것은 이런 시계열을 해석하고 이해하는 데 쓰이는 여러 가지 방법을 연구하는 분야이다. 예컨대, 이런 시계열이 어떤 법칙에서 생성되어서 나오느냐는 기본적인 질문을 이해하는 것이 궁극적인 목표라고 할 수 있다. 시계열 예측(time series prediction)이라고 하는 것은 주어진 시계열을 보고 수학적인 모델을 만들어서 미래에 일어날 것들을 예측하는 것을 뜻하는 말이다. 일반적으로 이런 방법들은 공학이나 과학계산, 혹은 금융시장에서의 주가 예측 등에서 많이 쓰인다.

시계열 데이터를 분석하는 수학적 모델은 여러 가지가 있을 수 있는데, 실제 응용에서 가장 많이 쓰이는 세 가지 범용 모델은 autoregressive (AR) 모델, integrated (I) 모델, moving average (MA) 모델 등이 있다. 이 세 가지 방법은 이미 얻어진 시계열 데이터에 선형 종속적이다. 비선형 종속적인 방법들은 나름대로 의미있는 것들이 있는데, 예컨대 혼돈 시계열등을 만들어낼 수 있기 때문이다. 

 

1) 시계열 분석
일정한 시간 간격으로 표시된 자료의 특성(추세 변동, 계절변동, 순환변동, 불규칙 변도)을 파악하여 미래를 예측하는 분석방법이다. 
시계열 분석을 통해서 내년도 판매량,다음달 항공기 이용 승객, 앞으로 4개월 동안의 변화, 다음 분기에 예상되는 변화 등을 예측할 수 있다.
시계열 분석의 단점은 연구자가 만든 시계열모형을 이용하여 예측하고자 할 때, 여러 가지 우연한 사건이 발생하여 오차를 일으킬 수 있다는 것이다. 시게열 모형은 수리적 모형에 불과하여 천재지변, 정치, 경제, 사회, 문화 영역에서 일어나는 여러 변수를 일일이 고려하지 못하기 때문에 오차를 피할 수 없다.  

2) 시계열 데이터
시계열 데이터(time series data)란 시간을 기준으로 측정된 자료를 말한다. 시계열자료는 연도별(annual), 분기별(quarterly), 월별(monthly), 일별(daily) 또는 시간별(hourly) 등 시간의 경과(흐름)에 따라 순서대로 관측되는 자료다. 그 예로 국내총생산(GDP), 물가지수, 판매량, 종합주가지수(KOSPI), 강우량, 태양 흑점수, 실험 및 관측자료 등이 있다. 

시계열자료는 연속적으로 측정되는 연속 시계열(continuous time series)과 이산적 시점에서 측정되는 이산 시계열(discrete time series)로 구분할 수 있다. 여기서 연속 시계열이란 말 그대로 시간의 모든 점에서 측정된 자료를 의미한다. 연속 시계열 자료는 모든 시점에서 측정되었기 때문에 분석하기에 부담스러운 데이터 상태다. 그래서 이산 시계열 데이터가 주로 사용된다. 이산 시계열 데이터란 특정한 시점에 측정한 관측값을 의미하며, 일반적으로 관측값 간의 간격을 일정하게 한다.  

 

시계열 모형의 종류

(1) 투입된 변수의 개수에 따라

① 일변량 시계열 모형

 일변량 시계열 모형이란 한 개의 변인만을 측정하고, 그 변인이 갖고 있는 데이터로만 미래 시점의 어떤 값을 예측하려는 것이다. 여기서 일변량이란 말은 한 개의 변인만을 측정했다는 의미로 보면 되고, 그 의미를 강조하기 위해서 일변량 시계열 모형이라는 용어를 쓰는 것이다

 예를 들어, 시청률을 예측하기 위해 아래와 같이 측정시점과 시청률이 있는 표를 보자. 이런 경우 4회 차의 시청률을 예측하고자 한다면, 일변량 시계열 모형을 적용했다고 말하는 것이다. 

방송회차 시청률
1 1.82
2 1.9
3 2.14

 

② 다변량 시계열 모형

 다변량 시계열 모형이란 측정 변수를 두 개 이상 넣어서 변화를 예측하는 것이다. 이것은 마치 다중회귀분석과 비슷한 느낌을 주는 모형인 것이다. 예를 들어, 시청률 증가와 관련 있는 변수가 미세먼지의 정도라고 가정하자. 그래서 시청률과 미세먼지의 정도를 같은 시점에 함께 측정했다면, 아래와 표와 같이 정리할 수 있을 것이다. 

방송회차 미세먼지 시청률
1 1 1.82
2 2 1.9
3 3 2.14

 

미세먼지도와 시청률 간에 관계가 있는 것으로 파악되었다면, 미래 시점의 시청률을 예측하는 변인으로 미세먼지를 활용하는 것이다. 그러면 일변량분석모형보다 좀 더 예측의 정확도가 높을 수 있다. 이렇게 두 개 이상(미세먼지와 시청률)의 변수가 측정된 상황에서 시계열 분석을 적용한다는 점을 강조하기 위해 다변량 시계열 모형이라고 부르는 것이다. 이 다변량 시계열 모형을 때로는 전달 함수 모형이라고 부를 때도 있다. 

만약 추가된 변수가 더미 변수일 경우, 간섭모형(intervention model)이라 하며, 이 모형을 다변량 시계열 모형(전달 함수 모형)의 특수한 형태로 간주한다.

 

(3) 모형을 찾아가는 방법

일변량시계열 모형, 다변량 시계열 모형은 측정변수의 개수에 초점을 둔 용어다. 실제 구체적인 시계열 모형을 만들기 위해서는 구체적인 분석방법을 써야 한다. 회귀분석을 할 때, 단순 회귀모형, 다중회귀모형, 로지스틱 회귀 모형 등 다양한 용어가 있듯이 시계열 분석 방법에도 “자기 회귀 모형, 이동평균 모형, 지수 평활법, 최근린법 등” 다양한 분석방법이 있다. (회귀 모형 분석과 회귀 분석을 같은 의미로 받아들여도 상관없다. 시계열 모형과 시계열 분석을 같은 의미로 받아들여도 상관없다)

 


잡스9급
 PDF 교재

 

✽ 책 구매 없이 PDF 제공 가능
✽ adipoman@gmail.com 문의
 
유튜브 강의

반응형