250x250
vg-rlo
vg-rlo
vg-rlo
전체 방문자
오늘
어제
  • CATEGORY (114)
    • 일상과 기록 (12)
    • REVIEW (11)
    • DATA (20)
      • ML and DL (6)
      • NLP (2)
      • Growth hacking (2)
      • Note (10)
    • CODE (46)
      • Algorithm and Data Structur.. (2)
      • Coding Test (34)
      • DB (2)
      • Python (6)
      • Linux (2)
      • Github (0)
    • Portfolio (6)
      • Pratice and Tutorials (2)
      • Toy Projects (2)
      • Competitions (2)
      • Data Analysis (0)
    • ISSUE (17)
    • 🛠... (0)

블로그 메뉴

  • Github

인기 글

티스토리

hELLO · Designed By 정상우.
vg-rlo

vg-rlo

[시계열] Time Series Regression - Part 1
DATA/Note

[시계열] Time Series Regression - Part 1

2021. 4. 8. 12:17
본 강의노트는 김성범 교수님의 유투브 강의를 바탕으로 작성했음을 밝힙니다.
강의 링크: youtu.be/7Do_hixXCpc

시계열 데이터 

시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받게 되는 데이터 

e.g. 일, 달, 분기(Quarterly), 년

 

시계열 데이터 예시 

0:50 ~ 7:25

 

시계열 데이터 구성요소  

"영어로 알자"

  • Trend(추세변동)
    e.g. 올라가거나, 내려가는 모양
  • Cycle(순환변동)
    e.g. 올라갔다 내려온 한 주기 
  • Seasonal variations(계절변동): Cycle의 일부분, 계절에 따라 Cycle이 형성된 것 
  • Random fluctuation(우연변동)

 

강의 8:00 시계열 데이터 구성요소

Trends

  • 시간이 경과함에 따라 관측값이 지속적으로 증가(upward) 혹은 감소(downward)하는 Trend(추세)를 갖는 경우의 변동을 의미한다. 
  • 주로 경제 관련 데이터에서 발생한다. 

Cycle

  • 주기적인 변화를 가지나 계절에 의한 것이 아니고 주기가 긴 경우의 변동을 의미한다. 

강의 10:47 

Seasonal variations

  • 주별, 월별, 계절별과 같이 주기적인 요인에 의한 변동 

Random fluctuation

  • 시간에 따른 규칙적인 움직임과는 무관하게 램덤한 원인에 의해 나타나는 변동
    e.g. White Noise(백색 잡음): 평균이 0이고, 분산이 일정한 시계열 데이터 

Quiz

더보기

Q. Seasonal variations와 Cycle 차이점? 

Q. 데이터에서 Trend와 Seasonal variations 요소를 제거하면 어떤 성분이 남을까?  Random fluctuation 

Prediction Error(예측오차) 

  • t에서의 실제값 = t에서의 예측값 (t: 특정시점) 
  • 오차가 양수와 음수 모두 될 수  있으므로 단순히 차이를 더한 값은 0에 가까운 수가 된다.
  • 오차의 부호 보다 amount of difference(정도)가 중요하다. 

MAD(평균절대편차)

  • 일반적으로 많이 쓰이는 지표 
    • 많이 쓰이는 건 MSE(이유? 제곱식으로 미분 가능하기 때문에 통계식에서 활용도가 높기 때문에)
일반통계학 (2015-1) (jbnu.ac.kr)
조대협의 블로그 :: 표준편차 (standard deviation)에서 편차의 절대값을 사용하지 않고, 편차의 제곱을 사용하는 이유 (tistory.com)

강의 18:11

MSE(평균제곱편차) 

  • MAD 수식에서 절대값 대신 제곱 취해줌

MAD  vs MSE

  • 아래 표에서 위 모델과, 아래 모델간의 MAD와 MSE의 평가가 다르다. 
  • MSE는 특별하게 잘못된 예측치에 대해 예민하다. 두 모델 케이스를 보더라도, 아래 모델 같은 경우 Squarred Error가 36이기 때문에 1, 2 케이스에서 Squared Error가 적게 나왔어도 MSE로 Error를 평가하면, 아래 모델이 더 큰 Error를 가진다. 

강의 21:30

MAPE(Mean Absolute Percentage Error)

 강의 24:45

  • 분수식 형태이기 때문에 실제값이 0일때 계산할 수 없다. 
  • 실제값이 매우 작으면 예측값과 실제값의 차이와 상관없이 Error 계산 결과가 매우 크기 나온다. 
  • 예측값보다 실제값보다 작은 경우에 대해 Biased하다. 아래 그림처럼 차이값이 같은 케이스임에도 불구하고 더 작은 MAPE가 나온다. 

 

Biased한 MAPE 결과

    'DATA/Note' 카테고리의 다른 글
    • [시계열] Time Series Regression - Part 3
    • [시계열] Time Series Regression - Part 2
    • [CS231n] Lecture 5 | Convolutional Neural Networks
    • [Tensorflow]mnist - 성능 확인하기 및 개선하기
    vg-rlo
    vg-rlo
    🛠블로그 공사중.. Keep going! 🤔 (Profile - Dinotaeng®)

    티스토리툴바