서강대학교 로욜라도서관

탑메뉴

전체메뉴

전체메뉴닫기


검색

상세정보

시계열 데이터 전처리와 특징 선택을 활용한 기계 학습 기반의 주가 예측 모델. A Machine Learning-based Stock Prediction Model using Time Series Data Preprocessing and Feature Selection

책이미지
표지이미지
별점
서평쓰기
도서 상세정보
논문명 시계열 데이터 전처리와 특징 선택을 활용한 기계 학습 기반의 주가 예측 모델
대등서명 A Machine Learning-based Stock Prediction Model using Time Series Data Preprocessing and Feature Selection
제출자 박종일
제출자(영문) Park, Jong Il
장르 학위논문
학위수여기관 서강대학교 정보통신대학원
발행년 2016
학위수여년월 2016. 8
학과/전공명 정보통신대학원 정보처리
언어 한국어
저작권 서강대학교 논문은 저작권보호를 받습니다.
공개
주제명(일반) 시계열, 기계학습, 특징선택, 주가예측
학위구분(학위구분) 석사
소장정보
관련 URL http://dcollection.sogang.ac.kr:8089/dcollection/jsp/common/DcLoOrgPer.jsp?sItemId=000000060102
바로가기 URL 

초록

목차 일부

주가  지수는  국가나  세계의  경제의  방향성과  경기를  판단할  수  있는  중요한  지표의  하나로,  이를  예측하기  위해  많은  연구가  있었다.
주가  지수는  시계열  데이터  이면서  다른  경제  지표들과  상관  관계를 가지고  있다.  본  논문에서는  주가  지수와  상관  관계가  있는  여러  경제  지표를  이용하여  시계...

목차 전체

주가  지수는  국가나  세계의  경제의  방향성과  경기를  판단할  수  있는  중요한  지표의  하나로,  이를  예측하기  위해  많은  연구가  있었다.
주가  지수는  시계열  데이터  이면서  다른  경제  지표들과  상관  관계를 가지고  있다.  본  논문에서는  주가  지수와  상관  관계가  있는  여러  경제  지표를  이용하여  시계열  데이터의  전  처리,  기계학습과  빅데이터 처리에서  많이  사용되는  특징  선택과  주요  기계학습  알고리즘을  이용하여  주가  지수를  효율적이고  정확하게  예측할  수  있는  모델을  찾기  위해  여러  방법들을  비교  실험하였다.  2011년부터  2015년까지의 미국,  일본,  독일  등  주요  국가의  주가  지수와  금리,  환율,  유가  등의 대표적인  경제  지표를  이용하여  15개의  입력  데이터와  코스피  지수
를  출력으로  하는  데이터  세트를  구성하였다.  시계열  데이터의  잡음을  없애는  전처리와,  시계열의  정상성을  고려한  데이터  전처리를  적용  하였다.  복잡도를  줄이고  예측의  정확성을  높이기  위한  특징  선택의  방법으로  그랜저  인과  검증,  주성분  분석,  RFE  세가지  특징  알고리즘을  이용하여  가장  예측력이  높은  특징들의  부분  집합을  선택하였다.  이  데이터를  대표적인  기계학습  알고리즘인  SVM과  ANN을 이용하여  학습하고  검증  데이터로  예측을  하여  AUC를  이용하여  성능을  비교  분석  하였다.  그  결과  데이터  전처리와  RFE  특징  선택, 그랜저  검증  특징  선택과  ANN을  이용한  예측  시스템이  전처리와  특징  선택  없이  ANN만  이용한  시스템보다,  36.1% ~37.6%의  성능  향상이  있었고,  특징  선택은  최대  6.7%  정도의  성능  향상이  가져왔다.
시계열의  특성을  이용한  데이터  전처리로  예측의  성능을  높이고,  특징  선택으로  예측  성능과  예측  시스템의  효율을  높일  수  있었다.A  stock  index  is  one  of  the  important  indices  to  forecast  the economy  and  business.  There  have  been  many  researches  on the  prediction  of  stock  market.  Stock  index  and  price  is  time series  data  and  it  has  a  correlation  with  other  economy  and business  indices.  This  paper  compares  and  evaluates  various 
algorithms  to  find  the  prediction  model  that  has  the  cost effectiveness  and  accuracy.  We  use  many  stock  indicies  from important  countries’  stock  indices  such  as  Dow  Jones,  Nikkei, Dax  as  well  as  economy  indies  such  as  a  rate  of  interest,  USD exchange rate  and  WTI. This paper uses the  technical indices  of moving average and Relative Strength Index (RSI) to preprocess 
the  data  such  as  removing  the  noise  of  time  series  data  and keeping  the  stationary.  In  addition,  this  paper  uses  Granger Causality Test  (GCT), Principal Component Analysis (PCA)  and Recursive  Feature  Elimination  (RFE)  as  feature  selection methods  to  find  the  effective  feature  subsets.  We  use  Support Vector  Machine  (SVM)  and  Artificial  Neural  Network  (ANN) 
learning  algorithms  to  train  and  predict  data  along  with  feature selection methods and the  data preprocessing. We  introduce the Receiver  Operating  Charateristic  (ROC)  curve  and  the  Area Under  the  ROC  curve  (AUC)  to  compare  the  performance.
Briefly,  in  Artificial  Neural  Network  (ANN),  data  preprocessing with Recursive Feature Elimination (RFE) and Granger Causality Test (GCT) show the performance enhancement by 36.1%~37.6% against  without  the  preprocessing,  without  the  feature  selection methods, and by 6.7% against without feature selection methods. 
Normally, we can assume that it would mean the decrease of the cost of  big  data processing such as the computation  complexity, storages size, and data gathering time via network.