Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 69, No. 7, p.978-984

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 13 May 2020Revised : 16 June 2020Accepted : 17 June 2020

DOI :

http://doi.org/10.5370/KIEE.2020.69.7.978

Optimized-XGBoost Learner Based Bagging Model for Photovoltaic Power Forecasting

최적화 하이퍼 파라미터의 XGBoost 학습자 기반 배깅 모델을 활용한 태양광 출력 예측

최성현 (Sung-hyeon Choi) ¹iD 허진 (Jin Hur) ^†iD

(Dept. of Electrical Engineering, Sangmyung Univerity, Korea.)

^†Corresponding Author : Dept. of Electrical Engineering, Sangmyung Univerity, Korea.

E-mail : jinhur@smu.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

As the world is aware of the problem of greenhouse gas emissions, the trend of generating energy source has been changing from conventional fossil fuels to sustainable energy such as solar and wind. In order to reduce greenhouse gas emissions, the ratio of renewable energy sources should be increased. However, renewable energy sources highly depend on weather conditions and it has intermittent generation characteristics, thus embedding uncertainty and variability. As a result, it can cause variability and uncertainty in the power system, and that is why it is essential to have accurate forecasting technology of renewable energy to address this problem. We proposed a bagging model which is using an ensemble model as a base learner and what we set for the base learner is a XGBoost. Results showed that ensemble learner-based bagging models averagely have lower error compared to the bagging model using single model learner. Through the use of accurate forecasting technology, we will be able to reduce uncertainties in the power system and expect improved system reliability.

Key words

Bagging, XGBoost, Machine Learning Ensemble Model, Optimized Hyper Parameter, Photovoltaic Power Forecasting

1. 서 론

1.1 연구의 배경

2015년 파리협정에서 196개 국가가 21세기 말까지 지구 온난화를 유발하는 온실가스를 사용하지 않도록 노력하겠다는 사항에 동의했다. 이 협정은 재생에너지원을 통한 에너지 발전의 필요성을 강조하였고, 태양광, 풍력과 같은 변동성을 가지고 있는 발전시스템을 어떻게 관리하고 통합할 것인지에 대한 연구에 동기부여를 하는 계기가 되었다 ⁽¹⁾. 태양광에 초점을 맞추어보면, PV 가격의 하락으로 전력계통에서 태양광 에너지의 비율은 점점 증가해가고 있다 ⁽²⁾. 태양광 에너지는 재생에너지 기술 중 가장 빠르게 성장하는 에너지원이며, 미래 글로벌 에너지 믹스에서 중요한 역할을 할 준비가 되어있는 자원이다.

EA의 Renewable 2018에 따르면, 태양광은 2017년 세계 순 에너지 용량 증가에서 2/3보다 더 큰 비중을 차지하였다. 전 세계의 재생 가능한 에너지원의 용량은 2019년에서 2024년 사이 50%의 증가가 예상되며, 이 중 태양광의 비중은 약 60%를 차지할 것으로 예상되고 있다. 전력 계통에서의 태양광의 비중이 커지면 경제적으로 많은 이익을 가질 수 있으나, 동시에 간헐성, 변동성의 특징을 가진 태양광 에너지는 전력계통의 신뢰성 및 안정적인 운영 측면에서 어려움을 가져올 수 있다. 전력계통 운영자는 언제라도 전기 생산과 소비의 정확한 균형을 보장해야 하며, 이러한 불안정성을 가진 재생에너지원의 계통연계에 대비하기 위해 효과적인 예측 기법이 중요해졌다 ⁽²⁾.

태양광 에너지 출력 예측은 1) 전력계통의 효과적인 운영 2) 태양광에서 발생하는 에너지 변동성에 대한 최적의 관리 3) 예비력 산정 4) 전력 계통의 스케줄링 5) 혼잡 관리 6) 최적의 저장장치 관리 7) 전력 시장에서의 전력 거래 8) 전력 생산 비용의 감소의 효과가 있으며 정확한 예측은 계통 운영자가 발전량 예측의 불확실성 감소, 계통의 안정적인 운영에 기여할 뿐 아니라, 태양광 발전 운영자에게는 예측한 에너지와 생산된 에너지의 차이로부터 발생할 수 있는 페널티를 회피하게 하고 전력 소비자에게는 비용 절감의 이득을 줄 수 있다. ^(3-⁶⁾.

태양광 발전 예측은 크게 두 가지로 나눌 수 있다. 첫 번째는 물리적 모델과 결합된 구름이미지(cloud imagery combined with physical models)를 통한 예측 기법이며, 두 번째는 머신러닝(machine learning models)을 사용하는 예측기법이다.. 본 논문은 두 가지 방법 중 머신러닝의 기법에 초점을 맞추어 예측을 진행한다. 머신러닝을 이용한 태양광 출력 예측 기법은 많은 연구가 되어오고 있으며, 다양한 모델들이 사용되고 있다.

1.2 연구의 목적 및 방법

태양광 발전 출력 예측은 다양한 방법으로 수행할 수 있으며 머신러닝은 본 연구에서 중점적으로 연구할 출력 예측 기법이다. 다양한 태양광 발전 예측에 관한 머신러닝의 알고리즘이 제안되어오고 있고 주목할 만한 성과를 거두고 있다.

현재까지 제안되어 오고 있는 대표적인 머신러닝을 통한 태양광 출력 예측 기법들의 알고리즘은 다음과 같다. 먼저, 인공신경망(ANN)은 데이터 분석 및 예측에 유용하며 비선형 회귀 및 분류 문제에 점점 더 많이 사용되고 있다 ⁽⁷⁾.

K-Nearest Neighbor(K-NN)는 패턴 인식에 기반을 한 가장 단순한 머신러닝 알고리즘 중 하나이며, 현재 상태를 형상 공간의 훈련 세트와 비교한다 ⁽⁸⁾. 서포트 벡터 머신(SVM)은 비선형 문제를 해결하는 데 유용하다. SVM은 기법의 성능에 크게 영향을 미치는 세 가지 주요 매개변수를 가지고 있으며, 이들 매개변수는 예측 변수를 변환하는 데 사용되는 커널(kernel) 함수를 조절한다. SVM은 많은 연구를 통해 큰 잠재력을 보여주었다 ⁽⁹⁾. 그러나 데이터 세트의 샘플 수가 많아지면 계산 속도가 느려진다는 단점을 가지고 있다. 지난 10년간 neural network는 분류와 회귀 문제를 해결하는 데 큰 역할을 해왔다. 특히 Recurrent Neural Networks(RNN)는 비선형 관계의 강력한 매핑 능력뿐만 아니라 과거 시계열 데이터와 현재 출력 사이의 상관관계가 예측 결과에 미치는 영향도 고려한다. 이 기법은 부하, 태양광 발전, 풍력 예측에 널리 사용된다. ⁽¹⁰⁾ 최근 Extreme Gradient Boost (XGBoost), Light Gradient Boost Machine (LightGBM)이 많은 연구에서 사용되고 있으며, 이러한 기법들은 시계열 예측에 유용한 것으로 입증되었다. 특히 XGBoost는 높은 효율성과 유연성이라는 특징을 가지고 있으며, Guangye는 전력 부하 예측을 위한 XGBoost 모형을 구축하여 Random Forest, Bayesian 그리고 k-nearest neighbors 모델과 비교하여 속도와 예측 정확도 면에서 이점이 있다는 점을 보여주었다 ⁽¹¹⁾. LightGBM과 XGBoost는 최근 캐글(Kaggle) 플랫폼에서 좋은 성능을 보이며 주목을 받고 있으나 XGBoost와 LightGBM 모두 의사결정나무를 기반으로 하기 때문에 때때로 오버피팅(over-fitting)되는 경향이 있다.

예측의 정확도를 높이기 위해 다양한 머신러닝 기법을 이용해 앙상블 모델을 사용한 사례도 있다. YanwenXiao는 support vector machines (SVMs), k-nearest neighbor (kNN), random forests (RFs), decision trees (DTs) 그리고 gradient boosting decision trees (GBDTs)를 사용하여 암을 예측하는 앙상블 모델을 만들었다 ⁽¹²⁾. Jin Xiao는 neural networks, SVMs을 이용하여 에너지 소비를 예측하는 모형을 만들었으며, 시뮬레이션의 결과에서는 예측 정확도가 향상된 것을 볼 수 있었다 ⁽¹³⁾. 그러나 태양광 발전에서의 앙상블 모델 사용의 활용은 널리 활용되지 않았던 편이다. 본 논문에서는 예측 모형의 예측 정확도를 향상시키고 동시에 오버 피팅을 줄이는 방안으로 앙상블 학습자 기반 배깅(Bagging) 모델을 제안한다.

2. 본 론

2.1 머신러닝 (Machine Learning)

머신러닝은 컴퓨터 과학의 하위 분야로 인공지능 방식으로 분류된다. 머신러닝 모델은 입력과 출력의 관계에 대해서 표현이 불가능한 경우에도 입력과 출력의 관계를 찾을 수 있다는 장점이 있다. 또한, 이 특성은 패턴 인식, 분류 문제, 스팸 필터링, 데이터 마이닝 및 예측 문제 등 다양한 방면으로 사용될 수 있다.

머신러닝에는 지도 학습(Supervised Learning), 비지도 학습(Unsupervised Learning) 그리고 앙상블 모델(Ensemble Model) 크게 3가지 학습 방법이 있다. 지도 학습이란 컴퓨터에 입력과 원하는 출력이 주어지며, 이를 통해 출력에 입력을 대응(mapping)하여 규칙을 배우는 것이 목표이며, 훈련 데이터를 분석하고 추론된 함수(function)를 생성하는 것이 지도학습의 기능이다 ⁽¹⁴⁾. 이와 반대로 비지도 학습은 출력에 대한 지식 없이 이것의 입력에 숨겨진 구조를 찾는 것이며, 데이터를 사전 처리하는 데 사용되는 데이터 마이닝 기법을 기반으로 한다. 마지막으로, 앙상블 학습의 기본 개념은 여러 기본 학습자를 앙상블 학습자들(ensemble members)로서 훈련시키고, 이들을 평균적으로 더 좋은 성능을 가지는 하나의 결과로 합치는 것이다.

앙상블 기법은 주어진 자료를 이용하여 여러 개의 예측 모형을 먼저 만들고, 그 예측 모형들을 결합하여 최종적으로 하나의 예측 모형을 만드는 방법이다. 배깅(Bagging), 부스팅(Boosting), 랜덤 포레스트(Random Forest)가 가장 널리 사용되는 앙상블기법이며, 본 논문에서는 머신러닝의 앙상블 기법 중 배깅 기반의 예측 모형을 모델링하고 이를 통해 예측을 진행한다.

2.2 머신러닝의 앙상블 기법 (Ensemble model of Machine Learning)

2.2.1 의사결정나무 (Decision Tree)

의사결정나무란 변수들로 기준을 만들고 이것을 통하여 샘플을 분류하고 분류된 집단의 성질을 통하여 추정하는 모형이다. 해석력이 높고, 직관적이며 범용성이 있는 모델이지만 변동성이 높고 샘플에 민감할 수 있으며, 과적합(Over-fitting)을 야기한다 ⁽¹⁵⁾.

2.2.2 배깅 (Bagging)

배깅은 Boostrap Aggregating의 준말로 자료를 여러 개의 붓스트랩 자료로 생성하여 각각에 대한 예측모형을 생성한 후 조합하여 최종적으로 하나의 모형을 만드는 방법이다. 붓스트랩 자료란 주어진 자료를 이용하여 동일한 크기의 표본을 무작위로 복원추출한 자료를 말한다 ⁽¹⁶⁾.

배깅 모델은 통계 분류 및 회귀에 사용되는 머신러닝 알고리즘의 안정성과 정확성을 향상시키기 위해 고안된 머신러닝 앙상블 알고리즘이다. 배깅 모델은 또한 분산을 감소시키고 과 적합을 방지하는 데 도움을 주는 방법이다. 배깅 알고리즘을 정리하면 다음과 같다.

(1) B개의 부스트랩 자료 $\mathcal{L}^{*(b)},\: b=1....,\:B$를 만든다.

(2) 각 부스트랩 자료 $\mathcal{L}^{*(b)}$에 대해서 예측모형 $f^{(b)}(x)$를 구축한다.

(3) B개의 예측모형을 결합하여 최종 모형 $\hat f$을 만든다. 최종모형을 만드는 방법은

$\quad$ (a) 회귀모형인 경우 $\hat{f}=\sum_{b=1}^{B} f^{(b)}(x) / B$와 같이 평균을 취한다.

$\quad$ (b) 분류모형인 경우 $\hat{f}(x)=\operatorname{argmax}_{k}\left(\sum_{b=1}^{B} I\left(f^{(b)}(x)=k\right)\right)$와 같이 투표한다.

2.2.3 XGBoost (eXtreme Gradient Boosting)

XGBoost는 병렬처리와 최적화를 장점으로 내세우는 Gradient Boositng 알고리즘으로, 출시된 이래 Kaggle 등 각종 대회에서 좋은 성적을 보이며 많은 주목을 받는 방법이다. XGBoost는 CART (Classification And Regression Tree)를 기반으로 만들어진 알고리즘으로 의사결정나무 기반의 앙상블 모델이다. 앙상블 모델은 다수의 학습방법을 이용하여 결론을 내리는 방법으로, CART는 이 여러 가지 의사결정나무를 통한 방법론이다. CART의 원리는 Additive learning이라고 정의되며, 아래와 같은 수식으로 표현할 수 있다 ⁽¹⁷⁾.

$Y^{'}=a*tree A+b *tree B+c*tree C+\cdots ..$

Y′은 타겟(Y)에 대한 예측 값을, a,b,c,...는 각 트리 A,B,,C...에서 나온 가중치들을 말한다. 이 개념을 XGBoost의 Gradient Boositng Tree로 가져가면 아래와 같이 표현될 수 있다.

\begin{align*} y_{i}^{'}=\sum_{k=1}^{K}f_{k}(x_{i}),\: f_{k}\in F\\ obj=\sum_{i=1}^{n}l(y_{i},\:y_{i}^{'})+\sum_{k=1}^{K}\Omega(f_{k}) \end{align*}

$where \enspace y_{i}^{'}=\text{predict score corresponding}$

$f_{k}=\text{k th decision tree} \in \text{function space F,}$

$l = \text{loss function,}$

$Ω =\text{regularization tern}$

즉, 여러 개의 의사결정나무 모델들을 학습 시켜서 예측 값을 더한 것으로 결정한 다는 개념으로, 더해진 예측 점수들을 이용해 결론을 내림으로써 과적합이나 기존 모델이 잘 설명하지 못하는 취약 부분에 대해 보완을 할 수 있다.

2.3 태양광발전 출력 예측 모형 모델링

본 논문에서는 머신러닝 앙상블 기법 기반의 태양광발전 출력 예측 모형을 모델링한다. 제안된 모형은 그림 1과 같다.

일반적으로 배깅 모델은 모델을 훈련할 때 기본 학습자(base learner)로 의사결정나무(Decision Tree)를 사용한다. 그러나 본 논문에서 제안하는 예측 모형은 기본 학습자 자체를 단일 모델인 의사결정나무가 아닌 앙상블 모델을 사용함으로써 더욱 정확한 예측 모형을 만들고자 한다.

그림. 1. 제안된 모델의 알고리즘

Fig. 1. Proposed Model Algorithm

3. 예측 모형 모델링 과정

3.1 Data Set and Data Preprocessing

본 논문은 2017년 대한민국의 전라남도 지역에 있는 태양광 발전단지의 1시간 단위 데이터를 사용한다. 훈련 데이터(Train Data)와 테스트 데이터(Test Data)의 비율은 약 85 : 15이며, 테스트 데이터는 월별, 계절별 특성을 고려하여 임의 추출이 아닌 매월 27일부터 말일까지의 데이터로 지정했다.

3.2 Feature Engineering and Selection

예측에 사용되는 데이터는 태양광 발전 단지의 기온, 강수량, 습도, 일사량, 전운량과 실제 출력량을 가지고 있다. 먼저 기온, 강수량, 습도, 일사량, 전운량을 입력 변수인 피쳐(Feature)로 지정을 하고 출력을 예측하는 항목인 라벨(Label)로 지정한다. 다음은 전체 변수의 상관관계를 계산하기 위해 피어슨 상관계수(Pearson’s correlation coefficient)를 계산한다. 피어슨 상관계수의 식은 아래와 같으며 -1에서 1의 값을 가진다. 두 변수 간의 관련성이 얼마나 강한지를 나타내는 지표이다. 1에 가까울수록 양의 상관관계가 강하고, -1에 가까울수록 음의 상관관계가 강하며 0일 때는 관계가 없다 ⁽¹⁸⁾.

$r_{xy}=\dfrac{\sum_{i=1}^{n}(x-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum_{i=1}^{n}(x-\overline{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\overline{y})^{2}}},$

$\overline{x}$ 와 $\overline{y}$는 각각 $x$와 $y$의 평균

표 1. 입력변수와 출력 사이의 피어슨 상관계수

Table 1. Pearson Correlation Coefficient between features and label

Variables	Pearson Coefficient
Hour	0.16158
Temperature	0.22704
Humidity	-0.59957
Irradiation	0.96907
Precipitation	-0.06526
Total Cloud Amount	-0.06742

표 1을 통해, 출력에 영향을 미치는 순서는 일사량, 습도, 온도, 시간, 전운량, 강수량 순서이며, 전운량과 강수량의 영향은 미미한 것을 볼 수 있다.

3.3 Hyper-parameter optimization

본 논문에서는 XGBoost의 하이퍼 파라미터의 최적화를 위해 GridSearchCV를 사용했다. 정확한 예측 결과를 얻기 위해 하이퍼 파라미터 조합을 찾는 가장 단순한 방법은 수동으로 하이퍼 파라미터를 바꾸어 가며 결과를 확인하는 것이다. 이렇게 하게 될 경우 작업해야할 경우의 수가 매우 많으며 많은 시간이 소요될 수 있다. 이러한 작업 대신 하이퍼 파라미터 여러 개를 조합해 시험하고 최적의 조합을 찾는 작업을 Gridsearch라고 하며, 이는 각 파라미터에 몇 가지 값을 정해 두고 모든 조합을 시험해 가장 좋은 것을 찾는 방법이다. GridsearchCV는 Gridsearch와 교차검증(Cross Validation)을 함께 진행하는 방법으로 일반화 성능을 더 잘 평가하기 위해 훈련 세트와 검증 세트를 한 번만 나누지 않고, 교차 검증을 사용하는 것이며, 각 하이퍼 파리미터 조합의 성능을 평가하는 방법이다.

GridSearchCV를 통해 최적화를 진행한 주요 하이퍼 파라미터들은 표 2와 같으며 이 과정을 통해 결정된 최적의 하이퍼 파라미터들은 아래와 같다.

표 2. 하이퍼 파리미터의 종류와 최적화를 위한 후보

Table 2. Types of Hyperparameters and Candidates for Optimization

Hyper Parameters	Candidates
learning_rate	0.03, 0.05, 0.07, 0.1
max_depth	5, 6, 7, 8, 9, 10
min_child_weight	3, 4, 5
n_estimators	100, 300, 500

$\bullet$ Best Score : 0.9640917931185321

∙ colsample_bytree : 0.7

∙ learning_rate : 0.03

∙ max_depth : 5

∙ min_child_weight : 5

∙ n_estimators : 500

∙ nthread : 4

∙ silent : 1

∙ subsample : 0.7

4. 예측 모형 평가 및 결과

4.1 예측 정확도

본 논문에서는 모형의 효과를 검증하고 성능을 평가하기 위해 평균 제곱 오차(Mean Square Error)를 지표로 사용했다. 평균 제곱 오차란 잔차의 제곱에 대해 평균을 취한 값으로 개별 관측값들이 중심에서 얼마나 멀리 떨어져 있는지의 척도를 나타낸다. 값이 작을수록 추정의 정확성이 높아지며 평균 제곱 오차는 다음과 같이 표현될 수 있다.

$MSE=\dfrac{\sum_{i=1}^{n}(\hat y_{i}-y_{i})^{2}}{n}$

표 3. 예측 모델별 월별 MSE

Table 3. Monthly MSE by Forecasting Model

MSE	Decision Tree	Bagging_ DT	Bagging_ XGBoost	Bagging_ XGBoost_ Tunned
1	0.35363	0.15748	0.19875	0.16702
2	0.33367	0.05003	0.04068	0.08175
3	0.49305	0.24581	0.27282	0.25091
4	0.09211	0.05383	0.05666	0.07189
5	1.07976	0.27447	0.31588	0.28626
6	0.99909	0.58967	0.57466	0.52243
7	0.89326	0.53015	0.49265	0.46727
8	0.50610	0.48882	0.42020	0.46109
9	0.48949	0.10052	0.08065	0.10037
10	0.48820	0.14055	0.11159	0.14747
11	0.47160	0.33289	0.26388	0.25947
12	1.96342	1.47755	1.46960	1.43099

표 3과 그림 2는 예측 모델별, 월별 평균 제곱 오차를 보여주며, 그림 3는 10월의 모델 별 예측 값과 실제 출력 값을 보여준다. 비교를 위해 배깅 모델의 일반적인 기본 학습자인 Decision Tree, Decision Tree를 기본 학습자로 사용한 배깅 모델, XGBoost를 기본학습자로 사용한 배깅 모델, GridsearchCV를 이용해 하이퍼 파라미터를 최적화 시킨 XGBoost를 사용한 배깅 모델 총 4가지를 비교한 오차이다. 표 3으로부터 아래와 같은 결과를 볼 수 있다.

오차의 순위는 본 논문에서 제안한 하이퍼 파라미터를 최적화 시킨 XGBoost를 사용한 배깅 모델 (Bagging_XGBoost_Tunned)이 가장 낮았으며 다음으로 일반 XGBoost를 사용한 배깅 모델(Bagging_XGBoost), 의사결정나무를 사용한 배깅 모델(Bagging_DT), 단일 모델인 의사결정나무 모델(Decision Tree) 순이다.

달마다 정확도가 높은 모델이 다르나, 단일모델인 의사결정나무보다는 모든 앙상블 모델들의 오차가 아주 낮은 것을 볼 수 있다.

$\bullet$ Useful Hints

The text must include a citation of each figure and table.

Letters in the figure should be large enough to be

그림. 2. 예측 모델별 월별 MSE

Fig. 2. Monthly MSE by Forecasting Model

그림. 3. 10월의 태양광발전 출력 예측 결과

Fig. 3. Result of Solar Forecasting in Oct

표 4. 예측 모델별 평균 오차 순위

Table 4. Average Error of Each Forecasting Model

오차 순위	모델별 평균 오차
1	Bagging_XGBoost_Tunned (0.35391)
2	Bagging_XGBoost (0.35817)
3	Bagging_DT (0.37015)
4	Decision Tree (0.68028)

4.2 예측 모형 구축 시간

예측 모형 구축에 대해서 앙상블 모델 사용, 최적화 과정을 거치면서 모델의 훈련 시간, 예측 수행 시간에 대해서 차이가 발생하는 것을 볼 수 있었다. 단일 모델보다는 앙상블 모델이, 단일 모델을 기본학습자로 사용한 앙상블 모델보다는 기본학습자를 앙상블 모델로 사용한 모델이, 기본 하이퍼 파라미터를 사용한 앙상블 모델보다는 하이퍼 파리미터 최적화를 위해 GridsearchCV를 사용한 앙상블 모델로 갈수록 베이스 러너의 훈련 시간, 전체 모델을 훈련하는 데 걸리는 시간이 늘어나는 것을 볼 수 있다. 특히 GridsearchCV를 사용하여 하이퍼 파리미터를 최적화하는 경우, 경우의 수가 기하급수적으로 늘어나므로 이에 대한 모델의 훈련 시간 또한 엄청나게 증가하는 것을 확인 할 수 있다. 예측을 수행하는 하드웨어 모델에 따라 걸리는 시간 차이는 존재할 수 있으나, 수행 작업 증가에 따라 수행시간이 길어지는 부작용이 있다는 것을 볼 수 있다. 하지만 한 번 트레이닝 시킨 모델에 대해 예측 값을 만들어내는 데는 긴 시간이 걸리지 않았으며 한 번 예측 모형을 구축해놓는다면 이 부작용에 대해서는 큰 영향을 받지 않고 사용 가능하다고 생각한다.

표 5. 예측 모델 별 훈련 시간

Table 5. Time spent to train forecasting model

Forecasting Model	Time spent to train base learner (sec)	Time spent to train Bagging model (sec)	Total Time Spent (sec)
Decision Tree	0.036903	-	0.036903
Bagging_DT	0.036903	1.775254	2.144284
Bagging_XGBoost	0.545541	77.597542	78.143083
Bagging_XGBoost_Tuned	2586	55.186573	2641.186573

5. 결 론

온실가스 감축을 위해 에너지 믹스에서의 재생에너지 비율을 점점 커져갈 것이며, 대규모 재생에너지의 계통 연계에 대비하고 안정적인 계통 운영을 위해서는 재생에너지의 출력 예측이 중요하다. 정확한 재생에너지원의 발전 예측은 계통 운영자, 발전 설비 운영자에게 모두 안정적이고 효율적인 운영을 가능하게 하며 경제적 이득을 가져올 수 있다.

본 연구에서는 간헐성, 변동성을 가진 태양광 에너지의 출력 예측을 위한 머신러닝 기반의 예측 모형을 모델링 하였다. 대한민국의 전라남도 목포 지역의 태양광 발전단지의 2017년 1년 치 데이터를 이용하여 모형을 학습시키고 테스트하였다. 기존 배깅 모델과 다르게 기본 학습자를 의사결정나무 모델이 아닌 앙상블 모델인 XGBoost 모델을 이용하여 모형을 구축하였으며, GridsearchCV를 통해 하이퍼 파리미터 최적화를 진행하였다. 제안하는 예측 모형의 성능을 비교하기 위해 의사결정나무, 배겅모델, XGBoost를 기본 학습자로 사용한 배깅 모델을 비교군으로 두어 결과를 비교했다. 예측 결과는 제안하는 예측 모형인 하이퍼 파라미터를 최적화한 XGBoost를 사용한 배깅 모델, 기본 XGBoost를 사용한 배깅 모델, 일반 배깅 모델, 의사결정나무 모델 순으로 오차가 낮았으며, 단일 모델보다는 앙상블 모델이, 기본 하이퍼 파라미터보다는 최적화한 하이퍼 파라미터를 사용했을 때 더 좋은 결과를 얻을 수 있는 것을 볼 수 있었다. 비록 최적화 과정을 진행하면서 모델을 학습하는 시간이 비교군의 모델들보다 많이 걸렸으나, 학습 후 예측을 수행하는 과정에서는 비교군의 모델들과 수행시간에는 큰 차이가 없었다.

본 연구에서 제안하는 예측 모형을 통해 평균적인 오차를 낮출 수는 있었지만, 특정 달의 경우, 여전히 비교군 모델의 예측 정확도가 높은 달이 있었다. 모델 학습에 사용된 데이터가 1년 치다 보니 계절적 특성, 월별 특성을 잘 학습하지 못했을 수 있다고 생각하며, 향후 연구에서는 모델 학습을 위한 데이터의 양을 늘리고, 데이터 이상치를 제거하는 작업을 추가하여 더 높은 정확도를 낼 수 있는 모형을 구축하고 재생에너지원의 출력 예측이 계통에 어떤 영향을 미치는지 분석할 예정이다.

Acknowledgements

This work was supported by the Korea Institute of Energy Technology Evaluation and Planning (KETEP) and the Ministry of Trade, Industry & Energy (MOTIE) of the Republic of Korea (No. 20164030300230).

References

J. Antonanzas, N. Osorio, R. Escobar, R. Urraca, F. J. Martinez-de-Pison, F. Antonanzas-Torres, 2016, Review of Photovolt Power Forecast, Sol. Energy, Vol. 136, pp. 78-111

E. Lorenz, J. Remund, S. C. Müller, W. Traunmüller, G. Steinmaurer, D. Pozo, J. A. Ruiz-Arias, V. L. Fanego, L. Ramirez, M. G. Romeo, September 2009, Benchmarking of Different Approaches to Forecast Solar Irradiance, others. In Proceedings of the 24th European Photovoltaic Solar Energy Conference, Hamburg, Germany, pp. 21-25

Bella Espinar, Jos´e-Luis Aznarte, Robin Girard, Alfred Mbairadjim Moussa, Georges Karinio-takis, Apr 2010, Photovoltaic Forecasting: A state of the art, 5th European PV-Hybrid and Mini-GridConference, pp. 250-255

A. Moreno-Munoz, J. J. G. De la Rosa, R. Posadillo, F. Bellido , 11-16 May 2008, Very short term forecasting of solar radiation, In Proceedings of the 33rd IEEE Photovoltaic Specialists Conference 2008 PVSC 08, San Diego, CA , USA

Maïmouna Diagne Hadja, Lauret Philippe, May 2012, Solar irradiation forecasting: state-ofthe-art and proposition for future developments for small-scale insular grids, WREF 2012 - World Renewable Energy Forum

D. Heinemann, E. Lorenz, B. Lückehe, 1999, Short-term fore- casting of solar radiation: A statistical approach using satellite data, Sol. Energy, Vol. 67, pp. 139-150

S. Kalogirou, 2001, Artificial neural networks in renewable energy systems applications: A review, Renew. Sustain. Energy Rev, Vol. 5, pp. 373-401

T. C. Hugo, P. Carlos, F. M. Coimbra, July 2012, Assessment of Forecasting Techniques for Solar Power Production with no Exogenous Inputs, Solar Energy, Vol. 86, No. 7, pp. 2017-2028

G. Joao, F. da Silva , O. Jr. Takashi , T. Takumi, K. Gentarou, U. Yoshihisa, O. Kazuhiko, July 2011, Use of Support Vector Regression and Numerically Predicted Cloudiness to Forecast Power Output of a Photovoltaic Power Plant in Kitakyushu, Japan

L. I. Guangye, 2017, Short-term electricity load forecasting based on the xgboost algorithm, Smart Grid, Vol. 7, pp. 274-285

P. Li, J. -S. Zhang, 2018, A new hybrid method for China’s energy supply security forecasting based on arima and xgboost, Energies, Vol. 11, pp. 1687

Y. Xiao, J. Wu, Z. Lin, X. Zhao, 2018, A deep learning- based multi-model ensemble method for cancer prediction, Comput. Methods Programs Biomed, Vol. 153, pp. 1-9

J. Xiao, Y. Li, L. Xie, D. Liu, J. Huang, 2018, A hybrid model based on selective ensemble for energy consumption forecasting in China, Energy, Vol. 159, pp. 534-546

M. C. Torre, P. Poggi, A. Louche, 2001, Markovian model for studying wind speed time series in corsica, Int. J. Renew. Energy Eng, Vol. 3, pp. 311-319

JR QUINLAN, 1986, Induction of decision trees - Machine Learning (Theory)

L. Breiman, 1996, Bagging predictors, Mach. Learn, Vol. 24, pp. 123-140

Chen Tianqi, Guestrin Carlos, 10 Jun 2016, XGBoost: A Scalable Tree Boosting System

H. Zhou, Z. Deng, Y. Xia, M. Fu, 2016, A new sampling method in particle filter based on pearson correlation coefficient, Neurocomputing, Vol. 216, pp. 208-215

저자소개

Sunghyeon Choi

Sunghyeon Choi received his B.S. degree Electrical Engineering from Sangmyung Univer- sity, Seoul, Korea, in 2018.

Jin Hur

Jin Hur received his B.S., M.S. degrees in Electrical Engineering from Korea University, Seoul, Korea, in 1997 and 1999, respectively, and a Ph.D. degree in Electrical and Computer Engineering from the University of Texas at Austin in 2012.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

최적화 하이퍼 파라미터의 XGBoost 학습자 기반 배깅 모델을 활용한 태양광 출력 예측

Abstract

Key words

1. 서 론

1.1 연구의 배경

1.2 연구의 목적 및 방법

2. 본 론

2.1 머신러닝 (Machine Learning)

2.2 머신러닝의 앙상블 기법 (Ensemble model of Machine Learning)

2.2.1 의사결정나무 (Decision Tree)

2.2.2 배깅 (Bagging)

2.2.3 XGBoost (eXtreme Gradient Boosting)

2.3 태양광발전 출력 예측 모형 모델링

3. 예측 모형 모델링 과정

3.1 Data Set and Data Preprocessing

3.2 Feature Engineering and Selection

3.3 Hyper-parameter optimization

4. 예측 모형 평가 및 결과

4.1 예측 정확도

4.2 예측 모형 구축 시간

5. 결 론

Acknowledgements

References

저자소개

Sunghyeon Choi

Jin Hur

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

최적화 하이퍼 파라미터의 XGBoost 학습자 기반 배깅 모델을 활용한 태양광 출력 예측

Abstract

Key words

1. 서 론

1.1 연구의 배경

1.2 연구의 목적 및 방법

2. 본 론

2.1 머신러닝 (Machine Learning)

2.2 머신러닝의 앙상블 기법 (Ensemble model of Machine Learning)

2.2.1 의사결정나무 (Decision Tree)

2.2.2 배깅 (Bagging)

2.2.3 XGBoost (eXtreme Gradient Boosting)

2.3 태양광발전 출력 예측 모형 모델링

3. 예측 모형 모델링 과정

3.1 Data Set and Data Preprocessing

3.2 Feature Engineering and Selection

3.3 Hyper-parameter optimization

4. 예측 모형 평가 및 결과

4.1 예측 정확도

4.2 예측 모형 구축 시간

5. 결 론

Acknowledgements

References

저자소개

Sunghyeon Choi

Jin Hur

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers