Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Department of Electronics and Computer Engineering, Seokyeong University, Korea)



Easterly wind prediction, Precipitation classification, Deep learning, Long short-term memory, ERA5

1. 서 론

동풍은 지구 자전의 영향에 의한 일반적인 서풍과는 달리 낮은 발생 빈도를 가진다. 한국 동해안 지역은 태백산맥과 동해상의 발달된 저기압 및 백두산 부근의 고기압 등의 영향으로 인해 동풍이 발생 빈도가 높은 편이다 (1,2). 이러한 동풍 사례는 경우에 따라 호우, 대설 및 고온 현상을 발생시키므로, 자연 재해와 밀접한 매우 중요한 문제이다 (1-3). 또한 동해안 지역에 대한 동풍 사례의 70% 이상이 강수 현상에 집중되므로(1-2) 동풍 예측 및 동풍에 의한 강수 분류 예측은 관련성이 매우 높은 문제이다.

그러나 아직까지는 대부분의 기상학적 연구가 동풍의 예측보다는 사후 분석에 중점을 두고 있으며, 이를 통해 얻어진 지식을 예측에 부분적으로 활용하려는 시도가 일반적이다 (1,2). 데이터 기반 접근법의 효용성이 높아지면서, 수치모델에 의한 예측을 보완하려는 시도가 늘고 있다 (4-6).

그러나 동풍의 예보는 단순 지표면 뿐 아니라 고도 기압대를 포함하는 다수 연직층의 기상 인자들의 관계를 통합적으로 분석해야하기 때문에 매우 어려운 작업이다. 한반도 동해안 지역에서의 동풍 발생 여부를 DNN(Deep neural network)(7)과 CNN(Convolutional neural network)(8), 그리고 LSTM(Long Short-term Memory)(9)을 적용하여 비교한 연구가 시도되었으며, LSTM 기법이 다른 두 기법에 비해서 우수한 성능을 나타내고 있다 (5). LSTM은 자연어와 같은 순차적인 데이터 및 시계열 데이터의 처리에 강인한 모델로 연직 층에서 기상 인자의 상하 연관 특성을 반영하기에 적합하기 때문인 것으로 분석된다.

본 연구에서는 사전 연구(5,6)를 확장하여 기상 인자의 축소를 통한 연산의 효율화와 개선된 LSTM 구조를 제안하고, 이를 동풍 예측에 대한 확장된 실험과 동해안 지역의 강수 분류 실험에 적용한다. 동풍 예측은 2013~2017년 사이의 ERA5 (10) 데이터를 가지고 한반도 주변지역에 대해서 실험을 수행하고, 강수 분류는 동해안 지역의 강원도와 경상도 일부에 대해서 2008~2017년 기간의 ERA5 데이터로 실험을 수행한다.

2. 동풍과 강수 예측용 데이터 인자

동풍 데이터는 ECMWF (European Centre for Medium-Range Weather Forecasts)에서 제공하는 ERA5 데이터로부터 추출하여 사용하며, ERA5는 30km 간격의 격자점과, 0.01 hPa ~ 1650hPa 사이의 연직층 대기압 데이터로 구성된다. 전체 기압대에 걸쳐 연직층이 수십 개 존재하며, 각 기압대 층마다 또한 수십개의 인자가 포함된다. 전체 연직층 데이터는 방대한 규모의 인자수를 가지고 있기 때문에, 예측 모델의 구성에 큰 어려움이 있다. 따라서 본 연구에서는 37개의 연직층 중에서 기상 전문가에 의해 중요도에 따라 선별된 6개 층 및 동풍에 영향을 미치는 주요 6개 인자로 구성한다. 연직층 간의 인자 분포를 반영하기 위하여 그림 1과 같이 2차원 벡터로 단위 인자들을 구성한다. 300hPa는 대략 10Km 고도에, 그리고 925 hpa는 780m에 해당하며, 기압대의 수치가 높을수록 지표면에 가깝다. 표면층(surface)은 해수면을 나타낸다. 그림 2에는 각 인자들에 대한 설명이 나와있다.

그림 1 ERA5 용 2차원 인자 구성

Fig. 1 2 dimensional data structure for ERA5

../../Resources/kiee/KIEE.2020.69.9.1387/fig1.png

그림 2 ERA5 인자 설명

Fig. 2 Description of Elements for ERA5

../../Resources/kiee/KIEE.2020.69.9.1387/fig2.png

3. 딥러닝 기반 동풍 예측

3.1 LSTM(Long short-term memory)

LSTM은 순환신경망인 RNN(Recurrent Neural Network) (7)을 개선한 기법이다. RNN은 순차적인 정보를 처리하는데 적합하나 입력의 길이가 길어지면 앞의 데이터를 잊어버리는 단점이 있는데 비해, LSTM은 RNN의 은닉 상태 외에도 Cell state 를 추가하여 기억력을 증가 시킨다. 또한 Forget gate, Input gate, Output gate를 통해 기억과 망각 및 입출력 양을 조절할 수 있다.

3.2 LSTM 모델에서의 동풍 데이터 처리 과정

연직층의 층간 관계를 반영하기 위하여 LSTM의 입력 $x_{t}$에 6x6 2차원 데이터의 각 행을 순차적으로 입력한다. 전 단계 $t-1$에서의 LSTM Cell 출력($h_{t-1}$)과 결합되어 $t$시간의 LSTM Cell 내부의 연산을 통해 새로운 $h_{t}$가 출력된다. 이러한 과정이 그림 3에 나와있다. LSTM 내부의 $f_{t}$는 forget gate, $i_{t}$는 input gate, $g_{t}$는 memory cell, 그리고 $o_{t}$는 output gate를 나타낸다.

그림 3 동풍 데이터의 LSTM 처리 과정

Fig. 3 Processing of easterly wind data in LSTM

../../Resources/kiee/KIEE.2020.69.9.1387/fig3.png

3.3 개선된 LSTM 모델

기본 단위 입력 데이터는 기압대가 높은 층에서 낮은 층으로 배열되어 있다. 그러나 기류의 변화는 상승과 하강 방향 모두 발생할 수 있으므로, LSTM에서의 순차적인 데이터 처리가 이를 반영하기에는 제한이 있다. 이를 해결하기 위하여, 연직층 간의 양방향 인접관계를 반영할 수 있는 양방향 데이터 입력 방식을 제안한다 (그림 4의 좌측). 또한, 한 층의 LSTM으로는 많은 수의 내부 파라미터를 효율적으로 학습하기 어렵기 때문에, LSTM을 한층 더 연결하여 2단 구조로 설계함으로써, 예측 모델의 성능 향상을 시도한다. 그림 4의 우측에 2단으로 구성된 LSTM 구조가 상승과 하강 입력에 대해서 각각 존재한다.

그림 4에 나와 있는 전체 구성도를 보면, LSTM Cell의 입력으로 각 연직층의 인자가 순차적으로 처리되며, 각 연직층의 중요 정보를 추출 및 압축하여 일정 크기의 열벡터로 출력하고, 완전연결층을 통해 동풍 유무를 판별한다.

그림 4 동풍 예측 LSTM 모델 구성도

Fig. 4 Construction of LSTM base prediction model for easterly wind

../../Resources/kiee/KIEE.2020.69.9.1387/fig4.png

4. 딥러닝 기반 강수 분류

동해안 지역에서 동풍 사례의 상당수가 강수와 밀접한 관련을 가지고 있기 때문에, 동풍 예측의 확장으로 강수의 분류를 분석하는 것은 의미있는 작업이다. 즉, 동풍으로 분류된 기상 인자의 조합을 더욱 세분화하여 강수의 유형을 분류할 수 있도록 모델을 확장한다. 강수는 여름철 강우, 겨울철 강우, 일반 강설의 3 가지 경우로 구분한다. 강수 분류 모델은 동풍 예측 모델과 같은 구조를 사용하여 학습하며, 강수 유형 분류를 예측하기 위해 우측의 최종 출력단을 3개의 클래스로 구분한다. 그림 5에 강수 분류 모델의 구조가 나와 있다.

그림 5. LSTM 기반의 강수 유형 분류 모델

Fig. 5 LSTM based classification model for precipitation

../../Resources/kiee/KIEE.2020.69.9.1387/fig5.png

5. 실험 환경 및 결과

5.1 동풍 실험 환경

동풍 실험은 ECMWF 모델의 ERA5 데이터를 가지고 그림 6과 같이 한반도 주변지역을 대상으로 수행한다. 해당 영역내의 격자점 수는 2501(41x61)개이며, 각 격자점에 대해서 2013~ 2017년(5년치)의 데이터를 적용한다. 925hPa, 850hPa, 700hPa의 3가지 기압대에 대해서 동풍의 예측을 학습하고 평가한다. 6-UTC의 데이터를 이용하며, 이것은 6시간 이전 상태 데이터를 의미한다. 이를 통해서 현재 시점의 동풍을 예측한다.

그림 6 동풍 실험 대상 지역

Fig. 6 Region for experiments of easterly wind

../../Resources/kiee/KIEE.2020.69.9.1387/fig6.png

표 1은 학습과 검증, 평가에 사용된 데이터 수로서, 각각 4:1:1 비율로 구성하고, 동풍과 비동풍 비율은 1:2로 구성한다. 각 격자점 별 및 각 층별 동풍의 유무가 다르므로 표 1과 같이 각 층별 데이터의 수가 다르다. 또한 데이터를 구성하는 각 인자 간 스케일을 맞춰주기 위해, 이상치를 제외한 값들을 정규화하여 사용한다.

표 1 동풍 예측 실험에 사용된 데이터 수

Table 1 Number of data used for the experiments of easterly wind

학습

검증

평가

동풍

비동풍

동풍

비동풍

동풍

비동풍

925hPa

2,817,682

5,635,364

704,438

1,408,876

704,429

1,408,858

850hPa

1,959,279

3,918,558

489,834

979,668

489,823

979,646

700hPa

693,859

1,387,718

173,456

346,912

173,445

346,890

동풍 예측 실험에 사용된 LSTM 기법의 학습 파라미터는 표 2와 같다.

표 2 동풍 예측 실험 파라미터

Table 2 LSTM parameters of experiments for easterly wind

Learning rate

LSTM Cell

Epoch

Batch size

0.01

128

100

4096

5.2 동풍 실험 결과

925hPa, 850hPa, 700hPa의 3가지 기압대에 대해서 LSTM 학습을 통해 생성된 모델을 평가한 결과는 표 3과 같다. 925hPa, 850hPa, 700hPa 기압대의 동풍 예측 정확도(Accuracy)는 각각 93.13%, 96.28%, 96.23%로 우수한 성능을 나타낸다. 정밀도와 재현율에 대해서도 3가지 기압대 모두 평균 94% 대의 높은 성능을 보여준다. 정확도에서는 850hPa의 성능이 가장 우수하며, 정밀도(Precision)와 재현율(Recall) 성능은 700hPa에서 가장 우수하다. 지난 연구 (5)에 비해 실험 기간을 5년으로 2배 이상 늘렸고, 데이터 인자를 100여개에서 36개로 대폭 축소했음에도 불구하고, 약간의 차이는 있지만 90% 중반의 우수한 성능을 얻어서 축소된 동풍 인자와 개선된 LSTM 기법이 효율적임을 확인할 수 있다.

표 3 동풍 예측 실험 결과

Table 3 Experimental results for prediction of easterly wind

2013$\sim$2017년

925hPa

850hPa

700hPa

Accuracy

93.13%

96.28%

96.23%

Precision

91.62%

95.58%

97.22%

Recall

91.57%

95.51%

97.17%

5.3 강수 분류 실험 환경

강수 유형분류 실험 대상은 그림 7과 같이 동해안 지역이며, 강수 데이터를 확보할 수 있는 지점을 대상으로 한다. 해당 영역내의 격자점 수는 강원지역에 5개, 경상지역에 4개이다. 강수 사례가 적기 때문에 2008~2017년에 걸친 10년치의 데이터를 사용한다.

그림 7. 강수 실험 대상 지역

Fig. 7 Region for experiments of precipitation

../../Resources/kiee/KIEE.2020.69.9.1387/fig7.png

그림 8. 강수 유형 분류 모델의 18x18 인자 구조

Fig. 8 18x18 data structure of classification model for precipitation

../../Resources/kiee/KIEE.2020.69.9.1387/fig8.png

동풍 예측 모델과 같은 6x6 형태의 인자를 기본으로 주변 9개 격자점을 포함하여 인접한 지역의 인자들을 예측 모델의 입력에 포함한다. 재구성된 입력 인자들은 18x18 형태로 그림 8에 나와 있다. 강원지역과 경상지역에 대해서 동풍에 따라 발생하는 강수 유형을 학습하고 평가한다. 사용된 데이터 정보가 표 4에 나와 있다.

표 4 강수 유형 분류 모델에 사용된 데이터 수

Table 4 Number of data used for classification model for precipitation

강원지역

경상지역

학습

평가

학습

평가

여름철 강우

7,280

1,875

3,271

797

겨울철 강우

1,112

228

634

178

일반 강설

2,120

(1,239 + 881)

525

(325 + 200)

651

(469 + 182)

164

(111 + 53)

대설

강수 유형 분류 실험에 사용된 LSTM 기법의 파라미터는 표 5와 같으며, 동풍 실험과는 배치 크기만 200으로 축소되었다.

표 5 강수 유형 분류 실험에 사용된 파라미터

Table 5 Parameters used in the classification model for precipitation

Learning rate

LSTM Cell

Epoch

Batch size

0.001

128

100

200

5.4. 강수 분류 실험 결과

1) 강원지역 실험 결과

강원지역에 대한 강수 분류 결과를 표 6과 같이 혼동행렬(Confusion Matrix)로 표현한다. 강수의 종류에 따라 데이터의 불균형이 매우 크게 나타나고 있다.

표 6. 강원지역 강수 유형분류 사례의 혼동 행렬

Table 6 Confusion matrix for precipitation classification in Kangwon area

Confusion Matrix

Predicted

여름철 강우

겨울철 강우

일반 강설

+ 대설

Ground

Truth

여름철 강우

1,860

10

5

겨울철 강우

2

195

31

일반 강설

+ 대설

8

25

489

강원지역 강수 유형분류 모델에 사용되는 여름철 강수 1,875개의 사례 중, 실제 여름철 강우로 예측한 사례가 1,860건, 여름철 강수 사례를 겨울철 강우로 예측한 사례가 10건이었으며, 5건은 강설 사례로 예측하였다. 이를 토대로 평가 지표를 계산한 결과, 강원지역 강수 유형 분류 예측에 관한 모델의 평균 정확도는 96.80%, 정밀도에서는 92.62%, 재현율에서는 92.10%의 우수한 성능을 보인다. 구체적인 수치 결과는 표 7에 정리되어 있다.

표 7. 강원지역 강수 유형분류 모델 성능 결과

Table 7 Performance results for precipitation classification in Kangwon area

-06UTC(2008~2017년)

Label

Precision

Recall

Accuracy

여름철 강우

99.20%

99.46%

96.80%

겨울철 강우

85.52%

83.69%

일반 강설

+ 대설

93.14%

93.14%

평 균

92.62%

92.10%

2) 경상지역 강수 분류 실험 결과

경상지역에 대한 혼동행렬이 표 8에 나와 있다. 여름철 강수 797개의 사례 중, 실제 여름철 강우로 예측한 사례가 789건, 겨울철 강우로 예측한 사례가 8건이며, 강설로 예측한 사례는 없다. 강원지역에 비해서 강수 사례가 거의 절반에도 못 미침을 알 수 있다. 경상지역 강수 유형 분류 모델의 평균 정확도는 97.19%, 정밀도에서는 94.90%, 재현율에서는 94.91%로 강원지역과 유사하게 우수한 성능을 나타낸다(표 9).

표 8. 경상지역 강수 유형분류 사례의 혼동 행렬

Table 8 Confusion matrix for precipitation classification in Kyoungsang area

Confusion Matrix

Predicted

여름철 강우

겨울철 강우

일반 강설

+ 대설

Ground

Truth

여름철 강우

789

8

0

겨울철 강우

4

171

3

일반 강설

+ 대설

0

17

147

표 9. 경상지역 강수 유형분류 모델 성능 결과

Table 9 Performance results for precipitation classification in Kyoungsang area

-06UTC(2008~2017년)

사례

(Label)

정밀도

(Precision)

재현율

(Recall)

정확도

(Accuracy)

여름철 강우

98.99%

99.49%

97.19%

겨울철 강우

96.06%

87.24%

일반 강설

+ 대설

89.63%

98.00%

평 균

94.90%

94.91%

6. 결 론

한반도 동해안 지역의 동풍 예측과 강수 유형 분류에 대해서 LSTM 기반의 딥러닝 모델을 구성하고 ERA5 데이터를 사용하여 실험을 수행하였다. 동풍에 관련된 기상 인자의 축소와 개선된 LSTM 구조를 제안하였다. 2013~2017년에 걸친5년간의 데이터에 대한 동풍 예측실험과 2008~2017년의 10년 기간에 대한 강수 분류 실험 결과, 우수하고 안정적인 성능 결과를 얻었다. 이를 통해 지금까지 거의 연구되지 않았던 한반도 동해안 지역의 동풍과 강수에 대한 데이터 기반의 예측 가능성을 보여주는 의의가 있다. 향후, 데이터 인자의 구성에 따른 영향을 체계적으로 분석하고, 이를 최적화하는 연구가 필요할 것으로 사료된다.

References

1 
Sun-Gi Lee, 2005, A Case Study on the Easterly Wind Characteristics around Gangneung City, Journal of Atmosphere, Vol. 15, No. 4, pp. 191-202Google Search
2 
. G. Lee, J. S. Lee, 2003, A Numerical Study of Yeongdong Heavy Snowfall Events Associated with Easterly, Asia- Pacific Journal of Atmospheric Sciences, Vol. 39, No. 4, pp. 475-490Google Search
3 
Ziqi Cao, 2015, Interannual increase of regional haze-fog in North China Plain in summer by intensified easterly winds and orographic forcing, Atmospheric Environment, Vol. 122, pp. 154-162DOI
4 
K. Kim, K. Seo, 2018, Deep Learning Based Prediction for Easterly Wind, in Proceedings of Information and Control Symposium CICS’2018, pp. 55-56Google Search
5 
K. Kim, K. Seo, 2019, Deep Learning Based Prediction Model for Easterly Wind, Transactions of the Korean Institute of Electrical Engineers, Vol. 68, No. 12, pp. 1607-1611Google Search
6 
K. Kim, K. Seo, 2019, Long Short-Term Memory Based Prediction for Easterly Wind, in Proceedings of Information and Control Symposium ICS’2019, pp. 21-22Google Search
7 
Y. LeCun, Y. Bengio, G. Hinton, 2015, Deep learning, Nature, Vol. 521, pp. 436-444DOI
8 
A. Krizhevsky, I. Sutskever, G. Hinton, 2012, ImageNet classification with deep convolutional neural networks, in NIPSGoogle Search
9 
S. Hochreiter, J. Schmidhuber, 1997, Long short-term memory, Neural Computation, Vol. 9, No. 8, pp. 1735-1780DOI
10 
ECMWF ERA5, https://www.ecmwf.int/en/forecasts/datasets/reanalysis-datasets/era5Google Search

저자소개

정광희 (Kwanghee Jeong)
../../Resources/kiee/KIEE.2020.69.9.1387/au1.png

H2017년 서경대학교 전자공학과 졸업(학사).

2021년 서경대학교 대학원 전자컴퓨터공학과 졸업예정(석사).

관심분야: 진화연산, 머신비전, 딥러닝.

이성준 (Sungjun Lee)
../../Resources/kiee/KIEE.2020.69.9.1387/au2.png

2019년 서경대학교 전자공학과 졸업(학사).

2021년 서경대학교 대학원 전자컴퓨터공학과 졸업예정(석사).

관심분야: 진화연산, 컴퓨터비전, 딥러닝.

서기성 (Kisung Seo)
../../Resources/kiee/KIEE.2020.69.9.1387/au3.png

1986년 연세대학교 전기공학과 졸업(공학사).

1988년 연세대학교 대학원 전기공학과 졸업(석사).

1993년 연세대학교 대학원 전기공학과 졸업(박사).

1999~2003년 Michigan State University, Genetic Algorithms Research and Applications Group, Research Associate, 2002~2003년 Michigan State University, Electrical & Computer Engineering, Visiting Assistant Professor.

2011~2012년 Michigan State University, BEACON (Bio/computational Evolution in Action CONsortium) Center, Visiting Scholar.

1993년~현재 서경대학교 전자공학과 교수.

관심분야: 진화연산, 딥러닝, 머신비전, 기상예측, 지능로봇