Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Dept. of Electrical Eng., Myongji University, Korea)
  2. (Dept. of Electrical Eng., Myongji University, Korea)



Power system, Measurement noise, Disturbance observer, Deep Q-Network, Swing equation, Line fault detection

1. 서 론

전력시스템은 비선형 동역학으로 이루어져있으며, 태풍, 호우, 낙뢰 등의 자연재해나 시스템 고장 등에 매우 취약할 수 있다. 3상 단락 고장과 같은 선로 고장이 발생하면 선로의 리액턴스의 변화를 가져와 계통을 불안정하게 만들 수 있으며 심한 경우에는 넓은 지역에 정전을 일으킬 수 있다. 따라서 전력시스템의 고장을 신속하게 판단하고 보호하는 것은 매우 중요하고 선로 고장을 판단하기 위한 다양한 연구가 진행되고 있다 (1-10).

전력시스템의 전기・기계적인 진동은 동기발전기의 기계적인 입력과 전기적인 출력 사이의 불균형에 의해서 발생하고 심한 경우에는 동기 탈조라고 하는 문제를 야기할 수 있다. 전력시스템의 안정도 해석은 동기발전기의 동기화여부를 파악하는 것으로 비선형 동요방정식의 해를 구함으로써 해석이 가능하고, 사고에 따른 고장 선로 차단 이후에 계통이 새로운 평형점으로 수렴할 것인지 혹은 전력 동요 이후에 동기 탈조로 이어질 것인지를 판단할 수 있다 (1-4,10).

논문 (11)에서는 시스템의 불확실성에 대한 강인성 향상 기법으로 많이 사용되는 외란 관측기(DOB; Disturbance Observer) (12)를 활용하여 계통의 선로 고장 감지 문제를 다루었다. 주파수 60[Hz]인 계통 전압의 5주기 이내로 고장을 판단하기 위해 고이득(high gain) PI 관측기를 고안했지만, 출력에 측정 잡음이 존재할 경우 관측기가 잡음이 포함된 상태를 추정하여 관측 오차가 증가하는 문제가 발생할 수 있다 (13).

본 논문은 인공지능을 이용하여 외란과 측정 잡음이 모두 존재하는 1기 무한모선 시스템에서 강인하게 선로 고장 판별을 하기 위한 목적으로 강화학습 기반 외란 관측기를 제안한다. 강화학습의 보상에 따른 학습 알고리즘을 통해 최적 개념을 갖는 관측 이득을 결정하기 위한 방법으로, 잘 알려진 강화학습 알고리즘인 Deep Q-Network(DQN)을 이용하였다. 이전 결과로 논문 (14)에서는 잡음을 고려하지 않은 환경에서 3개의 Deep Q-Network를 사용하여 외란 관측기를 설계하였다. 이때 확장된 network 사용으로 요구하는 data의 양이 많아져 컴퓨팅에 부담을 줄 수 있으며 학습 파라미터 설계 시에 측정 잡음을 고려하지 않기 때문에 측정 잡음이 존재하는 환경에서 외란 관측기의 강인한 상태 추정을 보장할 수 없다.

본 논문에서는 network를 하나만 구성하여 학습을 진행하였으며, 측정 잡음에 강인하도록 시스템에 적응적으로 관측기 이득을 선택하는 Deep Q-Network 기반 외란 관측기를 설계하였다. 또한 적절한 관측 이득을 사용한 학습을 통한 설계 방법으로 신속한 고장 판단이 가능하도록 하였다. 학습과 모의실험에는 각각 Python과 Matlab을 이용하였다.

본 논문의 구성은 다음과 같다. 2.1절에서 1기 무한모선 계통 모델과 외란을 정의하고, 2.2절에서는 Deep Q-Network에 대해서 소개하고, 2.3절에서는 Deep Q-Network 기반 외란 관측기를 설계한다. 2.4절에서는 학습을 위한 상태(state), 행동(action), 보상(reward)을 1기 무한모선 시스템에 대해서 정의한다. 2.5절에서는 동요방정식의 상태 data로부터 Deep Q-Network 학습을 진행하고 학습된 network로부터 설계된 관측기가 측정 잡음에 강인하게 고장 판별이 가능함을 모의실험을 통해 확인한다. 마지막으로 결론에서 논문의 끝을 맺는다.

2. 본 론

2.1 시스템 모델 및 외란 정의

본 논문에서는 그림 1과 같은 1기 무한모선 시스템(Single Machine Infinite Bus System, SMIB)을 고려한다. 무한모선에서의 전압의 크기는 일정하며 위상은 0이고 언제나 충분한 양의 발전량과 부하량을 가진다 (3).

그림. 1. 1기 무한모선 시스템

Fig. 1. Single Machine Infinite Bus System

../../Resources/kiee/KIEE.2020.69.7.1095/fig1.png

전력시스템의 동기 탈조 해석은 외란에 대한 동기발전기의 동기화 여부를 파악하는 것으로 2계 미분방정식인 동요방정식을 통해 해석이 가능하다. 고장으로 인한 과도현상 이후 계통의 상태가 새로운 평형점으로 수렴하는 과정을 표현하기 위한 동요방정식을 상태 공간 방정식으로 나타내면 아래 식과 같다 (1).

(1)
\begin{align*} \dot\delta =\omega_{\triangle},\:\\ \dot\omega_{\triangle}=\dfrac{\pi f_{0}}{H}(P_{m}-P_{e}(\delta)+P_{d}-\dfrac{D}{\omega_{0}}\omega_{\triangle}). \end{align*}

위 식에서 $\delta$는 전력각, $\omega_{\triangle}$은 동기 주파수에 대한 각주파수 편차, $H$는 단위 관성 계수, $f_{0}$와 $\omega_{0}$는 각각 동기 주파수와 동기 각주파수, $P_{m}$은 발전기에 인가되는 기계적 입력, $P_{e}$는 발전기의 전기적 출력, $P_{d}$는 고장 발생으로 인한 추가적인 외란이고 $D$는 댐핑 계수로 일반적으로 0 ~ 2 [${pu}$] 범위의 값을 가진다. 식(1)에서 발전기의 전기적 출력 $P_{e}$는 식(2)와 같다 (2).

(2)
$P_{e}(\delta)=\dfrac{| E | | V |}{X}\sin(\delta)=: P_{\max}\sin(\delta).$

위 식에서 $X$는 발전기와 무한모선 사이의 리액턴스, $E$는 발전기 유기기전력, $V$는 무한모선 전압이다. 선로에 고장이 발생하기 전에는 발전기의 기계적 출력과 전기적 출력이 평형을 이루고 있다.

선로에 고장이 발생하면 발전기와 무한모선 사이의 리액턴스 $X$가 변하게 되고 그 값은 고장 발생 위치에 따라서 달라진다. 발전 모선에서 고장 지점까지의 거리 비율을 $\lambda$($0\le\lambda\le 1$)라고 할 때, 3상 단락 고장 후의 리액턴스 값 $X_{post}$를 아래와 같이 쓸 수 있다 (1).

(3)
$X_{post}= X_{s}+X_{L1}+ X_{s}X_{L1}/(\lambda X_{L2}).$

위 식에서 $X_{s}$는 변압기 및 발전기 $d$축 과도 리액턴스이고 $X_{L1}$과 $X_{L2}$는 각각 건전선로 및 고장선로의 리액턴스이다. 고장 전후의 발전기 유기기전력 $E$와 무한모선 전압 $V$가 동일하다고 한다면 상수 $d$에 대해서 외란 $P_{d}$를 아래와 같이 정의할 수 있다.

(4)
$P_{d}= d\sin(\delta).$

본 논문에서는 고장으로 인한 $P_{\max}$의 변화량을 외란의 크기 $d$로 가정하고 외란 관측기를 통해 이를 추정한다. 고장 전의 리액턴스를 $X_{pre}$라고 한다면 $P_{\max}$의 변화량 $d$는 아래와 같다.

(5)
$d =\dfrac{| E | | V |}{X_{pre}}-\dfrac{| E | | V |}{X_{post}}$

2.2 Deep Q-Network(DQN)

강화학습 알고리즘 중 하나인 Deep Q-Network는 주어진 환경에서 현재 상태(state)와 행동(action)을 입력으로 주면 다음 행동에 대한 기댓값을 출력해주는 $Q$ 함수를 학습시켜 최대의 보상(reward)을 받거나 최소의 벌칙을 받도록 에이전트의 행동을 결정하는 알고리즘이다 (15).

DQN에서 입력은 현재 상태이고 출력은 현재 상태에서 취할 수 있는 다음 행동에 대한 기댓값들이다. Deep neural network의 학습은 아래의 식과 같은 비용함수를 최소화 하는 방향으로 진행된다 (18).

(6)
$(r+\gamma\begin{aligned}\max \\^{a'}\end{aligned}Q(s',\: a'|\bar{\theta})-Q(s,\: a |\theta))^{2}.$

식(6)에서 $s$와 $s'$은 각각 현재 상태와 다음 상태, $a$와 $a'$은 각각 현재 행동과 다음 상태에서 취할 수 있는 행동, $r$은 현재 행동으로 인해 받은 보상이다. $\gamma$는 감가율(discount factor)이며 이를 통해 보상에 가중치를 부여할 수 있고 감가율이 0에 가깝다면 지금 당장의 보상만 고려한다는 의미이며, 감가율이 1에 가깝다면 먼 미래의 보상까지 고려한다는 의미이다. $\theta$와 $\bar{\theta}$는 가중치로 이루어진 함수이고 각각 main network와 target network에 포함된다. 학습에 의해 가중치가 즉시 update되기 때문에 발생하는 Non-stationary targets 문제를 독립적인 target network를 만들어 해결하였다 (19).

한편, 강화학습에서의 학습 데이터는 시간의 흐름에 따라 순차적으로 수집되며, 순차적인 데이터는 근접한 것들끼리 높은 연관성(correlation)을 가지게 된다. 이를 Correlation between samples 문제라고 하며, 선형 회귀(linear regression) 시에 그림 2의 (b)와 같이 network의 학습이 다른 방향으로 진행되는 문제를 야기할 수 있다.

그림. 2. 선형 회귀

Fig. 2. Linear regression

../../Resources/kiee/KIEE.2020.69.7.1095/fig2.png

이러한 문제를 완화시키기 위해서 Google의 Deep Mind Team이 발표한 replay memory 기법을 이용하였으며, 각 시간 step별로 얻은 data samples를 식(7)과 같이 tuple 형태로 data set에 저장하게 된다. 이때, data set을 메모리에 무한히 저장할 수 없기 때문에 메모리 크기를 고정하고 FIFO(first in first out) 방식으로 저장한다.

(7)
$D_{train}={r}{and}([s_{t},\: a_{t},\: r_{t},\: s_{t+1}]).$

위 식에서 $D_{train}$은 식(6)에 사용할 data set이며, 임의의 set을 선택하여 network를 학습 시킨다. 이 방법을 이용하면 그림 2의 (c)와 같이 임의의 sampling을 통해 minibatch를 구성하여 데이터 사이의 연관성을 크게 줄일 수 있다 (19).

DNN을 통해 구한 기댓값 $Q$를 이용하여 최적의 행동을 선택하는 정책(policy) $\pi(s)$는 식(8)과 같다. 이때, 지역 최적값에 빠져 전역 최적값을 찾을 수 없을 확률이 커지는 문제를 해결하기 위해서 엡실론 탐욕($\epsilon$-greedy) 정책을 추가로 사용한다 (15).

(8)
$\pi(s)=\begin{cases} \begin{aligned}\arg\max Q(s,\: a){for}\epsilon\le N \\^{a}\end{aligned}&\\ {r}{and}(a){for}\epsilon > N .& \end{cases}$

위 식으로부터 도출되는 결과 값은 양의 정수이며 선택 가능한 행동들에 대응된다. $N$은 일정한 값을 가지는 상수이고, $\epsilon$은 학습이 진행됨에 따라서 점점 작아지는 변수이다. 즉, 학습 초기에는 무작위한 행동을 취함으로써 다양한 경험을 주어 전역 최적값을 찾는 학습이 가능하도록 한다 (15).

최종적으로 DQN의 학습과 최적의 행동을 선택하는 과정을 흐름도로 정리하면 그림 3과 같다.

그림. 3. Deep Q-Network 흐름도

Fig. 3. Deep Q-Network flowchart

../../Resources/kiee/KIEE.2020.69.7.1095/fig3.png

2.3 DQN 기반 외란 관측기 설계

동요방정식으로 표현된 1기 무한모선 시스템과 외란 관측기는 그림 3의 Environment에 해당하며 외란의 크기 $d$를 추정하는 DQN 외란 관측기는 아래와 같이 설계할 수 있다. 이때 전력각 $\delta$는 측정이 가능하다고 가정한다 (8).

(9)
$$\begin{array}{l} \dot{\delta}=\hat{\omega}_{\Delta}+l_{a 1}(\bar{\delta}-\hat{\delta}) \\ \dot{\hat{\omega}}_{\Delta}=\frac{\pi f_{0}}{H}\left(P_{m}-\left(P_{\max }-\hat{d}\right) \sin (\delta)-\frac{D}{\omega_{0}} \hat{\omega}_{\Delta}\right)+l_{a 2}(\bar{\delta}-\hat{\delta}) \\ \dot{\hat{d}}=l_{a 3}(\bar{\delta}-\hat{\delta}) \end{array}$$

위 식에서 $\hat\delta$, $\hat\omega_{\triangle}$, $\hat d$은 각각 동요방정식의 상태 및 외란 추정값이고 $\bar{\delta}$는 측정 잡음을 포함한 전력각이다. $l_{a1}$, $l_{a2}$, $l_{a3}$는 관측기 이득으로 식(8)에 의해 결정된 값에 따라서 선택되는 일련의 행동이다.

시스템에 외란이 인가될 때 관측기 이득이 충분히 크다면 관측기는 외란에 강인하게 상태를 추정할 수 있다 (11,12). 하지만 출력에 측정 잡음이 존재할 경우, 관측기 이득을 크게 설계한다면 관측기는 측정 잡음이 포함된 상태를 추정하기 때문에 실제 상태와의 오차를 증가시키는 문제를 가진다 (13).

2.4 상태, 행동, 보상 정의

본 절에서는 1기 무한모선 시스템에 대해서 DQN 기반 외란 관측기를 설계할 때, 학습에 필요한 data set을 모으기 위한 상태(state), 행동(action), 보상(reward)을 정의한다. 본 논문의 DQN에서 상태 $s$를 아래와 같이 정의한다.

(10)
$$s=|\bar{\delta}-\hat{\delta}|$$

다음으로 Environment를 변화시킬 행동을 정의한다. 앞에서 언급한 바와 같이 시스템에 외란이 인가될 때, 상태 추정 성능을 높이기 위해서는 관측기 이득이 커야하지만 출력에 측정 잡음이 존재할 경우, 관측 오차를 증가시키는 문제를 가진다. 따라서 외란과 측정 잡음에 모두 강인한 관측기 설계를 위해서는 상황에 맞는 관측기 이득 선택이 중요하며, 본 논문에서는 선택 가능한 행동 집합 $A$를 아래와 같이 추정 속도에 따라 미리 설계된 관측기 이득으로 결정한다.

(11)
$A =[L_{pole_{1}}L_{pole_{2}}... L_{pole_{p}}].$

위 식에서 $L_{pole_{p}}$는 관측 오차 시스템의 극점을 $s= -p$ 삼중근이 되도록 했을 때의 관측 이득 행렬이다.

마지막으로 상태에 따른 행동을 평가할 보상을 정의한다. $\bar{\delta}$가 측정 잡음을 포함한 전력각이고 실험을 통해 측정 잡음의 최대 크기를 알고 있다고 할 때, 노이즈 레벨 상수 $\nu$를 아래와 같이 정의할 수 있다.

(12)
$\nu =\max(|\bar{\delta}-\hat{\delta}|).$

이때 관측 오차 $|\bar{\delta}-\hat{\delta}|$가 노이즈 레벨 상수 $\nu$보다 작으면 관측기 이득은 작아져야하고 반대일 경우 관측기 이득이 커져야 한다는 것을 생각할 수 있다. 이와 같은 정책에 따라 본 논문에서는 적절한 조건문을 활용하여 강화학습을 위한 보상을 설계한다. 보상은 현재 행동에 대해 Environment로부터 좋고 나쁨의 평가를 수치적으로 나타내기 위한 것으로, 현재 상태와 다음 상태 그리고 노이즈 레벨 상수 $\nu$의 크기 관계에 따라서 보상을 나누어 설계한다.

보상 정책에 따라 본 논문에서는 $r_{1}$을 통해서 현재 관측 오차가 $\nu$보다 클 때 상대적으로 큰 관측기 이득을 선택하도록 하였으며, 반대의 경우에는 작은 관측기 이득을 선택하도록 하였다. $r_{2}$를 통해서 현재 행동에 따른 다음 관측 오차가 여전히 $\nu$보다 클 때 큰 관측기 이득을 선택하도록 하였으며, 반대의 경우에는 여전히 작은 관측기 이득을 선택하도록 하였다. 이때 가중치를 부여하여 보상 값을 조정하였다.

예를 들어, 세 가지 행동에 대해 이를 수식적으로 표현하면 아래와 같으며 최종적으로 받게 될 보상은 $r_{1}$과 $r_{2}$를 더하여 음의 부호를 취한 값이다.

(13a)
$r_{1}=\begin{cases} \dfrac{\xi_{1}}{T_{1}(\mu)}&{for}s\ge\nu \\ \dfrac{\xi_{2}}{T_{2}(\mu)}·\alpha &{for}s <\nu . \end{cases}$

(13b)
$r_{2}=\begin{cases} \dfrac{\xi_{3}}{T_{3}(\mu)}&{for}s'\ge\nu \\ \dfrac{\xi_{4}}{T_{4}(\mu)}·\beta &{for}s'<\nu . \end{cases}$

(13c)
$r = -(r_{1}+ r_{2}).$

위 식에서 $\mu$는 식(8)로부터 도출된 양의 정수값 $a$이고 $T_{n}(\mu)$($n=1,\:2,\:3,\:4$)은 스칼라 값으로 $T_{n}$의 $\mu$번째 값을 나타내며 설계자가 결정한다. $\xi_{1}$, $\xi_{2}$, $\xi_{3}$, $\xi_{4}$ 또한 설계자가 결정한 상수 값이며, 보상 $r_{1}$과 $r_{2}$에 가중치를 부여하기 위한 상수 $\alpha$와 $\beta$를 이용하였다. 변수 값들을 정하기 위한 방법은 다음 절에서 실험을 통해 추가 설명한다.

결과적으로 선택된 행동에 대해서 식(13)과 같이 보상을 설계할 수 있으며, 설계자가 원하는 학습 결과를 내기 위해서는 적절한 보상 정책에 따른 보상 설계가 중요하다.

다음 절에서는 현재 상태와 다음 상태를 기준으로 모의실험에서 사용할 보상을 정의하고 DQN 기반 외란 관측기의 성능 확인을 위한 모의실험을 진행한다.

2.5 모의실험

본 절에서는 표 1의 파라미터를 가진 1기 무한모선 시스템에 대해 설계한 관측기의 외란 추정 성능을 모의한다. 발전 모선에서 고장 지점까지의 거리 비율($\lambda$)은 50[$\%$]이고 1.027초에 3상 단락 고장이 발생하고 고장 발생 약 0.39초 안에 차단기가 정상 동작한 상황을 고려한다. 이때 외란 $d$의 크기는 1.15[${pu}$]이고 시스템의 초기 상태는 $[0.46055 \quad 0]^{T}$이다.

표 1. 1기 무한모선 시스템 모의실험 파라미터

Table 1. Simulation Parameters of SMIB System

$P_{\max}$

$1.8[{pu}]$

$| V |$

$1[{pu}]$

$P_{m}$

$0.8[{pu}]$

$\omega_{0}$

$120\pi[{rad}/\sec]$

$D$

$12.5$

$f_{0}$

$60[{Hz}]$

$H$

$5[{MJ}/{MVA}]$

$X_{s}$

$j0.5[{ohm}]$

$| E |$

$1.17[{pu}]$

$X_{L1},\: X_{L2}$

$j0.3[{ohm}]$

측정 잡음은 정규 분포를 가지는 가우시안 노이즈이며, 노이즈 레벨 상수 $\nu$의 값은 $3.8e-3$이다. DQN의 학습을 진행하기 위한 선택 가능한 행동 집합($A$)를 아래와 같이 정의하였다. 이때 고장으로 인한 외란이 시스템에 인가되었을 때, 외란의 추정치가 계통 주파수인 60[Hz]의 4 사이클 이내로 실제 외란에 수렴할 수 있도록 관측기의 최고 이득을 정했으며, 측정 잡음에 의한 관측 오차 증가의 영향을 최소화하기 위한 관측기의 최소 이득을 정하였다.

(14)
$A =[L_{pole_{10}} \quad L_{pole_{30}} \quad L_{pole_{120}}].$

보상은 식(13)을 이용하였으며, 각 변수들은 보상 정책에 의해서 실험적으로 정해진 값이다. 선택된 행동에 대해 최종적으로 음의 값으로 정했으며, 학습에 의해 보상이 최대가 되도록, 즉, 관측기 추정 오차가 최소가 되는 방향으로 보상에 사용한 파라미터를 조정하였다. 이때, $\mu$는 1과 3사이의 정수 값이고 $\mu$에 따른 스칼라 $T_{n}(\mu)$($n=1,\:2,\:3,\:4$)의 값은 표 2와 같다. 또한 상수 $\xi_{1}$, $\xi_{2}$, $\xi_{3}$, $\xi_{4}$는 각각 1000, 1000, 2000, 1로 정하였으며, 보상 $r_{1}$과 $r_{2}$에 가중치를 부여하기 위한 $\alpha$와 $\beta$ 값은 각각 0.5, 130으로 정하였다.

표 2. 보상 설계 파라미터

Table 2. Parameters for reward design

$\mu = 1$

$\mu = 2$

$\mu = 3$

$T_{1}(\mu)$

$5$

$20$

$20$

$T_{2}(\mu)$

$500$

$10$

$5$

$T_{3}(\mu)$

$10$

$200$

$2000$

$T_{4}(\mu)$

$200$

$10$

$1$

한편, DNN의 초기화에는 Xavier initializer를 사용하였으며, 최적화에는 Adam(Adaptive Moment Estimation) optimizer를 사용하였다. 또한 활성화에는 출력층을 제외하고 ReLu를 사용하였다. 학습을 위한 하이퍼 파라미터는 표 3과 같다.

표 3. 학습 하이퍼 파라미터 값

Table 3. Learning hyper-parameters and their values

minibatch size

$128$

discount factor

$0.99$

replay memory size

$100000$

learning rate

$0.002$

replay start size

$5000$

initial exploration($\epsilon$)

$1$

target network

update frequency

$5000$

final exploration($N$)

$0.1$

학습이 진행된 Deep Q-Network를 이용하여 외란 관측기(Proposed Obs.)를 설계하였고, 추정 성능 비교를 위해 참고문헌 (11)을 참고하여 외란 추정치가 계통 주파수의 5 주기 이내로 외란에 수렴하기 위한 관측기 (9)의 특성다항식이 $(s+400)$$(s+100\pm j200)$이 되도록 고이득 관측기(Conven- tional Obs. 1)를 설계하였다. 또한 측정 잡음의 영향을 최소화하기 위하여 관측기 (9)의 특성다항식이 $(s+10)^{3}$이 되도록 저이득 관측기(Conventional Obs. 2)를 설계하였다.

그림. 4. Conventional Obs. 1의 상태 추정 성능

Fig. 4. State estimation performance of Conventional Obs. 1

../../Resources/kiee/KIEE.2020.69.7.1095/fig4.png

그림. 5. Conventional Obs. 2의 상태 추정 성능

Fig. 5. State estimation performance of Conventional Obs. 2

../../Resources/kiee/KIEE.2020.69.7.1095/fig5.png

그림. 6. Proposed Obs.의 상태 추정 성능

Fig. 6. State estimation performance of Proposed Obs.

../../Resources/kiee/KIEE.2020.69.7.1095/fig6.png

그림. 7. Proposed Obs.의 각 시간 step에서의 관측 이득

Fig. 7. Observer gains at each time step of Proposed Obs.

../../Resources/kiee/KIEE.2020.69.7.1095/fig7.png

그림 4 ~ 6에 $\delta$, $\omega_{\triangle}$, $d$와 각 관측기의 추정치를 함께 나타내었다. 그림 4 ~ 6의 $\delta$와 그 추정치에 대한 그래프에서 부분 확대된 그래프의 y축 범위는 26.3 ~ 26.6[deg]이다. 그림 4는 고이득 관측기를 통한 실험 결과를 나타낸 것이다. 제안된 관측기보다 느린 추정 속도로 설계된 관측기임에도 불구하고 측정 잡음의 영향으로 실제 상태와 외란을 잘 추정하지 못하는 모습을 보여준다.

그림 5는 저이득 관측기의 추정치를 나타낸 것으로 관측 이득이 낮아서 측정 잡음의 영향을 크게 받지 않지만, 시스템에 외란이 인가되었을 때 외란 추정이 매우 느린 것을 확인할 수 있다.

그림 6은 제안하는 관측기를 사용한 결과이며 실제 상태와 외란을 성공적으로 추정하는 모습을 보여준다. 또한 외란의 추정치가 계통 주파수의 4 주기 이내로 실제 외란에 수렴하는 것을 볼 수 있다.

마지막으로 그림 7은 제안하는 관측기의 각 시간 step에서 선택된 행동을 나타낸 것으로, 선택된 행동이 $L_{pole_{10}}$일 때 1, $L_{pole_{30}}$일 때 2 그리고 $L_{pole_{120}}$일 때 3의 값을 가진다. 학습에 의해서 설계된 관측기가 측정 잡음이 존재할 때에도 적절한 관측 이득을 선택하는 것을 확인할 수 있다. 결과적으로 DQN 기반 외란 관측기가 강인한 상태 추정과 외란 추정이 가능하고 실제 선로의 고장판별에 활용될 수 있음을 의미한다.

3. 결 론

본 논문은 측정 잡음이 존재할 때 1기 무한모선 시스템의 선로 고장을 판별하기 위한 강인한 관측기 설계 방법을 제안하였다. 강화학습 알고리즘 중 하나인 Deep Q-Network를 이용하여 관측기를 설계하는 과정을 설명하였고, Deep Q-Network 학습에는 Python의 tensorflow를 이용하였으며, 학습된 network를 이용하여 선로 고장시 외란 추정 모의실험을 진행하였다.

모의실험으로부터 측정 잡음이 존재할 때, 고이득 관측기는 상태 추정이 제대로 이루어지지 않는 것을 확인할 수 있었으며, 작은 크기의 이득을 갖는 관측기는 매우 느린 추정 성능을 보이는 것을 확인하였다. 반면 제안하는 DQN 기반 관측기는 외란의 추정치가 60[Hz]인 계통 신호의 4주기 이내에 실제 외란을 잘 추정하였다. 이때 측정 잡음만 존재할 경우 작은 관측기 이득을, 시스템 외란이 인가되었을 경우 큰 관측기 이득을 적응적으로 선택하는 것을 확인할 수 있었다.

향후 보다 일반적인 다기계통에 대한 관측기 활용 연구와 DQN 관측기 설계를 위한 보상 결정 방법에 대한 추가 연구를 진행할 예정이다.

Acknowledgements

This research was supported by Korea Electric Power Corporation (Grant number: R17XA05-2).

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. 2019R1F1A1058543).

References

1 
A. R. Bergen, V. Vittal, 2000, Power System Analysis, 2nd ed., Prentice HallGoogle Search
2 
H. Saadat, 2002, Power System Analysis. 2nd ed., McGraw-HillGoogle Search
3 
G. W. Kim, S. H. Hyun, Feb 2005, Power System Analysis Using MATLAB 1, UUPGoogle Search
4 
J. D. Glover, T. J. Overbye, M. S. Sarma, 2016, Power System Analysis & Design, 6th ed., Cengage LearningGoogle Search
5 
S. R. Nam, J. K. Hong, S. H. Kang, J. K. Park, 2004, Analysis of characteristic frequency along fault distance on a transmission line, KIEE Trans., Vol. 53a, No. 8, pp. 432-437Google Search
6 
D. G. Lee, S. H. Kang, 2010, Distance relaying algorithm using a DFT-based modified phasor estimation method, KIEE Trans., Vol. 59, No. 8, pp. 1360-1365DOI
7 
A. P. Sakis Meliopoulos, G. J. Cokkinides, P. Myrda, Y. Liu, F. Rui, L. Sun, R. Huang, Z. Tan, 2017, Dynamic state estimation-based protection: Status and Promise, IEEE Trans. Power Delivery, Vol. 32, No. 1, pp. 320-330DOI
8 
E. Farantatos, R. Huang, G. J. Cokkinides, Aug 2016, A predictive generator out-of-step protection and transient stability moni- toring scheme enabled by a distributed dynamic state estimator, IEEE Trans. Power Del., Vol. 31, No. 4, pp. 1826-1835DOI
9 
S. K. Kim, Sep 2019, Proportional-type Non-linear Excitation Controller with power angle reference estimator for single-machine infinite-bus power system, IET Gener. Transm. Distrib., Vol. 13, No. 18, pp. 4029-4036DOI
10 
D. G. Yoon, T. W. Kim, S. K. Kim, Jan 2007, Nonlinear input-output feedback linearization control of a single machine infinite bus power system, Journal of Control, Automation and Systems Engineering, Vol. 13, No. 1, pp. 1-5DOI
11 
S. Y. Jang, J. W. Kim, Y. I. Son, S. R. Nam, S. H. Kang, 2019, A Study on PI Observer Design for Line Fault Detection of a Single Machine Infinite Bus System, KIEE Trans., Vol. 68, No. 10, pp. 1184-1188Google Search
12 
Y. I. Son, I. H. Kim, K. S. Choi, H. Shim, 2015, Robust Cascade Control of Electric Motor Drives using Dual Reduced-Order PI Observer, IEEE Transactions on Industrial Electronics, Vol. 62, pp. 3672-3682DOI
13 
G. F. Franlin, J. D. Powell, A. Emami-Naeini, 2010, Feedback Control of Dynamic Systems, 6nd Ed., PEARSONGoogle Search
14 
S. Y. Jang, Y. I. Son, S. H. Kang, 2019, Design of a Rein- forcement Learning-Based Disturbance Observer for Line Fault Detection of a Single Machine Infinite Bus System, KIEE Trans., Vol. 68, No. 9, pp. 1060-1066Google Search
15 
R. S. Sutton, Aug 1991, Dyna, an integrated architecture for learning, planning, and reacting, ACM SIGART Bulletin, Vol. 2, No. 4, pp. 160-163DOI
16 
C. J. C. H. Watkins, P. Dayan, May 1992, Q-learning, Machine Learning, Vol. 8, No. 3-4, pp. 279Google Search
17 
R. S. Sutton, A. G. Barto, 1998, Reinforcement learning: An introduction, MIT pressDOI
18 
V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, Marc G. Bellemare, A. Graves, M. Riedmiller, Andreas K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, D. Hassabis, Feb 2015, Human-level control though deep reinforcement learning, Nature, Vol. 518, pp. 529-533DOI
19 
D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. V. D. Driessche, J. Schrittwieser, I. Antonoglou, V. Pan- neershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis, Jan 2016, Mastering the game of Go with deep neural networks and tree search, Nature, Vol. 529, pp. 484-489DOI

저자소개

양선직(Sun Jick Yang)
../../Resources/kiee/KIEE.2020.69.7.1095/au1.png

He received the B.S. degree from Myongji University, Korea, in 2019, where he is currently working toward the M.S. degree.

His current research interests are robust and adaptive control of electric machines using artificial intelligence and observers.

장수영(Su Young Jang)
../../Resources/kiee/KIEE.2020.69.7.1095/au2.png

He received the B.S. and M.S. degrees from Myongji University, Korea, in 2018 and 2020, respectively.

His current research interests are robust and adaptive control of electrical machines using artificial intelligence.

손영익(Young Ik Son)
../../Resources/kiee/KIEE.2020.69.7.1095/au3.png

He received the B.S., M.S., and Ph.D. degrees from Seoul National University, Korea, in 1995, 1997 and 2002, respectively.

He was a visiting scholar at Cornell University (2007~2008) and University of Connecticut (2016~2017).

Since 2003, he has been with the Department of Electrical Engineering at Myongji University, Korea, where he is currently a professor.

His research interests include robust controller design and its application to industrial electronics.