• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Electrical and Computer Engineering, Pusan National University, Korea.)
  2. (Dept. of Electrical Engineering, Dong-eui Institute of Technology in Korea.)
  3. (Dept. of Electricity, Gyeongnam Nambae University, Korea.)



Autoencoder, Fault Detection, Kernel Density Estimation, Principal Component Analysis

1. 서 론

최근 원자력발전소의 안전성 문제가 심화되면서, 우리나라의 전력수급계획 수정에 따른 화력발전소의 발전량이 급증하고 있다. 대부분 화력발전소들은 1990년대에 준공되었으며, 현재 설비노후화로 인해 세심한 유지 및 관리보수를 계획하고 정기적으로 발전소 노후상태를 점검하고 있다. 그리고 화력발전소 같은 산업시설에서 규모가 크고 복잡한 발전설비들의 안전성과 신뢰성 확보를 위한 설비상태 모니터링, 고장검출 및 진단 시스템 개발관련 연구들도 꾸준하게 진행되고 있다.

특히, 사물인터넷(IoT, Internet of Things) 기술의 발달로 실시간으로 센서를 통한 많은 데이터들을 수집하여 저장 및 관찰하는 것이 용이해졌다. 대부분의 설비상태 모니터링 및 고장진단 시스템 개발 및 연구와 관련하여 주요설비의 상태를 확인할 수 있는 대규모의 취득된 주요 데이터들을 기반으로 통계적인 기법 또는 머신러닝 기법들이 적용되고 있다. 데이터기반의 고장검출 및 진단시스템에서 많이 적용되고 있는 대표적인 기법중 하나인 주성분 분석(PCA)은 상관관계가 있는 고장관련 주요변수들을 비상관성 관계를 가지는 주성분(재구성된 새로운 변수)들의 특징공간으로 원래 변수들의 차원을 축소하는 다변량 통계기법이다. PCA의 주요한 특징은 여러 개의 센서(변수)에서 취득된 다변량 데이터들에 대한 분산 및 공분산을 이용한 선형 결합식으로 구성된 주성분(PC)들이 원래 데이터와의 상관성과 정보를 크게 잃지 않으면서, 고차원의 데이터들을 저차원의 데이터들로 축소하여 나타내는 것이다. 일반적으로 PCA 기반의 고장검출방법은 원 데이터들을 95%이상 표현할 수 있는 구성된 PC들을 적절하게 선택하고, 대표적으로 호텔링(Hotelling)의 T2 통계값(6,7)과 SPE 값을(4,8) 고장검출을 위한 고장탐지지수로 사용한다. 그러나 T2 또는 SPE와 같은 고장탐지지수를 사용하는 PCA기반의 고장검출방법은 적용된 대상시스템의 정상 운전 조건에서 거짓 고장검출(알람) 비율(FAR)이(12) 높은 편이다. 이로 인해서 특히, 실시간 온라인 고장검출시스템으로 적용이 쉽지가 않다(3).

오토인코더(Autoencoder)는 대규모의 다변량 데이터들을 고차원에서 저차원으로 압축하는 과정에서 PCA보다 데이터들이 가지고 있는 중요한 정보의 손실이 더 적고, 데이터들의 비선형성까지 고려하여 재구성된 새로운 신호(변량)들을 만들 수 있다. 따라서 고장검출을 위한 대상시스템의 정상동작 상태 추정모델을 구현함에 있어서 PCA보다 성능이 더 우수하다. 또한, 시스템의 정상동작 조건에서 고장검출에 대한 거짓알람 발생비율을 줄이기 위해서, 연속적인 검출신호발생횟수를 고려한 새로운 고장검출지표(DS, Detection Signal)를 정의하였다. 본 논문에서는 딥 러닝기반의 비선형 PCA 기능을 가진 오토인코더를 적용한 고장검출방법과 일반적인 PCA 기반의 고장검출방법(2-5)을 FAR과 고장검출신호의 발생빈도를 비교하여 성능을 검증한다. 이를 위해서 국내의 당진화력발전소에서 2010년과 2013년에 발생했던 고장사례 2개를 적용하여 오토인코더 기반의 고장검출방법의 유효성을 확인하였다.

2. 딥 러닝(Deep learning) 기반의 오토인코더(Autoencoder)를 이용한 고장검출

2.1 오토인코더 특징

오토인코더는 입력 데이터들을 잠재적인(latent) 데이터들로 압축하는 인코딩(Encoding) 프로세스와 압축된 잠재 데이터들을 다시 입력 데이터들과 같거나 유사하게 복원하는 디코딩(Decoding) 프로세스를 가지고 있다. 이를 통해 데이터들의 중요한 정보들을 압축하여 저장하고, 이를 학습할 수 있기 때문에 PCA와 비슷한 기능을 가진 대표적인 비지도 학습기반의 딥 러닝 알고리즘 중에 하나이다. 또한, 오토인코더는 입력을 그대로 출력으로 재생성(복원)하는 목적함수를 가지고 있는 인공신경망이며, 입력과 출력을 비교한 재구성오차(Reconstruction Error)를 SPE로 설정하여 고장검출에 이용할 수 있다. 아래의 그림 1은 오토인코더의 기본적인 구조를 나타내며, 은닉층인 병목층(Bottleneck Layer)에서는 고차원의 입력데이터들의 특징적인 정보들을 압축 및 추출하여 저차원의 잠재 데이터로 만들고, 다시 출력층으로 고차원의 입력데이터로 복원하는 기능을 담당한다(1).

그림 1 Autoencoder 의 기본구조

Fig. 1 Autoencoder structures

../../Resources/kiee/KIEE.2020.69.6.800/fig1.png

2.2 다변량 신호재구성모델기반의 고장검출

다변량 신호재구성모델기반의 고장검출방법은 우선, 1) 대상 시스템의 정상적인 동작 조건에서 취득한 고장관련 주요 변수들의 정상(normal) 상태 데이터를 이용한 머신 러닝기반의 정상 상태 추정모델을 구현하고, 2) 구현된 추정모델에서 추정된 변수들의 데이터와 실제 데이터들의 차이 즉, 잔차(Residual) 또는 오차(Error)를 머신러닝기반의 분류기법들과 통계적 기법 등을 이용하여 이상(abnormal) 상태 데이터를 정의한다. 마지막으로 3) 정의된 고장관련 주요변수들의 정상 상태 및 이상 상태 데이터들을 이용한 고장검출신호(T2 or SPE)를 생성하고, 이를 이용하여 고장검출 조건을 선정한 후, 고장검출신호들이 선정된 조건을 만족할 경우에 고장을 검출한다. 아래의 그림 2는 다변량 신호재구성 모델기반의 고장 검출 방법을 나타낸 순서도이다.

그림 2 다변량 신호 재구성 모델 기반의 고장 검출 절차

Fig. 2 Fault detection procedure based on multivariate signal reconstruction model

../../Resources/kiee/KIEE.2020.69.6.800/fig2.png

PCA 기반의 고장검출방법(2-5)은 PCA를 대상 시스템의 정상 상태 추정모델을 구현하는데 사용하고, 호텔링의 T2 통계량과 SPE기반의 Q 통계량을 고장검출지수로 활용한다. 대상 시스템에서 취득한 정상 동작 조건에서의 변수 n개에 대한 각 데이터의 개수가 m개인 다변량 데이터를 n x m의 행렬 X로 정의하고, 이 행렬 X 는 n x k 의 Score 행렬 T 와 j x k 의 Loading 행렬 P의 선형결합으로 식 (1)과 같이 나타낼 수 있다. 여기서, n은 각 고장관련 변수들의 데이터 개수, k는 CPV(Cumulative Percentage Variance)방법을 이용하여 선정된 PCs의 개수, j는 고장관련 변수들의 개수, E는 n x j의 잔차행렬을 의미한다.

(1)
$X = TP^{T}+ E$

PCA 기반의 정상 동작 추정 모델이 만들어지고, 변수들의 새로운 측정값들이 추정모델에 입력되면, 새로운 Score 값을 식 (2)를 이용하여 계산한다.

(2)
$T_{n}^{T}=X_{n}^{T}P(P^{T}P)^{-1}$

호텔링의 T2 통계량은 새로운 측정값이 PCA 기반의 추정 모델의 추정값과 얼마나 비슷한지를 판단하는 통계량으로 사용하고, 이 두 값의 마할라노비스 거리(Mahalanobis Distance)를 의미한다.

(3)
$T_{n}^{2}=t_{n}S^{-1}t_{n}^{T}$

여기서, S는 PCA의 T에 대한 공분산행렬, tn은 새로운 측정값에 대한 Score 값을 의미한다.

다른 하나의 대표적인 고장검출지표인 Q 통계량은 식 (4)와 같이 실제 데이터값과 모델의 추정값의 차이(SPE)를 제곱한 값으로 정의한다.

(4)
\begin{align*} SPE_{n}= x_{n}-t_{n}^{T}P^{T}\\\\ Q= SPE_{n}\times SPE_{n}^{T} \end{align*}

여기서, xn은 새롭게 측정된 데이터를 백터로 표현한 것이다.

본 논문에서는 대상 시스템의 고장관련 변수들의 정상 상태 추정 모델을 PCA와 오토인코더로 구현하여, 고장검출을 시행하고 성능을 비교해 본다.

2.3 고장검출을 위한 커널 밀도 추정 기반의 T2와 Q 통계량의 경계값 설정

정상 동작 조건에서 취득된 고장관련 변수들의 정상 상태 데이터의 80%를 모델 구현 및 학습에 사용하였고, 나머지 20%는 검증데이터로 사용하였다. 검증데이터들에 대한 T2 와 Q 통계량의 확률밀도함수(PDF, Probability Density Function)를 커널 밀도 추정법(KDE, Kernel Density Estimation)으로 추정하여(9-11), 각각의 추정된 T2와 Q 통계값에 대한 누적분포함수(CDF, Cumulative Distribution Function) 에서 0.99(99%)에 대응하는 T2 와 Q 통계량값을 고장검출을 위한 경계값으로 선정하였다.

KDE는 데이터 분포를 추정하는 비모수적 추정기법이다. 비모수적 추정방법은 분포함수형태를 가정하지 않고 주어진 데이터로부터 직접 PDF를 추정한다. N개의 독립적이고 동일하게 분포된 랜덤 벡터 X = [x1,x2 . . , xN], K를 커널함수로 정의하고, 랜덤 변수 x에 대한 PDF는 식 (5)과 같이 표현된다. 여기서, H는 커널 함수의 대역폭(Bandwidth)이고, 일반적으로 커널 함수는 가우시안(Gaussian) 커널 함수를 적용한다.

(5)
$\hat f(x)=\dfrac{1}{N}\sum_{i=1}^{N}\dfrac{1}{H}K\left(\dfrac{x-X_{i}}{H}\right)$

3. 사례연구

3.1 화력발전소 고장사례 및 고장관련 주요변수

화력발전소는 석탄, 석유, 천연가스 등의 화석연료를 태워 얻어지는 화력에너지를 전기에너지로 생산하는 시설로써 물을 끓여 증기를 발생시키는 보일러, 고압의 증기를 이용한 터빈을 회전시켜 전기를 생산하는 터빈발전기, 터빈에서 사용된 증기를 다시 물로 되돌리는 복수기, 태운 연료로 인해 발생된 각종 가스를 배출하는 연돌(굴뚝)로 구성되어 있다. 이 밖에도 재열기, 공기정화장치 등 수 많은 설비들이 설치되어 있다. 화력발전소의 고장은 보일러, 터빈발전기와 같은 여러 설비에서 발생한다. 아래의 표 1은 국내의 당진화력발전소에 발생했던 고장사례 및 각 고장사례관련 주요 변수들을 나타내고 있다. 당진 2호기에서 2010년 8월에 발생한 고장은 클링커에 의한 보일러가 동작을 멈춘 사례로 클링커는 석탄 연소에 있어서 화력의 온도가 재의 용융점 이상의 고온으로 상승할 경우 석탄재가 녹아 덩어리로 굳어버린 것을 지칭하고, 이것은 석탄의 연소 상태를 악화시켜 석탄의 손실을 초래할 뿐만 아니라 보일러의 노벽에 부착되면 클링커를 제거할 때 노벽이 파손된다. 또한, 전열면에 클링커들이 부착되면 전열을 방해하여 보일러의 효율을 저하시킨다. 특히, X(11)부터 X(15)까지의 고장관련 변수들이 고장과 가장 밀접하게 연관되어 있고, X(1)부터 X(8)까지의 고장관련 변수들은 기본적으로 발전출력 및 효율에 연관된 변수들이다. 당진 7호에서 2013년 6월에 발생한 고장은 HP(High Pressure) ByPass 전원 공급 카드가 손상된 사례이다. HP Bypass는 보일러 기동시 과열증기를 재열기로 전달하여 과열기 및 재열기에 충분한 증기량을 확보하게 하고, 보일러에서 생산하는 증기량에 따라 증기압력을 증가시키고, 동시에 압력제어을 실행한다. 이와 가장 밀접하게 관련된 변수들은 X(6), 그리고 X(10)부터 X(17)까지의 변수들이다. 각 고장사례별 고장관련 주요변수들은 발전소운영자들의 오랜 경험과 관련된 전문지식에 의해 선정된 것들이며, 고장관련 주요 변수들의 데이터들은 5분마다 발전소의 제어시스템에 모니터링 된다.

당진 화력발전소(2호기, 7호기)는 대부분 최대전력 500MW으로 전력을 생산하며, 고장발생 전 한 달 동안도 최대출력으로 일정하게 운전하였다. 각 발전소별 고장 발생 한 달 전부터 10일 동안의 정상 운전 구간 데이터들을 동일하게 PCA와 오토인코더에 80%는 학습데이터로 20%는 검증데이터로 사용하였다. 그리고 발전소에서 판단한 고장시점부터 3일전까지의 데이터들을 테스트 데이터로 적용하여 고장검출신호 발생빈도 및 거짓알람비율을 확인하였다.

표 1 화력발전소 고장 유형별 주요고장 변수

Table 1 Main fault-related variables by fault cases

../../Resources/kiee/KIEE.2020.69.6.800/tbl1.png

3.2 고장검출 신호 설정

고장검출 결정은 대상시스템의 정상운전구간에서 발생할 수 있는 거짓 알람 비율을 줄이기 위해서, 설정된 경계값을 넘어가는 T2와 Q 통계량에 대하여 연속적인 발생횟수를 고려하여, 검출신호를 생성한다. 아래와 같이 T2와 Q 통계량에 대한 고장검출변수를 각각 TD(k)와 QD(k)로 정의한다.

(6)
$TD(k)=\begin{cases} 1&,\: i f T^{2}>T_{th}\\ 0&,\: otherwise \end{cases}\\ \\ QD(k)=\begin{cases} 1&,\: i f Q>Q_{th}\\ 0&,\: otherwise \end{cases}$

본 논문에서 고장검출 신호는 DS(k)로 식 (7)과 같이 정의한다.

(7)
\begin{aligned} D S_{T D}(k) &=\sum_{t=k}^{k+n} T D_{t=k}(k) \\ &=T D_{t=k}(k)+T D_{t=k+1}(k)+\ldots+T D_{t=k+n}(k) \\ D S_{Q D}(k) &=\sum_{t=k}^{k+n} Q D_{t=k}(k) \\ &=Q D_{t=k}(k)+Q D_{t=k+1}(k)+\ldots+Q D_{t=k+n}(k) \end{aligned} \begin{aligned} In \ this \ paer,\: case \ of \ n= 2,\: \\ \end{aligned} \begin{aligned} D S_{T D}(k) &=\sum_{t=k}^{k+2} T D_{t=k}(k) \\ &=T D_{t=k}(k)+T D_{t=k+1}(k)+T D_{t=k+2}(k) \\ D S_{Q D}(k) &=\sum_{t=k}^{k+2} Q D_{t=k}(k) \\ &=Q D_{t=k}(k)+Q D_{t=k+1}(k)+Q D_{t=k+2}(k) \end{aligned}

여기서, t는 시간이며 샘플링 간격은 5분이며, 본 논문에서는 DS(k)의 n을 2로 설정하였다. 즉, 고장검출 설정신호가 연속적으로 3번, 15분 동안(DS(k)=2)발생할 경우에 대하여, 검출신호가 발생하도록 설정한 후, 각 고장사례별 고장검출신호 발생빈도를 분석하였다.

그림 3에서 볼 수 있듯이, 당진 2호기 및 7호기의 고장사례에서 학습데이터의 95%를 반영하는 PCs의 개수는 CPV에 의해 각각 10개와 11개로 정해진다. CPV에 의해 정해진 PCs의 개수와 각 고장사례에 대한 Stacked Autoencoder 기반 추정모델에서 병목층의 뉴런 개수를 동일하게 설정하였다. 그 이유는 PCA와 오토인코더 기반의 고장검출시스템의 출력(재구성된 신호)의 개수를 동일하게 맞추기 위함이다. 그리고 오토인코더는 2.1에서도 언급하였듯이, 입력을 그대로 출력으로 재생성(복원)하는 목적함수를 가지고 있으므로, 입력과 출력을 동일하게 구성하여 학습을 진행한다. PCA와 오토인코더의 정상동작 상태 추정모델 구현에 적용된 정상운전구간의 데이터들은 Z-Score를 이용하여 정규화 시켰으며, 오토인코더에 적용된 활성화함수는 ReLu 함수이며 학습종료조건은 0.001로 설정하고, 모든 시뮬레이션 작업은 Matlab(Ver. 2019 b)으로 실행하였다.

그림 3 각 고장사례에 대한 주성분개수와 Stacked Autoencoder의 구성

Fig. 3 Number of principal components and configuration of stacked autoencoder for each fault case

../../Resources/kiee/KIEE.2020.69.6.800/fig3.png

아래의 그림 4는 각 고장사례별로 발전소에서 판단한 고장시점에서부터 고장 3일전까지 주요변수들의 데이터들을 적용한 PCA 및 오토인코더 기반 고장검출 시스템의 T2 및Q 통계값들에 대한 시뮬레이션을 시행한 결과를 보여주고 있다. 특히, Q 통계값은 추정모델의 모델정확도를 나타내는 RMSE 와 MSE와 같은 모델성능을 판단하는 지표로도 활용할 수 있으며, 발전소에서 결정한 고장시점을 기준으로 고장 하루전부터 3일전까지를 발전소 정상운전구간으로 선정하고, 이 이틀 동안 PCA와 오토인코더기반 추정모델의 Q 통계값에 대한 변화를 확인해 보면 오토인코더의 Q 통계값 변화량이 더 작은 것을 알 수 있다. 이는 추정모델로의 성능은 오토인코더가 더 좋다는 것을 의미한다.

그림 4 각 고장사례에 대한 PCA 및 Autoencoder 기반 고장검출 시스템의 시뮬레이션 결과

Fig. 4 Simulation results of PCA and Autoencoder-based fault detection system for each fault case

../../Resources/kiee/KIEE.2020.69.6.800/fig4-1.png

../../Resources/kiee/KIEE.2020.69.6.800/fig4-2.png

3.3 거짓알람비율 및 고장검출신호 발생

표 2에서는 선정된 2일 동안의 발전소 정상운전구간에서 KDE에 의해 설정된 T2와 Q의 경계값을 벗어나는 고장변수의 개수 및 확률, 그리고 본 논문에서 설정한 고장검출조건에 대한 각 고장별 고장검출신호 발생횟수 및 거짓알람비율을 나타내고 있다.

발전소 정상운전 조건에서, 오토인코더 기반의 고장검출 시스템의 Q 통계량을 이용한 거짓알람비율이 PCA 기반 고장 시스템보다 낮다는 것을 알 수 있다.

표 2 각 고장별 정상운전구간에서의 거짓알람비율

Table 2 False alarm rate in normal operation condition for each fault case

../../Resources/kiee/KIEE.2020.69.6.800/tbl2.png

이는 적용된 고장사례에 대해서는 오토인코더 기반의 고장검출 시스템이 PCA기반 고장검출 시스템보다 더 안정적으로 고장 검출이 가능하다고 판단할 수 있다. 거짓알람비율(FAR)은 아래의 식 (8)과 같이 정의한다.

(8)
$FAR =\dfrac{\beta}{\alpha}(\times 100)$

여기서, $\alpha$는 설정된 정상 운전 구간에서의 고장검출지표(T2 or Q) 데이터의 총 개수를 나타내며, $\beta$는 설정된 정상 운전 구간에서의 고장검출 조건을 만족하는 고장검출신호 (DSTD or DSQD)가 발생한 개수를 의미한다.

아래의 그림 56는 각각 2010년 당진 2호기 와 2013년 당진 7호기에서 발생했던 고장사례를 적용한 PCA 기반 및 본 논문에서 구현된 오토인코더 기반의 고장검출시스템의 설정된 고장검출신호 발생빈도를 보여주고 있다. TD 및 QD 신호발생의 연속성(n=0,1,2)을 고려하였을 때 표 2그림 5, 6에서도 볼 수 있듯이, n의 수를 증가시키면 선정된 정상 운전 구간에서 거짓알람 비율이 낮아지는 것을 쉽게 알 수 있다. 당진 2호기에서 발생했던 고장사례의 경우, 고장변수 T2 통계량보다 Q 통계량이 고장검출에 더 적합한 신호라고 판단할 수 있으며, 그 이유는 발전소에서 판단한 고장시점 근처에서 QD 기반의 고장검출신호가 빈번하게 발생하기 때문이다. T2 기반의 TD 신호의 경우, 고장영역이라고 판단되는 시점에서 고장검출신호가 생성되지 않아 발전소에서 고장검출시점을 결정할 수 있는 정보를 제공하는 것이 적절하지 않을 수 있다. 당진 7호기에서 발생했던 고장사례의 경우, 고장시점 4시간전에 TD 및QD 기반의 고장검출신호들이 20분 동안 발생하였으며, 그 이후 발전소에서 결정한 고장시점보다 10분 늦은 13시 20분부터 고장검출신호 발생빈도가 많아졌다. 이 사례의 경우, 본 논문

그림 5 당진 2호기 고장에 대한 고장검출신호 발생 결과

Fig. 5 The generation of fault detection signal for fault case of Dangjin unit 2

../../Resources/kiee/KIEE.2020.69.6.800/fig5.png

그림 6 당진 7호기 고장에 대한 고장검출신호 발생 결과

Fig. 6 The generation of fault detection signal for fault case of Dangjin unit 7

../../Resources/kiee/KIEE.2020.69.6.800/fig6.png

에서 구현한 PCA 및 오토인코더 기반의 고장검출시스템의 고장검출 판단시점을 대략 4시간 전인 오전 8시 45분으로 결정하기가 쉽지가 않다. 왜냐하면, 그 이후 고장검출신호들이 발생하지 않았기 때문이다. 그러나 4시간 전에 발생한 고장검출신호를 거짓알람으로 결정하는 것 또한 쉽지가 않다.

선정된 발전소 정상 운전 영역에서의 거짓알람비율을 낮추기 위한 방법은 TD 및 QD 관련 고장검출지표들의 정상 및 이상상태데이터들로 판단할 경계값을 본 논문에서 설정한 값보다 높게 설정하는 것과 DS의 n값을 증가시키는 것이다. 그러나 이 두 방법도 고장검출 판단시점을 필수적으로 고려해야 하며 이런 값들을 적절하게 결정하지 못하면, 실제 고장영역에서 고장을 감지하지 못하는 경우가 발생한다. 이러한 고장 미감지는 거짓알람보다 대상시스템에 더 치명적인 결과를 초래한다.

두 고장사례에서 오토인코더 기반의 고장검출시스템은 거짓알람 발생비율측면에서 PCA 기반의 고장시스템보다 더 나은 성과를 보여주고 있다.

본 논문에서는 오토인코더 병목층의 뉴런 개수를 최적화하지 않고, PCA의 CPV에 의해 결정된 주성분 개수와 동일하게 맞추었기 때문에 오토인코더의 성능을 최적화하지 못한 측면이 있다.

4. Conclusion

최근 많은 산업분야에서, 특히, 빅데이터를 기반으로 하는 데이터 처리, 예측 및 분류문제를 해결하는데 딥러닝을 적용한 방법들은 기존의 머신러닝 방법들보다 우수한 성능을 보여주고 있다. 본 논문에서는 다변량 데이터들을 이용한 일반적인 PCA 기반의 고장검출시스템과 딥러닝 기반의 오토인코더를 적용한 고장검출시스템을 구현하여, 실제 고장 사례를 통해서, 두 고장검출시스템의 성능을 비교분석하였다. 설정된 고장검출신호에 대한 발생 빈도를 정상 운전 구간에서의 거짓 알람 발생 비율로 확인하였을 때, Q 통계량을 기준으로 오토인코더 기반의 신호재구성모델의 SPE가 일반적으로 PCA 보다 더 낮기 때문에 고장검출신호의 발생빈도 및 거짓알람 비율이 더 낮게 나오는 것으로 판단할 수 있다.

고장검출지표인 T2 및 Q 통계량의 정상치와 이상치를 구분하기 위한 경계값 설정은 일반적으로 통계기반의 3시그마(Sigma)법과 백분위법을 사용하고, 비지도 학습 계열의 대표적인 분류알고리즘인 K-means 알고리즘이 많이 활용되지만, 최근에는 KDE 기반의 다양한 방법들이 연구되고 있으며, 본 논문에서도 기본적인 KDE 기법을 적용하였다. 고장검출에 사용하는 지표들에 대한 적절한 경계값들을 설정하는 것도 대단히 중요하며, 이 문제 또한, 많은 데이터를 기반으로 진행되어야 더 좋은 값을 얻을 수 있다.

특히, 같은 고장 사례관련 데이터들이 많이 확보된다면, 데이터들의 선형성만을 잘 표현하는 PCA보다 데이터들의 비선형성까지 표현을 잘하는 오토인코더가 고장검출 및 진단시스템에 더 적합하게 적용될 수 있을 것으로 예상한다.

Acknowledgements

This work was supported by a 2-Year Research Grant of Pusan National University

References

1 
P. Vincent et al., 2010, Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, Journal of Machine Learning Research 11, pp. 3371-3408Google Search
2 
Kruger, et al., 2007, Developments and Applications of Nonlinear Principal Component Analysis: A Review, Principal Manifolds for Data Visualization and Dimension Reduction, vol. 1DOI
3 
X. Sun, Jul 2005, An improved PCA method with application to boiler leak detection, ISA Transactions, Vol. 44, No. 3, pp. 379-397DOI
4 
S. H. Jung, April, 2018, Fault Detection and Diagnosis for High Pressure Feedwater Heater using Principal Component Analysis, Journal of Korean Institute of Intelligent Systems, vol. 28, Vol. 28, No. 2, pp. 91-98Google Search
5 
S. Lee., Dec 2015, Big Data Analysis Using Principal Component Analysis, Journal of Korean Institute of Intelligent Systems, Vol. 25, No. 6, pp. 592-599DOI
6 
H. Hotelling, 1933, Analysis of a complex of statistical variables into principle components, J. Edu. Psychol., Vol. 24, pp. 417-441DOI
7 
Sungim Lee, 2018, Identication of the out-of-control variable based on Hotelling’s T2 statistic, The Korean Journal of Applied Statistics, Vol. 31, No. 6, pp. 811-823Google Search
8 
S. Gajjar et al., May 2016, A data-driven multidimensional visualization technique for process fault detection and diagnosis, Chemometrics and Intelligent Laboratory Systems, Vol. 154, pp. 122-136DOI
9 
E. Parzen, Sep 1962, On estimation of a probability density function and mode, Ann. Math. Statist, Vol. 33, No. 3, pp. 1065-1076Google Search
10 
Andrea Giantomassi et al., Mar 2015, Electric Motor Fault Detection and Diagnosis by Kernel Density Estimation and Kullback-Leibler Divergence Based on Stator Current Measurements, IEEE Transactions on Industrial Electronics, Vol. 62, No. 3DOI
11 
A. Youssef et al., 2016, An optimal fault detection threshold for early detection using Kullback-Leibler Divergence for unknown distribution data, Signal Processing, Vol. 120, pp. 266-279DOI
12 
Kai Zhang, pp 112-126 2015, A comparison and evaluation of key performance indicator-based multivariate statistics process monitoring approaches, Journal of Process Control, Vol. 33DOI

저자소개

김규한 (Kyuhan Kim)
../../Resources/kiee/KIEE.2020.69.6.800/au1.png

He received the B.S. and M.S. degree in Electrical and Computer Engineering from Pusan National University in 2007 and 2011.

He is currently the Ph.D. candidate in Pusan National University.

정희명 (Heemyung Jeong)
../../Resources/kiee/KIEE.2020.69.6.800/au2.png

He received the B.S. and M.S. degree in Electrical and Computer Engineering from Pusan National University in 2004 and 2006.

He is currently the Ph.D. candidate in Pusan National University.

이흥석 (Heungseok Lee)
../../Resources/kiee/KIEE.2020.69.6.800/au3.png

He received the B.S. degree in Electrical and Computer Engineering from University of Ulsan in 2012.

He received the M.S. degree in Electrical and Computer Engineering from Pusan National University in 2014.

He is currently the Ph.D. candidate in Pusan National University.

이화석 (Hwaseok Lee)
../../Resources/kiee/KIEE.2020.69.6.800/au4.png

He received the B.S., M.S. and Ph.D. degree in Electrical Engineering from Pusan National University in 1991, 1993 and 1997.

He is currently a professor at Dong-eui Institute of Technology in Korea

김형수 (Hyungsu Kim)
../../Resources/kiee/KIEE.2020.69.6.800/au5.png

He received the B.S., M.S. and Ph.D. degree in Electrical Engineering from Pusan National University in 1994, 1997 and 2002.

He is currently an assistant professor at University of Gyeongnam Namhae in Korea

박준호 (June Ho Park)
../../Resources/kiee/KIEE.2020.69.6.800/au6.png

He received the B.S., M.S. and Ph.D. degree in Electrical Engineering from Seoul National University in 1978, 1980 and 1987.

He is currently a professor at Pusan National University in Korea