• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Digital Solution Lab. KEPCO Research Institute, Korea.)



PTZ Camera, 360 Camera, Learning Data Set, AI, YOLOv3

1. Introduction

한국전력은 약 600개 이상의 무인변전소, 약 55,000개 이상의 송전 철탑을 운영하고 있으며, 많은 전력설비가 보안 시설이기 때문에 다수의 카메라를 활용하여 감시시스템을 운영한다. 그러나 기존 CCTV 감시시스템과 같이 사용자가 미리 지정해놓은 특정 영역만을 대상으로 감시 및 녹화하는 상황이며, PTZ(Pan-Tilt-Zoom) 카메라를 사용하는 CCTV 역시 감시 범위가 현실 공간의 전체가 아닌 30 ~ 45도 정도의 일부 공간만을 감시함에 따른 사각 지대가 발생하는 문제점이 있다. 따라서 감시 범위를 더 넓히고 감시 대상 객체를 지능적으로 판단하여 업무 담당자에게 알람을 주거나 문제점을 분석해주는 시스템 개선이 요구된다.

그래서 기존 PTZ 카메라와 360도 카메라를 활용하여 PTZ 카메라의 좁은 감시 범위 한계 그리고 360도 카메라의 넓은 감시 범위의 장점이 있으나 PTZ 카메라 대비 저 해상도 문제를 상호 보완하여 시스템을 연계 운영함으로써, 사각 범위를 없애는 시스템 운영이 가능하다. 즉, 360 카메라로 전체 공간을 감시하고 특정 이벤트가 발생하면, PTZ 카메라로 특정 영역을 확대하여 높은 해상도로 대상 지역을 감시할 수 있다. 또한, 인공지능 기술을 활용하여 기존 단순 모니터링 기능에서 벗어나 전력설비에 침입하거나 전력설비 훼손의 위험이 있는 객체의 침입을 탐지하여 담당자에게 자동적으로 알려주는 지능형 감시시스템 개발이 가능하다.

이러한 지능형 감시시스템의 주요 기능으로써 특정 이벤트 검출 및 감시를 위해 딥러닝 알고리즘을 적용하게 되는데, 딥러닝 모델을 생성하기 위해서는 학습 데이터가 필요하다. 하지만 전력 분야와 같이 특수한 환경에서 필요한 일반적으로 알려진 학습 데이터양은 절대적으로 부족한 상황이다. 또한, PTZ 카메라와 360도 카메라가 원거리의 시야를 확보하고 있어서 객체 영상이 아주 작은 특징을 갖는다. 그러므로 기존 객체 검출을 위한 딥러닝 알고리즘은 작은 사이즈의 객체 검출에 부적합한 특징이 있고 이를 개선하기 위한 연구가 요구된다.

본 논문에서는 전력설비를 지능적으로 감시하기 위하여 필요한 학습데이터 생성 방법을 제안한다. 또한, 본 연구 결과로 구축된 학습 데이터셋은 무인전력설비 감시시스템 내 딥러닝 모델 학습을 위해 활용되었으며, 실험결과로써 $AP_{50}$에서는 평균 98.9% 검출율, $AP_{75}$에서는 평균 91.2% 검출율을 나타냈다. 그리고 이는 차후 무인변전소 및 송전철탑감시를 위한 지능형 전력설비 감시 기능에 적용될 예정이다.

2. Related Work

2.1 객체 검출 알고리즘

Deep-learning 기반의 객체 검출은 크게 Two-stage Network, One-stage Network 두 가지 방식이 있다. Two-stage Network은 객체의 검출과 객체의 레이블링을 따로 하는 방식으로, 이러한 방식은 고전적인 방법인 Sliding Window 방식에서 시작해 R-CNN 계열의 아키텍처들까지 다양한 방식이 있다. Region Proposal 알고리즘은 객체가 존재할 수 있는 모든 이미지 영역을 검색하는 기존의 방식이 아닌 색상 군집 및 특성 등을 이용하여 객체가 존재할 가능성이 있는 영역만을 선택하여 이미지 분류기를 적용하는 방식이지만, 매우 느린 속도로 인해 실시간성을 요구하는 작업에 사용하기에는 많은 무리가 있다 (1).

한편, 객체의 위치 추론에 많은 시간이 소요되어 개발된 Faster-RCNN 아키텍처는 입력 이미지에서 Convolution을 적용시킨 후에 Region Proposal Network(RPN)을 이용하여 객체 위치 추론에 걸리는 시간을 대폭 줄였다. 이는 GPGPU 연산을 통해 검출 시간도 줄였지만, 학습기반의 객체 위치 추론 방식이여서 검출률 또한 대폭 상승시켰다 (2).

표 1. Region Proposal 알고리즘 검출 속도 비교

Table 1. The comparison of detection speed for Region Proposal algorithm

Method

VOC 2007 test

VOC 2012 test

Time(fps)

R-CNN

66.0

NA

0.02

Fast-RCNN

66.9

68.4

0.5

Faster-RCNN

73.2

70.4

5

그림. 1. YOLO v3 Network Architecture

Fig. 1. Network Architecture of YOLO v3

../../Resources/kiee/KIEE.2020.69.7.1053/fig1.png

두 번째 방식인 One-stage Network는 객체의 위치와 종류를 모두 한 번에 학습하고 추론한다. 일반적으로 이 방식의 장점은 속도가 빠르다는 점이다. 본 연구에서 고려하는 YOLOv3 SPP(You Only Look Once v3 with Spatial Pyramid Pooling) 아키텍처는 기존의 YOLOv2 방식의 한계를 극복하기 위하여 제안되었으며, 기존의 YOLOv2의 단점인 작은 물체의 검출률 하락과 poor localization 문제를 소폭 개선하였다. YOLOv3는 백본 네트웍으로 Darknet-53을 사용한다. 이는 기존의 YOLOv2의 백본인 Darknet-19 보다 3배가량 많은 레이어를 사용한다 (3).

YOLOv2의 경우 416x416의 입력이미지에 대하여 845개의 Bounding boxes만을 추론하지만, YOLOv3의 경우 10,647개의 Bounding boxes를 추론한다. 이러한 다양한 기능을 가진 YOLOv3에 Spatial Pyramid Pooling(SPP)를 추가하면, SPP는 이미지의 크기에 상관없이 고정된 길이의 Feature를 출력하는데 이는 다양한 크기의 객체에 더욱 견고한 특성을 가진다 (4).

그림. 2. YOLO v3 SPP 아키텍처

Fig. 2. SPP architecture of YOLO v3

../../Resources/kiee/KIEE.2020.69.7.1053/fig2.png

그림. 3. YOLO v2를 활용한 모델 훈련 결과(KEPRI)

Fig. 3. YOLO v2 model training results(KEPRI)

../../Resources/kiee/KIEE.2020.69.7.1053/fig3.png

기존의 전력분야 감시시스템에 활용된 인공지능 연구를 살펴보면, Stacked Autoencoder(SAE)를 기반으로 스카다 시스템에 대한 사이버 공격을 검출하기 위한 딥러닝 프러임워크를 제안하거나, 송전선로의 결함을 분류하기 위하여 다양한 인공신경망(ANN)을 활용한 결함 분류 방법을 제안했다. 특히, 한전 전력연구원은 최근 Convolutional Neural Network와 같은 인공 지능 기술을 드론 어플리케이션에 적용하여 실시간 추적 성능을 향상하는 연구를 진행하고 있다. 자동 추적을 위한 송전 선로의 설비에 대한 학습은 그레이 스케일링, 뒤집기, 미러링 및 회전과 같은 이미지 변환을 통해 데이터 셋을 확장하여 많은 학습 이미지를 수집하고 자동 추적이 가능한 인식 성능을 나타낸다 (5-7).

2.2 학습 데이터 수집

건설 프로젝트 현장에서 현장의 안전을 모니터링 목적으로, 효율적인 장비 학습 및 인식 방법을 3D 모델을 생성하여 건설현장의 다양한 이미지와 합성하는 연구가 진행되었다. 장비의 3D 모델은 학습에 필요한 객체 형상의 다양성을 확보할 수 있으며, 자동화를 통하여 많은 수량의 다양한 각도의 이미지 학습 자료 확보가 가능하다 (8).

그림. 4. 카메라를 이용한 3D 데이터 수집

Fig. 4. 3D data collection using camera

../../Resources/kiee/KIEE.2020.69.7.1053/fig4.png

이러한 합성 데이터는 실제 데이터를 획득하는데 비용이 많이 발생할 때 좋은 대안이 된다 (9,10). 다양한 각도에서 정확한 검출 영역을 획득할 수 있는 3D 모델 합성 방식은 경우에 따라서는 실제 사진 데이터보다 더 높은 검출 결과를 보이기도 한다 (11).

또한, 건설 장비와 같이 산업현장 고유의 설비에 대한 학습 및 검출용 데이터 셋 구축은 더욱 어려움이 많다. 전력 현장의 데이터의 경우 1차 적으로는 다양한 환경 그리고 다양한 상태의 학습 시료 데이터를 구하기 어렵다는 것이며, 특히, 고장 데이터의 경우 많은 데이터를 확보하기는 더욱 어려운 상황이다. 그래서 현장에서는 객체 자동 촬영시스템, 동영상으로부터의 다수의 자동 데이터 취득 그리고 분할 이미지 데이터 취득과 같은 인공적인 학습데이터 수집 환경을 만들어 수십만 ~ 수백만개의 학습 데이터 셋을 구축하는 연구를 하고 있다 (12,13).

그림. 5. 자동촬영시스템 활용 취득 데이터 (12)

Fig. 5. Acquisition data using automatic shooting system

../../Resources/kiee/KIEE.2020.69.7.1053/fig5.png

특히, 손상된 설비의 학습 데이터 취득은 시료의 부족으로 더욱 확보가 쉽지 않기 때문에 하나의 샘플 데이터를 잘 활용하는 것이 무엇보다도 중요하다. 특허 ‘자동 분할 태깅 기술을 이용한 불량설비 진단 학습장치 및 방법’에서는 1단계로 수집된 송전설비 영상에서 사용자가 이미지 내 손상된 전체 영역을 설정하고, 2단계로 시스템에 의하여 자동으로 지도학습 영역을 자동으로 분할 태깅하여 학습 데이터를 몇 십배 증가시키고, 이를 통하여 진단 정확도를 향상 시킬 수 있는 학습 알고리즘을 제안하였다 (14).

그림. 6. 자동 분할 및 태깅 절차 (14)

Fig. 6. Process of Automatic Segmentation & Tagging Generation

../../Resources/kiee/KIEE.2020.69.7.1053/fig6.png

3. 학습데이터 구축

3.1 학습 분류 객체 및 객체 인식 환경

본 연구에서는 송전철탑 주변에서 송전선이나 송전철탑에 위협이 될 수 있는 물체를 미리 판별하여 감시하는 목적의 시스템 구현을 위하여 필요한 사람이나, 차량, 굴삭기나 중장비, 패러글라이더나 연, 비행기 그리고 화재 상황을 탐지해야 할 객체로 분류한다.

표 2. 객체 검출 목록

Table 2. List of object detection

사람

차량

굴삭기/중장비

패러글라이더/연

비행기

화재

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_1.png

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_2.png

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_3.png

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_4.png

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_5.png

../../Resources/kiee/KIEE.2020.69.7.1053/tbl2_6.png

차량의 경우에는 검출 객체의 단순화를 위해 승용차, 트럭, 버스 등을 모두 차량으로 그룹화하였고, 패러글라이더는 행글라이더와 낙하산도 모두 포함시켜서 그룹화하였다. 그런데, 카메라가 송전철탑 중간에 설치되어 있어서, 검출되어야 하는 객체가 영상의 크기 대비 매우 작은 특성을 가진다. 또한, 검출 객체 중 굴삭기, 패러글라이더, 화재 상황 등은 실제 영상에서는 좀처럼 등장하지도 않아 학습 데이터 구축에 많은 어려움이 있다. 그리고 일반적으로 구할 수 있는 영상은 영상의 크기 대비 객체의 크기가 큰 반면 본 감시시스템 프로젝트에서는 객체가 너무 작아서 학습에 적합하지 않다.

아래 그림 7은 실제 송전철탑에 설치되어 촬영된 영상이다. 영상은 1,920x1,080의 FHD 영상이며 객체의 크기는 이미지 크기 대비 2 ~ 7% 정도의 크기를 가진다. 일반적인 객체 검출기로는 이러한 작은 객체를 검출하고 분류하는데 적합하지 않다. 일반적인 객체 검출기는 입력 해상도로 400 ~ 600px 사이의 값을 사용하는데 1,920x1,080에서 2%의 크기를 가진 객체는 20 ~ 40px 정도의 크기를 가지게 된다. 이러한 영상을 400 ~ 600px로 줄여서 딥러닝 네트워크에 적용하면 객체의 크기가 8 ~ 12px로 줄어들게 되는데 이는 객체 검출에 적합하지 않은 크기로 검출 정확도가 현저하게 하락한다. 일반적으로 이러한 작은 객체 검출 방법은 이미지에서 여러 개의 ROI(region of interest)를 정의하고 해당 ROI에서 검출하고 통합하는 과정을 수행한다. 이러한 방법은 실시간 탐지가 불가능하거나 실시간성을 유지하기 위해 성능이 떨어지는 경우가 많다 (15). 본 연구에서는 실시간 탐지와 실시간성을 강화하기 위하여 객체 검출기의 신경망 엔진 최적화와 입력 영상의 실시간 동시처리를 위한 멀티스레딩 모델을 사용하였다. 신경망 엔진 최적화는 GPGPU 프로그래밍 코드 레벨의 최적화(single precision->half precision) 그리고 배치정규화 연산의 최적화를 수행함으로써 신경엔진망을 최적화 하였고, 카메라 스트림 획득과 객체 검출 그리고 이미지 저장을 모두 병렬적으로 수행하여 속도를 향상시켰다.

그림. 7. 감시시스템 영상 화면

Fig. 7. Video screen of monitoring system

../../Resources/kiee/KIEE.2020.69.7.1053/fig7.png

본 연구에서는 위에서 분류한 6가지의 객체 수집을 위하여 공용 데이터 셋과 공인 데이터 셋을 이용하는 방법과 3D 모델을 활용한 데이터를 확보하여 객체와 배경을 합성하는 가상 데이터 구축 방법으로 추진하였다.

3.2 공용 데이터 셋 활용 객체 수집 및 레이블링

앞에서 언급한 검출 대상 학습 데이터의 수집은 다양한 사진 및 동영상을 제공하는 플랫폼에서 수집하였다. 첫 번째로 사진을 제공하는 플랫폼인 Google, pixabay, IMAGE SOURCE, IMAGENET 등의 플랫폼에서 해당 객체의 이미지를 다량 수집하였다. 보다 많은 데이터를 확보하기 위해 굴삭기의 경우 excavator, backhoe, 굴삭기, 포크레인, 挖掘机, 挖掘機 등 다양한 검색 키워드를 사용하였다. 이렇게 수집된 사진 데이터는 2가지로 분류할 수 있다. 실제 사진과 투명한 배경 또는 단색 배경의 사진이다. 실제 사진은 레이블링이 필요하지만, 투명 또는 단색 배경의 사진은 단조로운 배경을 제거함으로써 레이블링을 자동으로 할 수 있다. 단조로운 배경의 사진은 학습에 바로 사용하지 않고 배경을 투명하게 바꾸어서 합성데이터를 생성하는데 사용하였다.

두 번째로 동영상을 제공하는 플랫폼인 YouTube, videvo, pixabay, Videezy를 이용하여 데이터를 수집하였다. 동영상 플랫폼의 경우 학습에 매우 적합하지 않은 영상이 많아 직접 선별하고 수집하였다.

표 3. 공용 플랫폼을 활용한 데이터 수집

Table 3. Data collection using public platform

구분

Google

Pixabay

IMAGENET

YouTube

Videvo, Videezy

굴삭기/

중장비

1,375

449

1,876

8,879

206

패러글라이더/

4,037

1,359

1,769

1,794

11

3.3 공인 데이터 셋 활용

공인 데이터 셋은 객체 검출 정보 또는 객체 윤곽 정보를 가진다. 공인 데이터 셋을 그대로 학습해도 큰 문제는 없지만 공인 데이터 셋의 레이블링의 신뢰성이 높지 않아 이를 그대로 학습하는 방법은 매우 높은 정확도를 이끌어 내기에는 문제가 있다. 실제로 공인 데이터 셋은 레이블링이 되어 있지 않은 객체가 종종 등장한다. 또한, 여러 개의 객체를 하나로 묶어 레이블링한 경우도 자주 볼 수 있다. 이러한 객체를 모두 찾아 레이블링하기에는 시간과 인력 비용이 너무나 크기 때문에 공인 데이터 셋에서 윤곽 정보가 있는 객체만을 추출하여 합성 데이터를 생성하는데 사용한다.

높은 정확도를 얻기 위하여 본 프로젝트에서는 불필요한 데이터 셋을 유의미한 데이터로 만드는 패치 결합 합성데이터 기법을 사용하였다. 먼저 객체의 윤곽 정보를 통해 객체 정보만 남기고 투명한 배경의 패치를 획득한다. 그 후 적절한 배경 이미지에 패치를 합성시키면 된다. 그림 8의 (a)는 레이블링이 하나만 되어 있는 경우로 학습에 사용하기에 적절하지 않다. (b)는 객체 윤곽 정보이며, (c)는 객체의 영역만 추출한 이미지고. (d)는 합성에 사용할 배경 데이터. (e)는 최종 합성 데이터이다.

그림. 8. 합성데이터 생성 절차

Fig. 8. The caption for a figure must follow the figure

../../Resources/kiee/KIEE.2020.69.7.1053/fig8.png

위와 같은 방법으로 합성 데이터를 구축할 경우 모든 객체에 레이블링을 할 수 있다는 장점과 자동화 프로그램을 활용하여 사람이 레이블링을 할 필요가 없다는 장점, 그리고 객체의 크기를 원하는 대로 조절할 수 있다는 장점이 있다. 공인 데이터 셋은 Stanford car dataset, MS COCO, PASCAL VOC, LISA, Medusa, KITTI, LabelMe, MSRC, ADE20K, OpenImages- V5+을 사용하였으며 사람, 차량, 트럭, 버스, 비행기 데이터를 추출하여 감시시스템을 위한 학습 데이터를 생성하였다 (16~25).

3.4 3D 모델 활용 객체 생성

공인 데이터 셋을 사용하는 가장 큰 이유는 객체 윤곽 정보가 있기 때문이다. 이 윤곽 정보를 사용하여 배경이 투명한 패치를 생성하고 합성 데이터를 만들 수 있기 때문이다. 하지만 공인 데이터 셋에는 굴삭기나 패러글라이더 및 화재 같은 데이터는 존재하지 않는다. 실제 데이터에서 윤곽 정보를 생성하여 똑같은 방법으로 처리할 수 있으나 비용이 너무 많이 들기 때문에 3D모델을 이용하여 배경이 투명한 패치를 생성한다. 3D모델은 학습에 필요한 객체의 다양성을 확보하기 위한 보조 데이터로 다양한 각도에서 촬영한 패치를 이용하여 위와 똑 같은 방법으로 배경 이미지에 합성하여 최종 학습 데이터를 획득한다. 이러한 합성 데이터는 실제 데이터를 획득하는데 비용이 많이 발생할 때 좋은 대안이 된다. 다양한 각도에서 정확한 검출 영역을 획득할 수 있는 3D 모델 합성 방식은 경우에 따라서는 실제 사진 데이터보다 더 높은 검출 결과를 보이기도 한다.

그림. 9. 3D 모델을 이용한 가상 데이터 생성

Fig. 9. Virtual data generation using 3D modeling

../../Resources/kiee/KIEE.2020.69.7.1053/fig9.png

3D 모델은 1° 기준으로 전방향을 촬영하며 카메라를 위쪽으로 이동시켜 모델당 1,440장의 패치 이미지를 생성한다. 3D 모델 역시 마찬가지로 그림 8과 같이 다양한 크기 및 위치로 배경 이미지에 합성할 수 있다. 쉽게 데이터를 획득하기 힘든 굴삭기, 패러글라이더 그리고 화재 데이터를 3D 모델을 사용했다. 패러글라이더는 모양이 변하지 않는 객체이므로 단순히 카메라만 회전시켜 데이터를 획득하였고 굴삭기의 경우 팔이 움직이므로 다양한 형태의 굴삭기 모델을 준비하여 데이터를 획득하였다. 화재의 경우 그 형태가 정해져 있지 않고 매우 다양한 색이 존재하여 연기와 화염 모두를 합쳐 화재로 정의하고 유니티를 이용하여 가상의 화재를 시뮬레이션하고 촬영하여 배경이 투명한 화재 패치를 획득하였다.

3.5 합성 데이터 및 가상 데이터 구축

위와 같이 공인 데이터 셋과 3D 모델을 활용하여 다음과 같은 분류의 패치 데이터들을 취득하였다.

표 4. 배경이 투명한 패치 데이터 수집

Table 4. Collection of patch data with transparent background

사람

차량

굴삭기

패러글라이더/연

비행기

화재

사진 패치

97,905

26,757

283

1,548

3,201

0

3D 패치

0

0

51,840

38,400

0

2,824

다양한 종류의 패치를 획득 후 적절한 배경 데이터에 패치를 오버레이 하면 최종 학습 데이터가 생성된다. 테스트 데이터와의 차이를 줄이기 위하여 Semantic Segmentation 기술을 이용하여 배경 영상에서 육지와 하늘 2종류 영역으로 분할하여 패러글라이더와 비행기는 하늘 영역에 주로 배치하고 나머지는 육지 영역에 배치하도록 설계하였다.

의미론적 분할(Semantic Segmentation)은 DeepLabV3+ 아키텍처를 사용하였다 (26). DeepLabV3+는 Semantic segmentation 신경망으로 V1, V2, V3, V3+까지 총 4개의 버전으로 구성되어 있다. V1에서는 딥러닝 알고리즘의 핵심 연산 중 하나인 합성 곱(Convolution)에 대한 한계점을 파악하고 Atrous Convolution 연산을 적극 활용하여 모델의 성능을 높였다. V2에서는 이미지 검출에서 주요 문제점 중 하나인 다중 크기 문제를 해결하기 위해서 ASPP(Atrous Spatial Pyramid Pooling)기법을 적용하였다.

V3는 Atrous Convolution을 활용해 Feature map의 구조를 밀도 있게 구성했다. 최종적으로 V3+는 Feature map의 채널과 깊이를 고려하여 Separable Convolution과 Atrous Convolution을 혼용함으로써 PASCALVOC 2012 데이터 셋에서 mAP(Mean Average Precision)가 89.0로 높은 성능을 확인하였다.

그림. 10. DeepLabV3+ 네트워크 구조

Fig. 10. Network structure of DeepLabV3+

../../Resources/kiee/KIEE.2020.69.7.1053/fig10.png

모든 배경 이미지에 대해 영역을 분할하고 어떠한 영역에도 속하지 않은 부분은 검은색으로 두고 해당 위치에는 객체를 생성하지 않는 방식으로 구성한다. 그림 11은 Deep-learning 기반 의미론적 분할을 이용한 객체 패치 생성 방법을 나타낸다. (a)는 배경으로 사용될 원본 이미지, (b)는 의미론적 분할을 이용해 하늘과 땅을 분할한 마스크 이미지, (c)는 객체 패치의 특성에 따라 적절한 위치에 데이터를 생성한 이미지이다.

그림. 11. 객체 합성 절차 및 방법

Fig. 11. The caption for a figure must follow the figure

../../Resources/kiee/KIEE.2020.69.7.1053/fig11.png

배경 이미지는 5,269장의 실제 송전철탑 뷰와 비슷한 이미지들로 수집하여 사용하였으며 배경 이미지 1장당 5 ~ 13개의 학습 이미지를 생성하였다. 또한, 본 연구에서는 PTZ카메라를 이용해 다양한 크기의 객체를 학습해야 하기 때문에 Zoom을 인위적으로 하여 1x, 2x, 4x에 대응되는 데이터 셋도 같이 생성하였다.

굴삭기나 패러글라이더는 공인 데이터 셋에 정보가 부족하고, 웹에서 배경이 투명한 이미지도 많지 않아서 공용 플랫폼들을 활용하여 확보된 데이터들은 학습 데이터의 다양성을 확보하기 위해 데이터를 증강하여 활용한다. 인위적으로 객체의 크기를 줄여서 학습하였다. 배경의 다양성과 객체의 크기를 줄이는 방법으로 CutBlur에 기반한 Reverse CutBlur방법을 사용하여 실제 데이터를 증강하였다 (27).

또한, 영상의 종횡비가 16:9 가 아닌 영상도 위의 연산으로 모든 학습 데이터가 16:9의 종횡비를 가지게 하여 학습 시 letterbox나 resize 연산을 통해 이미지의 종횡비가 깨지거나 패딩이 들어가는 것을 방지할 수 있다. 그림 12의 (a)는 원본 이미지이고 (b)는 가우시안 블러를 적용한 이미지 (c)는 (b)와 크기를 줄인 (a)를 오버레이한 이미지이다.

그림. 12. Reverse CutBlur를 활용한 가상 영상 생성

Fig. 12. Virtual image generation using Reverse CutBlur

../../Resources/kiee/KIEE.2020.69.7.1053/fig12.png

또한, 패치 단위로 존재하는 각 객체들은 회전과 같은 변형 증강이 매우 자유로운 특성이 있다. 패치 단위로 회전, 색 변화, 혼합, 반전 등의 증강을 수행한 후 전체 영상으로 합성 뒤 회전, 색 변화, 노이즈를 반영하여 증강하여 많은 변화를 가진 학습 데이터 셋을 다양화하였다. 최종적으로 수집되고 증강된 전체 데이터 셋 규모는 아래와 같다.

표 5. 학습에 사용된 전체 데이터 규모

Table 5. The total amount of data used for training

Class

# of images

# of samples

Airplane

20,348

27,248

Vehicle

46,977

256,953

Heavy equipment

41,435

56,795

Flame

41,722

94,177

Paraglider/Kite

43,761

64,928

Person

28,143

40,785

Transmission tower

44,505

88,662

4. 객체 검출 시스템 구조 및 검출 결과

4.1 검출시스템 구조 설계

객체 검출을 위한 본 연구 목적의 프로젝트에서는 총 6대의 카메라(5대의 PTZ카메라, 1대의 IR카메라(Infrared Camera 열화상카메라))를 NVIDIA GeForce RTX 2,080ti 3대가 장착된 1대의 PC에서 20FPS(Frame Per Seconds, Frame rate, 초당 프레임)로 검출하는 것을 목표로 하였다. 1개의 GPU로 2대의 카메라 스트림을 동시에 처리하는 구조이다.

그림. 13. 객체 검출 시스템 구성도

Fig. 13. Structure of object detection system

../../Resources/kiee/KIEE.2020.69.7.1053/fig13.png

4.2 객체 검출 시험 결과

실험 데이터는 실제 환경에서 화재나 중장비가 등장하는 영상을 구하기 어려웠기 때문에 학습 데이터를 생성하는 방법과 비슷하게 랜덤하게 객체들을 분포시켜 검증 데이터를 생성하였다. 2,550장의 검증 데이터를 이용하여 정확도를 측정하였는데, 다른 객체에 비해 상대적으로 크기가 작은 사람과 차량은 전체 이미지의 2 ~ 7%의 크기의 작은 사이즈를 가지기 때문에 다른 객체들 보다 더 낮은 정확도를 나타낸다. 일반적인 공용 데이터셋(MS COCO, OpenImagesV4)을 이용하여 정확도를 비교해 보았다. 전력설비 현장에 적합한 데이터셋 구성을 고려하여 확보된 데이터셋이기 때문에 예상했던 대로 일반 데이터셋을 활용한 검증 결과와 많은 차이가 나고 있음을 알 수 있다.

표 6. 객체 검출 시험 결과

Table 6. The result of object detection test

MS COCO

OpenImagesV4

Ours

Object

$AP_{50}$

$AP_{75}$

$AP_{50}$

$AP_{75}$

$AP_{50}$

$AP_{75}$

Airplane

81.1

48.4

30.3

12.3

99.05

89.88

Vehicle

58.9

29.7

58.0

49.4

97.34

82.82

Heavy equipment

N/A

N/A

N/A

N/A

99.63

98.01

Flame

N/A

N/A

0

0

99.60

94.91

Paraglider/Kite

84.3

67.3

30.2

3.07

99.52

97.44

Person

73.2

43.0

61.2

45.5

97.12

77.48

Transmission tower

N/A

N/A

0

0

99.84

97.67

표 6의 결과는 각 객체의 AP(Average Precision)을 계산할 때 정답 박스와 예측 박스의 겹치는 정도인 IoU(Intersection of Union)가 0.5 이상인 경우와 0.75 이상인 경우에 대한 객체의 검출 시험 결과를 정리한 내용이다.

5. Conclusion

무인감시가 필요한 전력설비 운영 환경에서 CCTV 카메라와 360도 카메라를 활용한 효율적인 시스템 운영이 가능하다. 360 카메라로 전체 공간을 감시하고 특정 이벤트가 발생하면, PTZ 카메라로 특정 영역을 확대하여 높은 해상도로 대상 지역을 감시할 수 있다. 본 본문에서는 이벤트를 검출 및 감시를 위해서 필요한 객체의 학습 데이터 셋을 구축하는 방안을 제안하였다. 감시에 요구되는 6가지의 객체 분류를 설정하였고, Google 및 YouTube와 같은 공용 데이터 셋에서 이미지를 수집하거나 Stanford car dataset, MS COCO, PASCAL VOC과 같은 공인 데이터 셋으로 부터 데이터를 수집하였다. 그리고 패러글라이더와 굴삭기 등은 3D 모델로부터 다양한 각도와 환경의 데이터를 수집하였다. 6개 종류의 전체 학습 데이터는 총 20여만 개의 이미지를 가진 데이터 셋을 구축하였으며 검출 시스템에 활용 가능하였다. 수집된 데이터들을 활용하여 자동화된 레이블링, 다양한 배경과의 합성 기법 그리고 객체 사이즈를 줄이기 위하여 Reverse CutBlur 방법들을 적용하여 데이터를 증강하는 등 다양한 영상을 데이터화 하여 학습하기 위한 기술을 적용하였다.

본 연구에서 제안하는 학습 데이터 셋 구축 방법을 기반으로 객체 검출 모델을 활용하여 검출 테스트를 수행한 결과 $AP_{50}$에서는 평균 98.9%의 검출율, $AP_{75}$에서는 평균 91.2%의 검출율을 나타냈다. 향후 추가적인 시스템 운영과 연구를 통하여 실데이터를 기반으로 인식 정확도와 검출율을 분석하여 알고리즘을 강화하고, 추가적인 객체의 학습을 수행하여 무인 설비에 대한 감시 신뢰도를 높일 계획이다.

References

1 
Girshick Ross, Donahue Jeff, Darrell Trevor, 2014, Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5), arXiv: 1311.2524v5, pp. 1-21Google Search
2 
Ren Shaoqing, He Kaiming, Girshick Ross, 2015, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, Advances in Neural Information Processing Systems, Vol. 28, pp. 1-0Google Search
3 
Redmon Joseph, 2018, YOLOv3: An Incremental Improvement, arXiv:1804.02767v1, pp. 1-6Google Search
4 
Huang Zhanchao, Wang Jianlin, Fu Xuesong, Yu Tao, Guo Yongqi, 2020, DC-SPP-YOLO: Dense connection and spatial pyramid pooling based YOLO for object detection, Information Sciences, Vol. 522, pp. 241-258DOI
5 
W. David, T. Yufei, Y. Jun, L. Zhuo, Aug 2018, Deep Learning- Aided Cyber-Attack Detection in Power Transmission Systems, IEEE Power and Energy Society General Meeting (PESGM), USA, pp. 1-5DOI
6 
P. Avagaddi, J. Belwin Edward, K. Ravi, 2018, A review on fault classification methodologies in power transmission systems: Part-1, Journal of Electrical Systems and Infor- mation Technology, Vol. 5, pp. 48-60DOI
7 
P. Joon-Young, K.Seok-Tae, L. Jae-Kyung, H. Ji-Wan, O. Ki-Young, 2019, Automatic Inspection Drone with Deep Learning- based Auto-tracking Camera Gimbal to Detect Defects in Power, ICVISP 2019, No. 46, pp. 4-5DOI
8 
Soltani, Mostafa Mohammad, Zhu Zhenhua, 2016, Automated annotation for visual recognition of construction resources using synthetic images, Automation in Construction, Vol. 62, pp. 14-23DOI
9 
Mayer, Nikolaus, 2018, What makes good synthetic training data for learning disparity and optical flow estimation?, International Journal of Computer Vision, Vol. 126, No. 9, pp. 942-960DOI
10 
Ekbatani, Keivan Hadi, Pujol Oriol, 2017, Synthetic Data Generation for Deep Learning in Counting Pedestrians, ICPRAMDOI
11 
Barbosa, Barros Igor, 2018, Looking beyond appearances: Synthetic training data for deep cnns in re-identification, Computer Vision and Image Understanding, Vol. 167, pp. 50-62DOI
12 
N. Jung, , Image Acquision Appartus for The Image Machine Learning of Distributed Equirement, Korea Patent (No-2017- 0125110).Google Search
13 
N. Jung, , Apparatus and Method for Learning Facilities Using Video File, Korea Patent (No-2018-0073872).Google Search
14 
N. Jung, , Apparatus for dividing, tagging an image and for detecting defect of facilities using the same, Korea Patent (No-2019-0119492).Google Search
15 
Qiankun Ye, 2017, Harbor Detection in Large-Scale Remote Sensing Images Using Both Deep-Learned and Topological Structure Features, 2017 10th International Symposium on Computational Intelligence and Design (ISCID),IEEE, Vol. 1DOI
16 
https://ai.stanford.edu/~jkrause/cars/car_dataset.htmlGoogle Search
17 
http://cocodataset.org/Google Search
18 
http://host.robots.ox.ac.uk/pascal/VOC/Google Search
19 
http://cvrr.ucsd.edu/LISA/lisa-traffic-sign-dataset.htmlGoogle Search
20 
https://medusa.fit.vutbr.cz/traffic/datasets/Google Search
21 
http://www.cvlibs.net/datasets/kitti/Google Search
22 
http://labelme.csail.mit.edu/Google Search
23 
https://www.microsoft.com/en-us/research/project/image-understanding/Google Search
24 
https://groups.csail.mit.edu/vision/datasets/ADE20K/Google Search
25 
https://storage.googleapis.com/openimages/web/index.htmlGoogle Search
26 
Liang-Chieh. Chen, 2018, Encoder-decoder with atrous separable convolution for semantic image segmentation, Proceedings of the European Conference on Computer Vision (ECCV)Google Search
27 
Yoo Jaejun, Ahn Namhyuk, Sohn Kyung-Ah, , Rethin- king Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy, arXiv pre- print arXiv:2004.00448 (2020).Google Search

저자소개

Nam-Joon Jung
../../Resources/kiee/KIEE.2020.69.7.1053/au1.png

He received his PhD degree in computer engineering from Hanbat University.

His research interests are AI, VR/AR and Drone Appli- cations.

Chang-Hun Chae
../../Resources/kiee/KIEE.2020.69.7.1053/au2.png

He received M.S. degree in Information and Mechanical Engineering from Gwangju Institute of Science and Technology(GIST).

His Major is Computer Science on general and, in specific, Augmented Reality and Computer Vision.

Myeong-Ha Hwang
../../Resources/kiee/KIEE.2020.69.7.1053/au3.png

Myeong-Ha Hwang is received B.S. degree in Department of Information and Communication Engineering, from Chungnam National Univer- sity(CNU), South Korea in 2015 and M.E. degree in Information and Communication Network Technology from University of Science and Technology(UST), South Korea in 2018, and currently work for Korea Electric Power Re- search Institute(KEPRI).

His current research interests Deep Learning and Natural Language Processing(NLP).

In-Tae Lee
../../Resources/kiee/KIEE.2020.69.7.1053/au4.png

Intae Lee is currently working as a principal researcher in KEPCO Researcher Institute Daejeon, Korea.

He received his M.S. of computer science from Korea University.

At present his research focuses on system modeling and simulation, natural language processing and probability analysis.