Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 69, No. 1, p.138-143

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 10 December 2019Accepted : 24 December 2019

DOI :

http://doi.org/10.5370/KIEE.2020.69.1.138

Comparison of the Methods for Jointly Learning Objects and Actions Using Realtime Object Detector

실시간 객체 검출기를 이용한 동적 객체 및 행동 결합 학습 방법 비교 연구

홍성준 (Sungjun Hong) ¹iD 이희성 (Heesung Lee) ^†iD

(School of Electrical and Electronic Engineering, Yonsei University, Korea.)

^†Corresponding Author : Dept. of Railroad Electrical and Electronics Engineering, Korea National University of Transportation, Korea.

E-mail : hslee0717@ut.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

Most of visual detection in videos are limited to focus on objects or human actions separately. In this work, changing the classification loss of well-known realtime object detector, we introduce a detection model to jointly detect object-action pairs in videos. For detecting objects-actions in videos, we present two methods to label object-action pairs, called Cartesian product (CP) and valid Cartesian product (VCP). In experiments on the A2D dataset, we compares results on detection of object-action pairs in terms of the mean average precision.

Key words

Object-action detection, object detection, action detection, joint learning

1. 서 론

영상 이해와 분석 및 컴퓨터 비전 분야의 기본 요소로 그동안 영상 분류나 객체 검출 연구가 많이 진행되어왔다. 영상 분류는 미리 정해진 라벨에 따라 영상을 분류하는 문제고, 객체 검출은 미리 정한 라벨의 객체를 영상 안에서 찾아 위치, 크기를 예측하는 고전적인 문제다. 특히 이미지넷(ImageNet)^[1]으로 알려진 대규모 영상 데이터베이스의 구축과 함께 영상 분류 및 검출 성능을 겨루는 ILSVRC 대회^[2]가 진행되면서 관련 기술은 급속도로 발전하였고, 심층 회선 신경망(deep convolutional neural network)으로 대표되는 다양한 딥 러닝 기술의 적용[3, 4, 5, 6]으로 고전적인 방법들을 성능 면에서 압도하면서 현재까지 급속도록 발전하고 있다.

일반적으로 영상에서 객체를 검출하는 객체 검출(object detection) 모델은 객체 후보군(region proposal)을 생성하고 생성된 후보군으로부터 객체를 찾아내는 2단 메카니즘으로 구성되어 있다. R-CNN^[7] 계열이라고 불리는 2단 검출 모델(two-stage detector)은 1단계에서 사전에 약속한 수의 객체 후보군의 위치를 생성하고, 2단계에서 각각의 객체 후보를 전경 클래스(foreground classes)와 배경(background)으로 분류한다. R-CNN^[7]은 Selective Search^[8] 방법으로 객체 후보군을 생성하고 객체를 분류하는데 회선 신경망을 적용함으로써 고전적인 객체 검출 방법론의 성능을 압도하여 딥 러닝 기반의 객체 검출 시대를 열었다. R-CNN은 속도와 성능 면에서 빠르게 개선되었으며^[9,^10]. 특히 Region Proposal Network(RPN)의 등장으로 후보군 생성과 후보군 분류가 하나의 회선 신경망으로 통합되어 Faster R-CNN^[11] 프레임워크로 구성되었고 현재까지 2단 검출 모델을 대표하고 있다.

한편 1단 검출 모델(one-stage detector)는 2단 검출 모델과 달리 회선 신경망이 생성한 특징 맵의 모든 위치에서 조밀하게 객체의 위치, 크기, 비율, 클래스 등을 예측한다. 대표적인 1단 검출모델로는 YOLO^[12,^13]와 SSD^[14,^15]가 있으며 2단 검출 모델보다 10~40% 정도 빠르고 정확하게 객체를 검출할 수 있으며, 입력 영상의 크기나 네트워크 크기를 조절하여 검출 속도와 검출 정확도를 조절할 수 있다는 장점이 있어 실시간 영상 처리가 필요한 많은 산업 분야에 응용되고 있다.

한편 객체 검출 성능이 크게 높아지면서 기존의 객체 검출 모델을 변형하여 사람이 행하는 특정 행동을 검출하는 사람 행동 인식 기술(human action detection or localization)도 연구^[16,^17]되었지만, 수년 간 영상 이해 기술이 급속도로 발전했음에도 불구하고 대부분이 객체를 검출하거나 추적하고, 사람의 행동을 인식하거나 위치화 하는데 국한되어 있었다. 행동 인식을 사람에만 국한하지 않고, 움직일 수 있는 동적 객체로 확장하면 영상을 보다 자세하게 이해할 수 있어 자율주행 환경이나 서비스 로봇, 영상 감시, 동영상 검색 등 생활과 밀접한 다양한 분야에 적용이 가능하다.

이에 본 논문에서는 기존의 실시간 객체 검출기를 이용하여 객체를 검출하고 동시에 객체가 행하는 행동을 인식하는 방법을 제안한다. 최신 실시간 객체 검출 모델인 YOLOv2 ^[13]을 사용하여 검출 모델의 분류 손실 함수를 수정하여 A2D(The Actor-Action Dataset)^[18]에서 정의된 객체와 행동의 개별 검출을 먼저 시도한 후, 동적 객체-행동 결합 검출 모델 학습을 위해 객체-행동 쌍을 라벨링하는 방법으로 데카르트 곱 방식(CP)과 유효한 데카르트 곱 방식(VCP)을 제시하고 각 방식의 객체-행동 검출 성능을 비교하여 분석한다.

2. 객체-행동 결합 검출 모델

본 장에서는 본 연구에서 객체와 행동을 검출하기 위해 사용한 대표적인 실시간 객체 검출 모델 YOLOv2를 먼저 소개하고, 객체 검출 모델을 행동 검출 모델로 확장하며, 이후 주어진 동영상에서 객체를 검출함과 동시에 검출한 객체의 행동을 인식하는 객체-행동 인식 결합 학습 (joint learning) 방법을 소개한다.

2.1 객체 검출 모델

객체 검출 기술은 그림 1과 같이 사전에 정의한 검출하고자 하는 객체를 영상에서 찾아 위치와 크기를 특정하는 기술을 말한다. YOLOv2^[13]는 darknet-19를 기반으로 하는 객체 검출 모델로, 그림 2과 같이 ImageNet 영상분류 데이터셋^[1]으로 학습한 darknet-19를 특징 추출기(feature extractor)로 사용하고, darknet-19에 5개의 컨볼루션 레이어(convolutional layer)를 추가한 구조로 되어 있다. 기존 YOLO^[12]와 달리 YOLOv2는 모든 연산이 컨볼루션 연산으로 되어 있기 때문에, R-CNN 계열과는 달리 입력 영상의 크기나 네트워크의 크기를 조절하여 검출 속도(FPS)와 검출 정확도(mAP: mean averager precision)를 균형있게 조절할 수 있다는 장점이 있다. YOLOv2의 기본 구조는 그림 2와 같이 416×416 크기의 영상 입력에 대해 추출된 13×13 크기의 특징 맵에서 객체의 위치와 크기 그리고 라벨을 촘촘하게 예측하도록 되어 있다.

그림. 1. 딥러닝 기반 객체 검출 결과의 예^[11]

Fig. 1. Object detection examples using deep neural networks^[11]

그림. 2. YOLOv2 검출기 구조

Fig. 2. The architecture of YOLOv2 object detector

YOLOv2는 객체가 있는 바운딩 박스의 위치, 크기, 객체도(objectness)를 $t_{x}$, $t_{y}$, $t_{w}$, $t_{h}$, $t_{o}$ 등 5개의 매개변수로 나타내며 네트워크는 각각의 특징 맵의 각 위치에서 이 값들을 예측한다. 이 때 YOLOv2의 손실 함수($L$)은 객체 크기와 위치에 대한 손실 함수($L_{reg}^{t_{x},\:t_{y},\:t_{w},\:t_{h}}$)와 객체 여부 손실 함수($L_{reg}^{t_{o}}$) 그리고 객체 분류 손실 함수($L_{cls}$)의 합으로 다음과 같이 정의된다.

(1)

$$L=L_{reg}^{t_{x},\:t_{y},\:t_{w},\:t_{h}}+L_{reg}^{t_{o}}+L_{cls}$$

여기서 검출하고자 하는 객체 라벨 집합을 $OMICRON =\{adult,\:$ $baby,\: ball,\: bird,\: car,\: cat,\: dog\}$라고 정의하고, 객체 라벨에 대한 확률변수를 $omicron$라고 하면 임의의 검출 후보 영역 $X$가 주어졌을 때 객체 분류 문제는 아래와 같이 일반적으로 나타낼 수 있다.

(2)

$$ o^{*}=\operatorname{argmax}_{o \in O} P(o | X) $$

이 때 객체 분류 손실 함수($L_{cls}^{object}$)는

(3)

$$ L_{c l s}^{o b j e c t}=-\log p_{O}(o) $$

로 쓸 수 있다. 만일 객체가 취할 수 있는 행동 라벨 집합을 $A=\{{climbing, crawling, eating, flying, jumping, rolling, running, walking, none\}}$라고 정의하고, 행동 라벨에 대한 확률변수를 $\alpha$라고 하면 임의의 검출 후보 영역 $X$가 주어졌을 때 일반적인 행동 분류 문제는 객체 분류 문제와 마찬가지로 다음과 같이 나타낼 수 있다.

(4)

$$ \alpha^{*}=\operatorname{argmax}_{\alpha \in A} P(\alpha | X) $$

이 때 행동 분류 손실 함수($L_{cls}^{action}$)는

(5)

$$L_{cls}^{action}= -\log p_{A}(\alpha)$$

로 쓸 수 있는데, 앞서 소개한 식 (1)의 분류 손실 함수($L_{cls}$)를 행동 분류 손실 함수($L_{cls}^{action}$)로 대체하여 YOLOv2 모델을 학습하면 행동 검출도 할 수 있다.

2.2 객체-행동 결합 검출 모델

객체-행동 동시 검출을 위한 라벨링 방법으로 먼저 가능한 객체-행동 쌍 조합을 모두 다른 각각의 클래스로 취급하는 분류하는 데카르트 곱(Cartesian product; CP) 방식이 있다. adult-eating, adult-flying 등 객체 라벨 집합과 행동 라벨 집합의 원소를 모두 곱해 객체-행동 쌍 라벨을 생성하는 것이다. 이러면 YOLOv2가 객체 클래스 분류를 위해 예측해야 하는 라벨의 수는 $| OMICRON |\times | A |$가 된다. 데카르트 곱 방식으로 만들어진 객체-행동 쌍 분류 손실 함수($L_{cls}^{cartesian}$)는 아래와 같다.

(6)

$$ L_{c l s}^{c a r t e s i a n}=-\log p_{O \times A}(o, \alpha) $$

데카르트 곱 방식을 실험에 사용한 A2D 데이터셋에 적용하면 분류해야 하는 객체-행동 쌍 조합이 63개(객체 가짓수: 7, 행동 가짓수: 9)가 된다. 행동 라벨 집합 $A$에 속하는 모든 행동은 다양한 객체들이 행할 수 있지만, 모든 행동을 할 수 있는 객체는 없다. 사람은 날 수 없고, 자동차가 날 수 없듯이 검출하려는 객체-행동 쌍 조합을 유요한 쌍에 대해서만 한정할 필요가 있다. 이처럼 실제 일어날 수 있는 객체-행동 쌍의 라벨 집합을 $V$라고 하면 유요한 객체-행동 쌍 분류 손실 함수($L_{cls}^{valid}$)는 아래와 같다.

(7)

$$L_{cls}^{valid}= -\log p_{V}(o, \alpha)$$

이렇게 실제 유효한 객체-행동 쌍에 한하여 객체-행동을 분류하는 방법을 본 연구에서는 유효한 데카르트 곱(valid Cartesian product; VCP) 방식이라고 하며, 본 연구의 실험에서 객체-행동 결합 검출에 사용한 A2D 데이터셋은 표 1과 같이 유효한 43개의 객체-행동 쌍에 한하여 라벨링 되어 있다.

표 1. A2D 객체-행동 데이터셋의 [actor, action] 동영상 라벨링 정보 요약

Table 1. Summary of label counts in the A2D dataset

	climbing	crawling	eating	flying
adult	101	105	105	-
baby	104	106	-	-
ball	-	-	-	109
bird	99	-	105	106
car	-	-	-	102
cat	106	-	110	-
dog	-	109	107	-
	jumping	rolling	running	walking
adult	174	105	175	282
baby	-	107	-	113
ball	105	117	-	-
bird	102	107	-	112
car	107	104	120	-
cat	105	103	99	113
dog	104	104	110	176
	none
adult	761
baby	36
ball	87
bird	96
car	99
cat	53
dog	46

3. 실험 결과

3장에서는 YOLOv2 검출 모델을 이용해서 A2D 데이터셋에 대해 2.1절에서 소개한 객체, 행동 개별 검출 실험 결과를 먼저 확인하고, 다음으로 2.2절에서 소개한 데카르트 곱 방식과 유효한 데카르트 곱 방식의 객체-행동 결합 검출 실험 결과를 확인한다. 객체-행동 결합 검출 실험을 위해 오픈소스 darknet^[19]을 이용하였으며, ImageNet 영상 데이터셋에 사전 학습된 darknet-19을 백본 네트워크로 하는 YOLOv2를 기본으로 사용했다. YOLOv2의 입력으로는 416×416으로 크기 변환한 RGB 영상을 사용했다. 이후 실험에서의 각 검출 모델 학습을 위해 배치 크기는 64, 학습률(learning rate) 0.001, 모멘텀(momentum) 0.9, 가중치 감쇠(weight decay) 0.0005로 설정하였고, 80,000개의 배치를 학습하는 동안 40,000, 60,000번째 배치에서 학습률을 10분의 1씩 감소시켰다.

한편 객체-행동 결합 검출 성능 평가를 위해서는 기본적으로 PASCAL VOC 객체 검출 프로토콜^[20]을 사용한다. 실측 바운딩 박스(ground-truth bounding box)와 검출된 바운딩 박스의 IoU(Intersection-of-Union)가 0.5 이상이며 분류한 라벨이 일치하는 경우에 검출이 됐다고 인정하며, 이를 클래스 별 검출 정확도 AP(average precision), 전체 클래스에 대한 평균 검출 정확도 mAP(mean average precision)로 계산하여 성능을 비교 평가한다.

3.1 A2D 객체-행동 데이터셋

A2D(The Actor-Action Dataset)^[18]은 현재까지 알려진 객체-행동 쌍에 대해 픽셀 단위 라벨링이 되어 있는 유일한 데이터셋이다. A2D 데이터셋은 YouTube에서 수집한 3,782개의 동영상으로 구성되어 있으며 7가지 객체 라벨(adult, baby, ball, bird, car, cat, dog)과 9가지 다른 행동 라벨(climbing, crawling, eating, flying, jumping, rolling, running, walking, none)과 그 쌍이 정의되어 있다. 실제 동영상 클립 중 일부 프레임에 객체와 행동 라벨링이 되어 있으며 9,651장의 학습 영상과 2,365장의 테스트 영상이 있다. 표 1은 A2D 객체-행동 검출 데이터셋의 동영상의 객체-행동 쌍 라벨링 요약 정보를 보여준다. A2D 데이터셋은 각각의 클래스에 대해 픽셀 단위 라벨링이 되어 있기 때문에 이를 객체-행동 쌍이 위치하는 바운딩 박스의 위치와 크기, 클래스로 변환하여 검출 모델 학습에 사용하였다.

3.2 객체, 행동 개별 검출 실험

표 2는 YOLOv2 검출기를 이용한 A2D 데이터셋에서의 객체 검출 결과를 보여준다. YOLOv2 모델을 이용하여 A2D 데이터셋에 정의된 7가지 객체 검출을 시도한 결과 평균 검출 정확도 68.04%를 얻었고, baby 클래스가 89.78%로 가장 높은 검출 정확도를 보였으며, ball 클래스가 32.39%로 다른 객체들에 비해 현저히 낮은 검출 정확도를 보였다.

표 2. A2D 데이터셋 객체 검출 결과 (mAP=0.6804)

Table 2. Object detection results on A2D dataset (mAP=0.6804)

클래스	adult	baby	ball	bird
평균정확도(AP)	0.7321	0.8978	0.3239	0.7121
클래스	car	cat	dog
평균정확도(AP)	0.7016	0.6752	0.7202

다음으로 표 3은 YOLOv2 검출기를 이용한 A2D 데이터셋에서의 행동 검출 결과를 보여준다. YOLOv2 모델을 이용하여 A2D 데이터셋에 정의된 9가지 행동 검출을 진행한 결과 평균 검출 정확도 50.64%를 얻었고, eating 클래스가 70.53%로 가장 높은 검출 정확도를 보였으며, none 클래스가 30.39%로 가장 낮은 검출 정확도를 보였다. 실험에서 YOLOv2 모델의 입력으로 RGB 영상 정보만을 사용하여 검출기를 학습했기 때문에 객체의 동적 정보가 검출에 반영되지 못 해 객체 검출 실험 결과보다 전체적으로 낮은 검출 정확도를 얻은 것으로 보인다. 이는 optical flow 등의 동적 정보를 검출 모델의 입력으로 사용하는 추후 연구를 통해 성능 개선을 시도해볼 예정이다.

표 3. A2D 데이터셋 행동 검출 결과 (mAP=0.5064)

Table 3. Action detection results on A2D dataset (mAP=0.5064)

클래스	climbing	crawling	eating	flying
평균정확도(AP)	0.6148	0.6342	0.7053	0.4646
클래스	jumping	rolling	running	walking
평균정확도(AP)	0.3870	0.5906	0.3326	0.5245
클래스	none
평균정확도(AP)	0.3039

실제 행동 라벨 중 none이라는 상태는 객체가 움직이지 않은 상태로 동적 정보 없이 구분해내기 어렵다. 이에 none 행동 클래스를 제외한 나머지 8가지 행동 클래스에 한하여 YOLOv2를 학습하여 행동 검출 실험을 한 결과는 표 4와 같다. none 행동 클래스를 제외한 결과, 대체로 검출 정확도가 향상되어 평균 검출 정확도는 53.48%로 2.84% 개선되었고, eating 클래스가 68.18%로 가장 높은 검출 정확도를 보였다. 한편 running 클래스가 낮은 검출 정확도를 보이는데, 추가 연구를 통해 원인을 찾아 개선할 예정이다.

표 4. ‘none’ 클래스를 제외한 A2D 데이터셋 행동 검출 결과 (mAP=0.5348)

Table 4. Action detection results on A2D dataset excluding ‘none’ label (mAP=0.5348)

클래스	climbing	crawling	eating	flying
평균정확도(AP)	0.6386	0.6709	0.6818	0.4294
클래스	jumping	rolling	running	walking
평균정확도(AP)	0.4272	0.5759	0.3194	0.5350

3.3 객체-행동 결합 검출 실험

먼저 A2D 검출 데이터셋의 객체-행동 쌍을 데카르드 곱 방법(CP)에 따라 정의하여 총 63개의 클래스로 정의하여 YOLOv2를 학습한 객체-행동 결합 검출 결과는 표 5와 같으며 평균 검출 정확도는 43.29%로 확인되었다. 다양한 객체-행동결합 검출 정확도 중에서 car-jumping, baby-climbing, baby-walking 등이 94.44%, 80.92%, 77.64%로 높은 검출 정확도를 보였고, dog-none, ball-flying, ball-none 등이 1.85%, 3.49%로 매우 낮은 검출 정확도를 보였다. 특히 ball 객체의 다양한 행동 결합 검출 정확도가 다른 객체보다 낮은 검출 정확도를 보였는데, 앞선 객체 검출 실험에서와 같이 ball 객체가 제대로 검출되지 않아 발생한 결과로 보인다. 또한 none 행동과 결합된 객체-행동 쌍 검출 정확도 또한 낮은 양상을 보였는데 앞서 확인한 행동 검출 실험과 같이 객체-행동 검출에도 동적 정보의 부재로 인한 검출 성능 하락으로 해석된다. 참고로 none 행동 이외에도 flying, jumping, running 행동과 결합된 객체 검출 정확도도 낮음을 확인했다.

표 5. 데카르트 곱 방법에 따른 A2D 데이터셋 객체-행동 결합 검출 결과 (mAP=0.4329)

Table 5. Object-action joint detection results on A2D dataset according Cartesian product (mAP=0.4329)

	climbing	crawling	eating	flying
adult	0.7474	0.6619	0.8735	-
baby	0.8092	0.7627	-	-
ball	-	-	-	0.0241
bird	0.2462	-	0.3249	0.6374
car	-	-	-	0.4108
cat	0.5323	-	0.6003	-
dog	-	0.5562	0.6791	-
	jumping	rolling	running	walking
adult	0.2802	0.5907	0.3537	0.5332
baby	-	0.7655	-	0.7765
ball	0.1369	0.3959	-	-
bird	0.2825	0.3714	-	0.4077
car	0.9444	0.6554	0.4816	-
cat	0.3029	0.5096	0.1996	0.3396
dog	0.3293	0.3514	0.1386	0.5514
	none
adult	0.3885
baby	0.1897
ball	0.0349
bird	0.1667
car	0.1992
cat	0.0520
dog	0.0185

다음으로 2.2절에서 소개한 유효한 데카르트 곱 방식(VCP)에 따라 정의한 43개의 클래스를 가지고 YOLOv2를 학습한 객체-행동 결합 검출 실험을 진행하였다. 표 6와 같이 객체-행동 결합 검출을 얻었는데 평균 검출 정확도가 44.71%로 앞선 데카르트 곱(CP)으로 정의한 실험 결과보다 1.42% 향상된 결과를 보였다. 특히 baby-rolling, baby-none, ball-jumping, bird-eating, bird-rolling, cat-climbing, cat-walking, cat-none, dog-running 등에서 검출 정확도가 5% 이상 크게 개선되었음을 확인하였다. 이는 객체-행동 결합 검출 모델을 학습하는데 있어 유효하지 않은 객체-행동 쌍을 학습에서 제외함으로써 보다 객체-행동 결합 검출 모델이 보다 정확하게 학습된 결과로 보인다. 그러나 앞선 방식과 마찬가지로 flying, jumping, running, none 행동과 결합된 객체들의 검출 정확도가 낮았으며, RGB 영상 정보만으로는 정확한 객체-행동 결합 검출이 어렵다는 것을 확인하였다. 그림 3은 A2D 데이터셋에서의 객체-행동 결합 검출 결과 예를 보여준다.

표 6. 유효한 데카르트 곱 방법에 따른 A2D 데이터셋 객체-행동 결합 검출 결과 (mAP=0.4471)

Table 6. Object-action joint detection results on A2D dataset according valid Cartesian product (mAP=0.4471)

	climbing	crawling	eating	flying
adult	0.7690△	0.6679△	0.9001△	-
baby	0.8089▼	0.7331▼	-	-
ball	-	-	-	0.0180▼
bird	0.2776△	-	0.3905△	0.6445△
car	-	-	-	0.3604▼
cat	0.5972△	-	0.6304△	-
dog	-	0.5616△	0.7073△	-
	jumping	rolling	running	walking
adult	0.2714▼	0.5828▼	0.3653△	0.4823▼
baby	-	0.8266△	-	0.7509▼
ball	0.1971△	0.4370▼	-	-
bird	0.2397▼	0.4444△	-	0.3876▼
car	0.9706△	0.6944▼	0.4975▼	-
cat	0.2713▼	0.5559△	0.2160▼	0.4025△
dog	0.3163▼	0.3372▼	0.2102△	0.5113▼
	none
adult	0.4164△
baby	0.3101△
ball	0.0186▼
bird	0.0273▼
car	0.1919▼
cat	0.1669△
dog	0.0596△

그림. 3. A2D 데이터셋에서의 객체-행동 결합 검출의 예

Fig. 3. Object-action detection examples on A2D dataset

4. 결 론

딥 러닝의 등장으로 영상 분류뿐만 아니라 영상 검출 기술이 빠르게 발전했는데, 기존 영상 검출 기술의 대부분이 객체만을 검출하거나 사람의 행동을 검출하는데 국한되어 있었다. 본 연구에서는 기존 실시간 객체 검출 모델인 YOLOv2를 활용하여 객체와 행동 개별 검출을 시도하고, 나아가 동적 객체와 검출한 객체가 행하는 행동을 동시에 인식하는 객체-행동 결합 검출을 시도하였다. 모델이 검출할 객체-행동 쌍을 정의하는데 데카르트 곱 방식(CP)과 유효한 데카르트 곱 방식(VCP)을 적용하였고 A2D 객체-행동 데이터셋을 학습하여 각 모델의 검출 결과를 비교 실험했다. 시실험 결과 유요한 데카르트 곱 방식으로 라벨을 정의하였을 때 더 나은 검출 정확도를 확인할 수 있었으나, 동적 정보 활용의 부재로 행동 검출이나 일부 객체-행동 결합 검출에 있어 낮은 검출 정확도 확인했다. 추후 객체-행동 검출 모델 입력으로 optical flow와 같은 동적 정보를 추가하는 등의 연구를 통해 객체-행동 결합 검출 성능을 개선하고자 한다.

Acknowledgements

이 성과는 2019년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. NRF-2017R1C1B50 18408).

References

Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei, 2009, Imagenet: A large-scale hierarchical image database, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 248-255

Standford University, 2019, ILSVRC, accessed 2019. http://www.image-net.org/challenges/LSVRC/

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, 2012, Imagenet classification with deep convolutional neural networks, In Proc. of Advances on Neural Information Processing Systems, pp. 1097-1105

Karen Simonyan, Andrew Zisserman, 2014, Very deep convolutional networks for large-scale image recognition, arXiv:1409.1556

Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, 2015, Going deeper with convolutions, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 2016, Deep residual learning for image recognition, In Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778

Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik, 2014, Rich feature hierarchies for accurate object detection and semantic segmentation, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 580-587

Jasper R. R. Uijlings, Koen E. A. Van De Sande, Theo Gevers, Arnold W. M. Smeulders, 2013, Selective search for object recognition, International Journal of Computer Vision, Vol. 104, No. 2, pp. 154-171

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 2015, Spatial pyramid pooling in deep convolutional networks for visual recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 37, No. 9, pp. 1904-1916

Ross Girshick, 2015, Fast r-cnn, in Proc. of the IEEE International Conference on Computer Vision, pp. 1440-1448

Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, 2015, Faster r-cnn: Towards real-time object detection with region proposal networks, in Proc. of Advances on Neural Information Processing Systems, pp. 91-99

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, 2016, You only look once: Unified, real-time object detection, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 779-788

Joseph Redmon, Ali Farhadi, 2017, YOLO9000: better, faster, stronger, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7263-7271

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg, 2016, SSD: Single shot multibox detector, in Proc. of European Conference on Computer Vision, pp. 21-37

Cheng-Yang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi, Alexander C. Berg, 2017, Dssd: Deconvolutional single shot detector, arXiv:1701.06659

Philippe Weinzaepfel, Zaid Harchaoui, Cordelia Schmid, 2015, Learning to track for spatio-temporal action localization, in Proc. of the IEEE International Conference on Computer Vision, pp. 3164-3172

Xiaojiang Peng, Cordelia Schmid, 2016, Multi-region two- stream R-CNN for action detection, in Proc. of European Conference on Computer Vision, pp. 744-759

Chenliang Xu, Shao-Hang Hsieh, Caiming Xiong, Jason J. Corso, 2015, Can humans fly? action understanding with multiple classes of actors, in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2264-2273

Joseph Redmon, 2019, Darknet, accessed 2019. https://github.com/pjreddie/darknet

Mark Everingham, John Winn, 2019, The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Development Kit, accessed 2019. http://host.robots.ox.ac.uk/pascal/VOC/voc2012/devkit_doc.pdf

저자소개

홍성준 (Sungjun Hong)

2017년 3월 - 현재: 연세대학교 전기전자공학과 연구교수

2016년 6월 - 2017년 2월: 연세대학교 전자공학과 박사후연구원

2013년 10월 - 2016년 3월: 스마트스터디(주) Lead Software Engineer

2012년 8월 - 2013년 10월: LG전자(주) 선임연구원

2012년 8월: 연세대학교 전기전자공학과 공학박사

이희성 (Heesung Lee)

2019년 3월 - 현재: 한국교통대학교 철도전기전자전공 부교수

2015년 3월 - 2019년 2월: 한국교통대학교 철도전기전자전공 조교수

2011년 3월 - 2015년 02월: 삼성 에스원(주) 책임연구원

2010년 8월: 연세대학교 전기전자공학과 공학박사

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

실시간 객체 검출기를 이용한 동적 객체 및 행동 결합 학습 방법 비교 연구

Abstract

Key words

1. 서 론

2. 객체-행동 결합 검출 모델

2.1 객체 검출 모델

(1)

(2)

(3)

(4)

(5)

2.2 객체-행동 결합 검출 모델

(6)

(7)

3. 실험 결과

3.1 A2D 객체-행동 데이터셋

3.2 객체, 행동 개별 검출 실험

3.3 객체-행동 결합 검출 실험

4. 결 론

Acknowledgements

References

저자소개

홍성준 (Sungjun Hong)

이희성 (Heesung Lee)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

실시간 객체 검출기를 이용한 동적 객체 및 행동 결합 학습 방법 비교 연구

Abstract

Key words

1. 서 론

2. 객체-행동 결합 검출 모델

2.1 객체 검출 모델

(1)

(2)

(3)

(4)

(5)

2.2 객체-행동 결합 검출 모델

(6)

(7)

3. 실험 결과

3.1 A2D 객체-행동 데이터셋

3.2 객체, 행동 개별 검출 실험

3.3 객체-행동 결합 검출 실험

4. 결 론

Acknowledgements

References

저자소개

홍성준 (Sungjun Hong)

이희성 (Heesung Lee)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers