Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 70, No. 11, p.1714-1721

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 30 July 2021Revised : 26 October 2021Accepted : 27 October 2021

DOI :

http://doi.org/10.5370/KIEE.2021.70.11.1714

Hand Gesture Classification Using Early Fusion Based Multimodal Deep Learning

전단 융합 기반 멀티모달 심층학습을 이용한 손동작 분류

김익진 (Ik-Jin Kim) ¹iD 김수열 (Su-Yeol Kim) ²iD 이용찬 (Yong-Chan Lee) ²iD 이연정 (Yun-Jung Lee) ^†iD

(Hyundai-robotics, co., LTD. Korea.)
(School of Electronics Engineering, Kyungpook National University.)

^†Corresponding Author : School of Electronics Engineering, Kyungpook National University, Korea.

E-mail : yjlee@ee.knu.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

In this paper, we propose a new hand gesture classification strategy using early fusion based multimodal deep learning. The structure and parameters of the state-of-the-art deep learning models such as ResNet152, DenseNet201, EfficientNetB0 for the source task of image classification are reused in the target task of hand gesture classification using surface electromyograph(EMG) and finger's kinematic data. The time-domain EMG and kinematic signals are normalized and then transformed into combined 2-D images for the early-fusion network. The experimental results support the superiority of the proposed method in terms of classification accuracy. The transfer learning model with the EfficientNetB0 shows the 93.94% accuracy for 40 gestures of 40 participants in the Ninapro DB2.

Key words

Hand Gesture Classification, Deep Learning, EMG, Multimodal Learning, Ninapro DB

1. 서 론

근전도(EMG, electromyography)는 근육의 수축 정도를 센서를 통해 측정한 신호 그 자체 혹은 그 신호의 도식적 표현을 일컫는다. 근전도 신호를 활용한 손 자세, 손가락의 모양, 또는 손동작을 분류하는 시스템의 개발은 손 절단 환자를 위한 근전 의수, 손 마비 환자의 재활 시스템에서는 물론이고 수화 인식이나 가상현실(VR) 및 게임의 입력 장치로서도 꾸준히 많은 관심을 끌어왔다^(1)-⁽³⁾. 일례로 최근 들어 Facebook은 근전도 손목밴드를 이용한 키보드 타이핑과 VR 인터페이스 등의 응용 연구를 활발히 진행하고 있다⁽¹⁾.

손동작 분류기의 성능은 기본적으로 분류 또는 인식해야 할 손동작의 데이터에 따라서 크게 달라진다. 손동작 데이터는 손동작의 종류 및 개수, 데이터를 생성한 대상자(subject)의 수 및 특성(성별, 건강 상태 등), 데이터 획득 실험 과정의 일관성, 사용한 센서의 특성 등에 따라 매우 다양하게 설정될 수 있다. 따라서 손동작 분류기 연구들의 성능을 상호 비교하기 위해서는 공통 기준이 되는 손동작 데이터를 벤치마크(benchmark)로서 사용할 필요가 있다. 이러한 요구에 부응하여 스위스의 Idiap research institute에서는 2012년부터 다양한 피험자의 다양한 손동작에 대한 근전도 기반의 데이터베이스(DB)인 Ninapro(Non Invasive Adaptive Prosthetics) DB를 개발하고 Ninapro DB1부터 DB9까지 다양한 데이터를 공개하고 있다⁽⁴⁾⁽⁵⁾.

Ninapro DB를 이용한 많은 손동작 분류 연구가 수행되어 왔다⁽⁶⁾. 분류하는 동작의 수에 따라 분류의 정확도가 다양하여 90% 이상의 적중률을 보이는 경우는 그 동작의 수가 10개 내외로 매우 적으며, 40개 이상의 많은 동작을 인식하고 분류하는 심층학습(deep learning) 기반의 대표적인 연구들을 살펴보면 다음과 같다. Hu 등⁽⁷⁾은 다양한 DB에 대한 분류 결과를 비교하였으며 이 중 Ninapro DB2의 50개 손동작 분류의 경우에 CNN-RNN(Convolutional neural network-Recurrent neural network)을 이용하여 82.2%의 인식률을 보였고, Tsinganos 등⁽⁸⁾의 CNN 기반 인식기는 Ninapro DB1의 52개 동작에 대해 70.5%의 분류 정확도를 보였다. Ding 등⁽⁹⁾은 Ninapro DB2의 50개 동작에 대해 CNN을 이용하여 78.9%의 인식률을 보였다.

한편 Zhengyi 등⁽¹⁰⁾은 Ninapro DB1, DB2, DB7의 87명의 대상자의 23개 동작을 분류하는 네트워크 구조를 제안하여 85%의 비교적 높은 인식률을 달성하였다. Zhengyi 등의 결과는 분류 동작 수가 23개로 50여 개인 Hu 등⁽⁷⁾의 경우와 달라서 직접 비교하기는 어려우나, Zhengyi 등이 인식률 향상을 위해 멀티모달 융합 방식을 채용한 점은 주목할 만하다. Ninapro DB1, DB2, DB7 등은 각종 손동작에 대한 근전도 신호뿐 아니라 Cyberglove II라는 장갑형 센서를 이용하여 손가락 관절각에 대한 데이터 즉, 손동작의 기구학적(kinematic) 데이터도 제공한다. Zhengyi 등은 이러한 근전도와 기구학적 데이터를 동시에 사용하는 손동작 인식용 멀티모달(multimodal) CNN 방법을 제안한 것이며, 이외의 Ninapro DB를 이용한 멀티모달 심층학습 연구는 찾아보기 어렵다.

일반적으로 CNN 구조에서 멀티모달 데이터를 융합하는 방법은 크게 전단 융합(early fusion)과 후단 융합(late fusion) 방법으로 나눌 수 있다⁽¹¹⁾. 전단 융합 방법에서는 데이터 입력 단계에서 여러 형식의 멀티모달 센서 데이터를 융합한 후 하나의 CNN에 입력하는 구조를 이용한다. 후단 융합 방법에서는 각기 다른 형식의 센서 입력들 각각에 대한 CNN을 여러 개 병렬로 구성하고, 각 CNN의 출력을 융합한 후 최종 분류 결과를 도출한다. Zhengyi 등⁽¹⁰⁾이 사용한 방법은 후단 융합 방법에 속한다.

표 1. Ninapro database들의 개요

Table 1. Overview of the Ninapro databases

DB Number	Number of subjects	Number of motions	EMG sensor	Kinematic sensor
1	27 Intact subjects	53	MyoBock 13E200	CybergloveII
2	40 Intact subjects	50	Trigno wireless system	CybergloveII
3	11 Amputee	50	Trigno wireless system	None
4	10 Intact subjects	50	Cometa wave wireless	CybergloveII
5	10 Intact subjects	53	Myo armbandX2	CybergloveII
6	10 Intact subjects	15	Trigno wireless system	None
7	20 Intact subjects, 2 Amputee	12	Trigno wireless system	CybergloveII
8	10 Intact subjects, 2 Amputee	10	Trigno wireless system	CybergloveII
9	77 Intact subjects	41	None	CybergloveII

본 연구에서는 손동작 분류 성능을 향상시키기 위한 새로운 멀티모달 심층학습 방법을 제안하고자 한다. 심층학습의 핵심적인 장점이 네트워크 구성 시 설계자의 인위적인 특징(feature) 파라미터 설정 대신에 많은 데이터를 통해 네트워크 스스로 특징 파라미터를 학습하는 것임에 착안하여, 네트워크의 학습 자유도를 비교적 덜 제한하는 전단 융합 방법을 사용하는 멀티모달 분류기 구조가 더욱 효율적일 것이라는 가설을 바탕으로 새로운 심층학습 기반의 손동작 분류기를 제안하고자 한다. 손동작 데이터는 Ninapro DB2의 40명 대상자의 40개 동작을 대상으로 한다. 대상 동작이 40개로 제한된 이유는 근전도와 기구학적 데이터를 동시에 제공하는 손동작 종류의 최댓값이 40이기 때문이다. 이러한 조건은 대상자 87명의 23개 동작을 이용한 Zhengyi 등의 연구에 비해 분류해야 할 동작 수는 더 많고, 대상자 수가 적어 학습할 데이터 수가 적으므로 분류 난이도가 보다 높은 경우이다.

또한, 본 연구에서는 CNN 부분의 구성을 위해 전이학습(transfer learning) 방법을 사용한다. 전이학습은 머신러닝 기법의 일종으로 기존 소스 작업(source task)에 대해 학습된 모델을 타겟 작업(target task)에 적용하는 기법이다⁽¹²⁾. 최근 손동작 인식을 위한 전이학습 연구 중 Chen 등⁽¹³⁾은 CNN과 LSTM(long short-term memory)을 직렬로 연결한 구조에 대해 타겟 CNN은 소스 CNN의 파라미터를 사용하고 LSTM 부분은 타겟 데이터에 대해 학습을 시키는 전이학습 방법을 제안하였다. 그 결과 전이학습을 적용한 경우가 적용하지 않은 경우보다 인식률이 10%～38% 정도 개선되고, 자체 센서 시스템으로 측정한 10개의 손동작에 대해 최고 평균 인식률 97.34%를 얻었다고 발표한 바 있다. 그리고, Kim 등⁽¹⁴⁾은 Ninapro DB2의 20개 동작에 대해 3가지 소스 CNN에 대한 전이학습 구조를 비교한 결과 최고 99.78%의 높은 분류 정확도를 보임으로써 전이학습의 효용성을 검증한 바도 있다.

정리하면, 본 연구에서는 손동작 인식 및 분류 연구 간 비교를 위한 벤치마크 데이터인 Ninapro DB2의 40명 대상자와 40개 손동작에 대해, 전이학습 구조를 채용하고 근전도와 기구학적 데이터를 동시에 사용한 전단 멀티모달 융합 구조를 갖는 새로운 심층학습 방법을 제안하고 Zhengyi 등⁽¹⁰⁾의 연구 결과와 비교하여 우수성을 검증한다.

본 논문의 구성은 2장에서 Ninapro DB2의 손동작 데이터와 신호의 전처리에 관해서 보다 상세히 설명하고, 3장에서 제안하는 멀티모달 심층학습 모델을 제시하고 전이학습 및 데이터 변환에 대해 논한 후, 4장에서 실험을 통해 제안하는 방법의 유효성 검증과 분류 성능에 대해 분석한다.

2. 손동작 데이터와 전처리

Ninapro DB는 원래 근전의수 및 손 재활 시스템 개발을 위해서 다양한 손동작에 대해 표면 근전도 신호와 손가락 관절 각도 등을 측정해 제작된 데이터베이스이다⁽⁴⁾. 총 9개의 DB로 구성되어 있으며 각 DB의 구성과 특징은 표 1과 같다. 이 중 DB9은 기구학 센서값만을 가지므로 멀티모달 학습에 적합하지 않고 DB6, DB7, DB8은 분류하고자 하는 손동작의 수가 적으며, DB3, DB4, DB5는 대상자가 적어 학습을 위한 데이터가 부족하다. 멀티모달 학습을 위해 적합한 데이터베이스는 DB1과 DB2이며 이 중 더 많은 40명의 대상자에 대한 데이터를 포함하는 DB2를 본 연구에서 사용한다.

표 2. Ninapro DB2에서 선정된 40가지 손/손목 동작

Table 2. Selected 40 hand/wrist motions in Ninapro DB2

Ninapro DB2는 휴식(rest) 동작을 포함 총 50개의 동작으로 구성되어 있다. 휴식 동작을 제외한 손동작은 총 3개의 동작 군으로 구성되어 있다. 각각의 동작들은 손가락과 손목을 움직이는 ‘Hand and wrist movement’ 17개 동작, 원통, 공, 막대 형태의 물체를 쥐거나 쥐고서 물체가 기능하도록 움직이는 ‘Grasp and functional movement’ 23개 동작, 그리고 손가락들의 단순 굴곡(flexion) 동작에 대한 힘 측정을 하는 9개의 ‘Force pattern’ 동작들로 구분된다. 이 중 근전도 신호와 함께 Cyberglove II를 이용한 관절 각도에 비례하는 기구학적 신호 데이터가 포함된, 표 2에 나타낸 바와 같은 총 40개의 ‘Hand and wrist movement’와 ‘Grasp and functional movement’를 분류 대상 동작으로 한다.

Ninapro DB2에서는 피험자가 기록하고자 하는 동작의 영상을 보면서 해당 동작을 따라 하는 동안의 센서 신호 데이터를 제공하며, 피험자는 한 동작을 5초간 취한 후 3초간 휴식 자세(rest 동작)를 취하는 것을 6번씩 반복한다. 피험자의 상완(upper arm)과 전완(forearm)에 장착된 12채널의 근전도 센서와 피험자의 손가락 관절 굽힘을 측정하는 22채널의 장갑형 센서(Cyberglove II)로 각 손동작을 측정한다. 근전도는 2kHz, 기구학적 신호인 손가락 관절 굽힘 정도는 25Hz로 샘플링한다. 총 34채널의 센서 파형을 일례로 나타내면 1번 피험자의 1번 동작(‘Thumb up’)의 경우 각 파형은 그림 1, 2와 같다.

근전도 신호와 기구학적 신호는 대상자의 신체 조건, 센서 접촉 조건과 동작을 취하는 매 순간의 의도에 따라 영향을 받게 되므로 대상자별, 동작 종류별, 동작 회차별, 신호의 채널에 따라 가변적이다. 따라서 센서 데이터의 정규화는 손동작 인식을 위해 필수적이다. 본 연구에서 근전도 신호의 정규화는 Kim 등⁽¹⁴⁾이 제안한 RVC(reference voluntary contraction) 기반의 방법을 사용한다. RVC 정규화 방법은 하나의 기준 참조 동작을 정하고, 여러 회 반복하는 이 기준 동작의 대상자별, 근전도 채널별 평균값을 이용하여 해당 대상자의 다른 동작들의 근전도 데이터를 정규화하는 것이다. 이를 식으로 나타내면 다음과 같다.

그림. 1. 12채널 근전도 신호의 예

Fig. 1. Example of 12-Ch. EMG signals

그림. 2. 22채널 기구학적 신호의 예

Fig. 2. Example of 22-Ch. kinematic signals

그림. 3. 연구에 사용된 모델의 구조 (a) FC 레이어 구조 (b) 제안하는 전단 융합 모델 (c) ‘add’ 레이어를 이용한 후단 융합 모델 (d) ‘concatenate’ 레이어를 이용한 후단 융합 모델

Fig. 3. The structures of models are used in the research (a) structure of FC layer (b) the proposed early fusion model (c) a late fusion model using the ‘add’ layer (d) a late fusion model using the ‘concatenate’ layer

(1)

$\hat x_{i,\:j,\:k,\:l}=\dfrac{x_{i,\:j,\:k,\:l}}{RVC_{i,\:l}}$

여기서, $x$는 원 근전도 신호이고 $\hat x$는 정규화된 근전도 신호를 나타내며, $i$, $j$, $k$, $l$은 각각 피험자 번호, 손동작 번호, 동작 시도 회차, 근전도 채널 번호이다. $RVC_{i,\: l}$ 은 $i$번째 피험자의 $l$번째 근전도 채널의 정규화를 위한 기준값이다. RVC 값 산정을 위한 기준 동작은 Ninapro DB2의 40개 동작 중 비교적 모든 채널의 근전도가 활성화되는 ‘Fingers flexed together in fist’ (표 2의 6번째 동작 참조) 동작이다. 기구학적 신호는 채널별 신호의 최댓값과 최솟값을 기반으로 정규화한다. $i$번째 대상자의 $j$번째 동작의 $k$번째 시도에서 $l$번째 관절 센서 채널의 기구학적 신호를 $z_{i,\:j,\:k,\:l}$이라 하고 최댓값을 $M_{i,\:j,\:k,\:l}$, 최솟값을 $m_{i,\:j,\:k,\:l}$이라 할 때 정규화된 신호 $\hat z_{i,\:j,\:k,\:l}$은 식 (2)와 같다.

(2)

$\hat z_{i,\:j,\:k,\:l}=\dfrac{z_{i,\:j,\:k,\:l}-m_{i,\:j,\:k,\:l}}{M_{i,\:j,\:k,\:l}-m_{i,\:j,\:k,\:l}}$

하나의 동작에 대한 수 초 동안의 정규화된 신호는 슬라이딩 윈도우(sliding window)에 의해 수십 개의 작은 구간의 신호들로 나뉜다. 슬라이딩 윈도우란 일정 시간 폭을 갖는 하나의 윈도우를 시간 축 상에서 조금씩 이동(sliding 또는 shift)하여 인접한 구간의 2개의 윈도우가 겹치게(overlap) 하는 것을 일컫는다. 원 동작 신호를 짧은 시간 구간으로 나누는 것은 기본적으로 학습 데이터를 늘리는 의미와 함께 분류의 실시간성 및 정확도(인식률)와도 관련이 있다. 즉, 윈도우 폭이 커지면 하나의 윈도우에 많은 데이터를 포함하게 되어 인식률이 향상될 수 있으나, 학습을 위한 데이터(세그먼트(segment)) 수가 축소되어 오히려 인식률이 저하될 수도 있으며 그 폭에 해당하는 최초 시간 동안에는 인식 결과가 출력되지 않는 지연이 발생하게 된다. 두 윈도우의 겹치는 양을 많게 하는 작은 간격의 이동은 학습 데이터 수는 늘리고 인식의 빠른 응답 속도를 보장하는 장점이 있다.

이러한 장단점을 고려하여 본 연구에서는 기존 연구^(7)-⁽⁹⁾의 설정값과 유사한 200ms의 윈도우 폭을 사용하고, 비교적 빠른 응답 속도와 많은 학습 데이터를 갖는 10% 이동(90% 겹침) 윈도우를 사용한다. Ninapro DB2의 40명 대상자와 40개 동작에 대해 이러한 윈도우로 나누어진 데이터 세그먼트의 개수는 약 170,000개이다.

3. 전단 융합 기반 멀티모달 학습

3.1 멀티모달 심층학습 방식

멀티모달 학습은 둘 이상의 서로 다른 입력 요소를 융합하여 인식 및 분류 성능을 높이는 기법이다. 그림 3에 나타낸 바와 같이, 멀티모달 심층학습 모델에서 CNN과 FC(fully connected(dense)) 레이어(layer)로 구현되는 특징 추출기와 분류기(classifier) 이전에 두 입력 요소의 결합이 수행되면 전단 융합(early fusion)이라 하며, 이후에 수행되면 후단 융합(late fusion)이라 칭한다⁽¹¹⁾. 후단 융합의 경우에는 서로 다른 차원의 센서 각각에 대해 특징 추출 및 분류를 거친 출력들을 융합하여 최종적으로 분류 결과를 산출한다. 각 네트워크 출력들을 융합하는 방법으로는 출력들을 더하기(add) 하여 하나의 입력 데이터로 만든 후 최종 단의 네트워크에 넣는 방법과 출력들을 연결(concatenate)하여 최종 단에 입력하는 방법이 있다⁽¹¹⁾. 반면에 전단 융합에서는 분류기 이전에 특징을 추출하여 융합하거나 최초 입력단에서 다른 차원의 입력들을 합하여 입력한다.

Zhengyi 등⁽¹⁰⁾은 멀티모달 심층학습 방법 기반의 손동작 인식기를 설계하면서, 근전도 신호와 관절각 신호 각각에 대한 네트워크를 이용하여 대상자별 특성을 인식하는 부분과 손동작을 인식하는 네트워크를 직결하는 모델을 제안하였다. 이 방식은 전술한 멀티모달 융합 관점에서 보면 후단 융합에 속하는 것이다. 그러나 심층학습의 장점이 인위적인 특징 추출보다는 많은 데이터와 다단의 깊은 레이어 구조를 통하여 네트워크가 특징을 찾아서 높은 성능을 나타낼 수 있는 것이라는 점을 고려하면 전단 융합 방법이 더 효율적일 것이다. 본 연구는 이점에 착안하여 그림 3(b)과 같이 근전도 신호와 기구학적 신호를 입력 단계에서 융합한 후 심층학습을 수행하는 모델을 이용한 손동작 분류기를 제안한다. 그림 3(c), (d)의 더하기 및 연결 방식을 이용한 후단 융합 모델은 제안한 전단 융합 모델의 성능 비교군으로써 사용한다.

그림 3(b)-(d)의 CNN 부분은 소스 작업에 대해 학습된 모델을 타겟 작업에 적용하는 기법인 전이학습 방법을 사용한다. 천여 개의 분류클래스와 백만여 개의 이미지로 구성된 ImageNet⁽¹⁵⁾ 데이터에 대해 매우 우수한 이미지 분류(소스 작업) 성능을 보인 ResNet⁽¹⁶⁾, DenseNet⁽¹⁷⁾, EfficientNet⁽¹⁸⁾ 등의 네트워크 모델을 손동작 인식용(타겟 작업) CNN으로 채용하는 것이다. 이는 전이시키는 내용에 따라 가중치(weight) 전이, 특징(feature) 전이, 네트워크 전이 방법 등으로 다양한 전이학습 방법⁽¹²⁾⁽¹⁹⁾ 중 네트워크 전이학습(network-based transfer learning)에 해당한다. 매우 많은 데이터와 클래스에 대해 우수한 성능을 보인 모델에 만약 시계열 데이터인 근전도 및 기구학적 신호를 이미지로 변경하여 입력한다면 이 경우 또한 우수한 분류 성능을 보일 것이라는 점에 착안하여 전이학습을 채용하는 것이다.

3.2 시계열 데이터의 2차원 이미지 변환

시계열 신호를 2차원 이미지로 변환하는 방법으로써 널리 사용되고 있는 대표적인 방법들로는 신호처리 분야에서 많이 사용되어 온 STFT(short time Fourier transform)을 이용한 spectrogram 변환 방법, 웨이블릿(wavelet) 변환을 이용한 scalogram 변환 방법과 단순히 신호 크기에 해당하는 밝기의 픽셀들로 구성하는 gray 이미지 변환 방법 등이 있다⁽¹⁴⁾. Kim 등⁽¹⁴⁾은 근전도 신호를 이용한 손동작 인식용 전이학습 모델에서 spectrogram 및 scalogram 변환 방법에 비해 gray 이미지 변환 방법의 분류 성능이 더 우수함을 보인 바 있다.

본 연구에서는 Kim 등의 연구 결과에 근거하여 근전도 신호와 기구학적 신호 각각을 gray 이미지로 변환하여 심층학습 네트워크에 입력한다. Gray 이미지는 신호의 한 샘플의 크기 값을 0에서 255까지의 명도값을 갖는 하나의 픽셀로 대응시켜 얻어진다. Gray 이미지로 변환하고 융합하는 과정은 그림 4와 같다.

그림. 4. 근전도 및 기구학적 신호의 gray 이미지 변환

Fig. 4. The conversion EMG and kinematic signals to a gray image

그림 4에서 Gray 이미지의 높이는 각 신호의 채널 수를 나타내며 너비는 단위시간에 대한 샘플의 개수이다. 200ms의 단위시간은 400개의 샘플 수에 해당하여, 근전도 신호의 gray 이미지는 12X400의 크기를 가지고 기구학적 신호의 gray 이미지는 22X400의 크기를 가진다. 전단 융합을 위해 근전도 신호로 생성된 이미지를 상단에 기구학적 신호로 생성된 이미지를 하단에 배치하여 융합된 이미지를 생성한다. 생성된 이미지는 Open CV의 'inter area interpolation'을 통해 전이학습의 소스 네트워크의 입력 차원과 동일한 224X224X3(높이, 너비, 색상)의 이미지로 변환된다.

3.3 학습 및 테스트용 데이터 분리

Ninapro DB의 데이터 기록 방법은 피험자에게 기록하고자 하는 동작의 영상을 보여주고 피험자가 해당 동작을 모사하는 동안 센서 데이터를 저장하는 방법이다. 동작을 반복하는 동안 피험자의 집중도, 의도 및 피로도 등에 따라, 같은 피험자가 같은 동작을 수행하더라도 기록된 신호의 파형 및 크기 등의 특성이 변화할 수 있다. 이러한 변화를 예를 들어 그림 5를 통해 살펴보면 25번 대상자가 1번 동작(‘thumb up')을 취할 때 9번 채널의 근전도 신호가 시도(trial) 회차별로 달라지는 것을 확인할 수 있다.

그림. 5. 25번 대상자의 1번 동작, 6회 반복 동안 9번 채널의 근전도 신호

Fig. 5. The EMG signals of 9th channel of subject 25 and motion 1 during 6 trials

이와 같은 시도별 데이터 특성의 변화로 인해 어느 시도 회차의 데이터를 학습용으로 사용하고 어느 회차의 데이터를 성능 평가를 위한 테스트용으로 사용하는지에 따라 분류 성능이 다소 달라질 수 있다. 한편 하나의 시도 내의 데이터를 학습용과 테스트용으로 나누게 되면 학습 데이터와 테스트 데이터 간의 상관관계가 비교적 높아 네트워크의 분류 성능을 왜곡할 수 있다. 따라서 본 연구에서는 표 3과 같이 4가지로 시도 간(inter-trial) 데이터 분리(split)를 한 경우에 대해 분류 성능을 평가한다. 학습(training) 데이터는 총 6회의 시도 중 초반, 중반, 종반의 2개씩 시도를 제외한 세 가지 경우(1～3번 케이스)와 중간의 두 시도와 양 끝의 두 시도를 제외한 경우(4번 케이스) 한 개를 포함해 표 3과 같이 총 4가지 경우로 분리한다. 4회 시도의 데이터를 학습용, 1회 시도 데이터를 네트워크 학습 검증(validation)용, 그리고 학습 완료된 네트워크의 성능 평가 테스트용으로 1회 시도의 데이터를 사용한다.

표 3. 시도 간 데이터 분리

Table 3. Inter-trial data split

Test case	1	2	3	4
Trial no. for training	3,4,5,6	1,2,5,6	1,2,3,4	1,3,4,6
Trial no. for validataion	1	3	5	2
Trial no. for test	2	4	6	5

4. 실험 결과

그림 3(b)-(d)의 네트워크에 200ms 구간의 근전도와 기구학적 시계열 신호를 이미지로 변환한 후 표 3과 같이 분리된 데이터들을 이용하여 학습 및 성능 평가를 수행한다. 전이학습을 위한 소스 네트워크로는 ResNet152⁽¹⁶⁾, DenseNet201⁽¹⁷⁾, EfficientNetB0⁽¹⁸⁾를 사용한다. 실험에 사용된 네트워크의 하이퍼 파라미터는 표 4와 같다.

표 2와 같은 40개의 손동작에 대해 근전도 및 기구학적 신호 각각의 단일 모드(unimodality) 입력과 두 신호가 융합된 멀티모달 입력으로 각각의 네트워크를 학습한 후 손동작 분류 정확도(%)를 정리한 결과는 표 5와 같다. 모든 정확도는 학습 검증의 정확도가 30 에폭(epoch) 중 가장 높을 때 조기 종료(early stop)로 학습을 중지한 후 얻은 네트워크에 성능 검증 테스트용 데이터를 입력하여 구하였다.

표 4. 실험에 사용한 하이퍼 파라미터

Table 4. Hyper parameters used in the experiment

Image size	224X224X3	Batch size	32
Total epoch	30	Optimizer	Adam
Base learning rate	0.001	Dropout rate	0.5
Activation function	relu, softmax	Kernel initializer	he uniform

표 5의 실험 결과를 다양한 관점에서 세부적으로 살펴보면 다음과 같다. 첫째, 각 네트워크 모델에서 5가지 단일 또는 멀티모달 입력과 융합 방법에 대해 4가지 시도 케이스별 정확도의 평균값이 제일 오른쪽 열에 나타나 있는데, 이 평균값들을 각 네트워크 모델을 기준으로 다시 평균해 보면 ResNet152의 경우 79.60% DenseNet201은 77.43% 그리고 EfficientNetB0 모델은 82.27%의 평균 정확도를 나타낸다. 이는 EfficientNetB0가 입력 종류나 데이터 변화를 고려할 때 전체적인 분류 성능이 우수함을 의미한다. EfficientNetB0의 경우는 5가지 입력 종류별 정확도의 최댓값과 최솟값의 편차도 제일 작다.

둘째로 표 5의 하단부에 각 시도 케이스별로 5가지 입력 및 융합 종류에 대해 3가지 네트워크 모델의 평균 정확도를 구하였는데 이를 다시 평균하여 살펴보면, 케이스 1～4 에 대한 평균값이 각각 76.05%, 82.18%, 73.64%, 86.06%이다. 이는 시도 데이터의 선택에 따라 심층학습의 성능이 달라질 수 있음을 나타내며, 전체적으로 전후반부 시도에 고르게 분포한 데이터로 학습하고 중간 시도 데이터로 테스트한 4번 케이스가 86.06%로 최고의 분류 성능을 보이는 것을 알 수 있다.

표 5. 단일 모드와 멀티모달 입력에 대한 심층학습 네트워크들의 분류 정확도

Table 5. Classification accuracies of the deep learning networks for unimodal and multi-modal inputs

Test case		1	2	3	4	Mean
Network model (Modality or Fusion method)	ResNet152 (EMG data only)	69.06	76.30	61.97	77.57	71.23
	ResNet152 (Kinematic data only)	83.11	68.96	76.19	91.60	79.97
	ResNet152 (Early fusion)	70.55	84.10	83.17	83.46	80.32
	ResNet152 (Late fusion – Add layer)	75.94	87.16	81.53	90.24	83.72
	ResNet152 (Late fusion – concatenate layer)	76.56	89.20	79.79	85.43	82.75
	DenseNet201 (EMG data only)	66.73	66.82	69.01	74.19	69.19
	DenseNet201 (Kinematic data only)	71.83	84.44	75.13	89.23	80.15
	DenseNet201 (Early fusion)	88.20	87.28	69.69	87.77	83.24
	DenseNet201 (Late fusion - Add layer)	58.80	89.76	60.23	92.25	75.26
	DenseNet201 (Late fusion – concatenate layer)	70.64	78.13	78.14	90.25	79.29
	EfficientNetB0 (EMG data only)	74.39	81.36	69.48	81.64	76.72
	EfficientNetB0 (Kinematic data only)	84.15	89.62	74.14	91.60	84.88
	EfficientNetB0 (Early fusion)	88.68	83.23	85.34	93.94	87.80
	EfficientNetB0 (Late fusion – Add layer)	78.92	82.85	79.79	76.55	79.53
	EfficientNetB0 (Late fusion – concatenate layer)	83.21	83.54	77.59	85.29	82.41
	Mean of 3 models (EMG only)	70.06	74.83	66.82	77.80	72.38
	Mean of 3 models (Kinematic)	79.70	81.01	75.15	90.81	81.66
	Mean of 3 models (Early fusion)	82.48	84.87	73.85	88.39	83.78
	Mean of 3 models (Late fusion – Add layer)	71.22	86.59	73.85	86.35	79.50
	Mean of 3 models (Late fusion – concatenate layer)	76.80	83.62	78.51	86.99	81.48

셋째로 표 5의 제일 오른쪽 아랫부분에 계산된 5가지 입력 및 융합 종류에 대한 평균 정확도들을 보면 전단 융합을 이용한 방법이 83.78%로 최고의 평균 분류 정확도를 나타내었다. 이는 근전도와 기구학적 신호를 전단 융합하는 방법이 단일 모드 입력이나 후단 융합을 이용한 방법에 비해 우수한 성능을 보임을 의미한다. 단일 모드 입력별과 전단 및 후단의 멀티모달 융합 방법별로 나누어 정확도의 평균값과 최대・최솟값을 도식적으로 나타내면 그림 6과 같다. 가장 높은 최대 정확도를 달성한 경우는 기구학적 신호만을 사용한 경우나 역시 전단 융합 방법이 평균적으로는 더 우수하며 최댓값과 최솟값의 편차도 작은 방법임을 알 수 있다.

마지막으로 표 5에서 가장 높은 분류 정확도를 달성한 모델과 방법을 살펴보면, EfficientNetB0 기반의 전이학습 모델과 전단 융합을 사용한 심층학습 네트워크가 87.80%의 평균 정확도를 나타내며 4번 테스트 케이스의 경우에 93.94%의 최고 적중률을 보인다. 이는 후단 융합을 이용한 Zhengyi 등의 기존 연구 결과인 85%보다 더 높은 정확도로써 멀티모달 융합을 이용한 손동작 분류에서 전단 융합이 후단 융합을 이용한 방법보다 효율적임을 나타낸 것이다.

그림. 6. 입력 모드에 따른 정확도의 최소, 최대, 평균값

Fig. 6. The minimum, maximum, and mean values of accuracy according to modalities

5. 결 론

본 논문에서는 새로운 손동작 분류 및 인식기로써 멀티모달 입력과 전이학습을 이용한 심층학습 방법을 제안하였다. 근전도 신호와 기구학적 신호를 융합한 네트워크 구성에 있어 기존의 후단 융합과 다른 전단 융합 방법을 제시하고, 전단 융합 심층학습 방법이 최고 93.94%의 높은 분류 정확도를 보이는 실험 결과를 통해 그 효용성을 검증하였다. 전이학습에 사용된 소스 모델의 변화에 따른 성능을 비교·검토하였으며 기존 연구들과의 객관적인 성능 비교를 위하여 벤치마크용 Ninapro DB를 사용하였다.

제안된 방법은 근전도 신호를 이용한 가상현실 기기, 게임, 재활 등의 분야에서 활용 가능하며, 추후 장갑형 센서를 이용한 기구학적 관절각 측정의 불편함을 개선하여 비접촉식 센서(카메라 또는 립모션(Leap motion) 센서 등)를 이용한 방법과 더욱 많은 피험자와 손동작 인식에 관한 연구가 필요하다고 사려된다.

Acknowledgements

This work has supported by the National Research Foundation of Korea(KRF) grant funded by the Korea government(MSIT)(No. 2019R1F1A1057966).

References

Facebook Reality Labs, March 18 2021, Inside Facebook Reality Labs: Wrist-based Interaction for the Next Computing Platform, http://tech.fb.com

I. Herrera-Luna, 2019, Sensor Fusion Used in Applications for Hand Rehabilitation: a Systematic Review, IEEE Sensors Journal Early Acess, pp. 1-12

O. Faust, 2018, Deep Learning for Healthcare Applications Based on Physiological Signals: A Review, Computer Methods and Programs in Biomedicine, Vol. 161, pp. 1-13

M. Atzori, 2014, Electromyography Data for Non-invasive Naturally-controlled Robotic Hand Prostheses, Scientific data, Vol. 1, No. 1, pp. 1-13

A. Gijsberts, 2014, Movement Error Rate for Evaluation of Machine Learning Methods for sEMG-based Hand Movement Classification, IEEE Transactions on Neural Systems and Rehabilitation Engineering, Vol. 22, No. 4, pp. 735-744

D. Xiong, 2021, Deep Learning for EMG-based Human- Machine Interaction: A Review, IEEE/CAA Journal of Automatica Sinica, Vol. 8, No. 3, pp. 512-533

Y. Hu, 2018, A Novel Attention-based Hybrid CNN-RNN Architecture for sEMG-based Gesture Recognition, PloS One, Vol. 13, No. 10

P. Tsinganos, 2018, Deep Learning in EMG-based Gesture Recognition, Proc. of Int'l Conference on Physiological Computing Systems, pp. 107-114

Z. Ding, 2018, sEMG-based Gesture Recognition with Convolution Neural Networks, Sustainability, Vol. 10, No. 6

L. Zhengyi, 2017, Multimodal Deep Learning Network Based Hand ADLs Tasks Classification for Prosthetic Control, Proc. of Int'l Conference on Progress in informatics and Computing

K. Gadzicki, 2020, Early vs Late Fusion in Multimodal Convolutional Neural Networks, Proc. of Int'l Conference on Information Fusion

S. J. Pan, Q. Yang, 2009, A Survey on Transfer Learning, IEEE Transactions on Knowledge and Data Engineering, Vol. 22, No. 10, pp. 1345-1359

X. Chen, 2020, Hand Gesture Recognition Based on Surface Electromyography Using Convolutional Neural Network with Transfer Learning Method, IEEE Journal of Biomedical and Health Informatics

S. Y. Kim, 2021, Hand Gesture Recognition Using RVC Normalization and Transfer Learning, The Transactions of the Korean Institute of Electrical Engineers, Vol. 70, No. 1, pp. 190-200

J. Deng, 2009, Imagenet: A Large-scale Hierarchical Image Database, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition

K. He, 2016, Deep Residual Learning for Image Recognition, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition

G. Huang, 2017, Densely Connected Convolutional Networks, Proc. of the IEEE Conference on Computer Vision and Pattern Recognition

M. Tan, Q. V. Le, 2019, Efficientnet: Rethinking Model Scaling for Convolutional Neural Networks, Proc. of the Int'l Conference on Machine Learning

P. Marcelino, 2018, Transfer Learning from Pre-trained Models, Towards Data Science

저자소개

김익진 (Ik-Jin Kim)

2019년 경북대학교 전자공학과 졸업.

2021년 경북대학교 전자공학부 석사졸업.

2021년~현재 현대 로보틱스 재직. 관심분야는 인공지능, 임베디드 시스템, 지능 제어, 센서 융합.

E-mail : skyknight55@knu.ac.kr

김수열 (Su-Yeol Kim)

2020년 계명대학교 의용공학과 졸업.

2020년~현재 경북대학교 전자공학부 석사과정. 관심분야는 인공지능, 재활 로봇, 지능 제어, 임베디드 시스템, 신호처리.

E-mail : ksy8136612@knu.ac.kr

이용찬(Yong-Chan Lee)

2013년 경북대학교 전자공학부 졸업.

2015년 동 대학원 석사 졸업.

2015년~현재 동 대학원 박사과정. 관심분야는 지능 제어, 임베디드 시스템, 서비스 로봇.

E-mail : leeyc@knu.ac.kr

이연정 (Yun-Jung Lee)

1984년 한양대학교 전자공학과 졸업. 1986년 한국과학기술원 전기 및 전자공학과 석사.

1994년 동대학원 박사.

1995년~현재 경북대학교 IT대학 전자공학부 교수. 관심분야 서비스 로봇, 재활 로봇, 지능 제어, 딥러닝 시스템.

E-mail : yjlee@ee.knu.ac.kr

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

전단 융합 기반 멀티모달 심층학습을 이용한 손동작 분류

Abstract

Key words

1. 서 론

2. 손동작 데이터와 전처리

(1)

(2)

3. 전단 융합 기반 멀티모달 학습

3.1 멀티모달 심층학습 방식

3.2 시계열 데이터의 2차원 이미지 변환

3.3 학습 및 테스트용 데이터 분리

4. 실험 결과

5. 결 론

Acknowledgements

References

저자소개

김익진 (Ik-Jin Kim)

김수열 (Su-Yeol Kim)

이용찬(Yong-Chan Lee)

이연정 (Yun-Jung Lee)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

전단 융합 기반 멀티모달 심층학습을 이용한 손동작 분류

Abstract

Key words

1. 서 론

2. 손동작 데이터와 전처리

(1)

(2)

3. 전단 융합 기반 멀티모달 학습

3.1 멀티모달 심층학습 방식

3.2 시계열 데이터의 2차원 이미지 변환

3.3 학습 및 테스트용 데이터 분리

4. 실험 결과

5. 결 론

Acknowledgements

References

저자소개

김익진 (Ik-Jin Kim)

김수열 (Su-Yeol Kim)

이용찬(Yong-Chan Lee)

이연정 (Yun-Jung Lee)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers