Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Dept. of Computer Science, Sangmyung University, Korea.)



Emotion recognition, Acoustic feature, Facial image, Deep learning

1. 서 론

최근 우리 정보사회의 기술발달로 성능이 높은 개인용 컴퓨터가 급속도로 대중화되고 있다. 이에 따라서 인간과 컴퓨터사이의 상호작용은 활발하게 연구되고 있으며, 사용자가 이해하고 사용하기 쉬운 형태로 발전해나가고 있다. 그렇기 때문에 컴퓨터가 인간의 감정을 더 잘 이해하는 것은 중요한 문제가 되었다. 사용자의 감정 상태를 인식하기 위해서는 언어, 얼굴 표정, 음성, 제스처, EEG, 심박수 등 여러 생체 정보를 수집해 인식 시스템을 설계하는 것이 필요하다. 그래서 특히 신호처리 분야에서 감정 인식은 활발히 연구되고 있다 (1). 감정 인식 인터페이스는 사용자의 감정 상태를 정확히 추출하고 인식하여, 그에 맞는 서비스를 제공하는 것을 목표로 하고 있다. 감정은 신체적 자극, 심리적 경험과 같은 외부 자극에 대해 보이는 개인의 주관적인 느낌이기 때문에 사용자의 감정 상태를 인식하기 위해서는 사용자의 음성 신호, 얼굴 표정, 비디오와 같은 다양한 형태의 입력 정보들을 함께 분석할 필요가 있다.

최근 다양한 연구들이 얼굴 이미지와 딥러닝 기반의 모델을 결합하여 감정 인식 성능을 높이고 있다 (2-4). 얼굴 이미지를 사용하는 얼굴 감정인식은 주로 1) 입력 이미지에서 얼굴을 감지하는 것, 2) 얼굴의 특징을 추출하는 것, 3) 감정을 인식하는 것 등 3가지의 단계로 구성된다. 기존의 방법에서는 얼굴 이미지에서 적절한 감정적 특징들을 추출하는 것이 중요했고, 그 감정적 특징들의 순간적인 변화, 즉 표정 근육들의 움직임과 같은 것들을 포착하는 것이 인식률을 높이기 위해 필요했다 (5). 얼굴 감정 인식에서는 주로 Convolutional Neural Network(CNN)가 많이 사용되어왔다. CNN은 여러 필터들을 통해 입력 이미지를 합성하고 특징 맵을 자동으로 만들어낸다. 특징 맵은 Fully connected layer로 결합되어 클래스를 기반으로 감정 표현을 분류하게 된다 (6).

인간의 감정이 드러날 수 있는 또 다른 데이터인 음성신호 같은 경우에는 인간 사이의 커뮤니케이션에 있어서 가장 자연스러운 매체이며 언어적 내용과 억양, 크기, 속도 등 화자의 감정이 내포된 정보를 담고 있다. 따라서 음성 감정 인식 시스템에서 가장 중요한 문제는 사용자의 음성 신호에서 피치, 포먼트, 에너지와 같은 적절한 음향적 특징들이 추출되고 적절한 분류엔진이 함께 병렬적으로 사용할 수 있도록 하는 것이다. 이 때 음향적 특징을 추출하는 방법으로는 MFCC(Mel- Frequency Cepstrum Coefficients)가 주로 사용되어왔다. 하지만 사용자의 감정 상태와 음성 신호로부터 뽑아낸 음향적 특징 사이의 분명한 연결고리는 없기 때문에, 얼굴 감정인식방법과 다른 형태의 감정 인식방법보다 상대적으로 인식률이 낮다. 따라서 적절한 음향적 특징을 추출하여 모델에 반영하는 것이 인식률을 높이기 위해 중요하다.

일반적으로 사람들은 행복, 슬픔, 분노, 중립과 같은 말과 표정을 사용하는 다른 사람들의 감정을 인식한다. 이전의 연구에 따르면, 언어적 요소는 인간 의사소통의 3분의 1을 차지하고, 비언어적 요소는 인간 의사소통의 3분의 2를 차지한다 (7,8). 얼굴 표정은 비언어적 요소의 대표적인 예이다. 인간의 지각적, 인지적 측면에서 컴퓨터가 인간의 감정에 영향을 줄 때 음성 신호와 얼굴 이미지를 동시에 사용하는 것이 보다 정확하고 자연스러운 감정 인식에 도움을 줄 수 있는 것은 당연하다. 하지만 음성 신호와 얼굴 이미지 시퀀스에서 각각 감정을 인식하는 방법의 특성이 다르기 때문에, 두 입력을 결합하는 것은 여전히 감정인식 분야에서 연구되고 있는 부분이다. 따라서 본 논문에서는 음성 신호와 얼굴 이미지 시퀀스를 Joint Fine-Tuning방법으로 융합해 감정 인식에서의 인식률을 높이는 방법을 제안한다.

두 입력을 결합하는 문제를 해결하기 위해 3가지 심층 네트워크를 설계한다. 이미지를 기반으로 하는 첫 번째 모델은 얼굴표정의 변화를 포착할 수 있도록 얼굴 이미지 시퀀스를 이용해 학습시킨다. 이미지를 기반으로 하는 두 번째 모델은 Face landmark를 이용하여 얼굴의 움직임을 반영할 수 있도록 학습되고, 음성 신호를 기반으로 한 세 번째 모델은 이미지 시퀀스를 동기화하면서 음향적 특징으로 변환되어 학습된다. 이 3가지 모델은 Joint fine-tuning방법으로 통합시킨다. 그 결과 86.08%라는 높은 인식률을 얻었다.

본 논문의 구성은 다음과 같다. 2절에서는 연구에 사용한 데이터베이스에 대해서 설명하고, 3절에서는 데이터베이스의 전처리 방법, 설계한 3가지 모델과 그 모델들을 통합하는 Joint Fine-Tuning방법에 대해서 설명한다. 4절에서는 실험 환경과 방법, 모델에 따른 정확도를 비교하고, 5절에서 결론으로 마무리 짓는다.

2. 데이터 베이스

본 논문에서는 데이터베이스로 Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS) (9)를 사용하였다. 이 데이터베이스는 neutral, calm, happy, sad, angry, fearful, disgust, surprised로 이루어진 8개의 감정 상태를 분류해 표현했다. 배우가 각각의 감정을 담은 표정을 지으면서 대사를 말하는 영상으로 이루어져 있고 언어는 북미 영어로 되어있으며, 총 24명의 배우로 구성되어있다. 각각의 영상데이터는 audio-visual(AV), video-only(VO), audio-only(AO) 3가지 형식으로 이용할 수 있고 104개의 audio-visual(AV)데이터와 song데이터로 이루어져 있다.

이 중에 4,320개의 audio-visual(AV)데이터가 본 논문에서 사용되었다. Neutral을 제외한 모든 감정들은 감정의 강도가 높은 감정적 예시부터 일상생활에서 발견될 수 있는 다소 낮은 강도의 감정적 예시까지 포함시키기 위해서 normal과 strong으로 감정의 강도 단계를 나누어 표현되어있다. Neutral과 calm 감정 같은 경우에는 베이스라인 감정으로 선택되었는데, 이는 neutral이라는 감정에 약간의 부정적인 감정이 혼합되어있는 경우가 많아 중립이라는 감정을 잘 전달하기 어렵기 때문에 감정적인 균형을 맞추기 위해서 약간의 긍정적 감정이 혼합되어있는 calm이라는 감정이 추가적으로 선택되었다.

이 데이터베이스를 247명의 평가자가 각각 7,356개의 파일의 하위집합을 평가했고, 신뢰성은 72명의 평가자가 평가자 내 test-retest 데이터를 제공했다. 검증은 평가자들에게 표현된 감정에 라벨을 붙이도록 했다. RAVDESS에서는 기존의 얼굴 감정인식 데이터베이스들의 검증방법과는 다르게, 어휘적인 내용이 들어있는 움직임과 감정적 표현과 관련된 움직임이 상호작용하는 orofacial 움직임을 검증해야하기 때문에 모든 자극에 대한 감정 정확도, 강도 및 진성(진실성)을 측정하도록 제시되어있다. 적절한 자극 선택을 위해 Goodness점수를 부과하는데, Goodness score는 0과 10사이의 범위로, 평균정확도, 강도 및 진성 측정의 가중치 합이다. 이 방정식은 정확도, 강도 및 진성의 더 높은 측정값을 받는 자극에 더 높은 Goodness score를 부여하도록 정의되어있다.

그림. 1. 데이터베이스 이미지 예시

Fig. 1. Examples from the RAVDESS dataset

../../Resources/kiee/KIEE.2020.69.7.1081/fig1.png

3. 제안하는 방법

3.1 Preprocessing

그림 2에서 색이 있는 부분은 배우가 감정을 표현하는 것을 준비하거나, 마치는 비음성구간이다. 본 논문에서는 배우가 감정을 표현하는 부분, 즉 말하는 부분의 얼굴 이미지와 음성 신호가 필요하다. 본 논문에는 배우가 감정을 표현하는 부분, 즉 말하는 부분의 얼굴 이미지와 음성 신호가 필요하다. 그림 2를 보면 음성신호는 배우가 감정을 표현하는 부분과 표현하지 않는 부분으로 나누어진다. 감정을 표현하지 않는 부분은 불필요한 정보로 모델의 정확도가 달라질 수 있기 때문에 정확도를 높이기 위해 이 부분을 제거하는 전처리 과정이 필요하다. 음성신호에서 음성구간은 비음성구간보다 에너지 값이 크기 때문에 두 구간을 구분할 수 있도록 Integrate Absolute Value(IAV) 특징벡터를 사용했고 식은 다음과 같다 (10).

(1)
$\bar{X}=\sum_{i=1}^{N}| X(i\triangle t)|$

여기에서, X : 측정된 신호

△t : 샘플링 시간 간격

N : 샘플의 수

i : 샘플의 순서

그림. 2. 비디오의 이미지 시퀀스와 음성신호

Fig. 2. Speech signal and image sequence from a video

../../Resources/kiee/KIEE.2020.69.7.1081/fig2.png

우선, 신호에서 에너지의 최댓값과 최솟값인 부분을 찾아서 최솟값보다 최댓값과 최솟값의 차이의 10%만큼 에너지가 큰 부분을 IAV 임계값으로 설정한다. 만약에 최댓값의 70%가 최솟값보다 작으면 임계값은 최댓값의 20% 아래로 설정한다. 그 과정의 예시는 그림 3과 같다.

그림. 3. IAV 임계값 설정 예시

Fig. 3. An examples of determining the threshold

../../Resources/kiee/KIEE.2020.69.7.1081/fig3.png

음성구간은 프레임단위로 해당 프레임 내에서 임계값보다 커지는 지점을 시작점으로 하고 시작점부터 임계치가 작아지는 구간이 나오면 그 지점을 끝 점으로 하게 된다. 이 방법을 사용하여 정확히 음성구간을 추출하였고, 그 음성구간에 맞추어 이미지 시퀀스를 샘플링 하였다. 이미지 시퀀스의 sampling rate는 30Hz으로 한다. 그러면 33.33ms단위로 분석하게 되기 때문에 48000Hz로 샘플링된 음성신호의 윈도우 크기는 이미지 시퀀스의 샘플링 주파수에 맞추어 1,600으로 한다.

3.2 감정인식모델

본 논문에서는 3가지 모델을 설계하고 통합한다. 이미지 기반의 모델로서 얼굴 이미지를 입력으로 한 모델과 Face land- mark을 입력으로 한 모델을 설계한다. 그리고 음성 기반의 모델을 설계하는데, 이 때 이 모델의 입력을 Acoustic feature를 사용하여 정의하기 위해서 음성 감정인식 연구들 (15,16)에서 많이 사용되는 Acoustic feature들을 바탕으로 재조합하여 최적의 특징 조합을 구성하였다. 또한 이 3가지 모델을 통합하기 위해 Joint Fine-Tuning (11) 방법을 사용한다.

3.2.1 얼굴 이미지 모델

그림. 4. 얼굴 이미지 시퀀스를 입력으로 한 이미지 기반의 모델의 구조

Fig. 4. Structure of Image based model for a Face image sequence

../../Resources/kiee/KIEE.2020.69.7.1081/fig4.png

모델은 CNN을 기반으로 얼굴 이미지 시퀀스를 입력으로 얼굴의 변화를 인식한다. 모든 이미지는 그레이 스케일로 변환되고 64x64 px 크기로 고정된다. 각 Convolution layer는 2D-CNN layer이고 커널 사이즈는 (3, 3)으로 한다. 활성함수로는 ReLU를 사용한다. Timestep은 10으로 설정하여 한번에 10장의 이미지가 Convolution layer에 들어가 처리되는데, 시간축을 따라서 가중치를 공유하지 않고 입력되었기 때문에 각 커널들은 시간에 따라서 다른 특징 맵을 생성하게 된다. 그 특징 맵들은 Stack에 쌓이고 그대로 LSTM layer로 들어가 처리된다. 그 출력값은 Fully connected layer와 연결되어 마지막 Softmax layer를 통해 감정의 확률을 추론한다. 또한 Regulari- zation을 위해 Weight-decay 방법과 Dropout 방법이 사용되었다.

여기서 Regularization은 학습에서 발생하는 에러 외에 평가를 위한 테스트상에서 발생하는 에러를 줄이기 위해 학습 알고리즘을 수정하는 방법이고, 그 방법으로 Weight-decay와 Dropout이 있다. Weight-decay는 weight들의 값이 증가하는 것을 제한함으로써 모델의 복잡도를 감소시켜 제한하는 기법이고, Dropout은 신경망 모델에서 전체 중에 일정한 비율의 노드를 학습하지 않아 오버피팅이 발생하지 않도록 하는 방법이다.

3.2.2 Face landmark 모델

그림. 5. Face landmark를 입력으로 한 이미지 기반의 모델의 구조

Fig. 5. Structure of Image based model for a Face landmark

../../Resources/kiee/KIEE.2020.69.7.1081/fig5.png

Face landmark는 얼굴의 움직임을 포착해 얼굴 표정을 유추할 수 있도록 한다. Face landmark는 앞의 얼굴 이미지 구간과 동일한 구간에서 고성능 얼굴 인식 c++ 라이브러리인 dlib 제공하는 68개의 landmark들 중에 윤곽 17개와 입술 양끝 안쪽 landmark 2개를 제외한 49개만을 본 논문에서 사용한다. 얼굴 윤곽같은 경우에는 사람의 표정을 인식하는데 잘 쓰이지 않고, 입술의 양끝과 입술의 가운데 부분으로 충분히 입모양을 인식할 수 있어 입술 양끝 안쪽 landmark는 제외하였다. Timestep을 10으로 하여 10장의 이미지에서 각각 뽑은 49개의 landmark는 각각 x,y 좌표로 이루어져 있고, Face landmark 벡터는 1차원으로 나열되어 입력되기 때문에 총 980개의 특징점 벡터가 Fully connected layer로 들어가서 처리된다. 활성함수로는 ReLU를 사용한다. Regularization을 위해서는 Dropout 방법이 사용되었다.

3.2.3 음성 기반의 모델

음성 기반의 모델의 입력을 정의하는데 Acoustic feature를 사용하였다. 본 논문에서는 Acoustic feature들을 조합할 때, 이전 감정인식 연구들에서는 잘 사용되지 않았던 음성의 화음을 잘 반영해주는 harmonic 관련 특징요소를 포함시켰다. 최적의 특징 조합을 선별하기 위해 음성 감정인식연구들에서 많이 사용되었던 특징들을 조사하고, 각 특징 요소들을 개별적으로 분석하고 통계적으로 감정 분류에 특화된 특징들을 선별하고 다시 조합하여 최적의 특징 조합을 찾았다. 선별된 43개의 Acoustic feature은 다음과 같다.

∙ 13 MFCCs

∙ 11 Spectral feature: spectral centroid, spectral bandwidth, 7 spectral contrast, spectral flatness, spectral roll-off

∙ 12 Chroma: 12-dimensional Chroma vector

∙ 7 harmonic feature: inharmonicity, 3 tristimulus, harmonic energy, noise energy, noiseness

음성 기반 모델의 구조는 다음과 같다.

그림. 6. 음성 기반의 모델의 구조

Fig. 6. Structure of Speech-based model

../../Resources/kiee/KIEE.2020.69.7.1081/fig6.png

음성 기반 모델은 앞의 두 모델과 같이 Timestep을 10으로 하고 각각의 신호에서 43개의 Acoustic feature를 뽑아낸다. 총 430개의 feature 벡터들은 LSTM layer에 입력된다. 또한 그 출력값은 Fully connected layer에 연결되고 마지막 layer는 Softmax를 통해 각 감정의 확률을 추론한다. 각 layer에는 Regularization을 위해 0.5로 Dropout하였다.

3.2.4 Joint Fine-Tuning

그림. 7. Joint Fine-Tuning방법으로 3가지 모델을 통합한 그림

Fig. 7. A figure that integrated three models with Joint Fine-Tuning

../../Resources/kiee/KIEE.2020.69.7.1081/fig7.png

본 논문에서는 이 3가지 모델을 결합하기 위해서 기존 연구 (11)에서 사용한 Joint Fine-Tuning방법을 사용한다. 우선, 각각의 모델은 마지막 layer를 softmax로 하여 미리 훈련시킨다. 그리고 각각 훈련이 끝나고 나온 Fully connected layer들만을 새로운 통합모델로 사용하게 된다. 그렇기 때문에 앞서 훈련된 모델들의 weight값은 freeze된다. 최종적으로 3개의 Fully connected layer를 재훈련하고 통합모델에 있는 하나의 Softmax layer와 연결해 감정의 확률을 추론하게 된다.

4. 실 험

본 연구에서는 제안한 모델의 성능을 검증하기 위해 이미지를 사용한 모델, 음성 신호를 사용한 모델, 이미지와 음성 신호를 함께 사용한 모델과의 비교 실험을 수행하였다. Jung et al. (11)은 이미지 시퀀스 데이터를 활용하여 얼굴 이미지와 Face landmark를 결합하여 인식하였고, Wang et al. (12), Ma et al. (13), 그리고 Hossain et al. (14)은 음성 신호를 Mel-frequency spectrum으로 변환하여 CNN 모델에 얼굴 이미지와 결합하여 감정을 인식하였다. 또한, Zamil et al. (15)과 Shaqra et al. (16)은 Speech signal로 부터 Acoustic feature를 추출하여 각각 Logistic model tree와 multilayer perceptron neural network을 사용하여 감정을 인식하였다. 실험은 각 모델 모두 같은 환경에서 수행 되었으며, 사용된 소프트웨어와 하드웨어 사양은 표 1과 같다.

표 1. 실험에 사용된 Software와 Hardware의 규격

Table 1. Specifications of Software and Hardware used in the experiment

규 격

Operating system

Ubuntu 18.04 LTS

Tensorflow

1.15

Cuda

10.1

CPU

intel Core i7-4770

GPU

GeForce GTX 1080Ti x 1

RAM

16GB

표 2. 모델에 따른 정확도 비교

Table 2. Model accuracy comparison

Model

Input

Accuracy

(11)

Image

g82.816%

(12)

Image, Speech

77.66%

(13)

Image, Speech

77.31%

(14)

Image, Speech

75.62%

Proposed model

Image, Speech

86.06%

(15)

Speech

67.14%

(16)

Speech

74%

기존의 감정인식 모델들과 비교하기 위해 RAVDESS 데이터베이스를 사용하여 비교 하였다. 2절에서 언급한 것과 같이 RAVDESS 데이터베이스는 AV 데이터, VO 데이터 그리고 AO 3가지 형식으로 구성되어 있다. 기존 모델의 입력에 맞게 데이터 셋을 활용 하였으며, 제안하는 모델은 이미지와 음성을 모두 사용하기 때문에 AV 데이터를 사용하여 학습 및 테스트를 수행하였다. 데이터는 총 4,320개로 구성 되어 있으며, 검증을 위해 10-fold validation 방법을 사용하였으며, 학습 90%, 테스트 10%씩 데이터를 임의로 나누어 총 10번 수행하였다. 따라서 모든 데이터 셋을 평가와 훈련에 활용하여 신뢰성을 높였다. 모델은 각각 10번의 정확도를 구하고 그 정확도의 평균을 구하여 최종 정확도를 측정하였다. 실험 결과는 표 2와 같다.

본 논문에서 제안된 모델은 Joint Fine-Tuning방법을 사용하여 얼굴 이미지와 Face landmark와 음성 신호를 통합하여 학습시켰을 때 86.06%의 정확도를 보였다. 제안된 모델과 같은 통합방법을 사용한 (11)은 음성 신호는 사용하지 않았고, 82.816%의 정확도를 보였다. 이것은 표 2에서 보이듯이 제안된 모델보다 3.2% 낮은 감정 정확도였다. (12-14)는 제안된 모델처럼 미지와 음성 신호를 사용하였지만 제안된 모델과는 통합방법이 달랐고, Face landmark 데이터도 사용하지 않았다. 따라서 75%에서 77%의 더 낮은 감정 정확도를 보였다. 제안된 모델은 앞서 언급했듯이 연구를 통해 43개의 Acoustic feature를 추출해 사용했다. 그래서 제안한 방법보다 더 낮은 정확도인 67.14%를 보였다. (16)도 음성신호만을 사용해 Acoustic feature 추출 도구인 Opensmile을 이용하여 feature를 추출하여 모델을 설계했다. 이 모델은 제안한 모델보다 낮은 정확도인 74%를 보였다. 따라서 표 2를 보면 제안된 모델이 가장 높은 정확도를 달성했음을 알 수 있다.

5. 결 론

생체신호들을 기반으로 하는 여러 감정 인식방법들이 있지만 일반적인 의사소통의 상황에서 사람들은 타인의 감정을 인식하기 위해 서로의 심박수를 재는 등의 행위로 감정을 인식하지는 않는다. 사람들은 다른 사람들이 하는 말과 얼굴 표정으로 주로 감정을 인식한다. 그렇기 때문에 사람의 음성과 얼굴 표정으로 감정을 인식하는 것은 말 그대로 인간적인 방법이라고 할 수 있다.

본 논문에서는 얼굴 이미지만으로 감정을 인식하는 것에서 더 나아가 음성 신호을 결합하여 감정 인식의 성능을 향상시켰다. 얼굴의 전체적인 변화를 감지하는 얼굴 이미지기반의 모델, 얼굴에서 표정과 관련된 특징 점들의 움직임을 파악하는 Face landmark 기반의 모델, 감정분류에 특화된 특징을 추출하여 입력을 정의한 음성 기반의 모델을 설계하여 최종적으로 통합해 각 입력 데이터의 특성을 반영하였다. 추후에는 인식률을 더 높이기 위해서 모델간의 결합에 대해서 더 연구할 예정이다.

Acknowledgements

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (No. NRF-2019R1F1A1050052).

References

1 
S. Zhang, S. Zhang, T. Huang, W. Gao, 2008, Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching, IEEE Trans Multi- med 20:1576-1590DOI
2 
S. Li, W. Deng, 2020, Deep facial expression recognition: A survey, IEEE Trans Affective Comp (Early Access)DOI
3 
N. Sun, L. Qi, R. Huan, J. Liu, G. Han, 2019, Deep spatial- temporal feature fusion for facial expression recognition in static images, Pattern Recognit Lett 119, pp. 49-61DOI
4 
Myeong Oh Lee, Ui Nyoung Yoon, Seunghyun Ko, Geun- Sik Jo, 2019. 12, Efficient CNNs with Channel Attention and Group Convolution for Facial Expression Recognition, Journal of KIISE, Vol. 46, Vol. 12, No. 46, pp. 1241-1248DOI
5 
J. Hamm, C. G. Kohler, R. C. Gur, R. Verma, 2011, Automated facial action coding system for dynamic analysis of facial expressions in neuropsychiatric disorders., J Neurosci Methods, 200, pp. 237-256DOI
6 
B. C. Ko, 2018, A brief review of facial emotion recognition based on visual information, Sensors 18DOI
7 
A. Mehrabian, 1968, Communication without words, Psychol Today 2, pp. 53-56DOI
8 
K. Kaulard, D. W. Cunningham, H. H. Blthoff, C. Wallraven, 2012, The MPI facial expression database-A validated database of emotional and conversational facial expressions, PLoS ONE 7, pp. e32321DOI
9 
R. Livingstone Steven, A. Russo1 Frank, 2018, The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English, PloS one, Vol. 13, No. 5, pp. e0196391DOI
10 
Sung-Woo Byun, Seok-Pil Lee, 2016, Emotion Recognition Using Tone and Tempo Based on Voice for IoT, The Tran- sactions of the Korean Institute of Electrical Engineers, Vol. 65, No. 1DOI
11 
H. Jung, S. Lee, J. Yim, S. Park, J. Kim, 2015, Joint fine-tuning in deep neural networks for facial expression recognition, 2015 IEEE Int Conf Comput Vision (ICCV)DOI
12 
Wang Xusheng, Chen Xing, Cao Congjun, , Human emotion recognition by optimally fusing facial expression and speech featureDOI
13 
Y. Ma, Y. Hao, M. Chen, J. Chen, P. Lu, A. Kosir, 2019, Audiovisual emotion fusion (AVEF): A deep efficient weighted approach, Inf Fusion 46, pp. 184-192DOI
14 
M. S. Hossain, G. Muhammad, 2019, Emotion recognition using deep learning approach from audio-visual emotional big data, Inf Fusion 49, pp. 69-78DOI
15 
A. A. A. Zamil, S Hasan, S. J. Baki, J. Adam, I. Zaman, 2019, Emotion detection from speech signals using voting mechan- ism on classified frames, 2019 Int Conf Robotics, Electr Signal Processing Technol (ICREST)DOI
16 
F. A. Shaqr, R. Duwairi, M. Al-Ayyou, 2019, Recognizing emotion from speech based on age and gender using hierarchical models, Procedia Comput Sci 151, pp. 37-44DOI

저자소개

손명진 (Myoung-jin Son)
../../Resources/kiee/KIEE.2020.69.7.1081/au1.png

Son received BS degree in Computer Science from SangMyung University, Seoul, Korea in 2018.

She is now a Master degree student in department of computer science from Sang- Myung University.

Her main research interests include signal processing, artificial intelligence, audio digital processing.

이석필 (Seok-Pil Lee)
../../Resources/kiee/KIEE.2020.69.7.1081/au2.png

Seok-Pil Lee received BS and MS degrees in electrical engineering from Yonsei University, Seoul, Korea, in 1990 and 1992, respectively.

In 1997, he earned a PhD degree in electrical engineering also at Yonsei University. From 1997 to 2002, he worked as a senior research staff at Daewoo Electronics, Seoul, Korea.

From 2002 to 2012, he worked as a head of digital media research center of Korea Elec- tronics Technology Institute. He worked also as a research staff at Georgia Tech., Atlanta, USA from 2010 to 2011.

He is currently a professor at the dept. of electronic engineering, SangMyung University.

His research interests include artificial intelligence, audio digital pro- cessing and multimedia searching.