Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Dept. of Information and Communication Engineering, Changwon National University, Korea.)



CNN, LightGBM, Depression, PHQ-9, NHANES

1. Introduction

우울증은 슬픔과 관심의 상실을 지속적으로 유발하고 일상적인 생활을 방해할 수 있는 대표적인 기분 장애(mood disorder)로 서구권에서는 인구의 약 20%가 평생 유병율을 가지는 질병이다. 우울증은 증상의 중증도에 따라 경도, 중등도, 고도로 분류되고, 질환의 정도에 따라 사용하는 약물의 종류도 다를 수 있어 우울증의 진단에 따른 중증도의 분류는 매우 중요하다 (1)-(3). 특히, 중증 우울증은 연령이나 특정환경과 무관하게 자살시도의 주요 위험요인으로 알려져 있다 (1). 우울증과 같은 정신적 질환을 겪는 환자는 체계적이고 정기적인 정신과 검사가 반드시 필요하지만, 이를 제대로 이행하지 않는 경우가 대다수이며 기본적인 건강검진에서도 정신과적 검사는 필수사항이 아닌 경우가 많다. 따라서 많은 우울증 환자들은 질병 정도가 심화되는 시점까지 검사를 시행하지 않다가 적절한 치료 시기를 놓치고 증세가 중증으로 진행된 후에야 관련 검사를 시행하는 경우가 많다. 이러한 문제를 해결하기 위해서는 정신과적 검사를 실시하지 않고도, 기본 건강 검진에서 실시하는 다양한 혈액 검사 지표, 신체 측정 지표, 문진 내용만을 활용하여 우울증을 선별할 필요성이 가중되고 있다

대표적인 설문기반 우울증 검사방식인 Patient Health Questionnaire-9 (PHQ-9) 검사는 최근 2주간의 무쾌감, 우울감, 수면, 피로, 식욕, 죄책감, 집중력 저하, 쳐진 느낌, 자살과 같은 9가지 요소에 대해 분석을 하여 우울증을 선별하고, 중증도를 분류하는 설문 도구이다 (2), (3). PHQ-9 검사는 설문 조사 기반이기 때문에 자가 검사가 가능하다는 장점이 있고, 특히 PHQ-9의 각 항목에 대한 점수 합산 결과가 10점 이상인 중증 우울증에 대해서는 민감도와 특이도가 88%정도로 나타나 높은 우울증 선별력을 보인다 (2).

딥러닝 기술은 음성/영상 인식, 객체 탐지, 의료, 고장 진단 등 매우 다양한 분야에서 기존의 방식들을 대체할 수 있는 기술로 각광받고 있고, 특히 우울증 선별 예측을 위해 딥러닝을 활용한 다양한 연구 사례가 존재한다. 사람 얼굴의 모양과 움직임을 담은 영상을 바탕으로 Convolution Neural Network (CNN) (4), (5) 기반의 딥러닝 모델을 구현하여 우울증 선별에 활용하거나 (6), 감정의 정상 상태와 우울 상태에서의 뇌파 그래프를 각각 획득하여 이를 바탕으로 CNN 모델을 구현하여 우울증을 선별하는 연구가 진행되었다 (7). 또한, 정신과 임상가의 진단이 아닌 기본 건강 검진과 설문을 통해 획득한 신체 측정 결과, 혈액 검사 결과와 같은 신체적인 요소와 수입 수준와 같은 환경적인 요소를 포함한 데이터인 National Health and Nutrition Examination Survey (NHANES)를 바탕으로 Artificial Neurual Network(ANN)과 Deep Neural Network (DNN) 모델을 구현하여 우울증을 예측하는 연구도 진행되었다. (8) 하지만 이 연구는 우울증과 높은 상관관계를 보이는 요소들인 혈액 내 비타민 D 농도 (9), (10), 교육 수준과 결혼 상태 (11)-(13), 인종(14) 등의 중요한 환경적인 요소를 우울증 선별 예측에 고려하지 않았다.

본 연구에서는 우울증 선별 성능을 높일 수 있는 신체적/환경적 요소를 구성하여 CNN 및 Light Gradient Boosting Machine (LightGBM) 모델 (15), (16)을 기반으로 한 우울증 선별 예측기술에 대해 다룬다. 기존연구(8)에서 다루지 않은 혈액 내 비타민 D 농도, 교육 수준과 결혼 상태, 인종 등에 대한 환경적 요소를 추가하고, 결측치가 많거나 학습에 방해될 수 있는 요소를 제거하였으며, 데이터 불균형 처리를 하여 재구성한 학습데이터를 얻어내었다. 그리고 기존 연구에서 활용된 ANN 모델과 CNN 모델과 달리 Convolution 기능을 활용하여 특징 추출에 있어 장점이 있는 CNN 모델과, 빠른 학습속도와 강력한 분류 성능에 강점이 있는 LightGBM 을 활용하여 우울증 선별 성능을 개선하였다. 성능 평가를 통해 논문에서는 제안하는 1D-CNN 및 LightGBM 모델이 2D-CNN 및 기존 방식에 비해 더 높은 중증 우울증 분류 예측 성능을 나타냄을 알 수 있고 이를 통해 우울증 환자를 사전에 선별하여 질환을 예방하는데 활용될 수 있다.

2. 본론

본 연구에서는 기존 연구(8)보다 개선된 성능을 확보하기 위해 우울증과 유의한 관계가 입증된 지표들을 추가하였고, 학습을 효과적으로 할 수 있도록 결측치 제거 등과 같은 데이터 전처리 작업을 수행하였다. 또한, 특징 추출이나 분류 문제에 강력한 성능을 보이는 1D-CNN, 2D-CNN, LightGBM 모델을 활용하여 성능의 개선을 도모하였다. 모델에 적용하는 하이퍼파라미터의 값을 최적으로 정하기 위해 1D-CNN과 2D-CNN의 학습 곡선을 분석하였고, LightGBM은 Grid Search와 Cross Validation 기법을 활용하였다.

2.1 모델링에 활용할 데이터셋의 지표 설정

우울증 선별 예측모델을 만들기 위한 NHANES 데이터셋의 지표 목록을 표 1에 나타내었다. 표에서 볼 수 있듯이 기존 연구(8)에서는 NHANES 데이터셋에서 제공하고 있는 나이, 성별, 신장, 체중, BMI, 콜레스테롤 수치, 백혈구 등과 같은 신체 검사와 혈액 검사 지표를 종합하여 신체 요소 데이터로 활용하였고, 개인 소득, 가족 소득 등에 대한 설문 조사 정보를 환경 요소 데이터로 활용하였으며, 우울증 진단을 위한 검사로는 PHQ-9 검사 결과를 활용하였다. 하지만 환경 요소들 중 소득 지표뿐만 아니라 다양한 종류의 환경 요소들도 우울증 선별에 도움을 줄 수 있기 때문에 환경 요소의 종류를 확대할 필요성이 있다. 관련 연구(5)-(10)에 따르면, 소득 수준과 함께 교육 수준, 결혼 상태와 같은 환경 요소들도 우울증과의 밀접한 상관관계가 있음을 보였으며, NHANES 데이터가 미국 내 다양한 인종을 포함하는 데이터임을 고려하여 인종 관련 지표도 함께 고려할 필요성이 있다. 따라서, 본 연구에서는 교육 수준 관련 지표인 DMDEDUC2와, DMDEDUC3, 인종 관련 지표인 RIDRETH1, 결혼 관련 지표인 DMDMARTL를 우울증 진단을 위한 환경적인 요소에 추가하였다. 또한, 기존 연구에서 활용한 소득 관련 지표 중 IND235는 가족의 월간 소득에 대한 지표로써 환경에 대한 영향을 대표할 수 있는 지표로 분류될 수 있으나, 데이터셋 내에 결측치가 다수 존재하고, 카테고리 세분화가 적은 문제가 있으므로, 상대적으로 결측치가 적고 더 세분화되어 있는 연간 가구 소득 지표인 INDHHIN2를 대신 활용하였다. 또한, 혈액 검사 지표 중 기존 연구에서는 배제되었던 비타민 D에 대해 유의한 상관관계가 입증된 관련 연구 (9), (10)를 바탕으로, 관련 지표인 LBXVD2MS, LBXVD3MS를 모델링을 위한 학습 데이터에 추가하였다.

표 1. 우울증 선별 예측모델을 위해 활용된 데이터

Table 1. Data used for classification of depression

../../Resources/kiee/KIEE.2020.69.7.1102/table1.png

2.2 모델 학습을 위한 데이터 전처리

NHANES 데이터셋은 조사 대상자의 고유 식별 번호인 SEQN를 기준으로 기초 신체 검사 지표와 혈액 검사 지표, 소득 관련 문진 내용, PHQ-9 검사 내용 등에 대해 기록되어 있다. 모든 조사 대상자가 모든 항목에 대해 검사나 조사에 응하지 않은 관계로 결측치가 상당수 존재하고, 이러한 값을 처리하지 않고 딥러닝 모델을 구현하면 분석결과를 크게 왜곡시키므로, 결측치 제거를 실시하였다. 먼저, PHQ-9 검사에서 검사 자체를 실시하지 않았거나, 답변을 거부한 경우(Refused), 모르겠다고 답변한 경우(Don’t know)들은 중증 우울증 여부를 판정할 수 없는 조사 대상자이므로, 해당 사람에 대한 정보는 데이터셋에서 제외하였다. 이와 동일한 방식으로, 환경 관련 지표에서 카테고리형 데이터인 소득, 교육 수준, 결혼 상태, 인종 조사에 대해서 조사 내용이 누락되었거나, 답변을 거부한 경우 또는 모르겠다고 답변한 경우에 대한 데이터를 제외하였다. 혈액 검사 결과나 신체 측정 결과와 같은 수치형 데이터에 대해서는 검사 및 측정 결과가 존재하지 않는 경우 데이터셋에서 제외하였다. 교육 수준 지표인 DMDEDUC2와 DMDEDUC3의 경우 각각 청소년과 성인에 대한 교육 수준을 의미하는 지표로, 비슷한 특성을 나타내는 두 지표를 통합하여 하나의 지표인 DMDEDUC로 활용하였다. 분류 예측의 목표 지표인 DPQ_OHE는 PHQ-9 합산 점수를 나타내고, 본 논문에서는 PHQ-9 값이 10점 이상인 중증 우울증인 경우, 10점 미만의 중증 우울증이 아닌 경우에 대해서 각각 수치를 1, 0으로 설정하여 이진 분류가 가능하도록 처리하였다.

이렇게 수집한 지표들에 대해서 상관관계를 확인한 결과를 표 3에 나타내었다. 상관관계를 확인한 결과, 본 연구에서 활용하는 지표들은 기존 연구에서 활용한 지표와 마찬가지로 정신과 임상가가 진단에 사용하는 대한 지표가 아니므로 우울증과 직접적인 상관관계를 가지고 있다고 보기는 어렵다. 하지만, 교육 수준(DMDEDUC), 연간 가구 소득(INDHHIN2), 결혼 여부(DMDMARTL) 등 기존 연구에서 고려되지 않은 지표들이 기존 연구에서 활용한 대부분의 지표들보다 우울증 지표인 DPQ_OHE와의 상관관계가 더 강하게 나타남을 알 수 있다.

이렇게 전처리과정을 거친 정제된 데이터셋는 표 2와 같이 신장, 체중, 당화혈색소, 백혈구 수치와 같은 20개의 수치형 데이터와 성별, 소득, 교육 수준과 같은 14개의 카테고리형 데이터로 구성된다. 수치형 데이터에 대해서는 MinMaxScaler를 적용하였으며, CNN 모델과 LightGBM 모델 모두 입력 데이터로 활용되는 경우 카테고리형 데이터에 대해서는 One-Hot Encoding을 실시하여 총 69개의 특성을 갖는 데이터셋을 바탕으로 딥러닝 모델을 구현하였다.

표 2. 데이터셋의 상세 정보

Table 2. Detailed information of dataset

../../Resources/kiee/KIEE.2020.69.7.1102/table2.png

표 3. 입력 데이터와 DPQ-OHE와의 상관관계

Table 3. Correlation between input data and DPQ-OHE

../../Resources/kiee/KIEE.2020.69.7.1102/table3.png

입력 데이터 내 각 클래스가 차지하는 데이터의 비율은 그림 1에 나타내었다. 전체 7725개의 데이터 중에서 우울증 선별검사인 PHQ-9 검사 점수가 10점 미만인 정상 사람의 데이터가 7056개, PHQ-9 검사 점수가 10점 이상인 우울증 환자의 데이터가 669개로 나타나며, 이는 약 10.5:1의 비율로 정상 사람이 데이터셋 내에서 상대적으로 다수를 차지하는 불균형 데이터 셋임을 보여준다. 이러한 불균형 데이터가 주어졌을 때 resampling을 통해 training set 내의 클래스의 균형을 맞추어야 한다. 본 연구에서는 그림 1과 같이 학습을 위한 데이터를 80%, 검증을 위한 데이터를 20%로 나눈 후 전체 데이터 중 다수를 차지하는 정상 상태의 데이터에 Undersampling(13), (14)을 적용하여 데이터의 비율이 1:1이 되도록 클래스의 균형성을 맞춘 후 우울증 선별 예측모델 구현을 위한 학습 데이터로 활용하였다.

그림. 1. 불균형 데이터셋 및 언더샘플링

Fig. 1. Imbalanced dataset and undersampling

../../Resources/kiee/KIEE.2020.69.7.1102/fig1.png

2.3 모델 설계 및 실험

2.3.1 딥러닝 모델 선정

앞서 전처리된 데이터셋을 기반으로 우울증 선별 정확도를 높일 수 있는 CNN 및 LightGBM 모델을 구현한다. 우울증 선별과 관련이 깊은 지표의 데이터 특성을 Convolution을 기반으로 추출해낼 수 있는 CNN 모델을 1D-CNN 및 2-D CNN 구조로 구성하여 성능을 비교하였다. 또한, 캐글(Kaggle)과 같은 오픈 데이터 기반 딥러닝 대회에서 강력한 분류 성능으로 각광받고 있는 Gradient Boosting 기반의 모델을 바탕으로 우울증 선별 모델로 고려하였고, 그 중 높은 분류 성능을 나타냄과 동시에 학습 속도가 빠른 LightGBM 을 선정하여 예측모델을 설계하였다. 모델의 성능 최적화 기법들에 대한 연구(19)-(26)를 참고하여 우울증 선별 예측을 위한 최종적인 모델의 하이퍼파라미터들을 선정하였다.

2.3.2 CNN 모델 구성

CNN은 Neural Network에서 Convolution을 통해 이미지나 배열 형태로 주어진 데이터의 특징을 추출해내는 방식으로, 기존 연구에서 활용된 ANN, DNN에 비해 CNN 모델이 데이터에 숨어있는 특징을 추출하는데 더 좋은 성능을 나타낸다. NHANES 데이터셋에서 선택된 특성들은 이미지, 오디오 데이터만큼 공간적, 시간적 연관성이 높게 나타나지는 않지만, 우울증 척도와 관련된 신체적, 환경적 요인들 간의 상관관계를 파악하려는 의학적 연구사례들이 존재하고, 요인들의 조합을 통해 새로운 특성에 대한 representation 이 된다면 이를 통해 우울증 선별 예측 성능을 높일 수 있는 가능성이 존재하므로 CNN을 우울증 선별 예측을 위한 모델로 고려하였다. 본 연구에서는 그림 2와 같이 CNN 모델의 입력 구조에 따른 성능의 차이를 보기 위해 1D-CNN 및 2D-CNN 으로 모델 구조를 설계하였다. CNN 모델의 입력 데이터는 1D-CNN의 경우 수치형 데이터와 One-Hot Encoding을 실시한 카테고리형 데이터를 이어붙인 형태로 구성하였으며, 2D-CNN의 경우 1D-CNN과 동일한 방식으로 데이터를 이어붙인 후 23x3형태의 2차원 데이터로 재구성하여 입력으로 활용하였다. 1D-CNN만을 고려한 것 보다 2D-CNN을 고려하면 순서상 멀리 떨어져 있는 특성들의 조합으로 이루어진 새로운 특성을 추출해볼 수 있고, 이를 통해 분류 성능의 개선을 시도해볼 수 있다. 각 CNN 모델에서는 입력 데이터가 Convolution Layer를 거친 후에 Fully Connected Network(FCN)로 연결되기 위해 Flatten을 수행하고, 그 결과를 128가지의 클래스로 나오게 되는 Hidden Layer를 거치게 한 후, 최종적인 Output Layer를 거쳐 1개의 스칼라 값이 출력되도록 구성하였다. 본 연구에서는 데이터셋의 샘플 개수를 고려하여 CNN 모델에 사용되는 Convolution Layer의 개수를 1개 또는 2개로 구성하였을 때의 모델의 성능을 분석하였다.

CNN과 같은 Neural Network를 이용한 모델은 정규화, 초기화, 최적화 방법에 대해 고려해야 하므로 Neural Network 모델에 대한 최적화 기법들에 대한 기존 연구(19)-(26)를 바탕으로 다양한 모델을 생성 후 최적의 파라미터를 얻어내었다. CNN 모델 성능에 영향을 미치는 Convolution Layer의 개수를 1개 또는 2개로 설정하고, 각 Convolution Layer에서 활용되는 filter의 개수를 16, 32, 64로 설정하여, 다양한 Layer와 filter 개수의 조합 구성하여 모델 최적화에 활용하였다. 이 때 1D-CNN Convolution Layer의 kernel의 크기는 5, strides를 1로 적용하였고 2D-CNN의 kernel의 크기는 2x2, strides는 (1,1)을 적용하였다. 각 Layer의 활성화 함수는 CNN에서 가장 널리 사용되는 비선형 함수인 ReLu와 Tanh 를 고려하였다. CNN에서 optimizer로는 RMSProp과 Gradient Descent, Adam(19)을 고려하였고, 그 결과 Adam 방식이 가장 좋은 성능을 나타내었다. Learning_rate의 경우 0.0001부터 0.01까지 값을 변경하며 분석해본 결과, 0.001이 가장 적절한 learning_rate로 나타났다. 또한, 초기화 방법에 있어서는 Xavier 방식(22)을 개선한 He 초기화 방식(23)을 적용하였고, 1D-CNN 및 2D-CNN 모델의 Convolution Layer의 결과가 Flatten을 수행하기 이전에 Batch Normalization을 활용하여 Gradient Vanishing을 방지하도록 하였다.(24) 모델의 Overfitting 방지를 위해 추가적으로 Dropout을 0.8로 두 모델에 공통적으로 적용하였으며 Batch Size는 100으로 지정하였다. 표3에는 CNN 모델의 최적화를 위해 본 연구에서 고려한 파라미터 종류와 최적 파라미터의 후보 및 최적의 성능을 나타내는 파라미터 값을 각각 나타내었다.

표 4. CNN 하이퍼파라미터에 대한 최적화

Table 4. Optimization of CNN hyperparameters

../../Resources/kiee/KIEE.2020.69.7.1102/table4.png

표 4에서 나타낸 최적 파라미터값을 바탕으로 1D-CNN과 2D-CNN 모델에 대해서 학습 곡선을 분석(26)하여 각 모델별로 얻어낸 최대 정확도를 비교한 결과를 표 5를 통해 나타내었다. 1D-CNN의 경우 1개의 Convolution Layer와 filter의 크기는 16이고 활성화 함수가 ReLu인 경우 정확도가 76.18%로 가장 우수한 성능을 나타내는 최적의 모델로 구성할 수 있다. 2D-CNN의 경우 2개의 Convolution Layer에 대해 각각 filter의 크기를 32와 16으로 지정하고 활성화 함수를 ReLu를 적용한 경우 78.71%의 정확도로 가장 우수한 정확도 성능을 나타낸다. 이 결과를 바탕으로 최종적으로 선정된 1D-CNN과 2D-CNN모델의 구조와 세부 정보는 그림 2표 6을 통해 나타내었다.

그림 2에서 볼 수 있듯이 1D-CNN 모델의 구조는 69x1 형태의 입력 데이터가 filter 16개, kernel 크기 5, strides 1로 설정된 Convolution Layer와 Batch Normalization을 거친 후, FCN에 입력으로 들어가기 전에 Flatten과 Dropout(0.8)을 거치게 된다. 그 다음, FCN에서 노드가 128개인 Hidden Layer를 거친 후 1개의 Sigmoid 출력으로 나오도록 구성하였으며, 최종 출력 단계를 제외하고 모든 Layer에 대해 활성화 함수는 ReLu를 사용하였다. 2D-CNN 모델의 구조는 23x3 형태의 입력 데이터가 filter 32개, kernel 크기 2x2, strides (1,1)인 Convolution Layer와 filter 16개, kernel 크기 2x2, strides (1,1)로 설정된 Convolution Layer 2개와 Batch Normalization을 거친 후 마찬가지로 Flatten과 Dropout(0.8)을 적용한다. 2D-CNN 모델의 FCN 구조는 1D-CNN 모델과 동일하고, 최종적으로 1개의 Sigmoid 출력이 나오도록 구성하였으며, 최종 단계 출력을 제외한 모든 Layer에 대해 ReLu 활성화 함수를 적용하였다.

그림. 2. 1D-CNN 과 2D-CNN 모델의 구조

Fig. 2. Architecture of 1D-CNN and 2D-CNN model

../../Resources/kiee/KIEE.2020.69.7.1102/fig2.png

표 5. 최적의 파라미터 검색을 위한 모델의 정확도 성능 비교

Table 5. Comparison of accuracy performance to search optimal parameters

../../Resources/kiee/KIEE.2020.69.7.1102/table5.png

표 6. 1D-CNN 과 2D-CNN 모델의 구조 설명

Table 6. Description of 1D-CNN and 2D-CNN model

../../Resources/kiee/KIEE.2020.69.7.1102/table6.png

2.3.3 LightGBM 모델 구성

LightGBM은 Gradient Boosting 기반의 모델로, 트리를 level-wise하게 늘어나는 방법을 사용하는 기존의 Boosting 모델들과 달리, leaf-wise 트리 분할을 사용하여, 비대칭적이고 깊은 트리가 생성되지만, 성능의 손실을 줄일 수 있고 연산량을 줄일 수 있다는 장점이 있다. LightGBM 모델의 입력 데이터는 1D-CNN과 동일한 방식으로 수치형 데이터와 One-Hot Encoding을 실시한 카테고리형 데이터를 이어붙인 형태로 69x1 의 사이즈를 갖도록 하였다.

LightGBM 모델에서 최적의 성능을 나타내기 위한 관련 연구 결과(15), (16), (25) 를 바탕으로 표 7과 같이 LightGBM 모델의 성능과 학습 속도에 많은 영향을 미치는 learning_rate, subsample, num_iterations, boosting_type에 대해 최적의 파라미터를 Grid Search 방식으로 조사하였다. Learning_rate의 경우 0.01, 0.05, 0.1을, subsample은 0.7과 0.8을 적용한 결과를 분석하였다. Num_iterations의 경우 100에서 300까지 적용하였으며, boosting_type은 gbdt와 dart, max_depth의 경우 3, 5, 7, 9를 각각 적용하였다. 학습 데이터에 대해 Grid Search와 Cross Validation을 통해 LightGBM의 Loss가 최소로 나타나는 최적의 파라미터를 탐색한 결과, learning_rate=0.05, subsample=0.7, num_iterations=200, boosting_type=gbdt, max_depth=3와 같은 설정이 적용된 LightGBM 모델의 성능이 가장 우수한 것으로 나타나 해당 파라미터를 적용한 LightGBM 모델을 최종 모델로 확정하였다.

표 7. LightGBM의 파라미터

Table 7. Parameters of LightGBM

../../Resources/kiee/KIEE.2020.69.7.1102/table7.png

2.4 실험

본 연구에서는 앞서 설명한 NHANES 데이터셋의 전처리 및 최적의 파라미터가 반영된 CNN 및 LightGBM 모델을 바탕으로 우울증 선별 성능을 분석한다. 그림 1에서 나타내었던 우울증의 척도인 PHQ-9와의 상관관계 지수가 0.17 이상으로 나타나는 경우가 없는 실험으로 딥러닝을 이용한 기계 고장진단 등에서 보일 수 있는 90% 이상의 정확도 성능을 얻어내지는 못하나, 정신과 임상자의 대면 진단을 통한 우울증 선별이 아닌 신체적 요소 및 환경적 요소만으로도 우울증을 선별할 수 있는 결과를 나타내는 것에 의미를 둘 수 있다.

2.4.1 CNN 예측 모델의 정확도 분석

그림 2에서 나타낸 1D-CNN 모델에 대해 epoch를 200으로 설정하고 학습을 진행한 후, 학습 데이터와 테스트 데이터에 대한 Loss 및 정확도의 변화를 살펴 최적의 모델을 선정하는 작업을 수행하였다. 그림 3에서 각 epoch에 따른 1D-CNN 모델의 Loss와 정확도를 나타내었으며, 그림에서 볼 수 있듯이 epoch이 증가할수록 Training loss는 지속적으로 감소하지만, Test loss는 초반에 감소하다가 epoch이 45인 지점에서부터는 다시 점차 증가하는 양상을 보인다. Test 데이터에 대한 Loss가 최소가 되는 지점에서 Test Accuracy가 거의 최대치를 나타내고, 이 그래프를 통해 1D-CNN 모델은 Test 데이터에 대해 75% 이상의 예측 정확도를 보임을 알 수 있다.

그림. 3. 1D-CNN의 Loss와 Accuracy 그래프

Fig. 3. Loss and Accuracy graph of 1D-CNN

../../Resources/kiee/KIEE.2020.69.7.1102/fig3.png

2D-CNN 모델에 대한 Loss 와 Accuracy는 그림 4에 나타내었다. 이 그래프도 마찬가지로 epoch이 증가할수록 Training loss는 지속적으로 감소하지만, Test loss는 epoch이 50인 지점에서 변곡부분이 관찰된다. Test accuracy 가 가장 높은 지점은 거의 80% 정도의 예측 정확도를 보임을 알 수 있다. 그러므로 Test accuracy 성능을 비교하였을 때 1D-CNN 모델보다 2D-CNN 모델이 조금 더 높은 성능을 나타냄을 알 수 있다.

그림. 4. 2D-CNN의 Loss와 Accuracy 그래프

Fig. 4. Loss and Accuracy graph of 2D-CNN

../../Resources/kiee/KIEE.2020.69.7.1102/fig4.png

2.4.2 LightGBM 모델의 예측 정확도 분석

LightGBM 예측모델의 정확도를 분석하기 위해 분류 모델에 대한 최적의 파라미터를 바탕으로, 전처리한 학습데이터를 활용하여 재학습을 실시하였다. 그림 5에는 LightGBM 예측모델에 대한 Loss 및 Accuracy 그래프를 나타내었고, Test 데이터에 대해 LightGBM 모델에서 얻을 수 있는 최대의 정확도는 LightGBM이 지원하는 Early_Stopping 기능을 활용하여 얻어내었다. 그 결과, epoch이 54 일 때의 Test 데이터에 대한 정확도가 대략 62%로 나타났고, CNN 기반의 모델에 비해 다소 낮은 우울증 선별 정확도 성능을 보였다.

그림. 5. LightGBM의 Loss와 Accuracy 그래프

Fig. 5. Loss and Accuracy graph of LightGBM

../../Resources/kiee/KIEE.2020.69.7.1102/fig5.png

2.4.3 성능 비교 및 성능 평가

표 8. Training 데이터와 Test 데이터에 대한 정확도 및 Loss

Table 8. Accuracy and Loss of training and test set

../../Resources/kiee/KIEE.2020.69.7.1102/table8.png

위에서 언급한 모델에서 Test Loss가 최소인 epoch을 고려하여 training 데이터와 test 데이터에 대한 예측 정확도와 Loss에 대한 비교 결과를 표 8에 나타내었다. Test 데이터를 기준으로 2D-CNN 모델의 정확도는 78.71%, 1D-CNN 모델이 76.18%, LightGBM 모델이 62.01%로 나타났다. 2D-CNN과 1D-CNN 모델의 경우 기존 연구에서 사용했던 ANN, DNN 모델에 비해 더 높은 정확도를 나타내어, 본 연구에서 활용한 모델이 기존 연구의 모델보다 예측 정확도 측면에서 성능의 개선을 나타냄을 확인하였다.

의학 분야에서는 의료 데이터를 분석하여 질병에 대해 선별을 실시할 때, 단순히 정확도 성능만을 고려하기보다는 민감도와 특이도(27)를 중요한 지표로 활용한다. 다수의 의료 데이터는 직접적으로 질병에 영향을 미치지 않기 때문에 정확도 측면에서 매우 높은 예측율을 보이기가 어렵기 때문이다. 그러므로 임의의 진단 오류가 있는 상황에서 예측 성능이 어떻게 좋아지는지를 평가하기 위한 민감도와 특이도가 주로 활용된다. 본 연구에서의 민감도는 실제 중증 우울증이 있는 사람을 중증 우울증이라고 정확히 선별한 비율이고, 특이도는 중증 우울도가 없는 사람을 정상이라고 정확히 선별한 비율을 의미한다. 이러한 민감도는 True positive rate으로 표현되고 특이도는 1-False positive rate으로 표현되며 이 두 지표를 바탕으로 생성되는 ROC 곡선은 질병에 대한 선별 방법의 유용성이나 선별 방식의 기준치를 결정하기 위해 사용될 수 있다. True positive rate 는 False positive rate와 비례관계에 있기 때문에 측정에 대한 기준을 연속적으로 바꾸어야 하는데 이것을 ROC 곡선을 통해 확인할 수 있다. 특히 ROC 곡선의 밑면적을 계산한 ROC_AUC가 1에 가까운 높은 값을 나타낼수록 민감도와 특이도 모두 좋은 성능을 보인다고 할 수 있으므로, 본 연구에서는 ROC_AUC를 우울증 선별 모델의 주요 성능 지표로 활용하였다.

그림. 6. 제안된 모델의 ROC 곡선

Fig. 6. ROC curve of the proposed model

../../Resources/kiee/KIEE.2020.69.7.1102/fig6.png

그림 6에서 본 연구에서 제안하는 1D-CNN, 2D-CNN, LightGBM 모델의 ROC 커브를 True positive rate와 False positive rate에 대해 나타내었다. 또한, 표 9을 통해 기존 연구에서 예측 모델에 활용된 ANN, DNN과 본 연구에서 모델링에 활용된 1D-CNN, 2D-CNN, LightGBM에 대한 ROC_AUC를 비교하였다. 표에서 볼 수 있듯이 1D-CNN 모델이 0.750으로 가장 높은 성능을 보였고, LightGBM 모델은 0.731, 2D-CNN 모델은 0.716의 성능을 보였고, 이 성능 수치는 기존연구에서의 우울증 선별 예측 성능보다 더 높음을 알 수 있다.

표 9. 모델별 ROC_AUC 비교

Table 9. ROC_AUC comparison

../../Resources/kiee/KIEE.2020.69.7.1102/table9.png

3. 결 론

본 논문에서는 우울증에 영향을 미칠 수 있는 신체적 지표 및 환경적 지표를 바탕으로 CNN 및 LightGBM 기반의 우울증 선별 예측 모델을 연구하였다. 기존 연구에서 고려되지 않았던 지표들 중 우울증과 관련성이 높은 환경적 지표를 추가하고, 예측 결과에 부정적 영향을 줄 수 있는 지표들을 제외함으로써 모델 학습용 입력데이터를 처리하였다. 데이터의 특징 추출 성능이 탁월한 CNN 모델과 분류 문제에서 강력한 성능을 보이는 LightGBM 모델을 선택하였고, 하이퍼파라미터 분석을 통해 최적의 모델 환경을 설정하여 우울증 선별 성능을 분석하였다. 우울증 선별 정확도 성능지표를 분석한 결과 본 논문에서 제안한 2D-CNN이 78.71%의 정확도를 나타냈고, 기존의 예측 모델보다 더 정확한 예측 결과를 나타내었다. 의학 분야에서 질병의 선별에 중요한 지표로 고려하는 민감도와 특이도를 기반으로 생성되는 AUC를 성능지표로 분석한 결과, 1D-CNN은 0.750, 2D-CNN은 0.716 LightGBM은 0.731의 성능을 보여 기존 연구에서 ANN, DNN 모델의 AUC보다 더 높은 성능을 보였다. 본 논문에서 제안된 모델을 활용하여, 정신과 임상자의 진단 없이 개인 건강검진 데이터를 바탕으로 우울증 질환을 사전에 예측하여 시기적절한 치료가 가능할 것으로 기대된다.

Acknowledgements

This work was supported by the Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education under Grant NRF-2019R1A2C4069822.

References

1 
H. G. Jeon, J. M. Sim, K. C. Lee, 2015, An empirical analysis of effects of depression on suicidal ideation of Korean adults: emphasis on 2008~2012 KNHANES dataset, The Journal of the Korea Contents Association, Vol. 15, No. 7, pp. 264-281DOI
2 
K. Kroenke, R. L. Spitzer, J. B. Williams, 2001, The PHQ‐9: validity of a brief depression severity measure, Journal of general internal medicine, Vol. 16, No. 9, pp. 606-613DOI
3 
S. J. Park, H. R. Choi, J. H. Choi, K. W. Kim, J. P. Hong, 2010, Reliability and validity of the Korean version of the Patient Health Questionnaire-9 (PHQ-9), Anxiety and mood, Vol. 6, No. 2, pp. 119-124Google Search
4 
P. Y. Simard, D. Steinkraus, J. C. Platt, 2003, Best practices for convolutional neural networks applied to visual document analysis, Icdar, Vol. 3, No. 2003Google Search
5 
E. Medina, M. R. Petraglia, J. G. R. Gomes, A. Petraglia, 2017, Comparison of CNN and MLP classifiers for algae detection in underwater pipelines, in 2017 Seventh International Conference on Image Processing Theory, Tools and Applications (IPTA). IEEE, pp. 1-6DOI
6 
Y. Zhu, Y. Shang, Z. Shao, G. Guo, 2017, Automated depression diagnosis based on deep networks to encode facial appearance and dynamics, IEEE Transactions on Affective Computing, Vol. 9, No. 4, pp. 578-584DOI
7 
U. R. Acharya, S. L. Oh, Y. Hagiwara, J. H. Tan, H. Adeli, D. P. Subha, 2018, Automated EEG-based screening of depression using deep convolutional neural network, Computer methods and programs in biomedicine, Vol. 161, pp. 103-113DOI
8 
M. J. Ji, H. H. Park, 2018, Prediction of Serious Depressive Symptoms by Blood Test and Environmental Factor in Adult Men and Women, The Journal of Korean Institute of Communications and Information Sciences, Vol. 43, No. 8, pp. 1368-1377Google Search
9 
S. K. Cho, S. Koo, K. Park, 2014, Vitamin D and depression, Journal of the Korean Society of Food Science and Nutrition, Vol. 43, No. 10, pp. 1467-1476DOI
10 
V. Ganji, C. Milone, M. M. Cody, F. McCarty, Y. T. Wang, 2010, Serum vitamin D concentrations are related to depression in young adult US population: the Third National Health and Nutrition Examination Survey, International Archives of Medicine, Vol. 3, No. 1, pp. 29DOI
11 
R. B. Kim, K. S. Park, J. H. Lee, B. J. Kim, J. H. Chun, 2011, Factors related to depression symptom and the influence of depression symptom on self-rated health status, outpatient health service utilization and quality of life, Korean Journal of Health Education and Promotion, Vol. 28, No. 1, pp. 81-92Google Search
12 
B. G. Kwag, J. C. Park, W. Lee, S. H. Chang, D. H. Chun, 2018, The relationship between depression and health-related quality of life in Korean adult: Using 2014 Korea national health and nutrition examination survey data, Korean Journal of Family Practice, Vol. 8, No. 2, pp. 236-243DOI
13 
H. S. Lee, 2018, Depression and related risk factors in the elderly with a focused on health habits, mental health, chronic diseases, and nutrient intake status: data from the 2014 Korea National Health and Nutrition Examination Survey, Journal of the Korean Dietetic Association, Vol. 24, No. 2, pp. 169DOI
14 
N. G. Choi, M. Teeters, L. Perez, B. Farar, D. Thompson, 2010, Severity and correlates of depressive symptoms among recipients of Meals on Wheels: Age, gender, and racial/ethnic difference, Aging and Mental Health, Vol. 14, No. 2, pp. 145-154DOI
15 
G. Ke, Q. Meng, T. Finley, T. Wang, W. Chen, W. Ma, T. Y. Liu, 2017, Lightgbm: A highly efficient gradient boosting decision tree, Advances in neural information processing systems, pp. 3146-3154Google Search
16 
E. Al Daoud, 2019, Comparison between XGBoost, LightGBM and CatBoost Using a Home Credit Dataset, International Journal of Computer and Information Engineering, Vol. 13, No. 1, pp. 6-10Google Search
17 
Y. Sun, A. K. Wong, M. S. Kamel, 2009, Classification of imbalanced data: A review, International journal of pattern recognition and artificial intelligence, Vol. 23, No. 4, pp. 687-719DOI
18 
X. Y. Liu, J. Wu, Z. H. Zhou, 2008, Exploratory undersampling for class-imbalance learning, IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), Vol. 39, No. 2, pp. 539-550DOI
19 
D. P. Kingma, J. Ba, 2014, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980Google Search
20 
Y. Lei, X. Huo, B. Yan, 2018, Deep neural network for device modeling, 2018 IEEE 2nd Electron Devices Technology and Manufacturing Conference (EDTM). IEEE, pp. 154-156DOI
21 
G. E. Dahl, T. N. Sainath, G. E. Hinton, 2013, Improving deep neural networks for LVCSR using rectified linear units and dropout, 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, Vol. speech and signal processing. ieee, No. , pp. 8609-8613DOI
22 
X. Glorot, Y. Bengio, 2010, Understanding the difficulty of training deep feedforward neural networks, Proceedings of the thirteenth international conference on artificial intelligence and statistics, pp. 249-256Google Search
23 
K. He, X. Zhang, S. Ren, J. Sun, 2015, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, Proceedings of the IEEE international conference on computer vision, pp. 1026-1034Google Search
24 
S. Loffe, C. Szegedy, 2015, Batch normalization: Accelerating deep network training by reducing internal covariate shift, arXiv preprint arXiv:1502.03167Google Search
25 
A. Anghel, N. Papandreou, T. Parnell, A. De Palma, H. Pozidis, 2018, Benchmarking and Optimization of Gradient Boosting Decision Tree Algorithms, arXiv preprint arXiv:1809.04559Google Search
26 
N. Murata, S. Yoshizawa, S. I. Amari, 1993, Learning curves, model selection and complexity of neural networks, Advances in Neural Information Processing Systems, pp. 607-614Google Search
27 
S. W. Song, 2009, Using the Receiver Operating Characteristic (ROC) Curve to Measure Sensitivity and Specificity, Korean Journal of Family Medicine, Vol. 30, No. 11, pp. 841-842Google Search

저자소개

남원우 (Wonwoo Nam)
../../Resources/kiee/KIEE.2020.69.7.1102/au1.png

Wonwoo Nam is currently an undergraduate student in the Department of Information and Communication Engineering, Changwon National University, Changwon-si, Korea, from 2015.

His research interests include visible light com- munications and artificial intelligence.

김병욱 (Byung Wook Kim)
../../Resources/kiee/KIEE.2020.69.7.1102/au2.png

Byung Wook Kim received the B.S. degree from the School of Electrical Engineering, Pusan National University, Pusan, Korea, in 2005, and the M.S. and Ph.D. degrees from the Department of Electrical Engineering, KAIST, Daejeon, Korea, in 2007 and 2012, respectively.

He was a Senior Engineer with the Korea Electrotechnology Research Institute, Changwon-si, Korea, from 2012 to 2013.

He was an Assistant Professor with the School of Electrical and Railway Engineering, Kyungil University, Gyeongsan- si, Korea, from 2013 to 2016.

He was an Assistant Professor with the Department of ICT Automotive Engineering, Hoseo University, from 2016 to 2019.

He is currently an Assistant Professor with the Department of Information and Communication Engineering, Changwon National University, Changwon-si, Korea.

His research interests include visible light communications, artificial intelligence and nanocommunications.