Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

  1. (Dept. of AI Convergence Engineering(BK21), Gyeongsang National University, Korea.)
  2. (Dept. of Opthalmology, Gyeongsang National University, Institute of Health Science, Gyeongsang National University Changwon Hospital, Changwon, Korea.)
  3. (School of Computer Science and Engineering, Kyungpook National University, Korea.)



Automated one-hot diagnosis, OCT image, deep learning, Ophthalmic disease classification

1. 서 론

최근 기계학습 분야의 연구가 발전함에 따라 최근 의료 영상 분야와 기계학습(Machine Learning) 분야의 융합이 활발히 이루어지고 있다(1-6). 특히 이미지 분석 및 분류에 기계학습 적용이 활발히 이루어지고 있으며, 주로 의료 분야에서 환자의 엑스레이(X-ray), CT 그리고 MRI의 이미지를 활용한 기계학습이 내린 질병 진단, 예측, 치료 방법 제안 연구가 이루어지고 있다. 미국 IBM의 AI 닥터 왓슨(Watson)은 외국의 암 센터뿐만 아니라 국내 암 센터에도 도입되어 폐암, 전립선암 등 암 진료를 지원하고 있으며(7), 중국 AI 닥터 샤오이(Xiaoyi)는 2017년에 의사 자격시험에 합격해 2018년 종합 건강검진 서비스를 제공하고 있다.

최근 코로나19의 팬데믹(pandemic) 상황에서, 기계학습에 기반한 AI를 활용한 비대면 진료가 주목을 받고 있다. 특히 비교적 손쉽게 얻을 수 있는 이미지 데이터를 통해서 가상의 AI 닥터가 1차 판단을 통해서 환자 질병의 긴급성에 기반한 우선순위를 결정할 수 있다. 따라서 제한된 병원의 인적·물적 자원을 활용하여 긴급한 환자를 우선적으로 치료하게 함으로써, 질병 치료의 가능성 뿐 아니라 제한된 의료 자원을 활용도를 극대화할 수 있다.

안과 분야에서는 안저(fundus) 이미지와 광 간섭 단층 촬영(Optical Coherence Tomography, 이하 OCT) 이미지를 활용하여 안과 질병을 진단하고 치료 예후를 예측하고 있다. 구글 산하 딥마인드(DeepMind)가 개발한 AI 시스템은 망막 스캔 데이터를 이용해 안구의 질환 및 징후를 94.5%의 높은 정확도로 진단할 수 있으며, 향후 실제 환자 진단에도 적용되고 있다.

OCT는 근적외선을 사용하여, 광학 산란 매체를 활용하여 마이크로미터 해상도의 3차원 이미지를 캡처하는 의료 영상 기술이다. 안과, 피부과, 심장학 등의 여러 의료 분야에서 사용되고 있으며, 특히 마이크로미터 해상도와 밀리미터 침투 깊이가 필요한 안과용 및 기타 조직 이미징에 적합하다. 안과에서는 진료하기 전 망막 내에서 상세한 이미지를 얻음으로, 망막 구조 및 상태를 시각화하여 노화성 황반 변성(Age-related Macular Degeneration, 이하 AMD), 당뇨성 황반부종(Diabetic Macular Edema, 이하 DME), 드루젠(Drusen), 당뇨 망막증(Diabetic Retinopathy) 또는 맥락막 신생혈관(Choroidal Neovascularization, 이하 CNV)과 같은 다양한 의학적 진단을 내리는데 중요한 정보로 사용되고 있다.

그림. 1. OCT 이미지: (a) AMD (b) DME (c) Drusen

Fig. 1. OCT Image: (a) AMD (b) DME (c) Drusen

../../Resources/kiee/KIEE.2021.70.7.1036/fig1.png

그림 1에서는 AMD, DME 그리고 Drusen의 병증의 OCT 이미지를 보여주고 있다. 이러한 질병에 대해서도 기계학습 기반의 인공지능이 활발히 적용되고 있는데, 특히 심층 CNN(Convolution Neural Network)과 전이학습(Transfer Learning)을 활용하여 적은 데이터 수로도 학습을 빠르게 하며, 높은 예측 정확도를 거두고 있다(1). 특히 DenseNet121(8)을 통해서는 OCT 이미지 상에서 위의 3가지 질병 AMD, DME 그리고 Drusen에 대해서 95% 이상의 정확도를 보이고 있다.

하지만 실제 환자의 안구에서 OCT 이미지를 촬영할 때에는 단일 이미지가 아니라, 그림 2와 같이 다수(20여 장)의 사진이 촬영되는데 이러한 사진들에 대한 판독을 기존의 가장 정확도가 높은 DenseNet121로 수행하여도 불일치하거나 상충되는 결과들이 대부분이다. 전문의의 판독 역시 각 OCT 이미지에 대한 판독은 서로 불일치하거나 상충될 수 있으나, 전문의의 학습과 경험을 통해 뚜렷한 한두 가지 결과를 지목하여 치료 방법을 선택한다. 하지만 여전히 기계학습 기반의 인공지능은 일반 안과 전문의들이 수행하는 다중 OCT 이미지를 사용한 단일 결과를 도출하지 못하고 있다.

그림. 2. OCT 이미지 촬영

Fig. 2. OCT Image Acquisition

../../Resources/kiee/KIEE.2021.70.7.1036/fig2.png

본 연구에서는 단일 OCT 이미지들을 가지고 위의 3개 질환에 대해 전문의의 진단과 유사한 종합적인 판단을 내릴 수 있는 다양한 기계학습 프레임워크 모델을 제시하고 그에 대한 적용 결과를 제시한다. 본 논문에서는 위 질환에 대한 2단계의 심층 기계학습 방법을 보이고자 한다. 첫 번째 단계에서는 기존의 심층 CNN 기반의 DenseNet121을 사용한 단일 OCT 이미지 질병 분류 수행한다. 두 번째 단계에서는 실제 안과 전문의들이 진단 내리는 결과를 학습하여, 첫 번째 단계의 분류한 다수의 OCT 이미지들에 대한 종합적인 판단을 내릴 수 있는 시스템을 제안한다. 본 논문에서는 집단 분류를 위해 3가지 심층 신경망 모델인 FC(Fully Connected), LSTM(Long Short-Term Memory) 그리고 CNN으로 구현된 모델을 소개하고 각각의 모델에 대한 분류 성능을 비교하였다.

본 논문의 구성은 다음과 같다. 2장에서는 OCT 이미지를 활용한 관련 연구 기술 및 심층학습의 자동 진단과 관련된 기존 연구에 대하여 소개한다. 3장에서는 본 논문에서 제안한 방법인 DenseNet121 및 다양한 기계학습 모델을 통해 자동 진단 시스템을 소개한다. 4장에서는 자동 진단 시스템에 대한 결과를 분석하고, 마지막으로 5장에서는 결론에 대해 기술한다.

2. 관련 연구

2.1 OCT 이미지를 활용한 관련 연구 기술

최근 몇 년 동안 기계학습이 발전하면서 의료 영상을 활용한 다양한 심층학습 연구가 이루어지고 있다(1-6). 안과 의료 영상에는 대표적으로 안저 이미지와 OCT 이미지가 있다. 이 데이터들을 활용한 연구에는 대표적으로 의료 영상 내에서 시각적으로 드러나는 질병 특징을 통한 질병 진단이 있다. OCT 관련 대표 연구로서, OCT 이미지 내의 수액과 망막 층 분할(segmentation) 연구(2), OCT 이미지에서 질병 증상이 보이는 특징 부분 감지(detection) 연구(3,6)가 있다. 또한, 각막과 망막 사이의 맥락막 영역의 무늬, 2차원 혹은 3차원의 형태적(morphological) 특징을 추출하고 이를 안과적 질병 진단에 활용하는 다양한 연구들이 이루어지고 있다(9).

2.2 심층학습의 자동 진단 연구

2018년 cell은 딥 러닝을 기반으로 안구 질환 진단 시스템에 대한 Kermany et a.l.(1)의 논문을 발표했으며, Kermany et al.(1)에서는 Inception V3 모델을 사용하여 OCT 이미지 한 장에 대해서 CNV, DME, Drusen과 정상을 분류하는 연구를 수행하였으며, 그 성능은 99%의 정확도로 탁월했다.

Kaymak et al.(6)는 OCT 이미지에서 AMD 및 DME의 자동 감지에 대한 연구를 발표했으며, AMD중에서 건성 AMD, 습식 AMD를 분류하고 DME를 포함하여 총 3가지의 질병을 분류하였다. 이 연구 또한 OCT 이미지를 AMD 및 DME 범주로 분류하기 위해 최근 제안된 AlexNet의 전이 학습 기반 방법을 사용하였으며 그 결과 97%이상의 정확도를 달성하였다.

Cecilia et al.(5)는 AMD 환자의 OCT 이미지와 정상 OCT 이미지를 구별하기 위해 심층 신경망 모델인 VGG16 모델에 Xavier 알고리즘을 사용하여 가중치를 초기화하여 모델 학습을 수행하였다. 본 논문에서는 93.45%의 정확도로 97.45%의 AUC를 달성하였다.

Xiaogang et al.(4)는 사전 훈련 된 ImageNet과 지원 벡터 머신(support vector machine)을 사용하여 안저 이미지로 부터 당뇨병 성 망막증(DR, Diabetic Retinopathy)을 분류하는 논문을 발표했다. 본 논문에서는 사전 훈련된 CNN 모델을 사용하여 안저 이미지에서 특징을 추출하였고 이러한 특징 파라미터 값을 통해 지원 벡터 머신(support vector machine)을 훈련하여 최종 진단 모델을 구축하였다.

또한, Wang et al.(3)는 2개의 CNN모델을 통해 미숙아 망막병증(ROP, Retinopathy of Prematurity)을 자동 진단하는 논문을 발표했다. 5511개의 망막 사진 데이터 세트를 5 분할 교차 검정을 사용하여 CNN을 훈련하였으며, 100개의 이미지로 구성된 독립적인 테스트 세트에서 알고리즘은 91%의 정확도를 달성하여 미숙아 전문가의 망막 병증 8명 중 6명을 능가했다. 그 외에 많은 질병 판단 모델 AI 모델이 개발되고 있다.

본 논문은 앞서 언급한 선행 연구들을 참고하여, Kermany et al.(1)의 단일 OCT 이미지에 대한 진단은 환자에게 진단을 내릴 수 있는 것이 아니라는 문제로 판단하였다. 이에 본 논문에서는 다수의 OCT 이미지들에 대한 종합적인 판단을 내릴 수 있는 2단계의 심층 기계학습 방법을 제안한다. 1단계에서 DenseNet121을 활용한 OCT 이미지 분석 연구를 제안한다. 2단계에서는 여러 OCT 이미지로부터 종합적인 진단 후, 환자에게 안구 질환 진단하는 연구를 제안한다. 또한, 성능 평가를 위해 다양한 기계학습 모델의 성능 비교 결과도 제시한다.

3. 심층학습 기법을 이용한 안구 질환 진단

본 연구에서는 안구 질환 자동화 진단 시스템을 구현하기 위해, 최근 이미지 영상 처리에 대하여 우수한 성능을 보이고 있는 심층학습 기법을 적용하였다. 특히 OCT 이미지에서 안구 질환의 시각적 특징을 추출하기 위해 DenseNet을 적용하였으며, 추출된 특징을 통해 다양한 심층학습 기법들을 적용시켜 환자에게 최종적으로 의학적 결정을 보조할 수 있는 자동화 진단 모델을 2가지 단계로 구성하였다. 본 장에서는 제안한 모델에 대한 구현 설명을 위하여 훈련에 사용된 데이터와 각 단계에서 적용된 심층학습 모델의 구조를 각 절로 나누어 다음과 같이 소개한다.

3.1 데이터 셋 구성

본 연구에서는 OCT 이미지를 기반으로 안구 질환 자동화 진단 시스템을 구현하였다. 자동화 진단 시스템의 구조는 그림 3과 같이 두 가지의 단계로 모델이 구성되어 있으며, 각 단계에서 사용되는 데이터 셋 구성에 소개한다.

전문 검사관이 Spectralis OCT 장치(독일 하이델베르그 소재의 하이델베르그 엔지니어링)로 망막 OCT를 촬영하였으며, 이 시스템은 조직에서 3.9m 픽셀의 축 해상도와 5.7m 픽셀의 가로 해상도로 초당 40000개의 스캔을 시행하였다. 황반의 수평 단면 영상 또는 수직 단면 영상을 촬영했다. 우리는 AutoIt로 작성된 자동화 프로그램을 사용하여 이미지를 BMP 파일 형식으로 이미지를 수집하였다. OCT 이미지는 그림 2와 같이 촬영하여 AMD, DME, Drusen 환자로부터 수집하였다. 또한 품질이 낮은 데이터는 삭제후 데이터 증대를 통해서 매 데이터 셋을 27장으로 일치시켜서 학습을 수행하였다.

본 연구에서는 2가지의 단계로 연구를 진행하였으며, 첫 단계는 개별 분류로 단일 OCT 이미지로부터 질병의 특징을 추출하여 각 이미지에 대한 안구 질환을 진단 내리는 모델을 구현하였다. 첫 번째 단계의 모델에 사용된 데이터는 cell에서 발표된 Kermany et al.(1)의 공개 데이터 셋을 사용하였고, 데이터 셋은 라벨이 완료된 각각의 이미지가 총 84,484장으로 구성되어 있다. 공개 데이터 셋의 83,484장으로 훈련을 시키고, 나머지 1,000장으로 본 모델의 테스트를 진행하였다. 훈련된 모델을 통해 안과학에서 제공된 OCT 이미지에 대해서 라벨 작업이 이루어졌다. OCT 이미지는 각각 AMD 27,675장, DME 25,137장과 Drusen 18,684장으로 총 71,496장으로 구성되어 있다.

두 번째 단계는 집단 분류로써, 첫 번째 단계의 모델을 통해 각 이미지에 대한 라벨이 완료된 71,496장을 통해 27개를 한 개의 데이터 셋으로 설정하여 신경망이 종합적으로 하나의 진단을 환자에게 내릴 수 있도록 한다. 따라서 데이터 셋의 행은 한 장의 이미지에 대한 AMD, DME, Drusen, 정상의 각 확률을 의미하며, 열은 27장의 이미지를 의미한다. 따라서 두 번째 단계에서는 27개의 볼륨 데이터 형식으로 각각 AMD 1,025개, DME 931개와 Drusen 692개로 총 2,648개로 이루어져 있다.

3.2 단일 OCT 이미지 진단 결정 모델

그림. 3. OCT 이미지를 위한 2-Phase 자동화 진단 시스템

Fig. 3. 2-Phase Automated Diagnostic System for OCT-images

../../Resources/kiee/KIEE.2021.70.7.1036/fig3.png

본 연구에서는 새로운 신경망 구조를 설계하는 대신 결정 모델의 전방에는 DensNet121 네트워크를 기반으로 설계하였고, 결정 모델의 후방에는 두 개의 FC 층들로 설계하였다. 후방의 첫 번째 FC 층은 DenseNet121으로부터 전달받은 정보의 정보 손실을 최소화하기 위해 설계되었으며, 지역적 최적(local optimum) 문제를 방지하기 위해 배치 정규화(Batch-Normalization)와 ReLU(rectification) 활성화 함수가 사용된다. 최종 FC 층은 객체(Object)를 분류하기 위해 설계되었으며, softmax 활성화 함수를 사용하여 최종적으로 AMD, DME, Drusen 및 정상 일 확률의 형태로 결과(output)를 얻게 된다.

입력 층(input)에서는 단일 OCT 이미지가 흑백 처리되어 3차원의 형태로 입력되며, 입력 크기(input size)는 (None, 299, 299, 3)이다.

그리고 출력 층(output)은 softmax 활성화 함수를 사용하여 최종적으로 AMD, DME, Drusen 및 정상 일 확률의 형태로 결과(output)를 얻기 때문에 출력 크기(output size)는 (None, 4)이다.

DenseNet121은 총 4개의 dense block으로 이루어져 있다. dense block은 모든 레이어를 서로 직접적으로 연결하여 컨벌루션 신경망에서 사용되는 모듈로써, 1x1 및 3x3 크기의 커널이 있는 두 개가 있다. 그리고 첫 번째 dense block은 6회, 두 번째는 12회, 세 번째는 24회, 마지막 dense block에서는 16회를 반복한다.

훈련에 사용된 손실 함수(loss function)는 다중 분류 손실 함수(categorical cross-entropy)를 사용하였고, 경사 하강법 최적화 알고리즘(Gradient Descent Optimization Algorithm)으로

Adam(10)을 사용하였다. 네트워크의 마지막 두 개의 FC 층을 제외한 나머지 층들은 사전 학습된(pre-trained) 네트워크의 구조로 첫 번째 단계의 모델이 구성되었다.

3.3 One-Hot 진단 결정 모델

3.2 절에서는 단일 OCT 이미지에 대한 라벨이 완료된 데이터를 통해, 27장의 이미지를 하나의 데이터 셋으로 설정하여 환자에게 안구 질환 진단을 내릴 수 있는 결정 모델을 설계하였다.

본 연구에서는 NN모델로는 FC, LSTM와 CNN을 적용하여 각 모델의 특징들을 활용하여 구현하였다. 설계된 모델들의 입력(input) 데이터의 형태는 모두 같으며, 라벨 데이터 또한 같다.

FC는 한 층의 모든 뉴런이 다음 층의 모든 뉴런과 연결된 상태를 의미하며 신경망의 가장 기본적인 네트워크이다. 이는 주로 CNN의 후속 층으로 연결되어 1차원 배열의 형태로 변환한 후, 주로 이미지를 분류하는 데 사용되는 계층이다. 첫 번째 단계에서는 CNN을 기반한 모델을 바탕으로 이미지 처리를 하였기 때문에, 후속 층으로 FC를 사용하는 것이 가장 일반적이다. 따라서, 두 번째 단계에서 FC을 기반으로 신경망을 설계하였다.

FC 모델은 네트워크 크기(size)가 256인 FC 층이 5개로 쌓여 있고, 한 층에서 다음 층으로 정보가 전달되기 전 배치 정규화와 ReLU 활성화 함수가 사용된다. 또한, 지역적 최적 문제를 방지하기 위해 FC 층 사이에 드롭아웃(dropout)(11)이 0.25 비율로 설정하였으며, 마지막 층은 AMD, DME, Drusen을 분류하기 위해 softmax 활성화 함수를 사용하였다. 본 모델의 하이퍼 파라미터를 여러 방법으로 실험을 통해 최적의 모델로 구현하였다. 본 모델에 사용된 손실 함수는 다중 분류 손실 함수를 사용하였고, 경사 하강법 최적화 알고리즘으로 Adam을 사용하여 모델의 훈련이 이루어졌다.

LSTM은 RNN(Recurrent Neural Network)를 기반한 모델로, 여러 개의 시퀀스(sequence) 데이터를 기반으로 학습한다는 점에서 의미 있는 모델이다. LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 정보는 지우고, 기억해야 할 정보들을 선택하게 된다. 따라서 기존 RNN의 긴 의존 기간으로 인한 문제점을 해결하고, 긴 시퀀스의 입력을 처리하는데 탁월한 성능을 보인다. 하지만 LSTM은 과거 시퀀스의 정보를 통해 현재 데이터에 대한 정보를 예측하는 것을 가능한 구조이나, 역방향의 연결은 존재하지 않기 때문에 현시점의 정보 예측보다 미래 시점의 정보 예측 시 활용할 수 없다. 하지만, 양방항(Bidirectional)은 단방향 LSTM의 기능에 역방향의 기능을 추가한 모델로, 시계열 데이터의 순방향(시간순서)에 더하여 역방향(시간의 역순)으로도 데이터를 분석하여, 입력 데이터의 특정한 특징에 대해 분류나 예측이 가능하다(12). 추가적으로, 양방항 LSTM은 과거로부터 현재의 예측 정보와 미래로부터 현재의 예측 정보를 가지고 예측을 하므로 기존 LSTM보다 성능이 뛰어난 결과를 보여준다.

본 연구에서는 LSTM에서 다루는 입력 시퀀스 데이터를 연속적인 27장의 OCT 이미지로 간주하고 신경망을 설계하였다. 설계한 신경망은 두 개 층의 양방향 LSTM과 두 개 층의 FC로 이루어져 있다. 네트워크 크기로 LSTM의 첫 번째 층은 128, 두 번째 층은 256으로 설정하였으며, LSTM과 연결된 FC의 첫 번째 층은 정보 손실을 최소화하기 위해 128로 설정하였고, 마지막 층은 3으로 설정하였다. 또한, 각 층 사이에는 드롭아웃을 0.3으로 설정하고, 최종 출력층에서 AMD, DME와 Drusen을 분류하기 위해 softmax 활성화 함수를 사용하였다. 본 모델은 손실 함수로써 평균 제곱근 함수와 경사 하강법 최적화 알고리즘으로 Adam을 사용하여 훈련이 이루어졌다.

CNN은 2차원 데이터인 이미지로부터 로컬 부분의 특징을 추출하기 위해, 컨볼루션(convolution) 층을 사용하여 직접 학습하고 패턴을 사용해 이미지를 분류한다. 입력이 용이하고 적은 매개변수로 학습한다는 장점이 있으며, 그 성능은 매우 효과적임이 입증되었다(13). 그래서 요즘 영상 데이터 연구 분야에서는 대부분 CNN 모델을 기반의 신경망을 활용하고 있다.

본 연구에서는 데이터 셋을 2차원인 이미지로 간주하고, 데이터의 모든 값을 고려하여 CNN 모델에 적용한 신경망을 설계하였다. CNN은 다른 신경망 모델보다 성능이 뛰어나기에 최대한 간단하게 4개의 층과 각 층 사이에 드롭아웃을 0.3으로 설정하였다. 첫 번째 층과 세 번째 층의 네트워크 사이즈는 64로 설정하였으며, 그 사이에 존재하는 층의 네트워크 사이즈는 256으로 설정하였다. 또한, 최종 층을 제외한 모든 층에서는 활성함수로 ReLU가 사용되었으며, 최종 층은 활성 함수로 softmax 분류를 수행하게 되면서 AMD, DME와 Drusen을 분류하게 된다.

4. 실험 및 결과

본 논문에서는 기존 연구와 달리 2 단계로 여러 심층학습 기반의 모델을 제안하였으며, 모델의 성능을 평가하기 위하여 다음과 같이 실험 결과를 비교 분석하였다.

표 1. Phase 1, DenseNet121의 개별 분류의 성능

Table 1. Phase 1, Performance of individual classification by DenseNet121

Metrics

Precision

Recall

Accuracy

F1-score

Results

1.00

1.00

99.89

1.00

표 2. Phase 2, 집단 분류의 성능 비교

Table 2. Phase 2, Comparison of group classification performance

Algorithm

Precision

Recall

Accuracy

F1-score

FC

0.95

0.96

95.85

0.96

BLSTM

0.93

0.95

93.20

0.94

CNN

0.92

0.99

94.33

0.95

4.1 데이터 및 실험 환경

본 논문의 데이터는 창원 경상국립대학교 병원과의 협력하여 환자 데이터에 대한 IRB 획득 후, 안과로부터 AMD, DME, Drusen 환자의 OCT 이미지를 연구의 목적으로 수집하였다. 본 연구의 데이터 셋은 총 71,496장의 OCT 이미지이며, AMD 27,675장, DME 25,137장, Drusen 18,684장으로 각 이미지는 연속적인 27장의 이미지로 구성된다. 또한, 첫 번째 단계의 DenseNet121 모델을 학습시키기 위해 Kermany et al.(1)에서 제공한 공개 데이터 셋을 사용하였다. 공개 데이터 셋은 총 84,484장으로, 각 CNV 37,455장, DME 11,598장, Drusen 8,866장, Normal 26,565장으로 구성된다. 신경망은 Google의 Tensorflow 버전 2.0을 통해 구현하였으며 두 개의 NVIDIA GeForce RTX 2080 Ti GPU를 사용하는 Window10 상에서 python으로 구현하였다.

4.2 단일 OCT 이미지 진단 결정 모델의 성능

본 논문에서는 사용된 모델은 DenseNet121 모델로, 그림 3의 첫 번째 단계이다. 학습은 100 epoch, 학습률(learning rate)은 0.001로 설정하여 실험을 수행하였다. 또한, 훈련 시 40 epoch까지 모델의 훈련이 진행되었으며 이후 모델의 변동(fluctuation)을 방지하기 위한 안정화 훈련이 진행되었다. 100 epoch을 기준으로 그 이상 반복 훈련시켜도 더 나은 성능은 보이지 않았음을 확인하였다. 본 모델의 학습을 위해 사용한 데이터는 Kermany et al.(1)에서 제공한 84,484장이며, 학습 데이터 83,484장과 테스트 데이터 1,000장으로 분류되어 있다. 따라서 83,484장을 통해 모델의 학습을 수행하였으며 1,000장을 통해 테스트를 수행하였다.

그림. 4. Phase 2의 ROC curve

Fig. 4. ROC curve of Phase 2

../../Resources/kiee/KIEE.2021.70.7.1036/fig4.png

단일 OCT 이미지 학습에 대해서 진단의 성능을 평가하기 위해 각 질환 당 250장씩 총 1,000장의 데이터로 테스트를 수행하였다. 표 1에서 정밀도, 재현율, 정확도 및 F1-점수가 안구 질환 자동화 진단 시스템 알고리즘의 성능을 보여준다. 성능 비교는 각 분류의 결과 값을 평균하였다. 단일 OCT 이미지 진단 결정 모델인 DenseNet121은 정밀도, 재현율 그리고 F1-점수는 1.00, 정확도는 99.89로서 매우 높은 정확도를 얻을 수 있었다. 이렇게 높은 정확도를 얻을 수 있었던 이유는 DenseNet121의 모델은 Densely connection을 이용하여 각 계층의 출력인 피처맵(feature map)을 이어지는 각 계층의 입력과 concatenation 연산을 수행하여 특징 전파를 강화한다는 장점을 가지고 있으며, 또한 총 83,484의 많은 데이터로 훈련을 수행하였기에 높은 정확도를 얻었을 것으로 판단된다. 그리고 DenseNet121의 AUC(Area under an ROC curve)는 1.00이었다.

DenseNet121을 통해서 한 환자에 대한 여러 장의 각 OCT 이미지에 대해 병증에 대한 판독 결과를 확률값을 얻어서 이를 그림 3의 Phase 1의 출력처럼 확률값의 매트릭스로 만들어 Phase 2의 입력으로 사용하였다.

4.3 One-Hot 진단 결정 모델의 성능

4.2 절의 실험 결과를 통해, 본 장에서는 라벨이 완료된 단일 OCT 이미지를 27장씩 묶어 하나의 데이터 셋으로 설정하여 실험을 수행하였다. 창원 경상대병원으로부터 수집한 이미지 데이터 셋은 총 71,496장이며, 따라서 본 장에서 사용된 데이터 셋은 2,648개이다. 2,648개의 데이터 셋 중 AMD 1,025개, DME 931개와 Drusen 692개로 이루어져 있다. 하지만, 다양한 심층학습 모델들을 학습시키기에는 데이터 셋의 부족으로 총 데이터 셋의 90%는 훈련 데이터 셋으로 설정하고 나머지는 테스트 데이터 셋으로 설정하여 연구를 수행하였다. 두 번째 단계에서 수행한 실험은 FC, LSTM와 CNN 모델로 수행하였으며, 모든 모델의 데이터 셋의 설정은 같게 설정하였다.

FC 모델은 1000 epoch, 학습률(learning rate)는 0.00001 그리고 손실 함수는 categorical crossentropy로 설정하여 실험을 수행하였다. 환자 진단 결정 모델 중 하나인 FC는 정밀도 0.95, 재현율 0.96, 정확도는 95.85 그리고 F1-점수는 0.96을 얻었다. 또한, 그림 4를 통해 FC의 AUC는 0.99를 얻었음을 확인할 수 있다. 본 모델은 학습시 epoch을 200까지는 학습이 빠르게 되었으며, 200 이상부터는 천천히 학습됨을 볼 수 있다.

BLSTM 모델은 300 epoch, 학습률(learning rate)는 0.001 그리고 손실 함수는 MSE(Mean Square Error)로 설정하여 실험을 수행하였다. BLSTM은 정밀도 0.93, 재현율 0.95, 정확도는 93.20 그리고 F1-점수는 0.94를 얻었다. 또한, 그림 4를 통해 BLSTM의 AUC는 0.99를 얻었음을 확인할 수 있다. FC 모델과 CNN 모델과 달리, BLSTM 모델은 학습 시간이 3분에서 5분이 좀 더 걸렸고 정확도를 기준으로 성능이 약 1%정도 차이남을 확인하였다.

CNN 모델은 1000 epoch, 학습 속도(learning rate)는 0.0001 그리고 손실 함수은 MSE(Mean Square Error)로 설정하여 실험을 수행하였다. CNN은 정밀도 0.92, 재현율 0.99, 정확도는 94.33 그리고 F1-점수는 0.95를 얻었다. 또한, 그림 4를 통해 CNN의 AUC는 0.95를 얻었음을 확인할 수 있다.

마지막으로 신경망의 성능은 사용된 학습 데이터와 학습 및 테스트 과정에서 세부의 차이로 인해 성능이 조금씩 차이를 보일 수 있다. 따라서 설계된 심층학습 모델들의 성능을 정확히 분석하고 비교하기 위해, 각 모델들을 10번씩 재학습하고 테스트를 수행하였다. 표는 각 모델을 10번씩 테스트하여 정확도의 평균 낸 결과이며, FC 모델은 95.89%, BLSTM 모델은 93.20%이며 CNN 94.33%로 모든 모델이 90% 이상 정확도의 결과를 냈다. 각 모델의 성능에서 1%에서 2% 정도의 차이가 있지만 정확성 기준 FC의 성능이 다른 DNN (Deep Neural Network) 모델에 비해 좋았다.

일반적으로 이미지 분류는 CNN이 FC에 비해서 좋은 성능을 보인다. 하지만 본 논문에서 집단 분류에서 사용하는 입력 데이터는 27 x 4의 데이터로서 비교적 단순하다. 그리고 CNN은 FC에 비해 더 복잡한 뉴럴네트워크를 구성한다. DNN (Deep Neural Network)을 훈련 시, FC보다 CNN의 정확도가 높게 나오나 검증 데이터를 테스팅 할 경우 CNN의 정확도가 FC보다 다소 낮게 나오는 것을 관찰할 수 있었다. 따라서 복잡한 DNN을 사용하면서 발생하는 과적합이 발생하여 검증 데이터에 대한 FC의 정확도가 더 높게 나온 것으로 보인다.

5. 결 론

의료 분야에서는 진단을 위해 의료 영상 데이터가 필요함에 따라서 의료 영상 데이터를 적용한 컴퓨터 비전(vision) 분야에서의 연구가 활발히 이루어지고 있다. 본 논문에서는 또한 OCT 이미지라는 의료 영상 데이터를 적용하여 다양한 심층학습 기법을 통해 연구를 수행하였다. 임상의 안과 전문의들은 단일 OCT 이미지가 아닌 여러 장의 OCT 이미지들을 종합적으로 살펴본 후, 환자에게 진단을 내린다. 이에 본 연구는 기존의 다른 논문과 달리 여러 장의 이미지를 통해 한 환자에게 진단을 내릴 수 있는 시스템을 구축하였다. 1단계에서 DenseNet121 모델(8)을 통해 단일 OCT 이미지로부터 질병의 시각적 특징을 분석하여 AMD, DME, Drusen과 Normal을 식별할 수 있음을 보였다.

또한, 1단계의 결과를 기반으로 2단계에서는 FC, BLSTM과 CNN의 모델을 통해 여러 장의 OCT 이미지들의 정보를 통해 종합적으로 판단 후 환자의 질환을 식별할 수 있음을 확인하였다. FC의 정확도는 95.85%이고 다른 모델의 정확도와 비교해서 가장 성능이 뛰어났음을 확인하였다.

Acknowledgements

This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (No.NRF-2020R1A2C1014855), Regional Innovation Strategy (RIS) through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(MOE), and the BK21 plus program through the National Research Foundation (NRF) funded by the Ministry of Education of Korea (No.5120201013786).

References

1 
D. S. Kermany, M. Goldbaum, W. Cai, C. C. Valentim, H. Liang, S. L. Baxter, A. McKeown, G. Yang, X. Wu, F. Yan, 2018, Identifying medical diagnoses and treatable diseases by image-based deep learning, Cell, Vol. 172, No. 5, pp. 1122-1131DOI
2 
J. Kugelman, D. Alonso-Caneiro, S. A. Read, J. Hamwood, S. J. Vincent, F. K. Chen, M. J. Collins, 2019, Automatic choroidal segmentation in oct images using supervised deep learning methods, Scientific reports, Vol. 9, No. 1, pp. 1-13DOI
3 
J. Wang, R. Ju, Y. Chen, L. Zhang, J. Hu, Y. Wu, W. Dong, J. Zhong, Z. Yi, 2018, Automated retinopathy of prematurity screening using deep neural networks, EBioMedicine, Vol. 35, pp. 361-368DOI
4 
X. Li, T. Pang, B. Xiong, W. Liu, P. Liang, T. Wang, 2017, Convolutional neural networks based transfer learning for diabetic retinopathy fundus image classification, in 2017 10th international congress on image and signal processing biomedical engineering and informatics (CISP-BMEI), pp. 1-11DOI
5 
C. S. Lee, D. M. Baughman, A. Y. Lee, 2017, Deep learning is effective for classifying normal versus age-related macular degeneration oct images, Ophthalmology Retina, Vol. 1, No. 4, pp. 322-327DOI
6 
S. Kaymak, A. Serener, 2018, Automated age-related macular degeneration and diabetic macular edema detection on oct images using deep learning, in 2018 IEEE 14th International Conference on Intelligent Computer Communication and Processing (ICCP), pp. 265-269DOI
7 
E. Strickland, 2019, Ibm watson, heal thyself: How ibm overpromised and underdelivered on ai health care, IEEE Spectrum, Vol. 56, No. 4, pp. 24-31DOI
8 
G. Huang, Z. Liu, L. Van Der Maaten, K. Q. Weinberger, 2017, Densely connected convolutional networks, in Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700-4708Google Search
9 
B. Tan, A. Wong, K. Bizheva, 2018, Enhancement of morphological and vascular features in oct images using a modified bayesian residual transform, Biomedical optics express, Vol. 9, No. 5, pp. 2394-2406DOI
10 
D. P. Kingma, J. Ba, 2014, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980Google Search
11 
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov, 2014, Dropout: a simple way to prevent neural networks from overfitting, The journal of machine learning research, Vol. 15, No. 1, pp. 1929-1958Google Search
12 
M. Schuster, K. Paliwal, 1997, Bidirectional recurrent neural networks, IEEE Transactions on Signal Processing, Vol. 45, No. 11, pp. 2673-2681DOI
13 
P. Y. Simard, D. Steinkraus, J. C. Platt, 2003, Best practices for convolutional neural networks applied to visual document analysis, in Icdar, Vol. 3Google Search

저자소개

김지연 (Jiyeon Kim)
../../Resources/kiee/KIEE.2021.70.7.1036/au1.png

Jiyeon Kim graduated from Gyeongsang National University in 2020.

She is pursuing master degree at the Dept of AI Convergence Engiering(BK21), Gyeongsang National University in 2020.

Her research interests includes Machine Learning, and Medical AI.

한용섭 (Yongseop Han)
../../Resources/kiee/KIEE.2021.70.7.1036/au2.png

Yongseop Han graduated from Gyeongsang National University in 2001.

He received Master and Ph.D. degree in the same university in 2005 and 2013, respectively.

He worked as an ophthalmologist at Gyeongsang National University Hospital from 2009, and he joined College of Medicine Gyeongsang National University in 2012 as an associate professor.

His research interest includes Retina, Uvea, and Vitreous.

이웅섭 (Woongsup Lee)
../../Resources/kiee/KIEE.2021.70.7.1036/au3.png

Woongsup Lee received a B.S. and a Ph.D. in electrical engineering from KAIST in 2006 and 2012, respectively.

Since 2014, he has been working in the Department of Information and Communication Engineering of Gyeongsang National University, South Korea, where he is now an Associate professor.

강태신 (Taeseen Kang)
../../Resources/kiee/KIEE.2021.70.7.1036/au4.png

Taeseen Kang graduated from Chungnam National University in 2010.

He received Mater degree in the same university in 2016.

He worked as an ophthalmologist at Gyeongsang National University Changwon Hospital from 2019 as an assistant professor.

His research interest includes Cornea, and Oculoplastics.

이성진 (Seongjin Lee)
../../Resources/kiee/KIEE.2021.70.7.1036/au5.png

Seongjin Lee graduated from Hanyang University in 2006.

He recieved Master and Ph.D. degree in the same university in 2008 and 2015, respectively.

He worked as postdoc in Storage Center Hanyang University till 2017 and became an assistant research professor there.

He joined Gyeongsang National University in 2017 as an assistant professor.

His research interest includes Operating System, Storage System, System Optimization, Avionics, and Machine Learning.

김경훈 (Kyong Hoon Kim)
../../Resources/kiee/KIEE.2021.70.7.1036/au6.png

Kyong Hoon Kim received the B.S., M.S., and Ph.D. degrees in computer science and engineering from POSTECH, Pohang, South Korea, in 1998, 2000, and 2005, respectively.

From 2005 to 2007, he was a Post-Doctoral Research Fellow with the CLOUDS Laboratory, Department of Computer Science and Software Engineering, University of Melbourne, Australia.

He is currently a professor in School of Computer Science and Engineering, Kyungpook National University, Daegu, South Korea.

From 2007 to 2019, he was a professor in the Department of Informatics, Gyeongsang National University, Jinju, South Korea.

His current research interests include real-time systems, cloud computing, avionics software, and security.

이영섭 (Yeongseop Lee)
../../Resources/kiee/KIEE.2021.70.7.1036/au7.png

Youngseop Lee graduated from Gyeongsang National University in 2020.

He is pursuing master degree at the Dept of Information Science, Gyeongsang National University in 2020.

His research interests includes Machine Learning, Neural Network, Image Generation, and Image Processing.

김진현 (Jin Hyun Kim)
../../Resources/kiee/KIEE.2021.70.7.1036/au8.png

Jin Hyun Kim received the Ph.D. degree from the Department of Computer Science and Engineering, Korea University, Seoul, South Korea, in 2011.

He was a Post-Doctoral Fellow with the KAIST, Daejeon, South Korea, and Aalborg University, Denmark.

He was a Researcher with INRIA/IRISA, Rennes, France.

From 2014 to 2019, he was a Post-Doctoral Fellow with the University of Pennsylvania, Philadelphia, PA, USA.

Since 2019, he has been an assistant professor in Department of Information and Communication Engineering, Gyeongsang University, South Korea.

His current research interests include cyber physical systems, realtime systems, machine learning for medical and vehicular autonomy systems.