• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and Technology, Seoul National University, Korea.)
  2. (Dept. of Oral and Maxillofacial Radiology, Seoul National University Dental Hospital, Korea.)
  3. (Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research Institute, Seoul National University, Korea.)



Monocular depth estimation, Augmented Reality, Surgical navigation system, deep learning

1. 서 론

수술 내비게이션 시스템은 수술 중 외과의사에게 해부학적 구조의 위치 및 수술 정보를 제공하여 목표 부위에 대한 접근성을 향상시키기 위해 개발되었다(1-3). 일반적으로, 내비게이션 시스템의 정보는 수술 영역에서 벗어난 디스플레이 장치에 시각화 된다(4). 하지만 이러한 상황은 외과의사에게 손과 눈의 비동기화를 야기하여, 수술의 집중도를 낮추는 문제가 발생되었다(5). 이 문제를 해결하기 위하여, 수술 영역 위에 해부학적 구조의 위치 및 수술 정보를 증강하여 나타낼 수 있는 증강현실(Augmented Reality,AR) 수술 내비게이션 시스템이 개발되었고(6-8), 이를 통해 외과의사는 수안 교정(hand-eye calibration)이 가능해졌다(5).

증강현실 수술 내비게이션 시스템은 수술 전 의료영상 공간과 환자의 물리적 공간 간 정합(registration)이 필수적이다(9). 초기에는 광학적 혹은 전자기적 추적 마커를 환자에게 고정하여 간접적으로 정합을 위한 환자의 위치 정보를 획득하였다(10-12). 그러나 마커의 크기 및 특성으로 인하여 수술 환경에서 사용이 제한되었고, 외과의사에게는 수술 내비게이션 시스템 사용의 불편함을 초래했다(13,14). 따라서 마커가 필요 없는 마커리스(marker-less) 정합 방법이 개발되었고, 기존 마커 사용에 따른 문제점을 크게 해소할 수 있었다(15-17).

일반적으로, 컴퓨터 비전(vision) 기반의 마커리스 정합은 수술 중 환자의 물리적 위치정보를 카메라로 획득한다(15,16). 따라서, 술전 computed tomography(CT) 영상 공간과 술중 카메라 공강 간 정합이 이루어지게 된다. 카메라와 CT 간 정합의 정확도는 카메라에서 획득된 환자 위치 정보의 3차원 재구성 결과에 의존하기 때문에, 재구성 결과는 정확하고 충분한 밀집함(dense)을 가져야 한다(18). 지난 많은 연구에서, 컬러 및 깊이 영상을 동시에 획득 가능한 스트럭쳐 라이티드(Struc- ture-lighted) 혹은 스테레오(Stereography) 기반 RGBD 카메라를 이용하여 환자 위치정보의 3차원 재구성을 구현하였다(15,16).

조도가 높고 복잡한 수술 환경에서 스테레오(Stereography) 기반 RGBD 카메라의 사용은 제한된다. 강한 조도로 생긴 하이라이트(high light)나 양안에서 대응점을 찾을 수 없는 텍스쳐리스(texture-less) 영역은 깊이정보(depth) 획득에 실패하기 때문에, 환자 위치 정보의 밀집된 3차원 재구성이 불가능하다(19). 더 나아가, 스테레오 카메라는 정밀한 깊이정보를 획득하기 위하여 두 렌즈 사이 간 거리가 충분히 떨어져야 하지만, 부피가 커져서 협소한 수술 환경에서는 부적절하다(20). 이러한 문제를 해결하기 위하여, 최근 딥러닝 기반 단일 카메라 깊이 추정(monocular depth estimation) 방법이 주목받고 있다(21-23). 단일 카메라 깊이 추정은 하나의 카메라로 획득된 컬러영상을 입력받아, 이에 대응하는 깊이정보를 추정하는 알고리즘이다. 일반적으로 실외의 도시 도로 환경에서 단일 카메라 깊이 추정을 적용하는 연구는 많이 진행되었으나(24,25), 마커리스 정합을 위해 사용된 사례는 아직까지 없다. 단일 카메라 깊이 추정을 마커리스 정합에 사용함으로서, 상대적으로 부피가 작은 카메라의 사용이 가능해지고 밀집된 3차원 재구성이 가능해진다. 즉, 기존 RGBD 카메라를 이용한 증강현실 수술 내비게이션 시스템의 단점을 극복할 수 있다.

이 연구에서 우리는 단일 카메라 깊이 추정 기반 증강현실 수술 내비게이션용 마커리스 정합을 제안한다. 얼굴 랜드마크를 이용한 3차원 마커리스 정합 방법과 이를 구현하기 위한 단일 카메라 깊이 추정용 딥러닝 모델을 설명한다. 제안된 방법의 정확도는 Re-Projection Error(RPE)를 이용하여 측정되며, 기존 RGBD 카메라 기반 마커리스 정합 정확도와 비교 평가함으로서 우리의 시스템의 성능을 평가하였다.

2. 재료 및 방법

2.1 CT 영상 데이터 획득 및 실험 재료와 환경

치과 구강안악면 수술에 증강현실 수술 내비게이션 시스템을 적용하였다. 구강안악면 수술은 두개골의 악골 구조에 관한 수술로서, 정합은 얼굴 내 해부학 구조를 이용한다. 우리는 마네킹 팬텀(DW112, 아프로디테, 천안, 대한민국)과 두개골 팬텀(3B, Scientific GmbH, 함부르크, 독일)을 이용하여 제안된 단일 카메라 깊이 추정을 이용한 증강현실 수술내비게이션용 마커리스 정합을 평가하였다(그림 1a-c). 두 팬텀은 기계/자기적 결합 장치를 통하여 하나의 강체로 결합되었다(그림 1d). 마네킹 팬텀에는 정확도 평가용 랜드마크로서 1mm의 지름을 가진 쇠구슬 5개를 식립했다. 자세하게 식립된 위치는 임상적으로 유용한 해부학적 랜드마크로 선정하였으며, 비근점(nasion, na), 볼점(cheek, chk), 상순최상점(labiale superius, ls)과 하악점(pogonion, pg)을 포함한다. 이 때, 볼점은 좌와 우 쌍으로 존재한다. 팬텀의 3차원 CT 영상은 CT 스캐너(SOMATOM Sen- sation10, Siemens, 뮌헨, 독일)를 이용하여 120kVp 및 80mAs 촬영 조건 하에 획득되었다. CT 영상은 512 × 512의 해상도를 가지며, 물리적으로 0.75mm의 영상 두께 및 0.53 × 0.53mm의 픽셀 크기를 가진다. 증강을 위한 가상 모델은 CT 영상의 가공을 통해 생성되었다.

증강현실의 가시화를 위하여 카메라(ZED mini, StereoLabs, 샌프란시스코, 미국)이 장착된 플랫-패널 모니터(QCT130, One Inc, 서울, 대한민국)를 술자와 팬텀 사이에 위치시켰다. 이 카메라는 스테레오 방식으로 좌우 렌즈의 컬러영상과 대응되는 깊이정보를 동시에 획득 가능 RGBD 카메라 이지만, 단일 카메라 깊이 추정을 위하여 좌측 렌즈의 컬러영상만을 이용하였다. 카메라의 내부 파라미터는 제조사의 교정(calibration) 소프트웨어를 통해 획득되었고, 영상의 해상도는 2208 × 1242의 크기를 가진다. 카메라에서 획득된 컬러영상은 플랫 패널 모니터를 통하여 가시화되며, 가상 모델은 VTK(Visualization Toolkit, Kitware Inc, 뉴욕, 미국)을 이용하여 정확한 위치에 실시간으로 증강된다.

그림. 1. 팬텀(1), 플랫-패널 모니터에 장착된 카메라(2), 증강현실 가시화 플랫-패널 모니터(3)으로 구성된 실험 환경(a), 마네킹 팬텀(b), 두개골 팬텀(c), 기계/자기적 결합 장치로 결합된 마네킹 및 두개골 팬텀(d)

Fig. 1. Experimental environment consisting of (1) the phantom, (2) a camera mounted on a flat-panel monitor and (3) the flat-panel monitor for AR visualization (a), a mannequin phantom (b), a skull phantom (c), a combined phantom using a kinematic zig(d)

../../Resources/kiee/KIEE.2021.70.12.1898/fig1.png

2.2 단일 카메라 깊이 추정 기반 마커리스 정합

카메라 공간(환자의 물리적 공간)과 CT영상 공간의 마커리스 정합은 각 공간에 대응되는 얼굴 랜드마크 기반 점대점 매칭(point-to-point matching)을 통해 수행하였다(그림 2). 정합에 이용된 랜드마크는 눈끝점(exocanthion, ex), 입꼬리점(cheilion, ch)이며, 이 랜드마크는 좌우 쌍으로 존재하기 때문에 총 4개의 랜드마크($k\in\{1,\:\cdots ,\:4\}$)가 정합에 이용되었다. CT영상 공간에서 얼굴 랜드마크의 3차원 좌표($L_{k}^{CT}$)는 직접 추출하였다.

카메라 공간에서 얼굴 랜드마크의 3차원 좌표는 다음 일련의 과정을 통해 획득된다. 처음으로 컬러영상에서 획득한 랜드마크의 2차원 픽셀 좌표($l_{k}^{cam}$)를 획득한다. 다음으로 단일 카메라 깊이 추정을 통하여 랜드마크 픽셀에 대응되는 깊이정보($\hat z_{k}^{cam}$)를 획득한다.

그림. 2. 단일 카메라 깊이 추정 기반 CT영상/카메라 간 마커리스 정합 개요

Fig. 2. Monocular depth estimation based marker-less registration between CT and camera space

../../Resources/kiee/KIEE.2021.70.12.1898/fig2.png

마지막으로 핀홀 카메라(pinhole camera) 모델을 적용함으로서(26), 랜드마크 픽셀을 3차원 재구성 및 3차원 좌표($L_{k}^{cam}$)를 획득한다.

컬러영상의 얼굴 랜드마크 픽셀($l_{k}^{cam}$) 추출은 Kazemi와 Sullivan 연구진이 제안한 Dlib을 이용하였다(27). Dlib는 100만장의 인물 영상을 통하여 학습된 기계학습 접근법으로서, 얼굴 랜드마크가 필요한 다양한 분야에서 활용 중이다(28). 이 연구에서는 이전 연구에서 학습된 머신러닝의 가중치를 그대로 사용하였다(27).

랜드마크 픽셀의 3차원 재구성은 픽셀에 대응되는 깊이정보($\hat z_{k}^{cam}$)가 필요하기 때문에, 딥러닝 기반 단일 카메라 깊이 추정을 이용하여 깊이정보를 획득했다(23). 단일 카메라 깊이 추정은 콘볼루션 신경망(convolution neural network)을 통하여 단일의 컬러영상을 입력 받아 시차(disparity, $d$)를 생성한다(식(1)). 깊이정보는 생성된 시차와 카메라 내부 파라미터를 식(2)에 적용하여 획득된다(23).

(1)
$d = N et(im g_{co l or})$

(2)
$\hat z =\dfrac{b\bullet f}{d}=\dfrac{b\bullet f}{N et(im g_{c omicron l omicron r})}$

여기서, $N et$은 단일 카메라 깊이 추정 신경망, $img_{co l or}$은 2차원 컬러영상, $d$는 생성된 시차, $\hat z$은 깊이정보, $b$는 단일 카메라 깊이 추정 신경망의 학습 시 적용된 베이스(base), $f$는 카메라의 초점거리이다. 단일 카메라 깊이 추정용 신경망 모델의 자세한 설명은 ‘2.4 단일 카메라 깊이 추정의 모델 및 딥러닝 실행’에서 하겠다.

최종적으로 카메라와 CT영상 간 대응되는 얼굴 랜드마크에 점대점 매칭을 적용함으로서(29), 수술 전 CT영상 공간과 수술 중 카메라 공간 간 정합 변환($T_{cam}^{CT}$)을 획득하였다.

2.3 플랫-패널 모니터 기반 증강현실 가시화

지난 연구에서, 우리는 플랫-패널 모니터 기반 증강현실 가시화 시스템을 개발하였다(5). 플랫 패널 모니터는 술자에게 실제 화면에 가상의 모델을 겹쳐 보여줌으로서 증강 현실을 가시화 한다. 가상 모델이 겹쳐지는 정확한 위치는 식(3)에 의하여 계산된다.

(3)
$p^{cam}=(T_{cam}^{CT})^{-1}\bullet p^{CT}$

여기서, $p^{cam}$, $p^{CT}$는 각각 카메라 및 CT영상 공간에서 가상 모델의 위치이다.

2.4 단일 카메라 깊이 추정의 모델 및 딥러닝 실행

의료분야에서 안면부의 컬러영상 및 그에 대응되는 밀집도가 높은 깊이정보 데이터를 획득하는 것은 많은 시간과 비용이 필요하기 때문에, 스테레오 영상을 이용해 신경망 최적화가 가능한 비지도 학습(unsupervised learning) 기반 단일 카메라 깊이 추정 신경망 모델을 이용했다(23). 이 모델의 특징은 학습 시 스테레오 영상($I^{l e f t},\: I^{r i g ht}$)을 입력 받아 좌우영상 각각의 시차쌍($d^{l e f t}$, $d^{righ t}$)을 생성하고, 이 시차를 기반으로 재합성된(synthesized) 스테레오 영상($\widetilde I^{l e f t}= I^{r i g ht}(d^{l e f t})$, $\widetilde I^{r i g h t}=$$I^{l e f t}(d^{r i g ht})$)을 획득 한다(그림 3). 모델은 외모 일치(appearance matching, $C_{ap}$), 시차 평활도(disparity smoothness, $C_{ds}$)와 좌우 일관성(left-right consistency, $C_{lr}$) 으로 구성된 손실 함수(loss function, $C_{s}$)를 최소화하는 방향으로 학습이 진행 된다(23). 여기서, 외모 일치($C_{ap}$)는 생성된 시차쌍으로 합성된 스테레오 영상($\widetilde I^{l e f t},\: \widetilde I^{r i g ht}$)과 입력 스테레오 영상($I^{l e f t},\: I^{r i g ht}$) 간 차이를 최소화 시킨다. 시차 평활도($C_{ds}$)는 생성된 시차($d^{l e f t}$, $d^{righ t}$)의 정밀도를 높이고자, 픽셀 간 기울기 변화를 최소화한다. 마지막으로 좌우 일관성($C_{lr}$)은

그림. 3. 비지도 학습 기반 단일 카메라 깊이 추정 모델

Fig. 3. Unsupervised learning based monocular depth estimation model

../../Resources/kiee/KIEE.2021.70.12.1898/fig3.png

표 1. 단일 카메라 깊이 추정 및 스테레오 영상 기반 증강현실 수술 내비게이션 시스템의 RPE

Table 1. RPE of AR surgical navigation system based on monocular and stereo depth estimation

Monocular depth estimation (mm)

Stereo depth estimation (mm)

x

y

z

RMS

x

y

z

RMS

Na

0.66±0.36

0.33±0.24

0.70±0.66

1.14±0.59

0.65±0.50

0.12±0.17

0.10±0.31

0.75±0.50

Ls

1.00±0.55

1.50±0.55

1.11±0.81

2.26±0.77

0.79±0.78

1.70±0.34

0.20±0.42

2.01±0.64

Pg

1.09±0.48

2.92±0.32

1.60±0.90

3.61±0.60

1.18±0.75

3.10±0.26

0.20±0.42

3.40±0.50

Chk(L)

2.98±0.50

1.67±0.40

0.63±0.56

3.54±0.52

2.87±0.52

1.80±0.37

1.60±0.51

3.80±0.51

Chk(R)

1.34±0.50

0.74±0.33

0.67±0.78

1.80±0.71

1.38±0.45

0.72±0.34

0.40±0.51

1.71±0.44

Mean

1.41±0.94

1.43±0.97

0.94±0.81

2.47±1.15

1.37±0.99

1.49±1.07

0.50±0.70

2.33±1.24

시차쌍($d^{l e f t}$, $d^{righ t}$) 생성의 정확도를 높이고자, 좌우 시차쌍에서 대응되는 픽셀의 시차 값을 최소화한다. 학습이 종료된 모델은 스테레오 영상이 아닌 단일의 영상만 입력이 되어도 대응되는 시차를 생성할 수 있기 때문에 단일 카메라 깊이 추정이 가능해진다.

신경망은 인코더(encoder)와 디코더(decoder)로 구성된다. 인코더는 ResNet50(30)을 백본(backbone)으로 구성되어 영상의 피쳐를 추출한다. 디코더는 4개의 계층으로 콘볼루션 레이어로 구성되었다(23). 동일한 계층의 인코더 활성화 레이어와 스킵커낵션(skip-connsection)으로 연결하여, 피쳐맵의 디테일을 보존 시켰다. 신경망 모델은 시차쌍의 정밀도를 높이기 위하여, 디코더의 각 계층에서 시차쌍 ($d_{s}^{l e f t},\: d_{s}^{r i g ht};$ $s\in\{1,\:\cdots ,\:4\}$)을 출력하는 다중크기(multi-scale) 모델링이 적용되었다. 신경망 모델의 손실함수($C_{s}$)는 각 계층 별 외모 일치($C_{ap}$), 시차 평활도($C_{ds}$), 좌우 일관성( $C_{lr}$) 항으로 계산되며(4), 전체 손실함수는 4계층의 손실함수 합산과 같다(5).

(4)
$C_{s}=a(C_{ap}^{l e f t}+C_{ap}^{r i g ht})+b(C_{ds}^{l e f t}+C_{ds}^{r i g ht})+c(C_{lr}^{l e f t}+C_{lr}^{r i g ht})$

(5)
$T o tal Loss =\sum_{s= 1}^{4}C_{s}$

손실함수의 가중치($a$, $c$)는 경험적으로 1로 설정하였으며, 가중치($b$)는 해상도가 다른 4개의 시차에 능동적인 가중치를 부여하기 위하여, 원본 해상도 대비 생성된 해상도 크기에 반비례 값을 적용하였다. 자세한 모델의 구조 및 손실함수의 정보는 이전 연구에서 확인할 수 있다(23).

학습용 데이터 생성을 위하여, 마네킹 팬텀 3개 및 자원자 5인의 얼굴의 스테레오 영상을 획득했다. 영상의 얼굴 크기 및 모습의 다양성을 높이고자, 스테레오 카메라를 이용하여 얼굴로부터 30 ~ 50cm 이격 및 45° 회전 반경을 가지고 촬영했다. 영상은 각각의 얼굴 당 500장씩 획득되었고, 신경망 학습의 메모리 효율을 증대하기 위하여 영상의 해상도는 1024 × 512의 크기로 줄여주었다. 팬텀 1개를 제외한 나머지 팬텀 및 자원자의 영상은 모델의 학습 및 유효성 평가에 이용되었으며 잔여 팬텀 1개의 영상은 학습된 신경망의 평가를 위해 사용되었다. 모델의 학습을 위하여 스테레오 좌우 영상을 전부 이용하였으나, 학습 후에는 스테레오의 좌측 영상만을 이용하였다. 신경망의 가중치는 학습률 0.0001의 최적화 함수 Adam(adaptive moment estimation)(31)을 이용하여 갱신되었다. 학습은 한 개의 그래픽 처리 장치(GeForce 1080Ti, NVIDIA, 미국)를 이용하여 200회 반복학습 하였다. 신경망은 텐서플로우(Tensorflow)를 백본으로 가지는 케라스(Keras) 라이브러리를 이용하여 구축되었다.

그림. 4. 다양한 얼굴 각도/조도의 단일 카메라 깊이 추정 결과

Fig. 4. Monocular depth estimation results according to various facial angles and luminesce

../../Resources/kiee/KIEE.2021.70.12.1898/fig4.png

2.5 단일 카메라 깊이 추적 기반 증강현실 수술 내비게이션 시스템의 정확도 평가

우리는 일반적으로 증강현실 수술 내비게이션 시스템에서 정량적 평가 지표로 사용하는 Re-Projection Error(RPE)를 이용했다(32). RPE는 평가용 랜드마크의 참값과 증강된 위치 간 3차원 유클리디안(euclidean) 거리 차이로 측정된다. 정합 및 랜드마크 가상모델을 증강 후, RPE를 10회 반복 측정 하였다.

추가적으로, 제안된 시스템의 실효성을 판단하기 위하여 스테레오 영상으로 획득된 깊이정보를 이용한 시스템의 RPE와 단일 카메라 깊이 추정으로 획득된 깊이정보를 이용한 시스템의 RPE를 비교평가 하였다. 이 때 RPE의 측정을 위한 깊이정보 획득 방식만 다르며, 나머지 실험 방법은 모두 동일하게 적용하였다. 두 방식의 RPE 값이 통계적 유의미한 차이가 있는지 확인하기 위하여 대응표본 t검정(p=0.05)을 수행하였다.

3. 실험 결과

제안된 시스템의 정확도 평가하기 위하여 측정된 RPE는 평균 2.47 ± 1.15mm의 오차를 보였으며, 하악점(Pg)에서 3.61 ± 0.60mm의 가장 큰 오차를 보였다. 반대로 비근점(Na)에서 1.14 ± 0.59mm의 가장 작은 오차를 보였다(표 1). 스테레오 영상 기반 수술 내비게이션 시스템의 RPE는 평균 2.33 ± 1.24mm의 오차가 측정되었다(표 1). 제안된 시스템과 스테레오 기반 시스템 간 측정된 RPE 중 최소 오차 랜드마크는 비근점(Na)으로 동일하였으나, 최대 오차는 스테레오 시스템에서 좌측 볼점(Chk(L))으로 제안된 시스템에서 하악점(Pg)으로 차이가 있었다. 두 시스템으로 획득된 모든 랜드마크의 RPE 간 유의미한 차이가 없었다(p > 0.05).

그림 4는 단일 카메라 깊이 추정으로 획득된 깊이 정보의 결과로서, 스테레오 영상 기반 깊이 정보보다 더욱 밀집되고 부드럽다. 스테레오 양안렌즈에서 대응점을 찾을 수 없거나 강한 조도로 발생된 하이라이트에 의한 텍스쳐리스 영역은 깊이정보 소실 및 왜곡이 일어난 반면, 단일 카메라 깊이 추정은 왜곡이 일어나지 않았다.

제안된 단일 카메라 깊이 추정 기반 증강현실 수술 내비게이션 시스템을 이용하여 상악 및 하악 분할 모델을 모니터 화면의 정확한 위치에 가시화되었다(그림 5). 또 구강안악면 수술에서 상악 절제를 위한 Le Fort I 골절단선을 증강하여 가시화하였다. 연조직에 가려진 경조직 혹은 절단선을 증강하여 보여줌으로서, 시스템은 외과의에게 환자의 해부 구조에 대한 정확한 정보와 직관적인 시각을 전달한다.

4. 고 찰

그림. 5. 플랫-패널 모니터 기반 증강현실 가시화(a), 구강안악면 수술을 위한 상악 및 하악 분할 모델과 상악 절제를 위한 Le Fort I 골절단선이 증강현실 되어있는 화면(b,c,d)

Fig. 5. AR visualization on the flat-panel monitor(a), The AR visualization of a maxilla bone segment, mandible bone segment, and Le Fort I osteotomy line for orthognathic surgery

../../Resources/kiee/KIEE.2021.70.12.1898/fig5.png

본 연구에서는 딥러닝 기반 단일 카메라 깊이 추정 알고리즘을 이용하여 마커리스 정합을 개발하고, 이를 증강현실 수술 내비게이션 시스템에 적용하였다. 기존의 수술 내비게이션 시스템에서 자주 사용하던 RGBD 카메라는 복잡한 수술 환경과 그 특성적 한계로 인해 텍스쳐리스 영역의 밀집된 깊이정보를 획득하지 못했다. 이는 수술 내비게이션 시스템의 정확도와 관련 있는 정합에 악영향을 미쳐, 결과적으로 시스템의 정확도를 하락 시킬 수 있다. 본 연구에서 사용한 단일 카메라 깊이 추정은 학습된 데이터를 기반으로 텍스쳐리스 영역의 깊이정보를 생성함으로서, 밀집된 깊이정보를 획득 할 수 있었다. 실제로, 스테레오 기반 RGBD 카메라는 그림 4의 3과 4열처럼 카메라의 방향이나 거리에 따라 좌우 양안의 대응점 추출이 실패한 경우와 강한 조도에 의해 하이라이트가 생성된 경우에서 각각 텍스쳐리스에 의한 깊이 정보 추출이 실패한다. 반면, 단일 카메라 깊이 추정은 이런 상황에 강인하게 밀집된 깊이 영역을 획득하였다. 다시 말해, 단일 카메라 깊이 추정을 이용한 수술 내비게이션 시스템은 기존 RGBD 기반 시스템보다 수술환경에서 높은 정확도와 강인한 성능을 보여 줄 수 있다.

제안된 시스템의 정확도는 RPE로 측정되었다. 우리가 개발한 방법의 RPE는 2.47 ± 와 1.15mm이고, 기존 RGBD 카메라를 이용한 방법의 RPE는 2.33 ± 1.24mm이었다. 두 방법의 RPE 간 통계적으로 유의미한 차이가 없었다. 이는 단일 카메라 깊이 추정으로 획득된 깊이정보는 깊이를 실측하는 RGBD 카메라와 유사한 정확도를 보인다는 의미이다. 따라서 앞으로 단일 카메라 깊이 추정은 RGBD 카메라 대신 수술 내비게이션 시스템에 폭넓게 적용될 수 있으며, 제한이 많은 RGBD 카메라의 해결책이 될 수 있다. 또 단일 카메라는 소형화가 가능하기 때문에, 내시경, 복강경 및 현미경과 같은 최소 침습 수술에 도움이 될 것이다.

개발한 증강현실 수술 내비게이션은 악안면 수술에 필요한 해부학적 구조 정보를 플랫-패널 모니터 화면의 정확한 위치에 가시화 하였고 외과의사에게 전달했다. 수술 영역 위로 시각적 정보를 전달하기 때문에 외과의사는 수안 교정을 유지할 수 있다. 또한 연조직에 가려진 해부학적 구조 및 골절제선을 외과의사에게 시각적 정보로 제공함으로서, 환자의 해부학 구조의 인식률을 증대시키고 수술의 안정성을 높일 수 있다.

제안된 시스템의 몇 가지 한계점을 가진다. 첫 번째는 단일 카메라 깊이 추정의 학습을 위한 데이터 수의 부족이다. 이러한 점을 완화하고자 여러 각도에서 얼굴을 촬영해 얼굴 모습의 다양성을 높였지만, 실질적인 얼굴의 수는 한정적이었다. 앞으로 많은 수의 데이터를 이용한 학습 및 평가가 필요하다. 추가적으로 수술환경을 고려하여 얼굴에 수술 기구가 부착되었을 환경에 대한 평가 역시 필요하다. 두 번째는 정합에 이용된 얼굴 랜드마크는 변형성(deformable)이 높은 연조직 위에 존재하기 때문에, 정합의 오차를 상승시킬 수 있다(33). 우리는 이러한 한계점을 최소화 시키고자 변형성이 가장 낮은 눈끝점과 입꼬리점을 정합에 이용하였지만, 본 실험에서 사용된 마네킹 팬텀은 강체이기 때문에 이러한 변형성이 반영되지 못했다. 따라서, 실제 인체를 대상으로 변형성이 적용된 정합의 정량평가 실험이 요구된다. 더 나아가, 딥러닝 기반 영상분할(image-segmentation) 기술을 이용하여 얼굴 표면데이터 기반 표면정합(surface registration)을 적용한다면, 랜드마크보다 변형성에 대한 영향력을 감소시켜 높은 정합 정확도를 기대할 수 있을 것이다.

5. 결 론

본 연구에서는 딥러닝 기반 단일 카메라 깊이 추정을 이용한 증강현실 수술 내비게이션 용 마커리스 정합 방법을 개발하였다. 제안된 방법을 이용해 얼굴 랜드마크 기반 3차원 점대점 정합을 수행할 수 있었고, 결과적으로 의사에게 환자의 해부학적 구조 및 수술 정보에 대한 증강된 시야를 제공할 수 있었다. 단일 카메라 깊이 추정을 이용한 우리의 시스템은 종래의 RGBD 카메라를 이용한 시스템과 유사한 정확도를 보였다. 앞으로 우리는 단일 카메라 깊이 추정 알고리즘 기반 증강현실 수술 내비게이션 시스템의 기술 고도화 방법을 연구할 것이다. 복잡한 수술 환경을 고려하여 밝은 조도 등에 강인한 시스템을 개발하고, 구강안악면 수술 등에 적용 가능한 표면 정합 기술을 개발하여 단일 카메라 깊이 추정으로 획득한 깊이정보를 사용하고자 한다.

Acknowledgements

This work was supported by the National Research Foundation of Korea (NRF) Grant funded by the Korea government (MSIT) (No. 2019R1A2C2008365), and by the Korea Medical Device Development Fund Grant funded by the Korea government (the Ministry of Science and ICT, the Ministry of Trade, Industry and Energy, the Ministry of Health & Welfare, the Ministry of Food and Drug Safety) (No. 1711138289, KMDF_PR_20200901_0147, 1711137883, KMDF_PR_20200901_0011).

References

1 
K. Cleary, T. M. Peters, 2010, Image-Guided Interventions: Technology Review and Clinical Applications, Annu Rev Biomed Eng, Vol. 12, pp. 119-142DOI
2 
R. Marmulla, H. Hoppe, J. Muhling, G. Eggers, 2005, An augmented reality system for image-guided surgery, Int J Oral Max Surg, Vol. 34, No. 6, pp. 594-596DOI
3 
A. Teatini, J. P. de Frutos, B. Eigl, E. Pelanis, D. L. Aghayan, M. Lai, R. P. Kumar, R. Palomar, B. Edwin, O. J. Elle, 2021, Influence of sampling accuracy on augmented reality for laparoscopic image-guided surgery, Minim Invasiv Ther, Vol. 30, No. 4, pp. 229-238DOI
4 
A. D. Nijmeh, N. M. Goodger, D. Hawkes, P. J. Edwards, M. McGurk, 2005, Image-guided navigation in oral and maxillofacial surgery, Brit J Oral Max Surg, Vol. 43, No. 4, pp. 294-302DOI
5 
S. H. Kim, S. J. Lee, M. H. Choi, H. J. Yang, J. E. Kim, K. H. Huh, S. S. Lee, M. S. Heo, S. J. Hwang, W. J. Yi, 2020, Quantitative Augmented Reality-Assisted Free-Hand Orthognathic Surgery Using Electromagnetic Tracking and Skin-Attached Dynamic Reference, J Craniofac Surg, Vol. 31, No. 8, pp. 2175-2181DOI
6 
P. J. Edwards, L. G. Johnson, D. J. Hawkes, M. R. Fenlon, A. J. Strong, M. J. Gleeson, 2004, Clinical experience and perception in stereo augmented reality surgical navigation, Lect Notes Comput Sc, pp. 369-376DOI
7 
J. C. Wang, H. Suenaga, K. Hoshi, L. J. Yang, E. Kobayashi, I. Sakuma, H. G. Liao, 2014, Augmented Reality Navigation With Automatic Marker-Free Image Registration Using 3-D Image Overlay for Dental Surgery, Ieee T Bio-Med Eng, Vol. 61, No. 4, pp. 1295-1304DOI
8 
J. C. Wang, H. Suenaga, H. G. Liao, K. Hoshi, L. J. Yang, E. Kobayashi, I. Sakuma, 2015, Real-time computer- generated integral imaging and 3D image calibration for augmented reality surgical navigation, Comput Med Imag Grap, Vol. 40, pp. 147-159DOI
9 
S. Bernhardt, S. A. Nicolau, L. Soler, C. Doignon, 2017, The status of augmented reality in laparoscopic surgery as of 2016, Med Image Anal, Vol. 37, pp. 66-90DOI
10 
L. F. Ma, Z. Zhao, F. Chen, B. Y. Zhang, L. G. Fu, H. E. Liao, 2017, Augmented reality surgical navigation with ultrasound-assisted registration for pedicle screw placement: a pilot study, Int J Comput Ass Rad, Vol. 12, No. 12, pp. 2205-2215DOI
11 
S. J. Lee, H. J. Yang, M. H. Choi, S. Y. Woo, K. H. Huh, S. S. Lee, M. S. Heo, S. C. Choi, S. J. Hwang, W. J. Yi, 2019, Real-time augmented model guidance for mandi- bular proximal segment repositioning in orthognathic surgery, using electromagnetic tracking, J Cranio Maxill Surg, Vol. 47, No. 1, pp. 127-137DOI
12 
L. F. Ma, W. P. Jiang, B. Y. Zhang, X. F. Qu, G. C. Ning, X. R. Zhang, H. G. Liao, 2019, Augmented reality surgical navigation with accurate CBCT-patient registration for dental implant placement, Med Biol Eng Comput, Vol. 57, No. 1, pp. 47-57DOI
13 
S. J. Lee, S. Y. Woo, K. H. Huh, S. S. Lee, M. S. Heo, S. C. Choi, J. J. Han, H. J. Yang, S. J. Hwang, W. J. Yi, 2016, Virtual skeletal complex model- and landmark-guided orthognathic surgery system, J Cranio Maxill Surg, Vol. 44, No. 5, pp. 557-568DOI
14 
X. Y. Liu, W. Plishker, G. Zaki, S. Kang, T. D. Kane, R. Shekhar, 2016, On-demand calibration and evaluation for electromagnetically tracked laparoscope in augmented reality visualization, Int J Comput Ass Rad, Vol. 11, No. 6, pp. 1163-1171DOI
15 
H. Suenaga, H. H. Tran, H. Liao, K. Masamune, T. Dohi, K. Hoshi, T. Takato, 2015, Vision-based markerless registration using stereo vision and an augmented reality surgical navigation system: a pilot study, Bmc Med Imaging, Vol. 15DOI
16 
Y. L. Liu, Z. J. Song, M. N. Wang, 2017, A new robust markerless method for automatic image-to-patient registration in image-guided neurosurgery system, Comput Assist Surg, Vol. 22, pp. 319-325DOI
17 
J. C. Wang, Y. Shen, S. Yang, 2019, A practical marker- less image registration method for augmented reality oral and maxillofacial surgery, Int J Comput Ass Rad, Vol. 14, No. 5, pp. 763-773DOI
18 
M. Hermann, B. Ruf, M. Weinmann, S. Hinz, 2020, Self- Supervised Learning for Monocular Depth Estimation from Aerial Imagery, arXiv preprint arXiv:2008.07246DOI
19 
H. L. Luo, D. L. Yin, S. G. Zhang, D. Q. Xiao, B. C. He, F. Z. Meng, Y. F. Zhang, W. Cai, S. H. He, W. Y. Zhang, Q. M. Hu, H. R. Guo, S. H. Liang, S. Zhou, S. X. Liu, L. M. Sun, X. Guo, C. H. Fang, L. X. Liu, F. C. Jia, 2020, Augmented reality navigation for liver resection with a stereoscopic laparoscope, Comput Meth Prog Bio, Vol. 187DOI
20 
Q. S. Wang, Z. Yu, C. Rasmussen, J. Y. Yu, 2014, Stereo vision-based depth of field rendering on a mobile device, J Electron Imaging, Vol. 23, No. 2DOI
21 
W. Chen, Z. Fu, D. Yang, J. Deng, 2016, Single-image depth perception in the wild, Advances in neural information processing systems, Vol. 29, pp. 730-738Google Search
22 
F. Y. Liu, C. H. Shen, G. S. Lin, I. Reid, 2016, Learning Depth from Single Monocular Images Using Deep Con- volutional Neural Fields, Ieee T Pattern Anal, Vol. 38, No. 10, pp. 2024-2039DOI
23 
C. Godard, O. Mac Aodha, G. J. Brostow, 2017, Unsupervised monocular depth estimation with left-right consistency, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 270-279Google Search
24 
C. Godard, O. Mac Aodha, M. Firman, G. J. Brostow, 2019, Digging into self-supervised monocular depth estimation, Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 3828-3838Google Search
25 
J. H. Lee, M.-K. Han, D. W. Ko, I. H. Suh, 2019, From big to small: Multi-scale local planar guidance for monocular depth estimation, arXiv preprint arXiv:1907.10326Google Search
26 
K. M. Dawsonhowe, D. Vernon, 1994, Simple Pinhole Camera Calibration, Int J Imag Syst Tech, Vol. 5, No. 1, pp. 1-6DOI
27 
V. Kazemi, J. Sullivan, 2014, One millisecond face alignment with an ensemble of regression trees, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1867-1874Google Search
28 
V. Bevilacqua, A .E. Uva, M. Fiorentino, G. F. Trotta, M. Dimatteo, E. Nasca, A. N. Nocera, G. D. Cascarano, A. Brunetti, N. Caporusso, 2016, A comprehensive method for assessing the blepharospasm cases severity, International conference on recent trends in image processing and pattern recognition, Springer, pp. 369-381DOI
29 
B. Bellekens, V. Spruyt, R. Berkvens, R. Penne, M. Weyn, 2015, A benchmark survey of rigid 3D point cloud registration algorithms, Int. J. Adv. Intell. Syst, Vol. 8, pp. 118-127Google Search
30 
K. He, X. Zhang, S. Ren, J. Sun, 2016, Deep residual learning for image recognition, Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778Google Search
31 
D. P. Kingma, J. Ba, 2014, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980Google Search
32 
S. Thompson, C. Schneider, M. Bosi, K. Gurusamy, S. Ourselin, B. Davidson, D. Hawkes, M. J. Clarkson, 2018, In vivo estimation of target registration errors during augmented reality laparoscopic surgery, Int J Comput Ass Rad, Vol. 13, No. 6, pp. 865-874DOI
33 
F. Alam, S. Rahman, S. Ullah, K. Gulati, 2018, Medical image registration in image guided surgery: Issues, challenges and research opportunities, Biocybernetics and Biomedical Engineering, Vol. 38, No. 1, pp. 71-89DOI

저자소개

최민혁(Min-Hyuk Choi)
../../Resources/kiee/KIEE.2021.70.12.1898/au1.png

He received the B.S degree in biomedical engineering from Kyung-Hee University, Seoul, Korea.

He is a Ph.D. student in the Department of Biomedical Radiation Sciences at Seoul National University, Seoul, Korea.

최시은(Si-Eun Choi)

Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and Technology, Seoul National University, Korea.

강세룡(Se-Ryong Kang)

Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and Technology, Seoul National University, Korea.

유지용(Ji-Yong Yoo)

Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and Technology, Seoul National University, Korea.

양 수(Su Yang)

Dept. of Biomedical Radiation Sciences, Graduate School of Convergence Science and Technology, Seoul National University, Korea.

김조은(Jo-Eun Kim)

Dept. of Oral and Maxillofacial Radiology, Seoul National University Dental Hospital, Korea.

허경회(Kyung-Hoe Huh)

Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research Institute, Seoul National University, Korea.

이삼선(Sam-Sun Lee)

Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research Institute, Seoul National University, Korea.

허민석(Min-Suk Heo)

Dept. of Oral and Maxillofacial Radiology, School of Dentistry and Dental Research Institute, Seoul National University, Korea.

이원진(Won-Jin Yi)
../../Resources/kiee/KIEE.2021.70.12.1898/au10.png

He received the Ph.D degree in biomedical engineering from Seoul National University, Seoul, Korea.

He is a professor in the Oral and Maxillofacial Radiology, School of Dentistry and Dental Research Institute, Seoul National University, Seoul