• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Medical Research Institute, School of Medicine, Chungbuk National University, Korea.)
  2. (Dept. of Nursing, Woosong College, Korea.)
  3. (Dept. of Biomedical Engineering, School of Medicine, Chungbuk National University, Korea.)



Kidney cancer, LASSO, PCA, Data mining

1. 서 론

유전자 데이터는 환자수에 비해 그 수가 많기 때문에 분석에 어려움이 있다. 이러한 문제를 해결하기 위해서는 환자의 상태를 잘 나타낼 수 있는 유전자 추출이 필요하다. 또한 추출된 유전자를 통한 분류 모델을 개발하여 암환자의 조기진단과 예후 및 예측에 도움을 줄 수 있다. 암은 유전자가 변이되어 생기는 것이므로 정해진 순서로 세포 복제를 조절하는 유전자가 손상되고 이로 인해 세포가 무제한으로 증식하여 결국 근접해 있는 정상조직까지 침범하며 전신으로 전이된다. 암은 변형된 유전자에 의해 발생하기 때문에 유전적이라고 할 수 있지만, 매우 소수의 암만 유전된다. 생식세포에 돌연변이가 내재할 경우 이 돌연변이는 세대에 걸쳐 전이되고 모든 체세포에 존재한다 (1).

신장암은 신장에서 발생한 원발성(primary) 종양으로 이중 악성 종양인 신세포암이 90% 이상 차지한다. 신장암은 초기 단계에 증상이 나타나지 않아 발견 당시 이미 진행성(progres- sive) 단계인 경우가 빈번하다. 국내 암 등록 통계자료에 따르면 신장암은 2015년에 4,555건 발생하여 전체 암 중 10위를 차지하였으며, 1999년부터 2015년까지 신장암의 연도별 발생자 수는 꾸준히 증가하는 추세로 보고되었다 (2). 또한, 신장암은 질환의 증상 또는 치료 관련 유해사례 등으로 삶의 질이 저하되며 그에 따른 의료비용 증가로 인하여 질병 부담이 높은 암 종에 속한다. 신장암의 위험 요인으로는 환경 습관, 생활적 요인, 유전적 요인, 기존의 신질환 등이 있다. 이 중 생활적 요인으로 흡연, 비만, 고혈압, 식이습관 등이 원인이 될 수 있다 (3). 최근 신장암 환자의 유전체 데이터를 이용하여 이웃요소분석(neighborhood Neighbourhood component analysis) 방법으로 특징(feature)을 추출하고 분류 알고리즘을 적용한 연구가 이루어지고 있다 (4).

다양한 바이오 데이터 분석에 기계학습(machine learning) 관련 알고리즘이 적용되고 있다. TCGA(The Cancer Genome Atlas)의 데이터 중 유방 침습성 암종(breast invasive carcinoma), 갑상선 암종(the thyroid carcinoma), 신장 유도세포 암종(the kidney renal papillary cell carcinoma) 데이터에서 RNA 시퀀싱(sequencing)과 DNA 메틸화(methylation) 데이터를 결합하여 암 관련 유전자를 추출하기 위해 데이터마이닝 알고리즘을 활용하였다 (5). PathAI에서는 인공지능 기술을 기반으로 유방암 환자의 이미지 데이터를 학습해 디지털 병리(digital pathology)를 구현하고 딥러닝을 통한 전이암 진단을 통해 에러율 감소 결과를 소개하였다 (6)-(7). Emory 대학교에서는 유전체 데이터와 병리 이미지 데이터를 병합하여 뇌종양 환자의 생존율을 분석하였고, 또한 생존 컨볼루션 신경망(survival convolutional neural network)의 딥러닝 기술을 이용한 경우 병리의사가 직접 보고 판단할 때 보다 예측 정확도가 더 우수하였다 (8). 기계학습 기법을 유전자 빅데이터 분석에 적용해 20개 암의 위험도를 예측한 연구 결과도 있다 (9). 서열 및 구조 정보를 가지고 단백질을 분류하는 문제에 베이지안 분류기(Bayesian classifier)가 적용되기도 하였으며, 또한 베이지안 네트워크(Bayesian network)를 이용하여 단백질과 유전자에 관련된 여러 정보들을 결합하여 유전자의 기능 예측 성능을 향상시킬 수 있는 연구도 진행되었다 (10). 유전자 서열 내에 존재하는 변이의 분석을 통해 환자의 질병 상태를 예측하기 위해 딥러닝(deep learning) 기술을 적용하여 척수성 근위축증, 유전성 비용종성 대장암, 그리고 자폐증을 일으키는 주요 돌연변이를 정확하게 예측한 연구도 진행되었다 (11). 이와 같이 바이오 데이터 분석에 있어 데이터마이닝 기술들이 다양하게 적용되고 있다.

본 연구에서는 신장암 환자의 예후 예측에 영향을 미치는 유전자를 찾고 이 유전자 데이터에 분류 알고리즘을 적용하여 암환자의 예후를 예측하고자 하였다. TCGA 포털 사이트에서 얻은 신장암 환자의 유전자 발현 데이터와 임상 데이터를 결합하여 환자의 예후 예측에 기여하는 유전자를 추출하고 데이터마이닝의 분류 기법을 적용하여 그 활용 가능성을 제시하였다. 통계적 방법인 LASSO(least absolute shrinkage and selection operator)와 PCA(Principle Component Analysis) 기법을 통해 유의한 유전자를 선택하고 이들 두 기법으로 추출된 유전자를 기반으로 데이터마이닝의 다양한 분류 기법을 적용하여 분류 정확도를 비교 분석하였다.

2. 본 론

2.1 모집단

TCGA는 암을 유전체 관점에서 규명하기 위한 프로젝트로 많은 암환자들로부터 단일 염기 다형성(single-nucleotide poly- morphism)이나 유전자 발현량(mRNA gene expression)과 같은 다양한 유전정보를 얻은 후 이를 데이터베이스로 구축하였다 (12). 본 연구에서는 TCGA 데이터베이스에서 신장암 환자들에 대한 임상 데이터, 나이, 사망 등의 케이스(case) 데이터와 유전자 발현 정도를 RNA 수준에서 측정하여 6만 여개의 전사(transcription) ID로 세분화한 후 유전자 발현값들을 전부 수치화하여 보여주는 전사체 프로파일링(transcriptome profiling)을 병합하여 사용하였다. 총 1,157명의 신장암 환자 데이터를 대상으로 하였으며, 유전자 발현 데이터는 60,483개이었다.

2.2 분석 알고리즘

LASSO와 PCA 기법을 적용하여 유의한 유전자를 추출하였으며, 데이터마이닝의 분류 알고리즘을 이용하여 분류 정확도의 성능을 비교 평가하였다. 분석을 위한 소트프웨어 플랫폼은 Ubuntu 17.10을 사용하였으며, Python 3.5를 이용하여 데이터를 수집하고 분석하였다. Python 3.5의 라이브러리는 Scikit-Learn and Pytorch를 사용하였다 (13).

2.2.1 LASSO 기법

회귀분석은 연속형 변수들 사이의 모형을 구한 뒤 residual의 정규성과 등분산성 검정을 통해 적합도(goodness of fit)를 측정해 내는 분석방법으로, 설명변수의 개수에 따라 하나의 설명변수를 가지는 단순회귀분석 그리고 두 종류 이상의 설명변수를 가지는 다중회귀분석으로 나누어진다. 특히 의료 분야에서 특정 질병의 위험 지수나 발병 확률 등은 여러 가지 유전자의 영향을 한꺼번에 고려해야 하므로 다중회귀분석이 유용하게 사용될 수 있다. 그러나 이때 많은 유전자 개수, 그리고 유전자 발현량들 사이에 존재하는 상관성 때문에 회귀 모형의 예측 정확도 및 해석력이 떨어지기 쉽다. Tibshirani에 의해 1996년에 소개된 LASSO 회귀분석 방법은 L1 정규화를 통해 여러 가지의 설명변수 중 반응변수와 관련이 적은 것들의 회귀계수 추정값을 0으로 만들어 설명변수의 개수를 줄일 수 있다. 설명변수들 사이의 상관관계로 인해 나타날 수 있는 다중공선성(multicollinearity) 문제 발생을 방지할 수 있으며, 이에 따라 예측 정확도 및 모형에 대한 해석력을 향상시킬 수 있다 (14)-(15). LASSO 회귀분석에서의 회귀 추정량은 N개의 샘플과 각 샘플의 D개 특징에 대해서 설명변수 데이터, ${x}_{{i}}=({x}_{{i}1},\:\cdots ,\:{x}_{{id}})^{{T}}$와 반응변수 데이터, y(i=1, …, N)로 주어졌을 때 식 (1)과 같다.

(1)
$(\hat\alpha ,\:\hat\beta)=argmin_{\beta}\left\{\sum_{{i}=1}^{{N}}({y}_{{i}}-\alpha -\sum_{{j}=1}^{{D}}\beta_{{j}}{x}_{{ij}})^{2}\right\}$

식 (1)에서 $\sum_{j=1}^{D}\left|\beta_{j}\right| \leqq t$ 이며, $\alpha$는 에러, $\beta$는 회귀계수, t는 튜닝 매개변수(tuning parameter)를 나타낸다. 본 연구에 사용된 설명변수는 유전자 발현량의 값들이고 반응변수는 각각의 유전자 발현량 값들에 해당하는 환자의 임상 데이터이다. 본 연구에서는 신장암 환자의 초기 진단(primary diagnosis), 신장암 환자와 정상인 구분을 위한 샘플 타입(sample type), 활력 상태(vital status)와 종양 유형(tumor type)에 유의한 유전자를 찾기 위해 LASSO 기법을 적용하였다. LASSO 기법을 통해 유의한 유전자를 선택하고 이들 유전자를 통해 분류 모델을 만들고 성능을 비교 분석하여 최적의 평가를 진행하였다.

2.2.2 PCA 기법

PCA는 차원의 축소, 데이터 압축, 특징 추출, 데이터 시각화 등에 많이 적용되는 기법이다. 특히 생물정보학과 관련된 유전자 발현데이터에 대한 차원 축소를 위해 PCA 기법을 다양한 형태로 활용하고 있다 (16)-(20). 본 연구에서는 샘플간의 중요한 차이를 가지고 있는 유전자 발현에 관련된 특징을 추출하기 위해 PCA를 적용하였다. 관측값은 N 차원의 벡터 x이며, PCA의 객체가 되는 데이터 집합(set)은 {x}으로 정의된다. 이때 n=1, 2, …, N 이다. PCA의 목적은 투영된 데이터의 분산(variance)을 최대화하는 D차원보다 작은 M을 갖는 주성분 공간(principal subspace)을 결정하는 것이다. 이러한 주성분 공간 내에서 관측된 값의 표현은 관측된 값들의 특징 벡터가 된다. 이 조건을 만족하는 부분 공간을 결정하기 위해, 식 (2)와 같이 표본평균과 데이터 공분산 행렬(covariance matrix) S를 정의하였다.

(2)
$\bar{X}=\dfrac{1}{{N}}\sum_{{n}=1}^{{N}}{X}_{{n}}$

(3)
${S}=\dfrac{1}{{N}}\sum_{{n}=1}^{{N}}({X}_{{n}-}\bar{X})({X}_{{n}}-\bar{X})^{{T}}$

식 (2)(3)을 적용하여 식 (4)와 같이 주어지는 데이터 집합의 분산을 최대화하는 주요 주성분 공간상의 단위 벡터 u를 정의하였다.

(4)
${Su}_{{i}}=\lambda_{{i}}{u}_{{i},\:}{u}_{{i}}^{{T}}{Su}_{{i}}=\lambda_{{i}}$

즉, 투영된 데이터의 분산을 최대화하는 벡터는 행렬 S의 고유벡터 u가 되며, 고유벡터의 방향에서 최대 분산의 크기는 고유값 $\lambda_{}i$가 된다. 따라서, PCA로부터 파생된 주성분으로 구성된 주성분 공간은 행렬 S에 대한 최대 고유값 M개로 구성된 고유벡터로 구성된다. 또한 x의 관측된 값들로부터 파생된 특성 벡터값은 주요 부분공간에 대한 고유벡터 M개와의 선형조합을 나타내는 계수로 주어진다.

2.2.3 데이터마이닝 알고리즘

신장암 데이터의 예후 예측 및 진단을 위해 데이터마이닝의 분류 알고리즘인 Logistic Regression(LR), K-Nearest Neighbors (KNN), Support Vector Machine(SVM), Gaussian Process(GP), Decision Tree(DT), Random Forest(RF), Neural Network(NN), Ada Boost(AB), Naïve Bayes(NB), Linear Discriminant Analysis(LDA)의 총 10개 알고리즘을 적용하였다(21). 이들 방법들은 통계학 및 데이터마이닝에서 주로 사용하는 분류 알고리즘으로 모두 클래스(class)가 있는 데이터의 감독학습을 통해 새로운 데이터에 대한 분류 분석을 수행한다.

3. 결 과

신장암 유전자 발현 데이터 분석을 위한 전체적인 처리 절차는 그림 1과 같다. TCGA로부터 얻은 통합 데이터는 전처리를 위해 노이즈 및 특이치를 제거하였다. 전처리 후 데이터 형태 행렬 X는 D×N 차원의 D=60,483, N=1,157 행렬로서 행렬 X의 각 행은 한 환자에 대한 관측치에 해당하고 각 열은 환자의 임상 데이터와 유전자 발현 정보를 나타낸다. 통계적 기반의 LASSO와 PCA 기법을 적용하여 이 데이터 집합으로부터 특징을 추출하였다. 다음으로 추출된 특징들을 이용하여 데이터마이닝 기법의 분류 분석을 진행하였다. 모든 데이터는 훈련 데이터 70%, 테스트 데이터 30%를 적용하여 분류 결과를 얻었다.

그림. 1. 신장암 유전자 발현 데이터의 분석 과정

Fig. 1. Overall process procedure for kidney cancer gene expression data analysis

../../Resources/kiee/KIEE.2020.69.7.1061/fig1.png

3.1 LASSO 기법의 특징 추출

회귀분석의 특정 조건을 기반으로 한 LASSO 기법을 이용하여 샘플 타입, 초기 진단, 종양 유형(tumor stage), 활력 상태에 대한 특징을 추출하고 추출된 요인을 기반으로 데이터마이닝 알고리즘 적용하여 분류 분석을 실행하였다. 초기진단은 신장의 악성신생물을 나타내고, 샘플 타입은 정상인과 신장암환자, 종양의 유형은 종양의 단계를 나타내며, 활력상태는 생존과 사망을 나타내는 변수이다. 각 변수의 최적 특징을 선택하기 위한 L1 정규화를 통해 많은 유전자 발현 데이터 중 임상 변수와 관련이 적은 데이터를 회귀계수의 추정값을 0으로 만들어 유전자 발현 데이터의 개수를 줄여 특정한 특징을 선택하였다. 표 1에 추출된 각 특징들의 데이터 집합을 제시하였다. 샘플 타입의 경우는 전체 표본 1,149개 중 27개, 초기 진단의 경우는 84개, 종양 단계의 경우 259개 그리고 활력상태의 경우 136개가 추출되었다. 표 1에서 sample×features는 샘플(표본)의 수와 특징(변수)의 수를 나타내는 행렬을 의미한다.

표 1. LASSO 방법에 의해 선택된 특징의 개수

Table 1. Number of selected features by LASSO method

Feature Name

sample×features

Selected feature

Sample type

1,149×60,483

27

Primary Diagnosis

1,157×60,483

84

Tumor Stage

1,118×60,483

259

Vital Status

1,157×60,483

136

3.2 PCA를 이용한 특징 추출

고차원의 데이터를 저차원의 데이터로 축소하는 기법으로 서로 연관 가능성이 있는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간의 표본으로 변환하기 위해 직교변환(orthogonal transformation)을 사용하였다. 주성분 분석은 데이터를 한 개의 축으로 사상시켰을 때 그 분산이 가장 커지는 축을 첫 번째 주성분으로 하고 두 번째로 커지는 축을 두 번째 주성분으로 놓이도록 새로운 좌표계로 데이터를 선형 변환한다. 이 변환은 첫 번째 주성분이 가장 큰 분산을 가지고, 이후의 주성분들은 이전의 주성분들과 직교한다는 제약 하에 가장 큰 분산을 가지는 것으로 정의된다. 중요한 성분들은 공분산 행렬의 고유벡터(eigen vector)이므로 직교하게 된다. 본 연구에서는 PCA 알고리즘으로 기존변수를 결합하여 새로운 특징을 만들고 최적의 차원으로 35개의 특징을 선택하였다. 특징 선택을 위한 고유값은 설명된 분산의 비율을 이용하여 차원의 수를 결정하였으며 설명된 분산의 비율이 99%가 되는 주성분 축을 통해 차원을 선택하였다.

3.3 데이터마이닝 기법에 의한 분류 분석

LASSO와 PCA에 의해 추출된 유의한 유전자를 기반으로 데이터마이닝과 통계기법 기반의 분류 분석을 시행하고, 두 특징 추출 방법에 따른 비교 분석을 시행하였다. 샘플 타입은 암과 정상의 두 클래스를 가지며 전체적으로 비교적 좋은 분류 성능을 보였으며 LASSO에 의해 추출된 유전자가 PCA보다 더 높은 정확도를 나타내었다. 샘플 타입의 분류 방법에 따른 정확도와 F1 스코어를 표 2에 제시하였다. LASSO에 의한 방법 중 가장 높은 성능을 보이는 것은 LR로서 99.71%의 정확도와 F1 스코어를 나타내었으며, PCA에 의한 분류기 중 가장 성능이 좋은 것은 NN으로서 정확도는 99.42%, F1 스코어는 99.41%를 나타내었다.

표 2. 샘플 타입의 분류 방법에 따른 정확도와 F1 스코어

Table 2. Accuracy and F1 score by classification method of sample type

Classification

method

Accuracy

F1 score

LASSO

PCA

LASSO

PCA

LR

99.71

99.13

99.71

99.13

KNN

99.13

97.68

99.13

97.63

SVM

99.42

97.97

99.42

97.92

GP

98.84

90.43

98.82

87.92

DT

97.97

95.36

97.94

95.22

RF

98.84

96.81

98.83

96.62

NN

98.84

99.42

98.83

99.41

AB

98.26

98.26

98.23

98.23

NB

97.97

71.01

98.03

75.72

LDA

98.26

98.26

98.28

98.26

초기 진단의 경우에는 C64.9와 C64.1의 두 클래스를 가지며, 분류 정확도는 표 3에서 볼 수 있는 바와 같이 샘플 타입보다는 낮지만 비교적 높은 정확도를 나타내었다. LASSO에 의해 추출된 유전자의 경우 LR의 분류 정확도가 95.69%이고 F1 스코어는 95.66%로 가장 높았다. PCA의 경우에는 NN이 정확도 93.68%, F1 스코어가 93.60%로 가장 좋은 성능을 나타내었다.

종양 단계에서는 분류기의 성능이 비교적 좋지 않은 것으로 나타났다. 종양 단계는 stage I, stage II, stage III, stage IV의 형태로 샘플 타입 등의 다른 속성보다 클래스가 많다. LASSO에 의해 추출된 특징을 이용한 분류기 중에는 SVM이 가장 높고, PCA에 의해 추출된 특징을 이용한 분류기로는 LR이 52.38%로 가장 높게 나타났다(표 4 참조).

표 3. 초기 진단의 분류 방법에 따른 정확도와 F1 스코어

Table 3. Accuracy and F1 score by classification method of primary diagnosis

Classification

method

Accuracy

F1 score

LASSO

PCA

LASSO

PCA

LR

95.69

91.95

95.66

91.85

KNN

94.54

91.95

94.44

91.82

SVM

94.83

92.82

94.87

92.66

GP

93.10

86.49

92.88

85.27

DT

89.66

82.18

89.52

82.38

RF

92.24

91.38

91.94

91.03

NN

93.39

93.68

93.17

93.60

AB

95.11

91.67

95.04

91.57

NB

92.24

77.01

92.23

78.00

LDA

92.24

80.75

92.13

81.61

표 4. 종양 단계의 분류 방법에 따른 정확도와 F1 스코어

Table 4. Accuracy and F1 score by classification method of tumor stage

Classification

method

Accuracy

F1 score

LASSO

PCA

LASSO

PCA

LR

55.06

52.38

51.41

46.16

KNN

49.70

50.30

42.77

38.87

SVM

56.85

50.89

53.17

40.06

GP

52.68

50.30

44.49

38.47

DT

48.21

47.02

39.83

40.58

RF

53.87

50.60

46.37

40.89

NN

56.25

50.30

54.02

41.78

AB

49.70

47.92

38.40

34.24

NB

37.80

17.86

39.14

16.96

LDA

46.73

22.32

29.76

22.73

활력 상태는 생존과 사망의 두 클래스를 가지며 분류 결과의 정확도와 F1 스코어를 표 5에 제시하였다. LASSO에 의해 추출된 특징으로 분류기 중 LR과 SVM이 동일하게 77.87%의 분류 정확도로를 보이고 F1 스코어는 LR이 76.65%로 가장 좋은 성능을 나타내었다. PCA의 경우에는 72.13%의 정확도를 보이는 분류기가 다수 있고, F1 스코어는 DT가 63.16%으로 가장 높게 나타났다.

상기에 제시한 분류 결과를 정리하면 새로운 환자에 대한 암과 정상을 구분하는 샘플 타입이 가장 좋은 분류 성능을 나타내었으며, 그 다음이 초기 진단으로 90% 이상의 높은 정확도를 나타내었다. 활력 상태의 경우 70% 정도의 정확도를 보이고 종양 단계의 경우는 가장 낮은 성능을 나타내었다. 따라서 샘플 타입과 초기 진단의 경우는 환자의 예후 예측에 이러한 분류기들을 적용하여 환자의 진단에 도움을 줄 수 있다. 또한 분류기를 만들기 전 유의한 유전자를 추출하는 방법의 비교에서는 LASSO 기법을 이용한 분류 결과가 PCA보다 정확도가 더 높음을 알 수 있다.

표 5. 활력 상태의 분류 방법에 따른 정확도와 F1 스코어

Table 5. Accuracy and F1 score by classification method of vital status

Classification

method

Accuracy

F1 score

LASSO

PCA

LASSO

PCA

LR

77.87

72.13

76.65

60.45

KNN

74.14

72.13

67.51

65.81

SVM

77.87

72.13

76.41

60.45

GP

74.43

70.98

69.18

59.88

DT

72.13

66.09

70.13

63.16

RF

74.43

71.84

68.63

60.31

NN

75.57

72.13

70.31

60.45

AB

74.71

72.13

66.49

60.45

NB

68.68

37.07

70.21

31.23

LDA

68.39

38.51

66.22

36.12

4. 고찰 및 결론

암환자의 예후 예측에 기여하는 유전자를 찾는 것은 환자에게 보다 적합한 치료를 제공한다. 따라서 환자의 상태를 잘 나타낼 수 있는 바이오마커를 찾고 이를 활용한 암환자의 예후 예측이 매우 중요하다. 특히 유전자 데이터는 환자 수에 비해 많기 때문에 분석에 어려움이 있다. 이러한 문제를 해결하기 위해서는 환자의 상태를 잘 나타낼 수 있는 특징 추출이 필요하다. 본 연구에서는 이러한 특징 추출을 위해 LASSO와 PCA 기법을 적용하였다. 이 두 기법을 적용하여 신장암 환자의 임상 데이터와 유전자 데이터로부터 유의한 특징 유전자를 추출하고 데이터마이닝의 다양한 분류 알고리즘을 적용하여 분류 정확도를 측정하였다. 그 결과, LASSO를 적용하여 유의한 유전자를 추출하는 것이 PCA보다 더 좋은 성능을 보이는 것을 알 수 있었다. 그리고 분류 속성 중 초기 진단과 샘플 타입이 90% 이상의 높은 분류 정확도를 나타내었으므로 이 기법을 활용하여 추출된 유전자를 통한 분류 모델을 개발한다면 암환자의 조기진단과 예후 및 예측에 도움을 줄 수 있다. 향후에는 LDA 기법을 적용하여 특징을 선택해서 분석해 보고자 하며, LASSO에 의해 추출된 유전자 분석을 통해 유전자의 기능(function) 이나 유전자 네트워크(gene network)를 통한 다양한 연구를 진행하고자 한다.

Acknowledgements

This research was supported by Basic Science Research Program through the National Research Foundation of Korea (NRF) funded by the Ministry of Education (No.2020R1I1A1A01065199) and the Korea government (MSIT) (NRF-2019R1F1A1051569).

References

1 
H. Y. Xiong, B. Alipanahi, L. J. Lee, H. Bretschneider, D. Merico, R. K. Yuen, Y. Hua, S. Gueroussov, H. S. Naja- fabadi, T. R. Hughes, Q. Morris, Y. Barash, A. R. Krainer, N. Jojic, S. W. Scherer, B. J. Blencowe, B. J. Frey, January 2015, RNA splicing. The human splicing code reveals new insights into the genetic determinants of disease, Science, Vol. 346, No. 6218, pp. 1-20DOI
2 
27.09.2019, https://www.ncc.re.kr/Google Search
3 
B. H. Chi, I. H. Chang, 2018, The Overdiagnosis of Kidney Cancer in Koreans and the Active Surveillance on Small Renal Mass, Korean J Urol Oncol, Vol. 16, No. 1, pp. 15-24DOI
4 
A. M. Ali, H. Zhuang, A. Ibrahim, O. Rehman, M. Huang, A. Wu, Nov 2018, A machine learning approach for the classification of kidney cancer subtypes using miRNA genome data, Appl Sci, Vol. 8, No. 2422, pp. 1-14DOI
5 
B. E. Bejnordi, M. Veta, P. J. van Diest, B. van Ginneken, N. Karssemeijer, G. Litjens, J. Laak, M. Hermsen, Q. Manson, M. Balkenhol, O. Geessink, N. Stathonikos, M. Dijk, P. Bult, F. Beca, A. H. Beck, D. Wang, A. Khosla, R. Gargeya, H. Irshad, A. Zhong, Q. Dou, Q. Li, H. Chen, H. Lin, P. Heng, C. Haß, E. Bruni, Q. Wong, U. Halici, M. Öner, R. Cetin-Atalay, M. Berseth, V. Khvatkov, A. Vylegzhanin, O. Kraus, M. Shaban, N. Rajpoot, R. Awan, K. Sirinukunwattana, T. Qaiser, Y. Tsang, D. Tellez, J. Annuscheit, P. Hufnagl, M. Valkonen, K. Kartasalo, L. Latonen, P. Ruusuvuori, K. Liimatainen, S. Albarqouni, B. Mungal, A. George, S. Demirci, N. Navab, S. Watanabe, S. Seno, Y. Takenaka, H. Matsuda, H. A. Phoulady, V. Kovalev, A. Kalinovsky, V. Liauchuk, G. Bueno, M. Milagro Fernandez-Carrobles, I. Serrano, O. Deniz, D. Racoceanu, December 2017, Diagnostic assessment of deep learning algorithms for detection of lymph node metastases in women with breast cancer, JAMA, Vol. 318, No. 22, pp. 2199-2210DOI
6 
P. Ferroni, F. M. Zanzotto, S. Riondino, N. Scarpato, F. Guadagni, M. Roselli, March 2019, Breast cancer prognosis using a machine learning approach, Cancers, Vol. 11, No. 3, pp. 328DOI
7 
K. Kourou, T. P. Exarchos, K. P. Exarchos, M. V. Karamouzis, D. I. Fotiadis, November 2014, Machine learning applications in cancer prognosis and prediction, Comput Struct Biotechnol J, Vol. 15, No. 13, pp. 8-17DOI
8 
P. Mobadersany, S. Yousefi, M. Amgad, D. A. Gutman, J. S. Barnholtz-Sloan, J. E. Vega, D. J. Brat, L. Cooper, 2018, Predicting cancer outcomes from histology and genomics using convolutional networks, PANS, Vol. 115, No. 13, pp. e2970-E2979DOI
9 
B. J. Kim, S. H. Kim, January 2018, Prediction of inherited genomic susceptibility to 20 common cancer types by a supervised machine-learning method, Proc Natl Acad Sci USA, Vol. 115, No. 6, pp. 1322-1327DOI
10 
O. G. Troyanskaya, K. Dolinski, A. B. Owen, R. B. Altman, D. Botstein, July 2003, A Bayesian framework for combining heterogeneous data sources for gene function prediction (in S. cerevisiae), Proc Natl Acad Sci USA, Vol. 100, No. 14, pp. 8348-8353DOI
11 
M. Amgad, H. Elfandy, H. Hussein, L. A. Atteya, M. A. T. Elsebaie, L. S. A. Elnasr, R. A. Sakr, H. S. E. Salem, A. F. Ismail, A. M. Saad, J. Ahmed, M. A. T. Elsebaie, M. Rahman, I. A. Ruhban, N. M. Elgazar, Y. Alagha, M. H. Osman, A. M. Alhusseiny, M. M. Khalaf, A. F. Younes, A. Abdulkarim, D. M. Younes, A. M. Gadallah, A. M. Elkashash, S. Y. Fala, B. M. Zaki, J. Beezley, D. R. Chittajallu, D. Manthey, D. A. Gutman, L. A. D. Cooper, September 2019, Structured crowdsourcing enables convolutional segmentation of histology images, Bioinformatics, Vol. 35, No. 18, pp. 3461-3467DOI
12 
https://portal.gdc.cancer.gov/Google Search
13 
https://scikit-learn.org/Google Search
14 
R. Tibshirani, 1996, Regression shrinkage and selection via the lasso, J Royal Stat Soc, Vol. 58, No. 1, pp. 267-288DOI
15 
R. Tibshirani, June 2012, The lasso problem and uniqueness, Electronic Journal of Statistics, Vol. 7, pp. 1456-1490Google Search
16 
L. Wasserman, K. Roeder, 2009, High Dimensional Variable Selection, The Annals of Statistics, Vol. 37, No. 5a, pp. 2178-2201Google Search
17 
C. Y. Park, May 2013, Simple principal component analysis using Lasso, Journal of the Korean Data and Information Science Society, Vol. 24, pp. 533-541DOI
18 
T. Hristo, F. David, G. Susanne, January 2018, Principal Components Analysis: Theory and Application to Gene Expression Data Analysis, Genomics and Computational biology, Vol. 4, No. 2, pp. 1-7DOI
19 
M. Chen, A. Z. Oana, G. T. Gerhard, K. Bernhard, M. G. Amin, C. C. Aedín, July 2016, Dimension reduction techniques for the integrative analysis of multi-omics data, Brief Bioinformatics, Vol. 17, No. 4, pp. 628-641DOI
20 
E. Cappelli, G. Felici, E. Weitschek, October 2018, Combining DNA methylation and RNA sequencing data of cancer for supervised knowledge extraction, BioData Mining, Vol. 11, No. 22, pp. 1-23DOI
21 
J. Han, M. Kamber, J. Pei, 2013, Data Mining: Concepts and Techniques(3rd ed.), Morgan KaufmannGoogle Search

저자소개

손호선 (Ho Sun Shon)
../../Resources/kiee/KIEE.2020.69.7.1061/au1.png

2010 : Ph.D in Computer Science, Chungbuk National University, Korea.

2012 to present : Visiting professor in Medical Research Institute, School of Medicine, Chungbuk National University, Korea.

김경옥 (Kyoung Ok Kim)
../../Resources/kiee/KIEE.2020.69.7.1061/au2.png

2013 : Ph.D in Business Administration, Hanyang University, Korea.

2014 to present : Professor in Department of Nursing, Woosong college, Korea.

차은종 (Eun Jong Cha)
../../Resources/kiee/KIEE.2020.69.7.1061/au3.png

1987 : Ph.D in Biomedical Engineering, University of Southern California, U. S. A.

1988 to present : Professor in Department of Biomedical Engineering, School of Medicine, Chungbuk National University, Korea.

김경아 (Kyung Ah Kim)
../../Resources/kiee/KIEE.2020.69.7.1061/au4.png

2001 : Ph.D in Biomedical Engineering, Chungbuk National University, Korea.

2005 to present : Professor in Department of Biomedical Engineering, School of Medicine, Chungbuk National University, Korea.