Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 70, No. 12, p.1934-1939

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 279 October 2021Revised : 5 November 2021Accepted : 17 November 2021

DOI :

http://doi.org/10.5370/KIEE.2021.70.12.1934

Comparison of Structure Reduction, Pruning, and Knowledge Distillation for Lightning of Deep Learning

딥러닝 경량화를 위한 구조, 가지치기, 지식증류 비교

서기성 (Kisung Seo) ^†iD

^†Corresponding Author : Department of Electronics Engineering, Seokyeong University, Korea.

E-mail : ksseo@skuniv.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

We compare three approaches of structure reduction, pruning, and knowledge distillation for lightning of a deep learning network. Structure reduction eliminates a set of layers of the model, but pruning deletes filters within a layer. Knowledge distillation effectively learns a small student model from a large teacher model using KL Divergence. Therefore, it has a similar effect of reduction of the model. The above three methods for lightning are rarely compared to each other in terms of performance. To compare these approaches for network reduction problem, we investigate the accuracy and flops of the methods on CIFAR10 and CIFAR100 data for ResNet models. A systematic analysis for the fundamental orientations and differences of each method is supplemented.

Key words

Deep learning, Structure Reduction, Pruning, Knowledge Distillation, CIFAR10/100. ResNet56/110

1. 서 론

딥러닝은 컴퓨터 비전 및 학습 분야에서 뛰어난 성능을 인정받아 널리 사용되고 있다^(1,²⁾. 한편, 계산 비용이 많이 드는 딥 모델에 대한 경량화가 임베디드시스템 및 모바일시스템에 요구되고 있다⁽³⁾.

경량화를 위한 주요 접근법으로는 구조적 축소, 가지치기, 그리고 지식증류 기법이 존재한다. 구조적 축소는⁽⁴⁾ CNN의 층이나 층의 집합인 블록을 제거하거나 축소하는 것으로 외형적인 구조적 변경을 수행한다. 한편, 층의 구조는 유지하면서 층 내의 필터 수를 줄이는 가지치기(pruning) 연구가 다양하게 시도되고 있다^(5-¹¹⁾. 가지치기는 네트워크의 컨볼루션 층에서 영향력이 적은 필터들을 삭제함으로써 전체 네트워크가 차지하는 메모리 용량을 줄이고, 처리 속도를 감소시키는 특성이 있다. 기존의 가지치기 연구들은 가중치 기반의 필터 삭제 방식⁽⁵⁾, 다음 층에서의 출력의 세기를 고려한 가지치기 방식⁽⁶⁾, 진화연산 기반의 하이브리드 가지치기⁽⁷⁾ 등을 비롯하여, 최근에는 다양한 알고리즘을 도입한 개선된 연구들이 활발히 이루어지고 있다^(8-¹²⁾.

지식증류(Knowledge Distillation, KD) 기법은 규모가 크고 학습된 Teacher(선생) 네트워크에서 규모가 작고 학습되지 않은 Student(학생) 네트워크로 출력 벡터에 대한 분포의 차이를 줄여나감으로써 지식을 전달한다⁽¹³⁾. 전형적인 응용은 큰 네트워크의 능력을 작은 네트워크로 전달하여 성능은 최대한 유지하면서 네크워크 규모를 축소하는 것이다. KD에는 Teacher- Student(이하 T-S) 구성이 널리 쓰이고⁽¹³⁾, 동등한 두 네트워크로 구성된 상호협력 모델(Deep Mutual Learning, DML) 방식⁽¹⁴⁾도 제시되고 있다.

경량화를 위한 위의 3가지 방식들은 성능 측면에서 서로 비교된 경우가 거의 없으며, 각 방식의 원천적인 지향점이나 차이에 대해서 체계적인 분석이 이루어지지 않고 있다. 본 논문에서는 동일 모델과 데이터 셋에 대해서 가능한 한 동일한 조건을 적용하여 서로간의 공정한 비교가 되도록 구성한다. 3가지 기법의 비교를 위해서, ResNet 모델과 CIFAR10/100⁽¹⁵⁾ 데이터에 대해서, 비교 가능한 최신 논문들의 결과를 수집하고, 일부 추가 실험을 통해 성능을 구하여 비교한다. 특히, 관련 연구가 매우 부족한 구조 축소에 대해서는 진화연산 기반의 구조축소 방법을 직접 구현하여 결과를 비교한다.

2. 딥러닝 경량화

2.1 배경

딥러닝 경량화는 기존의 학습된 모델의 정확도를 유지하면서, 크기와 연산량을 줄이는 것이다. 서버나 데스크탑 기반의 학습 모델을 임베디드시스템이나 에지 디바이스와 같은 경량 장치에 내장하기 위한 필수 기술이다. 경량 장치에서의 실행 외에 상대적으로 고성능 머신에서 모델의 규모와 연산량의 감소가 필요하기 때문에 역시 공통적으로 중요한 문제이다. 다양한 경량화 기술이 발전되고 있지만, 본 논문에서는 모델의 파라미터들을 줄이는 압축 기법에 중점을 두며, 대표적인 기법인 구조축소, 가지치기, 그리고 지식증류의 성능과 특성을 비교 분석하고자 한다.

이들 기법들은 상당한 부분의 공통적인 목적이 있으나, 지향점이 다소 차이가 나고, 수행 조건의 상이한 제한점도 존재한다. 각 분야에서 기법상의 지속적인 개선 연구가 일어나고 있지만, 각 기법을 서로 비교하는 것은 거의 이루어지지 않고 있다. 본 논문에서는 동일한 데이터 셋과 모델에 대해서 최대한 유사 조건을 적용하여 방법 간의 성능을 비교하고, 수반되는 특성을 분석함으로써, 경량화 기법의 선택에 도움을 주고자 한다.

2.2 문제 구성

네트워크 축소(또는 압축)시 입력으로 대상 모델과 정해진 축소 비율이 입력을 주어진다. 모델의 파라미터인 층이나 층의 집합인 블록을 삭제할 수 있고, 층내의 필터의 삭제를 통해 모델의 규모를 축소한다. 모델의 축소를 위해 일반적으로 중요성이 떨어지는 삭제할 층(또는 블록) 또는 필터를 선택하는 방법이 필요하다. 삭제 알고리즘을 통해 선택된 요소를 한번에 또는 반복적으로 일부씩 축소하는 과정을 수행한다. 이때 수반되는 조건은 축소된 모델의 성능을 최대한 유지하거나 저하율을 낮추는 것이다.

모델 압축시 일반적으로 하나의 대상 네트워크를 필요로 하나, 지식증류의 경우는 선생 네트워크와 학생 네트워크의 쌍이 주어져야 하며, 축소 비율은 임의로 조정할 수 없고 학생 네트워크의 크기에 고정된다.

3. 경량화 기법

3.1 구조적 축소

구조적 축소는 CNN 등의 딥러닝 네트워크에서 층이나 층의 집합인 블록을 임의로 또는 규칙에 의해 삭제하여 전체 네트워크를 축소한다. 그림 1과 같이 회색으로 표시된 블록 전체 또는 블록 내의 층을 통째로 삭제하는 것으로 구조적으로 큰 변화를 발생시킨다.

그림. 1. 구조 축소

Fig. 1. Structure Reduction

구조 축소는 삭제할 층이나 블록을 선택하는 뚜렷한 알고리즘이 개발되지 않고 있다. 즉, 네트워크 전체에 대해서 일정 비율로 삭제하거나, 특징 맵을 조사하면서 전반부나 후반부의 특정 부분을 삭제하는 경험적인 방식이 주로 시도되고 있다. 최근에 지식증류를 사용하여 블록과 층을 자동적으로 선택하여 삭제하는 Online Ensemble Distillation (OED)⁽⁴⁾ 연구가 제안되었다.

본 논문에서는 최적화 방법인 유전 알고리즘은⁽⁷⁾ (Genetic Algorithm)을 사용하여 블록과 층의 삭제에 체계적인 탐색을 수행한다. 유전 알고리즘은 유전자 표현, 유전자 생성, 적합도 평가, 선택, 유전연산으로 구성되어 있다. GA를 블록단위 가지치기에 적용하기 위해서, 유전자는 삭제할 층의 번호로 이루어진 스트링으로 구성한다. 블록/층 삭제를 위한 유전자 표현이 그림 2에 나와 있다. 그림 2에서 하단의 유전자 스트링에 적힌 번호들에 해당되는 블록/층들이 제거되고 회색으로 표시된 것들이 남는다.

그림. 2. 유전 알고리즘 기반 블록/층 삭제

Fig. 2. Block/layer reduction using genetic algorithm

3.2 가지치기

가지치기는 네트워크의 컨볼루션 층내의 일부 필터들을 삭제하는 것으로, 층마다의 필터의 수는 줄어들지만 전체 층 구조는 유지된다. 그림 3에 층 내의 삭제된 필터가 음영으로 표시되어 있다. 가지치기에 대한 연구는 상대적으로 많아서, 본 논문에서는 최신의 연구 이용 가능한 실험 결과들의 수치를 비교를 위해서 인용한다. 비교된 주요 연구는 다음과 같다.

TAS(Transformable Architecture Search)⁽⁹⁾는 네트워크 구조 탐색을 통해 각 층의 필터 수를 결정하고, 큰 네드워크로 부터의 지식 증류를 추가한다. FPGM(Filter Pruning via Geometric Median) ⁽¹⁰⁾은 필터에 대한 중요도보다 중복성에 초점을 맞추어 삭제한다. HRank⁽¹¹⁾는 입력 이미지에 대한 필터의 특징맵에 순위를 매겨, 낮은 순위에 해당하는 필터를 제거한다. ABCprunner⁽¹²⁾는 진화연산의 일종인 ABC(Artificial Bee Colony) 알고리즘을 사용하여 각 층당 최적의 삭제 필터 수를 결정한다.

그림. 3. 필터 가지치기

Fig. 3. Filter pruning

3.3 지식증류

지식증류(Knowledge Distillation) 기법은 규모가 크고 학습된 선생 네트워크(또는 모델)와 규모가 작고 학습되지 않은 학생 네트워크 사이의 출력 벡터에 대한 분포의 차이를 줄여나감으로써 지식을 전달한다. 여기서, 지식의 의미는 각 학습 데이터에 대한 선생의 출력 정보이다. 이 때 선생의 지식을 효과적으로 전달하기 위해 출력 벡터 값을 온도 $\tau$로 조정한다. 이를 통해 정답 클래스에 해당하는 특정 정보만이 아니라 그 이외의 클래스에 대한 예측 정보까지 함께 전달한다. 지식 증류에 대한 손실함수가 식 (1)에 나와 있다.

(1)

$L = -\dfrac{1}{m}\sum_{i=1}p(z_{i},\:\theta)\log\dfrac{p(z_{i},\:\theta)}{p(\hat z_{i},\:\theta)}$

(2)

$p(z_{i},\:\theta)= soft\max(z_{i}/\tau)$

여기서, m은 미니-배치 사이즈, $z_{i}$는 선생의 출력값, $\hat z_{i}$는 학생의 출력값, $\tau$는 네트워크의 출력 분포를 조정해주는 상수이다.

네트워크 축소 측면에서의 지식증류는 그림 4와 같이 규모가 크고 학습된 Teacher 네트워크의 성능을 규모가 작은 Student 네트워크가 모방할 수 있도록 지식을 전달한다. 구조 축소와 가지치기와는 달리 두 개의 네트워크가 필요하며, 최종 결과인 학생 네트워크는 미리 규모가 설정되어 있다.

그림. 4. 지식 증류 기반 모델 축소

Fig. 4. Knowledge Distillation based model reduction

지식증류에는 그림 4와 같은 Teacher-Student(이하 T-S) 구성과 함께 동등한 두 네트워크로 구성된 상호협력 모델인 DML(Deep Mutual Learning) 방식이 있다. DML은 같은 네트워크 상호간의 지식증류를 수행함으로써 큰 네트워크에서 작은 네트워크로 전달이 잘 안되는 문제와 지식증류를 위해 큰 네트워크가 필요한 문제점을 상당히 해결하고 있다. 본 논문에서는 T-S 모델과 DML 모델을 둘 다 비교한다.

4. 실험 및 결과 비교

4.1 입력 및 수행 조건

구조 축소와 가지치기는 하나의 네트워크에 대해서 수행된다. 이때 축소할 비율을 사용자가 입력으로 조정할 수 있다. 이에 반해, 지식증류는 선생 네트워크와 학생 네트워크의 쌍이 주어져야 하며, 축소 비율은 임의로 조정할 수 없고 학생 네트워크의 크기에 고정된다.

또한 구조 축소와 가지치기는 층이나 필터의 삭제시 일반적으로 급격한 성능 저하를 막기 위해 일부를 삭제하고 미세조정(fine tuning)을 반복적으로 수행한다. 지식증류에서는 구조가 고정된 두 개의 네트워크에 대해서 일정 세대만을 수행하는 차이점이 있다. 즉, 전자는 최종 결과물이 얻어질 때까지 네트워크의 구조적인 변화가 수반되지만, KD는 학생 네트워크의 구조 변화 없이 연결 강도만이 변한다.

4.2 비교 환경

3가지 방식을 CIFAR10/100⁽¹⁵⁾ 데이터셋에 대해서 적용한다. CIFAR10 CIFAR10은 총 60000장의 32x32 RGB 이미지로 구성되어 있으며 10개의 클래스로 분류된다. 50000장의 학습 데이터, 10000장의 평가 데이터로 구성된다. CIFAR100은 차량, 곤충, 꽃 등 20개 슈퍼 클래스 각각에 5개의 서브클래스로 구성된 32x32의 RGB 이미지 데이터이며 50,000개의 학습 데이터, 10,000개의 테스트 데이터로 구성된다. 대상 네트워크는 ResNet56/110⁽¹⁶⁾을 사용한다. 각 네트워크의 크기는 다음과 같다 - ResNet110(254.98M), ResNet56(126.54M), ResNet32( 69.47M).

본 논문에서 수행된 GA 구조 삭제와 지식증류 실험은 RTX- 2080 GPU에서 수행되었으며 파이토치(Pytorch Framework)를 사용하여 구현하였다. 학습 파라미터 설정이 표 1에 나와 있다.

표 1. 학습 파라미터 설정

Table 1. Settings of training hyper-parameters

Dataset

batch

size

epoch

learning

rate

decay epoch

CIFAR10/100

128

200

0.1

[60, 120, 180]

4.3 비교 결과

ResNet56 네트워크에 CIFAR10 데이터를 사용한 성능 비교 결과가 표 2 -4에 나와 있다. 표 2는 구조 축소에 대해서 OED와 진화연산 기반의 제안 기법을 비교한 것으로, 유사한 연산량 감소(FLOPs drop) 조건에 대해서 제안된 기법의 정확도 저하(Acc drop) 더 우수함을 나타낸다. 가지치기 비교 결과는 표 3에 나와 있으며, 연산량 감소(FLOPs drop)의 수치들이 약간의 편차는 있지만, 정확도 저하가 0.03~0.77로 전반적으로 낮고 고른 결과를 보인다. 표 4는 지식증류에 대한 결과로서, HKD/ ResNet32는 ResNet56을 T로, ResNet32를 S 네트워크로 설정하여 지식증류를 수행하였다. 연산량 감소 수치는 두 모델의 크기 차이에 따라 고정된다. 정확도 저하는 0.04로 낮은 편이다. DML/ResNet32은 T-S 구조가 아닌 동일한 ResNet32 네트워크를 두 개 사용하여 상호 지식증류를 수행한 것으로, 작은 규모의 네트워크 사용에도 상당히 우수한 정확도를 얻고 있음을 알 수 있다. 동일 네트워크이기 때문에 정확도 저하와 연산량 감소는 측정할 수 없다. 다만 네트워크의 연산량과 정확도를 통해 HKD와 간접적으로 비교할 수 있다.

표 2. 구조 축소 비교 결과 - CIFAR10 / ResNet56

Table 2. Comparison results for structure reduction on CIFAR10 with ResNet56

Model

Baseline(%)

Acc(%)

Acc drop(%)

FLOPs

drop(%)

OED⁽⁴⁾

93.97

92.89

1.08

54.71M

56.4

Ours (1)

93.45

93.32

0.13

56.38M

55.44

표 3. 가지치기 비교 결과 - CIFAR10 / ResNet56

Table 3. Comparison results for filter pruning on CIFAR10 with ResNet56

Model	Baseline(%)	Acc(%)	Acc drop(%)	FLOPs	FLOPs drop(%)
TAS⁽⁹⁾	94.46	93.69	0.77	59.5M	52.7
FPGM⁽¹⁰⁾	93.59	93.59	0.10	59.4M	52.6
HRank⁽¹¹⁾	93.26	93.17	0.09	62.72M	50.0
ABCprunner⁽¹²⁾	93.26	93.23	0.03	58.54M	54.13

표 4. 지식증류 비교 결과 - CIFAR10 / ResNet56

Table 4. Comparison results for Knowledge Distillation on CIFAR10 with ResNet56

Model

Baseline(%)

Acc(%)

Acc drop(%)

FLOPs

drop(%)

HKD/ResNet32

93.15

93.11

0.04

69.47M

54.9

DML/ResNet32

N/A

92.80

N/A

69.47M

N/A

3가지 기법의 결과의 비교 조건이 동일하지 않으므로, 공정한 비교를 위하여 정확도 저하(Acc drop)를 연산량 감소(FLOPs drop) 수치로 나눈 지표를 도입하고 비교한 결과가 표 5에 나와 있다. 이 지표는 수치가 낮을수록 성능비가 우수하다. 각 기법의 가장 낮은 지표가 굵은 글자로 표시되어 있으며, 가지치기의 ABCprunner⁽¹²⁾ 지표가 0.055로 가장 우수하며, 지식증류, 구조축소 순으로 증가한다. 가지치기의 지표들의 편차가 상당히 큰 편임을 고려하면 지식증류의 결과가 상대적으로 우수함을 알 수 있다.

표 5. 종합 지표 비교 결과 - CIFAR10 / ResNet56

Table 5. Comparison results for Comprehensive index among three methods on CIFAR100 with ResNet110

Method	Model	Acc drop / FLOPs drop x 100(%)
Structure reduction	OED⁽⁴⁾	1.08 / 56.4 = 1.91
Structure reduction	Ours (1)	0.13 / 55.44 = 0.23
Filter pruning	TAS⁽¹⁰⁾	0.77 / 52.7 = 1.46
	HRank⁽¹¹⁾	0.09 / 50.0 = 0.18
	ABCprunner⁽¹²⁾	0.03 / 54.13 = 0.055
Knowledge distillation	HKD/ResNet32	0.04 / 54.9 = 0.073

표 6. 구조 축소 비교 결과 - CIFAR100 / ResNet110

Table 6. Comparison results for structure reduction on CIFAR100 with ResNet110

Model

Baseline(%)

Acc(%)

Acc drop(%)

FLOPs

drop(%)

OED⁽⁴⁾

74.36

70.53

3.83

78.31M

69.0

Ours (1)

74.81

73.70

1.11

121.75M

52.25

표 7. 가지치기 비교 결과 - CIFAR100 / ResNet100

Table 7. Comparison results for filter pruning on CIFAR100 with ResNet110

Model

Baseline(%)

Acc(%)

Acc drop(%)

FLOPs

drop(%)

FPGM⁽⁹⁾

74.14

72.55

1.59

121.62M

52.3

TAS⁽¹⁰⁾

75.06

73.16

1.9

120.86M

52.6

표 8. 지식증류 비교 결과 - CIFAR100 / ResNet100

Table 8. Comparison results for Knowledge Distillation on CIFAR100 with ResNet110

Model	Baseline(%)	Acc(%)	Acc drop(%)	FLOPs	FLOPs drop(%)
HKD/ResNet56	73.12	72.31	0.81	126.54M	49.6
HKD/ResNet32	73.12	71.48	1.64	69.47M	72.8
DML/ResNet56	N/A	72.74	N/A	126.54M	N/A
DML/ResNet32	N/A	71.19	N/A	69.47M	N/A

ResNet110 네트워크에 CIFAR100 데이터를 사용한 성능 비교 결과가 표 6 -8에 나와 있다. 표 6의 구조 축소에서 OED보다 제안된 기법이 더 우수함을 나타낸다. 표 7의 가지치기는 ResNet110/CIFAR100에 대해서는 FPGM⁽⁹⁾와 TAS⁽¹⁰⁾의 두 가지 결과만이 이용가능하다. 표 8의 지식증류 결과는 구조 축소와 가지치기에 비해서 축소율을 더 낮춘 HKD/ResNet32 (ResNet110에서 ResNet32로 72.8% 축소 ) 결과까지 포함한다. 구조 축소나 가지치기에서 70%로 축소하면 급격한 성능 저하가 발생하기 때문에 비교실험에서 제외한다.

표 9의 3가지 방식에 대한 종합 지표의 결과를 보면, 구조 축소나 가지치기에 비해서 지식증류의 지표가 가장 낮아 더 우수함을 알 수 있다. 특히 72.8%까지 축소시킨 HKD/ResNet32의 지표가 2.25로 상당히 낮음을 확인할 수 있다.

표 9. 종합 지표 비교 결과 - CIFAR100 / ResNet110

Table 9. Comparison results for Comprehensive index among three methods on CIFAR100 with ResNet110

Method	Model	Acc drop / FLOPs drop x 100(%)
Structure reduction	OED⁽⁴⁾	3.83 / 69.0 = 5.55
	Ours (1)	1.03 / 52.25 = 1.97
	Ours (2)	2.35 / 69.01 = 3.41
Filter pruning	FPGM⁽⁹⁾	1.59 / 52.3 = 3.04
Filter pruning	TAS⁽¹⁰⁾	1.9 / 52.6 = 3.61
Knowledge distillation	HKD/ResNet56	0.81 / 49.6 = 1.63
Knowledge distillation	HKD/ResNet32	1.64 / 72.8 = 2.25

연상량 측면은 다음과 같다. 구조적 축소는 삭제할 블록에 대한 탐색이 8시간 정도 소요되고, 이후 fine-tuning을 위해 5시간 정도 소요되어, 총 13시간이 걸린다. 이에 비해 가지치기는 5시간으로 가장 적은 수행시간이 걸린다. 지식증류는 구조적 축소와 유사한 수행시간을 가진다.

전체적으로 볼 때 축소 성능은 두 가지 데이터의 실험에 대해서 지식증류가 가장 우수하고, 구조 축소와 가지치기가 비슷함을 보인다. 연산량이 중요한 경우에는 가지치기가 구조 축소에 비해 유리할 수 있다.

5. 경량화 기법의 상호 비교 분석

5.1 주요 특성 및 기법의 선택

구조 축소와 가지치기 둘 다 구조적인 변경을 수행하지만, 엄밀히 구분하면, 가지치기에서는 네트워크의 층이나 블록은 고정되고 층 내의 필터의 수만 변경되는 점이 서로 다르다. 가지치기는 층이나 블록의 외부구조는 그대로 두고 내부 구조인 필터를 삭제하므로, 구조적 축소에 비해서 점증적인 변화가 수행된다. 지식증류는 선생과 학생의 네트워크가 주어지고, 이중 결과물인 학생 네트워크의 구조 변화없이 내부 가중치만 변화시키는 방식으로, 앞의 두 가지 방식에 비해서 가장 안정적인 구조를 유지한다. 적절한 규모의 학생 네트워크를 선택하고 인식 성능이 유지되면 안정된 구조에 축소 효과까지 얻을 수 있다. 원래 설계된 네트워크의 구조가 변하지 않는 장점이 있다.

5.2 방식의 결합 가능성

구조적 축소, 가지치기, 지식증류 3가지 방식은 독립적으로 수행되고 있으나, 두 가지 방식익 결합 또는 3가지 방식의 통합도 가능하다. 순서적 측면에서 가지치기는 구조적 축소 다음에 수행되는 것이 적합하다. 또한 계층적인 측면에서 가지치기는 구조적 축소의 하위 계층에 속한다고 볼 수 있다. 다만 독립적인 수행에 비해서 상기 두 가지 방식의 결합은 성능 효과 면에서 중복이 상당하여 경우에 따라 다르지만, 추가적인 향상의 폭은 크지 않을 수 있다.

구조적 축소와 지식증류의 결합은 다소 제한적이다. 일반적인 지식증류인 T-S 모델의 경우, 구조적 축소 후의 네트워크를 T로 놓고, 그보다 작은 네트워크를 선택하여 S로 설정해야 하는데, 이에 적합한 기존의 네트워크를 찾는 것이 어려울 수 있다. 이에 비해 SD(Self-distillation)는 S 모델의 필요없이 자신의 네트워크만으로 지식증류가 가능하기 때문에 적용이 가능하다. 이 방식 역시 성능 향상 측면에서 상당한 중복이 존재한다. 마지막으로, 3가지 방식을 하나로 결합한 것으로 구조적 축소, 가지치기, 지식증류를 순서적인 파이프라인으로 구성할 수 있으며, 앞의 두 결합 방식을 통합한 것이다.

고찰하면, 기법을 순서적으로 추가하면 성능의 개선이 가능하나, 대상 네트워크와 데이터 셋에 따라 편차가 있을 수 있으며, 수행시간이 증가하므로 효율성은 경우에 따라 다를 수 있다. 다만, 네트워크에 따라 각 기법간의 특성을 분석한 후, 중복을 최소화하면서 성능과 수행시간의 개선을 높일 수 있는 결합이 필요하다.

6. 결 론

본 논문에서는 딥러닝 모델의 경량화에 대한 대표적 3가지 기법인 구조 축소, 가지치기, 그리고 지식증류를 비교하고 분석하였다. CIFAR10/100⁽¹⁵⁾ 데이터와 ResNet56/110 모델에 대해서, 정확도 저하(Acc drop)를 연산량 감소(FLOPs drop) 성능을 구하고, 공정한 비교를 위한 지표를 도입하였다. 비교 결과 축소 성능은 지식증류가 가장 우수하고, 구조 축소와 가지치기가 비슷하나 연산량이 적은 가지치기가 구조 축소에 비해서는 장점을 가진다. 추가로 3가지 기법에 대한 특성을 분석하고 각 기법의 결합 가능성에 대해서 분석하였다. 향후, 다양한 데이터와 모델에 대한 확장된 비교 및 분석이 필요하다.

Acknowledgements

This Research was supported by Seokyeong University in 2020..

References

Y. LeCun, Y. Bengio, G. Hinton, 2015, Deep learning, Nature, Vol. 521, No. , pp. 436-444

A. Krizhevsky, I. Sutskever, G. E Hinton, 2012, Imagenet classification with deep convolutional neural networks, In Advances in neural information processing systems, pp. 1097-1105

S. Han, H. Mao, W. J. Dally, 2015, Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding, arXiv preprint arXiv: 1510.00149

Z. Wang, S. Lin, J. Xie, Y. Lin, 2019, Pruning blocks for CNN compression and acceleration via online ensemble distillation, IEEE Access, Vol. 7, No. , pp. 175703-175716

H. Li, A. Kadav, I. Durdanovic, H. Samet, H. P. Graf, 2016, Pruning Filters for Efficient ConvNets, CoRR abs/1608.08 710

J. H. Luo, J. Wu, W. Lin, 2017, ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression, ICCV 2017: 5068-5076.

A. Savakis, B. Minnehan, 2019, Cascaded projection: End-to- end network compression and acceleration, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10715-10724

S. Lee, K. Seo, 2020, Hybrid Pruning of Deep Learning System, The Transactions of the Korean Institute of Electrical Engineers, Vol. 69, No. 11, pp. 1750-1754

X. Dong, Y. Yang, 2019, Network pruning via transformable architecture search, In NeurIPS

Y. He, P. Liu, Z. Wang, Y. Yang, 2019, Pruning filter via geometric median for deep convolutional neural networks acceleration, In CVPR

M. Lin, R. Ji, Y. Wang, Y. Zhang, B. Zhang, Y. Tian, 2020, Hrank : Filter pruning using high-rank feature map, In IEEE Conf.Comput. Vis. Pattern Recog.

M. Lin, R. Ji, Y. Zhang, B. Zhang, Y. Wu, Y. Tian, 2020, Channel pruning via automatic structure search, arXiv preprint arXiv:2001.08565

G. Hinton, O. Vinyals, J. Dean, 2015, Distilling the knowledge in a neural network, In NIPS

Y. Zhang, T. Xiang, T. M. Hospedales, H. Lu, 2018, Deep mutual learning, In: CVPR

A. Krizhevsky, 2009, Learning multiple layers of features from tiny image, Master’s thesis Department of Computer Science University of Toronto

K. He, X. Zhang, S. Ren, J. Sun, 2016, Deep Residual Learning for Image Recognition, Computer Vision and Pattern Recognition

저자소개

서기성(Kisung Seo)

He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University, Seoul, Korea, in 1986, 1988, and 1993 respectively.

He became Full Time Lecturer and Assistant Professor of Industrial Engineering in 1993 and 1995 at Seokyeong University, Seoul, Korea.

He joined Genetic Algorithms Research and Applications Group (GARAGe) and Case Center for Computer-Aided Engineering & Manufacturing, Michigan State University from 1999 to 2002 as a Research Associate.

He was also appointed Visiting Assistant Professor in Electrical & Computer Engineering, Michigan State University from 2002 to 2003.

He was a Visiting Scholar at BEACON (Bio/ computational Evolution in Action CONsortium) Center, Michigan State University from 2011 to 2012.

He is currently Professor of Electronics Engineering, Seokyeong University.

His research interests include deep learning, evolutionary computation, computer vision, and intelligent robotics.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

딥러닝 경량화를 위한 구조, 가지치기, 지식증류 비교

Abstract

Key words

1. 서 론

2. 딥러닝 경량화

2.1 배경

2.2 문제 구성

3. 경량화 기법

3.1 구조적 축소

3.2 가지치기

3.3 지식증류

(1)

(2)

4. 실험 및 결과 비교

4.1 입력 및 수행 조건

4.2 비교 환경

4.3 비교 결과

5. 경량화 기법의 상호 비교 분석

5.1 주요 특성 및 기법의 선택

5.2 방식의 결합 가능성

6. 결 론

Acknowledgements

References

저자소개

서기성(Kisung Seo)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

딥러닝 경량화를 위한 구조, 가지치기, 지식증류 비교

Abstract

Key words

1. 서 론

2. 딥러닝 경량화

2.1 배경

2.2 문제 구성

3. 경량화 기법

3.1 구조적 축소

3.2 가지치기

3.3 지식증류

(1)

(2)

4. 실험 및 결과 비교

4.1 입력 및 수행 조건

4.2 비교 환경

4.3 비교 결과

5. 경량화 기법의 상호 비교 분석

5.1 주요 특성 및 기법의 선택

5.2 방식의 결합 가능성

6. 결 론

Acknowledgements

References

저자소개

서기성(Kisung Seo)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers