• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Computer Science, Sangmyung University, Korea.)



Fundamental frequency, Audio fingerprint, FFMAP, Audio Searching

1. 서 론

멀티미디어 콘텐트들은 우리의 일상과 밀접하게 연결되어있다. 우리의 일상 어디에서도 멀티미디어와의 관련을 찾을 수 있고 우리의 생활 속에서 이것들은 더욱 중요한 작용을 하고 있다. 사람들은 시간이 지날수록 다양한 매체를 통해 더욱 많은 오디오와 비디오의 소비를 하게 되고 그 방법 또한 다양해지고 있다. 인터넷을 통해 특히 오디오 저작물들의 배포가 빈번해지면서 저작물 복제는 더욱 중요한 문제로 여겨져 다양한 연구들이 진행되어왔다[6,7,8,23]. 오디오콘텐츠의 저작권을 검토하기 위한 방법으로는 Tagging[9], Audio Watermarking[10-13]과 같은 기술을 포함해 여러 가지가 있지만, 본 논문에서는 Audio fingerprinting 기술을 이용한 저작물 검색 연구에 대하여 소개한다. 오디오 핑거프린팅은 오디오 데이터 자체의 고유한 값을 담고 있는 내용 기반의 정보를 이용한 것으로, 음원의 일부 특징을 추출하여 저작권 데이터베이스에 있는 원본 음원 특징과 비교하여 저작권 위반여부를 검토하는 기술이다. 오디오 핑거프린팅 기술은 단순한 음원 검색을 목적으로 사용되기도 하지만[17] 음악의 저작권을 검토하는 목적으로 주로 사용된다[4,5,22]. 멀티미디어를 불법적으로 복제하고 배포하는 행위에는 대부분 불법적인 사용에 대한 검출을 피하기 위한 목적으로 다양한 조작들이 가해진다. 그렇기 때문에 오디오 핑거프린트가 충족해야할 조건으로는, 변형 및 왜곡으로 부터의 강인함이 포함된다. 기존에 제안되었던 대부분의 오디오 핑거프린팅 방법은 시간영역의 신호인 오디오를 주파수대역으로 변환하고 지역특징 값을 이용하여 핑거프린트를 생성하는 방법을 제시한다. 비교적 최근연구인 R. Sonnleitner 과 G. Widmer가 제안한 [2,3]도 마찬가지이다. [2]에서 제안된 알고리즘은 오디오의 주파수 대역에서의 특징 값들을 4차원 연속 해시표현으로 구조화한 오디오 핑거프린트 방법을 제안하고 그 표현방식을 “쿼드(quad)”라고 부른다. [2]에서는 제안된 알고리즘이 잡음 및 스피드, 피치 변화와 같은 오디오 품질 저하에 강건할 뿐만 아니라 많은 양의 스피드 또는 주파수 스케일링에 대한 오디오 핑거프린팅 방법임을 실험을 통해보였다. 본 논문에서는 R. Sonnleitner 과 G. Widmer의 Quad 성분을 이용한 방법의 성능과 본 연구에서 새로 제안하는 오디오 핑거프린트 방법의 성능을 비교하기 위하여 동일한 실험조건 아래에서 검출률 비교를 진행한다.

Quad-based 알고리즘[2]을 포함한 대부분의 오디오 핑거프린트 알고리즘은 주파수 대역에서 지역의 최댓값을 추출하고 추출된 최댓값을 지역 특징 값으로 정의하여 핑거프린트를 생성한다[15,16]. 하지만 주파수 대역에서 핑거프린트를 추출하는 방식은 원본 오디오 파일에 피치가 변경되는 조작이 가해지면 주파수 대역에서의 지역 최댓값이 불규칙하게 변경되고 핑거프린트 값의 고유성이 훼손되게 된다. 이는 오디오 매칭의 부정확성으로 이어진다.

본 논문에서는 오디오 검출을 조작으로 부터의 오디오 핑거프린트의 견고성을 개선하기 위하여 fundamental frequency 값을 기반으로 한 오디오 핑거프린트 추출 방법과 핑거프린트 매칭 방법을 제안한다. 오디오 데이터를 낮은 주파수 대역과 높은 주파수 대역으로 분리하고, 분리된 오디오 데이터에서 각각 추출된 기본 주파수 값을 이용하여 fundamental frequency map(FFMAP)을 생성한다. 동일한 음악에 대한 동기를 맞추기 위하여 FFMAP의 크기를 조정하고 재구성하여 피치 배열을 생성한다. 최종적으로 생성된 피치배열이 오디오의 핑거프린트가 되며, 한 오디오에 대하여 낮은 주파수, 높은 주파수 대역에 대한 두 가지 핑거프린트를 반환하게 된다. 핑거프린트들 간의 유사성을 비교하기 위하여 Pearson’s correlation score가 사용된다. 제안된 알고리즘의 성능을 증명하기 위하여 다양한 공격이 적용된 환경에서의 검출률을 선행연구인 Quad-based[3]와 이전 버전의 old-proposed[1]의 검출률과 비교하는 실험을 진행한다.

본 논문의 구성은 다음과 같다. 2절에서는 오디오 핑거프린트를 추출하는 방법과 핑거프린트들 간의 유사성을 계산하는 알고리즘에 대한 설명을 한다. 3절에서는 실험의 조건과 결과를 보여주며, 4절에서의 결론으로 마무리한다.

2. FFMAP 기반의 Audio Fingerprinting 방법

2.1 제안된 방법의 특징

오디오 핑거프린팅 기술은 원본 오디오에서 특징 값들을 추출하고 재가공하여 생성된 오디오의 핑거프린트를 해당 오디오의 저작권의 침해여부를 판별하기 위한 도구로 사용하는 기술이다. 따라서 이상적인 핑거프린트 시스템에 만족해야할 몇 가지 조건이 있다[14]. 그 중 가장 기본적인 세 가지 조건은 아래와 같다.

강건성 (Robustness): 압축, 왜곡 및 간섭과 같은 외부 공격에도 불구한 정확한 식별 능력

정확성 (Accuracy): 정확한 식별, 잘못된 식별, 실패한 식별이 얼마나 되는가.

세분성 (Granularity): 짧은 시간 단위의 입력만으로 식별을 해내는 능력

복잡도 (Complexity): 효율적인 컴퓨팅 코스트

위 세 가지 조건들 중 본 연구에서는 다양한 공격들에도 불구하고 오디오를 정확하게 식별 할 수 있는 능력인 오디오 핑거프린트의 강건성과 정확성을 충족시키는 것에 우선적으로 초점을 맞추어 오디오 검출 과정이 진행된다.

오디오 핑거프린팅 기술과 관련된 대부분의 연구들은 오디오에 푸리에 변환을 수행 한 후 생성된 스펙트로그램에서 지역 최댓값을 구조를 특징 값으로 하여 구조를 분석하고 오디오 핑거프린트를 추출한다[18-21]. 하지만 원본 오디오 데이터에 피치(음조)가 변화하는 조작이 발생하면 주파수 대역에서의 오디오 특징 값들은 불규칙한 이동을 보인다[1]. 이러한 왜곡은 원본 오디오에서 추출된 핑거프린트의 일관성이 유지되지 못함을 의미하며, 오디오의 부정확한 매칭으로 이어진다. 반면에, fundamental frequency 대역에서 추출되는 오디오 특징값을 사용하면, 원본 오디오에 피치 변경과 같은 공격이 가해지더라도 fundamental frequency의 값은 전체적으로 y축에 대하여 평행하게 이동한다[1]. 이러한 특성을 이용하여 피치 및 스피드 변화에 강인한 오디오 핑거프린팅 방법을 설계할 수 있다.

[1]에서 이전에 제안했던 방법에는 앞서 언급한 피치 변경을 포함한 스피드 변경과 템포 변경, 노이즈 추가와 같은 공격들에 대하여 오디오 핑거프린트의 성능을 검증한다. 이와 같은 조작들은 fundamental frequency 대역에서 그 값들이 대체적으로 규칙적이게 이동한다. 하지만 오디오 데이터 전체에 대한 조작이 아닌 특정 주파수 대역에만 변화를 주는 공격에 대해서는 [그림 1]과 같이 그 변화가 불규칙하므로 이러한 특성을 적용하기가 힘들다.

본 연구에서는 low pass filter 와 high pass filter와 같은 특정 성분의 변화를 유도하는 공격들 대한 오디오 핑거프린트의 성능을 보강하기 위하여 새로운 오디오 핑거프린팅 방법을 제안한다. [그림 2]는 새로 제안된 오디오 핑거프린트를 추출하는 과정에 대한 간단한 도표이다. 본 논문에서는 음악에 주로 사용되는 피치의 범위를 고려하여 C3부터 C7까지의 주파수 값인 100Hz부터 2000Hz까지의 fundamental frequency를 오디오의 특징값의 범위라고 정의한다. 따라서 정의된 기본 주파수의 중간 값인 1000Hz를 차단 주파수로 하여 실험을 진행한다.

입력 오디오는 핑거프린트 추출 단계로 들어가 1000Hz를 기준으로 low pass filtering과 high pass filtering 처리가 되어 두 종류의 오디오 핑거프린트를 반환하게 된다. 생성된 오디오 핑거프린트는 [그림 3]과 같이 원본 오디오 데이터베이스에 저장된다.

라벨링이 되지 않은 오디오가 입력으로 들어오는 경우에도 동일한 오디오 핑거프린트 생성 과정을 거쳐 low 핑거프린트와 high fingerprint를 반환한다. 생성된 low fingerprint와 high fingerprint는 데이터베이스에 저장되어 있는 핑거프린트와의 유사도 검색을 통하여 일치조건을 충족하는 데이터의 오디오 정보를 반환하게 된다. 이때 유사도 계산 과정에서, low fingerprint는 데이터베이스에 미리 분류되어있는 low fingerprint에 대해서만 유사도 계산이 수행되며 high fingerprint의 경우도 동일하다.

그림. 1. fundamental frequency 대역에서의 특징 값 (위: 원본, 아래: high pass filter 적용)

Fig. 1. Feature points in fundamental frequency domain (left: original audio, right: high pass filtered audio)

../../Resources/kiee/KIEE.2020.69.1.120/fig1.png

그림. 2. 오디오 핑거프린트 생성 과정

Fig. 2. Process of generating audio fingerprint

../../Resources/kiee/KIEE.2020.69.1.120/fig2.png

그림. 3. 오디오 핑거프린트 매칭 과정

Fig. 3. Process of matching audio fingerprint

../../Resources/kiee/KIEE.2020.69.1.120/fig3.png

2.2 오디오 특징 값 추출

오디오 핑거프린트를 생성하기 위해서 적절한 오디오 특징값 추출방법이 필요하다. 본 연구에서는 [1]에서 정의된 것과 동일한 기본주파수 성분 기반의 오디오 추출방법을 사용한다. 해당 방법에 대하여 간략하게 설명하자면, 오디오 데이터의 fundamental frequency값은 normalized autocorrelation 에 의해 계산된다. 이 과정에서 불필요한 성분이 오디오의 무성음구간이 제거된다. 추출된 특징값들은 frame-fundamental frequency 표현기법인 FFMAP을 구성하게 된다.

2.3 유사도 계산 알고리즘

2.2절의 과정을 통해 생성된 FFMAP은 배열의 형태로 반환되어 최종적으로 frame의 개수를 배열의 길이로 가지는 피치배열인 핑거프린트를 얻게 된다. 원본 오디오들로부터 추출된 오디오 핑거프린트들은 [그림 3]와 같이 라벨링이 되지 않은 오디오들과의 매칭에 이용하기 위하여 데이터베이스에 저장된다. 핑거프린트간의 매칭에는 피어슨상관점수가 적용되며 표현식은 식(1)과 같다. 피어슨 상관점수는 x값에 따른 y값의 변화를 기반으로 한 상관점수이므로 변화가 발생하더라도 그 변화의 정도가 일정하다면 높은 상관 점수를 얻게 된다. Fundamental frequency 대역에서 오디오의 특징 값들은 특정 공격이 가해지면 y축을 기준으로 대체적으로 평행하게 이동하는 성질을 가지기 때문에 피어슨 상관점수 계산을 통해서 높은 값을 얻을 수 있음을 예측할 수 있다.

(1)
$$\rho_{X,\:Y}=\dfrac{cov(X,\:Y)}{\sigma_{X}\sigma_{Y}}=\dfrac{E[(X-\mu_{X})(Y-\mu_{Y})]}{\sigma_{X}\sigma_{Y}}$$

(2)
../../Resources/kiee/KIEE.2020.69.1.120/equ2.png

식(1)(2)에서 $\mu_{X},\:\mu_{Y}$는 모집단 $X$와$Y$의 평균을 의미하며 $\sigma_{X},\:\sigma_{Y}$는 $X$와$Y$의 표준편차, $m$은 모집단의 개체 수를 의미한다.

3. 실 험

3절에서는 제안된 FFMAP기반의 핑거프린팅 방법을 성능을 검토하기 위하여 검출을 피하기 위한 의도적인 조작을 발생시킨 환경을 조성하여 해당 알고리즘의 검출률을 조사한다. 기존의 주파수 대역에서 핑거프린트를 추출하는 방법인 [2]와 우리가 이전에 제안했던 방법 [1]와 동일한 실험조건에서 성능을 비교한다. 편의를 위해 지금부터 방법[3]은 Quad-based, 방법 [1]은 old-proposed로 명시한다.

실험에 사용된 데이터로는 100개의 오디오 데이터가 사용된다. 오디오 데이터는 장르의 구분 없이 다양하며, 오디오의 길이는 1분, mono channel에 sampling frequency는 8000Hz으로 구성된다. 오디오 데이터 세팅은 정확한 비교를 위하여 Quad-based 방법과 일치시킨 것이다.

실험환경은 크게 1)템포변경, 2)피치변경, 3)스피드변경, 4)노이즈추가, 5)필터적용으로 총 5가지로 나뉜다. 이 중 스피드변경, 노이즈추가 환경에 대해서는 세 가지 방법 모두의 성능을 비교하며, 템포, 피치 변경환경과 필터통과 환경은 old-proposed 방법과 현재방법의 성능 비교를 진행한다. 제안된 방법과 old-proposed는 유사도 계산과정에서 모두 피어슨상관점수를 사용하므로 그 값이 0.4 보다 크거나 같으면 동일한 오디오로 판단한다. Quad-based 방법에서 사용된 오디오 핑거프린트간의 일치 기준은 다르다. 또한 본 논문에서는 알고리즘의 성능을 평가하기 위한 지표로 precision이 사용된다. tp와 fp는 precision룰 구하기 위해 사용되는 confusion matrix(분류 행렬) 요소의 일부이다. tp(true positive)는 실제 True값을 가지는 데이터가 분류모델에 의하여 True로 판단되는 것을 의미하고, fp(false positive)는 실제 False값을 가지는 데이터가 분류모델에 의해 True로 분류되는 것을 의미한다. 따라서 precision은 오디오 매칭이 성공되었다고 판단한 횟수 중 올바른 판단을 한 경우의 비율을 의미하므로 높은 precision 값은 성공적으로 오디오 매칭이 되었다고 잘못 판단하는 경우가 낮은 것을 의미한다.

(3)
$$pre cision=\dfrac{tp}{tp+fp}$$

세부실험들에 대한 결과를 보기 전에 공격환경들에 대한 정의가 필요하다. 템포변경 환경은 음악의 음조의 변화를 제외한 빠르기에만 조작이 가해지는 환경이다. 반면, 스피드변경 환경은 음악의 빠르기와 음조가 비례하게 변화가 발생하는 공격으로 정의한다. 템포, 피치, 스피드변경 공격은 그 값의 비율이 70~130%까지 10%간격으로 적용되며, 노이즈 추가의 경우는 5~50dB까지 5dB의 간격으로 노이즈가 적용된다. 마지막으로 필터적용 환경에는 low pass filter와 high pass filter가 있으며 기준 주파수는 500~1000Hz까지 100Hz간격으로 적용된다.

3.1 tempo modification

템포변경 공격은 원본 오디오의 빠르기에만 변화가 발생하는 공격이다. [그림 4]에서 그래프의 세로축은 각 알고리즘의 검출률을 나타내며, 가로축은 원본 오디오에 대한 조작된 오디오의 상대적 길이를 의미한다. 원본 오디오 데이터의 빠르기를 10%간격으로 최대 30%만큼 증감시킨 공격데이터에 대한 검출 성능을 조사한다.

템포공격 실험에는 모든 실험환경에 대해서 제안된 방법과 old-proposed 방법이 100%로 높은 검출률을 얻는다.

그림. 4. tempo 변경에 대한 검출률

Fig. 4. Precision according to tempo variation

../../Resources/kiee/KIEE.2020.69.1.120/fig4.png

3.2 pitch modification

피치변경 공격은 템포변경과 마찬가지로 원본 오디오의 피치 값이 최소 70, 최대 130%까지 변화하며, 그 간격은 10%이다. [그림 5]에서 그래프의 가로축은 원본 오디오에 대한 조작된 오디오의 상대적 음조 값을 나타내며, 10%는 반음으로 정의한다.

그림. 5. pitch 변경에 대한 검출률

Fig. 5. Precision according to pitch variation

../../Resources/kiee/KIEE.2020.69.1.120/fig5.png

제안된 방법과 old-proposed는 모든 실험환경에서 거의 흡사한 검출률을 기록하지만 변경되는 피치 값이 커질수록 새로 제안된 방법에서 조금 더 개선된 성능을 보임을 알 수 있다.

3.3 speed modification

스피드변경 공격은 원본 오디오에서 템포와 피치에 비례적으로 변화가 발생하는 공격이다. 스피드변경 공격은 제안된 방법과 old-proposed, Quad-based 세 가지 방법의 검출률을 모두 비교한다. [그림 6]에서 그래프의 가로축은 원본 오디오에 대한 조작된 오디오의 상대적 길이를 의미한다.

제안된 방법과 old-proposed의 성능은 전반적으로 비슷하지만, Quad-based 방법은 원본 데이터를 제외한 나머지 환경에서는 스피드변경의 정도가 강해질수록 검출성능의 폭이 크게 저하되는 것을 볼 수 있다. 특히 오디오의 스피드가 원본의 70%, 80%, 130%로 변경된 조건에서는 오디오 매칭이 전혀 진행되지 않는다.

그림. 6. speed 변경에 대한 검출률

Fig. 6. Precision according to speed variation

../../Resources/kiee/KIEE.2020.69.1.120/fig6.png

3.4 noise adding

노이즈삽입 공격은 원본에서 5~50dB 만큼 노이즈를 추가한 실험환경과, 스피드가 조작된 오디오에서 노이즈를 추가한 실험환경으로 크게 두 가지로 나뉜다. 조작된 오디오의 스피드는 95%와 105%로 한다.

그림. 7. noise 삽입에 대한 검출률

Fig. 7. Precision according to SNR variation

../../Resources/kiee/KIEE.2020.69.1.120/fig7.png

노이즈 삽입 환경에서는 세 가지의 오디오 핑거프린트 방법들이 대체적으로 모두 우수한 성능을 보임을 알 수 있다. 하지만 노이즈의 정도가 심한 5~10dB에서는 방법들 간의 검출률의 차이가 발생한다. 제안된 방법의 경우 오디오의 속도와 노이즈의 정도에 관계없이 모든 실험환경에서 매우 높은 검출률을 보이지만, Quad-base와 old proposed의 두 방법들은 오디오의 노이즈 삽입 정도가 심한 구간에서 비교적 저조한 성능을 보임을 알 수 있다. 이러한 추세는 그림 7의 원본에 노이즈가 삽입된 경우가 보다 그림 8그림 9의 오디오의 스피드가 조작된 조건에서 더욱 확연하게 드러난다.

3.5 filtering

필터적용 공격은 low pass filtering과 high pass filtering 두 가지로 나누어진다. 필터적용 공격을 제외한 모든 공격에서는 거의 모든 fundamental frequency의 값이 규칙적으로 이동하게 되지만 low pass filter와 high pass filter를 적용하는 공격은 특정 주파수 값에만 변화를 주게 된다. 이러한 점에서 새롭게 제안하는 방법과 old-proposed의 성능을 본격적으로 비교하기 위한 실험환경이다.

그림. 8. noise 삽입 및 speed 95%에 대한 검출률

Fig. 8. Precision according to SNR variation with 95% of speed

../../Resources/kiee/KIEE.2020.69.1.120/fig8.png

그림. 9. noise 삽입 및 speed 105%에 대한 검출률

Fig. 9. Precision according to SNR variation with 105% of speed

../../Resources/kiee/KIEE.2020.69.1.120/fig9.png

그림. 10. low pass filter 적용에 대한 검출률

Fig. 10. Precision according to low pass filtering

../../Resources/kiee/KIEE.2020.69.1.120/fig10.png

그림 10은 원본 오디오에 low pass filter를 적용시킨 환경에 대한 결과이다. 그래프의 가로축은 필터가 적용되는 차단주파수 값을 의미한다. old-proposed는 차단주파수의 범위가 800~ 1000Hz인 범위에서는 높은 검출률을 보이지만 차단주파수가 500Hz에 가까워 질수록 검출률이 큰 폭으로 떨어지게 된다. 또한 Quad-based는 해당 실험 환경에서 차단주파수의 값과 상관없이 전 구간에서 매우 낮은 검출률 또는 검출이 이루어지지 않음이 확인 된다. 제안된 방법은 차단주파수가 500Hz인 조건일 때를 제외하고는 모든 구간에서 90%가 넘는 높은 검출률을 기록한다.

그림. 11. high pass filter 적용에 대한 검출률

Fig. 11. Precision according to high pass fitering

../../Resources/kiee/KIEE.2020.69.1.120/fig11.png

그림 11은 원본 오디오에 high pass filter가 적용되는 환경이다. 마찬가지로 그래프의 가로축은 필터가 적용되는 차단주파수의 값을 의미한다. old-proposed의 성능은 조건 값에 관계없이 거의 모든 오디오에 대해서 검출이 이루어지지 않는다. Quad-based의 경우 500~900Hz를 차단 주파수로 가지는 환경에서는 높은 검출률을 보이지만 차단주파수 1000Hz인 조건에서 그 검출률이 큰 폭으로 감소하는 것을 확인할 수 있다. 모든 조건에 대하여 새로 제안하는 방법의 성능이 가장 우수함을 알 수 있다.

4. 결 론

본 논문에서는 fundamental frequency 성분을 이용한 새로운 오디오 핑거프린트 방법을 제안한다. 연구의 목적은 기존의 방법과 비교하여 더욱 다양한 공격환경에 대해서 제안된 오디오 핑거프린트의 견고성을 증명하는 것이다. 실험에 사용된 공격의 종류로는 기존에도 있었던 템포, 피치, 스피드 변경과 노이즈 삽입 환경에서 저역통과필터와 고역통과필터가 추가적으로 구성된다. 제안된 방법은 저역통과필터와 고역통과필터 같은 fundamental frequency의 특정 부분에만 변화가 발생하는 공격에 대해 저항성을 높이기 위하여 원본 오디오의 low fingerprint 정보와 high fingerprint 정보를 데이터베이스에 저장하여 오디오 매칭에 이용한다. FFMAP이라 불리는 frame-fundamental frequency 표현기법에서 생성된 오디오 핑거프린트는 선행 연구인 Quad-based방법[3], 이전에 제안된 old proposed 방법[1]과 비교하여 총 6가지 실험환경에서 더 우수한 성능을 보인다. 본 논문에서 제안하는 방법은 오디오 핑거프린트의 종류를 고주파 영역과 저주파 영역의 정보를 가진 오디오 핑거프린트 두 가지로 분리하여 오디오 검출을 진행한다. 이 방법은 오디오 검출률을 높여 본 논문의 우선적인 목표인 오디오핑거프린트의 강건성 및 정확성을 충족시킨다. 하지만 핑거프린트가 두 가지로 나누어진 만큼 데이터의 양이 증가하는 한계도 수반된다. 따라서 향후 관련 연구는 제안된 오디오 핑거프린트 데이터베이스의 규모를 축소시키고, 검색속도를 향상시켜 이상적인 오디오 핑거프린팅 시스템이 되기 위해 나머지 조건들을 충족시키는 것을 중점으로 진행될 예정이다.

Acknowledgements

이 논문은 2019년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임 (No.2017-0- 00318, 건전한 미디어 소비환경제공을 위한 소셜 IoM 기반 트러스트 미디어 생성·제어 프레임워크 기술 개발)

References

1 
Heui-su Son, Sung-woo Byun, Soek-Pil Lee, 2019, Illegal Audio Copy Detection using Fundamental Frequency Map, in Proceedings of the 16th International Joint Conference on e-Business and Telecommunications, Vol. 1: SIGMAP, pp. 350-355Google Search
2 
Sonnleitner Reinhard, Gerhard Widmer, 2014, Quad-Based Audio Fingerprinting Robust to Time and Frequency Scaling, In: DAFx: Citeseer, pp. 173-180Google Search
3 
Sonnleitner Reinhard, Gerhard Widmer, 2016, Robust Quad- Based Audio Fingerprinting, IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 24, No. 3, pp. 409-421DOI
4 
Bellettini Carlo, Gianluca Mazzini, 2010, A Framework for Robust Audio Fingerprinting, JCM, Vol. 5, No. 5, pp. 409-424Google Search
5 
Haitsma Jaap, Ton Kalker, 2002, A Highly Robust Audio Fingerprinting System, Ismir, pp. 107-115Google Search
6 
Hervé Jégou, Jonathan Delhumeau, Jiangbo Yuan, Guillaume Gravier, Patrick Gros, 2012, Babaz: A Large Scale Audio Search System for Video Copy Detection, in Proc. of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 2369-2372DOI
7 
Deok-Gyu Lee, Im-Yeong Lee, Jong-Keun Ahn, Yong- Hae Kong, 2002, The Illegal Copy Protection using Hidden Agent, in Proc. of Eurasian Conference on Information and Communication Technology, Springer, pp. 832-841DOI
8 
Yagüe Mariemma, Patrick Wolf, Martin Steinebach, Konstantin Diener, 2007, Complementing DRM with Digital Watermarking: Mark, Search, Retrieve, Online Information ReviewDOI
9 
Jailie Shen, Wang Meng, Shuichang Yan, HweeHwa Pang, Xiansheng Hua, 2010, Effective Music Tagging through Advanced Statistical Modeling, in Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval: ACM, pp. 635-642DOI
10 
Chung-Ping Wu, Po-Chyi Su, C-C Jay Kuo, 2000, Robust and Efficient Digital Audio Watermarking using Audio Content Analysis, in Security and Watermarking of Multimedia Contents II: International Society for Optics and Photonics, pp. 382-393DOI
11 
Michael Arnold, 2000, Audio Watermarking: Features, Applications and Algorithms, in Proc. of 2000 IEEE International Conference on Multimedia and Expo. ICME2000, Proceedings. Latest Advances in the Fast Changing World of Multimedia(Cat. No. 00TH8532) IEEE, pp. 1013-1016DOI
12 
Hwai-Tsu Hu, Ling-Yuan Hsu, 2015, Robust, Transparent and High-Capacity Audio Watermarking in DCT Domain, Signal Processing, Vol. 109, pp. 226-235DOI
13 
Ivana Milaš, Božidarka Radović, Danilo Janković, 2016, A New Audio Watermarking Method with Optimal Detection, in Proc. of 2016 5th Mediterranean Conference on Embedded Computing (MECO), IEEE, pp. 116-119DOI
14 
Cano Pedro, Eloi Batlle, Ton Kalker, Jaap Haitsma, 2005, A Review of Audio Fingerprinting, Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, Vol. 41, No. 3, pp. 271-284DOI
15 
Jin S Seo, 2014, An Asymmetric Matching Method for a Robust Binary Audio Fingerprinting, IEEE Signal Processing Letters, Vol. 21, No. 7, pp. 844-847DOI
16 
Guang Yang, Xiaoou Chen, Deshun Yang, 2014, Efficient Music Identification by Utilizing Space-Saving Audio Fingerprinting System, in Proc. of 2014 IEEE International Conference on Multimedia and Expo (ICME), IEEE, pp. 1-6DOI
17 
Avery Wang, 2003, An Industrial Strength Audio Search Algorithm, Ismir, Washington DC, pp. 7-13Google Search
18 
Meinard Müller, Frank Kurth, Michael Clausen, 2005, Audio Matching Via Chroma-Based Statistical Features, ISMIR, 6thGoogle Search
19 
Nanzhu Jiang, Peter Grosche, Verena Konz, Meinard Müller, 2011, Analyzing Chroma Feature Types for Automated Chord Recognition, in Proc. of Audio Engineering Society Conference: 42nd International Conference: Semantic Audio: Audio Engineering SocietyGoogle Search
20 
Mei Chen, Qingmei Xiao, Kazuyuki Matsumoto, Minoru Yoshida, Xin Luo, Kenji Kita, 2013, A Fast Retrieval Algorithm Based on Fibonacci Hashing for Audio Fingerprinting Systems, in Proc. of 2013 International Conference on Advanced Information Engineering and Education Science (ICAIEES 2013): Atlantis PressDOI
21 
Xavier Anguera, Antonio Garzon, Tomasz Adamek, 2012, Mask: Robust Local Features for Audio Fingerprinting, in Proc. of 2012 IEEE International Conference on Multimedia and Expo, IEEE, pp. 455-460DOI
22 
Mani Malekesmaeili, Rabab K. Ward, 2014, A Local Fingerprinting Approach for Audio Copy Detection, Signal Processing, Vol. 98, pp. 308-321DOI
23 
Sebastian Ewert, Meinard Muller, Peter Grosche, 2009, High Resolution Audio Synchronization using Chroma Onset Features, in Proc. of 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, pp. 1869-1872DOI

저자소개

손희수 (Heui-su Son)
../../Resources/kiee/KIEE.2020.69.1.120/au1.png

Heui-su Son received B.S. degree in Media software from SangMyung University, Seoul, Korea in 2018.

She is now a Master degree student in department of computer science from SangMyung University.

Her main research interests include signal processing, artificial intelligence, audio digital processing

이석필 (Seok-Pil Lee)
../../Resources/kiee/KIEE.2020.69.1.120/au2.png

Seok-Pil Lee received B.S. and M.S. degrees in electrical engineering from Yonsei University, Seoul, Korea, in 1990 and 1992, respectively.

In 1997, he earned a Ph.D. degree in electrical engineering also at Yonsei University.

From 1997 to 2002, he worked as a senior research staff at Daewoo Electronics, Seoul, Korea.

From 2002 to 2012, he worked as a head of digital media research center of Korea Electronics Technology Institute.

He worked also as a research staff at Georgia Tech., Atlanta, USA from 2010 to 2011.

He is currently a professor at the dept. of electronic engineering, SangMyung University.

His research interests include artificial intelligence, audio digital processing and multimedia searching.