• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid




Dual-microphone, Voice activity detection, Cross power spectrum phase

1. 서 론

음성이 있는 구간을 검출하는 음성 구간 검출 알고리즘은 음성 인식, 음성 압축, 잡음 제거 등 음성 신호 처리에서 중요한 역할을 담당하고 있다. 음성 인식에서는 음성이 포함된 구간만을 검출하여 음성 인식 알고리즘을 수행함으로써 음성이 포함되지 않은 구간에서의 오인식을 줄이는 동시에 시스템 리소스를 절약할 수 있다. 음성 압축에서는 음성이 포함되지 않은 구간과 음성이 포함된 구간에 대해 별도의 압축 알고리즘을 적용하여 압축 효율을 높일 수 있다. 그리고 음성에 포함된 잡음을 제거하는 경우에는 음성 구간 검출기를 사용하여 음성이 없는 구간에서 잡음의 통계량을 업데이트할 수 있다.

하나의 마이크만을 이용하여 신호를 취득하여 음성 구간 검출 알고리즘을 적용하는 경우는, 잡음의 특성이 시간에 따라 변동이 심하거나 잡음이 음성과 비슷한 주파수 특성을 갖는 광대역 잡음 환경에서는 음성 검출 성능이 현저하게 저하된다. 이와는 달리 두 개 이상의 마이크로부터 취득된 신호를 사용하는 경우에는 신호의 시간, 주파수 특성뿐만 아니라 신호의 공간 정보를 이용할 수 있으므로 광대역 특성을 갖는 잡음이나 신호 대 잡음 비가 낮은 상황에서도 음성 구간을 보다 정확히 구분할 가능성이 높아진다. 이렇게 두 개 이상의 마이크를 이용하여 신호의 공간 정보를 이용하는 음성 구간 검출 알고리즘은 여러 측면에서 연구되었는데, 신호의 코히어런스(coherence)를 이용하는 방법[1-5]과 특정 방향에 대한 신호의 응답을 이용하는 방법[6-9]으로 크게 나눌 수 있다.

신호의 코히어런스를 사용하기 위해서는 generalized correlation, magnitude-squared coherence(MSC), cross power spectrum phase(CPSP) 등을 계산할 수 있는데, 특정 방향에서 두 개의 마이크에 도달하는 신호는 서로 간의 코히어런스가 높게 나타나지만 열잡음이나 반향음 등으로 발생하는 잡음의 코히어런스는 낮게 나타난다는 점을 이용하여 음성 신호 구간을 검출한다. 이와는 달리 특정 방향에 대한 신호의 응답을 이용하는 음성 구간 검출 방법은 타겟 신호의 방향을 알고 있을 때 빔포밍 등의 방법을 이용하여 타겟 신호 이외의 방향에서 마이크에 도달하는 신호를 감쇄시킨 후 신호의 에너지를 이용하여 타겟 신호 구간을 검출한다.

MSC를 기반으로 하는 연구에서는 방향성이 약한 배경 잡음을 대상으로 하며, 입력 신호의 MSC를 계산하여 정해진 문턱값과 비교하는 방법으로 음성 구간을 판별하였다[1]. 이러한 문턱값은 실험과정을 통해 정해져야 하는데 상황에 따라 적응적으로 문턱값을 정하는 연구도 진행되었다[3]. Armani 등은 CPSP에 도달 지연 시간 성분을 곱한 후 모든 주파수 영역에 대해 적분한 값 중 최댓값을 음성 구간 검출을 위한 특징으로 사용하였다[4]. 이렇게 함으로써 음성 구간 검출의 대상이 되는 화자가 움직이는 경우도 음성 구간 검출이 가능하도록 하였다. [5]의 연구에서는 CPSP를 이용하는 대신 각 시간 프레임에서의 periodogram을 계산하고 이를 바탕으로 파워 스펙트럼 밀도를 추정한다. 추정된 파워 스펙트럼 밀도를 이용하여 교차 파워 스펙트럼 밀도(cross power spectral density: CPSD)의 추정값을 계산한다. 이 연구에서는 타겟 방향 음성 신호의 CPSD 분포는 잡음 신호의 CPSD에 비해 작은 분산을 가진다는 사실에 착안하여 입력 신호 CPSD의 분산을 문턱값과 비교하여 음성/비음성을 판별하였다.

[6]에서 진행된 연구에서는 고정 빔포머와 adaptive blocking matrix의 출력을 이용하여 신호 대 잡음 비를 추정하고 이를 이용하여 음성 구간을 검출하고자 하였으며, Hoffman 등은 GSC(Generalized Sidelobe Canceller)기반의 기술을 제안하였는데, GSC의 출력 파워를 추정된 잡음 파워로 나누어 신호 대 간섭 비(Signal-to-Interference Ratio: SIR)를 추정함으로써 신호의 코히어런스가 높은 잡음에 대해서도 성능을 보장하는 음성 구간 검출기를 고안하였다[7].

빔포머 등을 이용하여 특정 방향에 대한 신호의 응답을 이용하는 방법은 두 개의 마이크만을 사용할 때는 효용성이 떨어지는 단점이 있으며, 코히어런스를 사용하는 방법에서는 방향성이 없는 잡음 환경이나 간섭 신호가 크지 않은 환경에서 주로 적용되어 왔다. 본 논문에서는 두 개의 마이크를 이용하여 방향성이 큰, 즉 신호 간 코히어런스가 큰 잡음이 있는 환경에서 타겟 방향 음성 구간을 검출하는 방법을 제안한다. 제안하는 방법은 두 마이크 신호 간의 코히어런스를 측정하는 CPSP를 사용하며, 주파수 영역에서의 윈도우를 이용하여 주파수 영역에서 SIR이 큰 부분을 탐색함으로써 SIR이 낮은 경우에도 높은 음성 구간 검출 성능을 확보하도록 하였다.

2. 듀얼 마이크 신호의 코히어런스

2.1 듀얼 마이크 신호 모델

본 논문에서는 두 개의 마이크를 통해 취득한 신호에 대해 다음과 같은 신호 모델을 사용한다.

(1)
$\begin{align*} &y_{1}[t]=s[t]+n_{1}[t]\\ &y_{2}[t]=\alpha· s[t-D]+n_{2}[t] \end{align*} $

위 식에서 $s$는 이산 시간 $t$에서의 타겟 신호이고, $\alpha$는 첫 번째 마이크에 대한 두 번째 마이크 신호의 감쇄 비율을 나타낸다. $D$는 첫 번째 마이크를 기준으로 할 때, 두 번째 마이크에 도달하는 신호의 지연 시간을 의미하는데 이 값은 타겟 신호의 방향에 의해 결정된다. 두 마이크에서 관찰되는 잡음은 각각 $n_{1}$과 $n_{2}$로 표시하였는데, 대기 중의 열잡음, 마이크 자체에서 발생하는 잡음 또는 타겟 신호 이외에 특정 방향에서 마이크에 도달하는 간섭 신호 등을 포함한다. 식 (1)을 주파수 영역($f$)으로 표현하면 아래 식과 같다.

(2)
$\begin{align*} &Y_{1}(f)=S(f)+N_{1}(f)\\ &Y_{2}(f)=e^{-j2\pi f D}S(f)+N_{2}(f) \end{align*}$

주파수 영역으로 표현된 두 신호들의 CPSD는 다음과 같은 식으로 나타난다.

(3)
$$P_{Y_{1}Y_{2}}(f)=\alpha P_{S}(f)e^{j2\pi f D}+P_{N_{1}N_{2}}(f)$$

(4)
$$P_{S}(f)=E\left[S(f)S^{*}(f)\right],\: P_{N_{1}N_{2}}(f)=E\left[N_{1}(f)N_{2}^{*}(f)\right]$$

$P_{S}$와 $P_{N_{1}N_{2}}$는 각각 타겟 신호의 auto-PSD(Power Spectral Density)와 두 마이크에 도달하는 잡음 신호의 CPSD이다. 식 (4)에서 위첨자 *는 켤레복소수를 나타내고, $E[·]$는 통계적 기댓값(expectation)을 의미한다.

2.2 코히어런스에 따른 잡음 신호 분류와 CPSP

잡음의 공간적인 특성은 두 마이크 신호 간의 코히어런스를 측정하여 분류할 수 있으며 코히어런스를 측정하기 위해 아래 식과 같이 정규화된 CPSD를 계산한다.

(5)
$$\rho_{N_{1}N_{2}}(f)=\dfrac{P_{N_{1}N_{2}}(f)}{\sqrt{P_{N_{1}}(f)P_{N_{2}}(f)}}$$

(6)
$$P_{N_{i}}(f)=E\left[N_{i}(f)N_{i}^{*}(f)\right]$$

열잡음이나 마이크 자체에서 발생하는 잡음은 두 마이크에서 관찰되는 신호 간의 통계적 상관성(correlation)이 거의 나타나지 않으므로 $\rho_{N_{1}N_{2}}(f)$는 주파수에 상관없이 0에 가까운 값이 된다. 이러한 잡음들은 코히어런스가 0에 가까우므로 incoherent 잡음으로 분류된다.

Incoherent 잡음과 달리 잡음을 발생하는 음원이 명확히 존재하는 경우는 음원에서 발생된 웨이브 프론트(wavefront)가 듀얼 마이크와의 각도에 따라 두 마이크에 도달하는 시간 차이가 발생하게 된다. 듀얼 마이크에 도달하는 입사 각도를 $\theta$, 두 마이크 간의 간격을 $d$라고 한다면, $\rho_{N_{1}N_{2}}(f)$는 아래의 식으로 나타난다. 웨이브 프론트가 듀얼 마이크의 정면에서 입사한다면 두 마이크 간의 도달 시간 차이는 없고, 이 때 $\theta$는 $90^{{o}}$가 된다.

(7)
$$\rho_{N_{1}N_{2}}(f)=e^{j2\pi fd\cos\theta /c}$$

여기서 $c$는 음파의 속도를 나타낸다. 식 (7)에 나타난 것과 같이 특정 음원에서 발생한 잡음에 대해 정규화된 CPSD로 계산된 두 마이크 신호 간의 코히어런스는 주파수가 변함에 따라 진동하는 형태로 나타나며, 절대값은 주파수와 상관없이 항상 1이다. 이러한 잡음은 coherent 잡음으로 분류된다.

Coherent 잡음과 같이 특정 음원에서 잡음이 발생하였지만 마이크에 직접 도달하지 않고 여러 곳에 반사되어 마이크에 도달하는 경우의 코히어런스는 coherent 잡음의 경우와는 다른 형태로 나타나게 된다. 이런 경우는 확산(diffuse) 잡음과 유사한 형태로 나타나는데, 확산 잡음은 듀얼 마이크를 중심으로 하고 반지름이 무한대인 구의 표면에 존재하는 무한한 개수의 음원으로부터 생성된 음파가 마이크에 도달하는 형태의 잡음을 말한다. 이러한 확산 잡음의 정규화된 CPSD는 다음과 같은 sinc 함수의 형태로 나타난다[10].

(8)
$$\rho_{N_{1}N_{2}}(f)=\dfrac{\sin(2\pi fd/c)}{2\pi fd/c}$$

두 마이크 간의 거리 $d$가 큰 경우는 식 (8)에서 나타나는 sinc 함수의 주엽(mainlobe)이 좁게 나타나서 저주파 대역을 제외하면 incoherent 잡음과 마찬가지로 대부분의 주파수 대역에서 코히어런스가 0에 근접하게 된다.

두 개의 마이크에 도달한 신호에 대한 정규화된 CPSD는 식 (5)와 마찬가지로 다음 식으로 나타난다.

(9)
$$\rho_{Y_{1}Y_{2}}(f)=\dfrac{P_{Y_{1}Y_{2}}(f)}{\sqrt{P_{Y_{1}}(f)P_{Y_{2}}(f)}}$$

(10)
$$P_{Y_{i}}(f)=E\left[Y_{i}(f)Y_{i}^{*}(f)\right]$$

식 (9)와 같은 정규화된 CPSD는 통계적 기댓값을 포함하고 있는 값인데, 실제 상황에서는 신호의 특성이 시간에 따라 변하므로 아래 식과 같이 short-time 푸리에 변환을 이용하여 계산된 정규화된 교차 파워 스펙트럼을 대신 사용할 수도 있다.

(11)
$$\phi_{Y_{1}Y_{2}}(t,\:f)=\dfrac{Y_{1}(t,\:f)Y_{2}^{*}(t,\:f)}{\left | Y_{1}(t,\:f)Y_{2}^{*}(t,\:f)\right |}$$

위 식은 교차 파워 스펙트럼을 정규화하여 위상 성분만 나타내므로 CPSP(Cross Power Spectrum Phase)라 한다[11].

3. CPSP를 이용한 음성 구간 검출

3.1 CPSP-CM을 이용한 음성 구간 검출

Omologo의 연구에서는 아래 식과 같이 CPSP의 적분을 이용하는데, 도달 시간 지연에 따라 코히어런스를 측정하는 함수를 CPSP coherence measure(CPSP-CM)로 정의하고, 이를 최대로 하는 도달 시간 지연값을 찾아 신호의 방향을 찾는 방법을 제안하였다[11].

(12)
$$C(t,\:\tau)=\int_{-\infty}^{\infty}\phi_{Y_{1}Y_{2}}(t,\:f)e^{-j2\pi f\tau}df$$

위 식은 각 시간 프레임 $t$에 대해, $\tau$에 관한 함수로 나타나며, 신호가 첫 번째 마이크에 비해 두 번째 마이크에 도달하는 시간이 $D$만큼 늦다면 $\tau =D$에서 최댓값을 갖게 된다. 따라서 각 시간 프레임 $t$마다 듀얼 마이크에 도달한 신호로부터 식 (12)를 계산하고 최댓값을 갖는 $\tau$를 찾아 도달 시간 차이 $D$를 추정할 수 있다. 실제 환경에서는 식 (11)의 CPSP는 이산 푸리에 변환(Discrete Fourier Transform: DFT)을 통해 구현되므로 식 (12)의 적분은 이산신호의 합으로 바뀌고 다음 식과 같이 정규화된 주파수의 한 주기 동안만 (예: 0부터 $2\pi$까지) 합을 구하면 된다.

(13)
$$C(t,\:\tau)=\dfrac{1}{M}\sum_{k=0}^{M-1}\phi_{Y_{1}Y_{2}}(t,\:k)e^{-\dfrac{j2\pi k}{M}\tau}$$

위 식에서 $\phi_{Y_{1}Y_{2}}(t,\:k)$는 $M$-포인트 DFT를 통해 계산한 CPSP를 나타낸다.

듀얼 마이크 신호 간의 코히어런스가 높은 신호, 즉 특정 방향에서 듀얼 마이크에 도달하는 신호에 대해서는, CPSP-CM은 $\tau$가 $D$(두 번째 마이크의 도달 지연 시간)일 때 1에 가까운 최댓값을 갖게 된다. 만일 incoherent 또는 확산 잡음만 있는 구간이라면 CPSP-CM은 $\tau$에 상관없이 0에 가까운 값을 갖게 된다. 이러한 사실을 이용하면, 각 시간 프레임에서 식 (13)에 있는 CPSP-CM의 최댓값을 계산하고, 미리 정한 문턱값과 비교하여 음성 구간을 검출할 수 있다[4]. 그러나 타겟 신호와 다른 방향으로부터 듀얼 마이크에 도달하는 간섭 신호가 존재하는 상황에서는 타겟 신호 구간뿐만 아니라 간섭 신호 구간에서도 CPSP-CM의 최댓값이 1에 가까운 값이 나오므로 타겟 신호의 구간을 간섭 신호만 있는 구간과 구분하기 어렵게 된다.

3.2 CPSP-CM-steered를 이용한 음성 구간 검출

Incoherent 또는 확산 잡음뿐만 아니라 코히어런스가 높은 간섭 신호가 존재하는 경우는 CPSP-CM의 최댓값을 문턱값과 비교하는 대신, 타겟 신호 방향에 해당하는 도달 지연 시간 $D$에 대해, 식 (13)에서 $C(t,\:\tau =D)$를 문턱값과 비교하면 타겟 신호 구간을 검출할 수 있다. 본 논문에서는 $C(t,\:\tau =D)$를 CPSP-CM-steered라고 부르기로 한다. 타겟 신호 구간을 검출하는 과정을 보다 자세히 설명하자면, incoherent 또는 확산 잡음이 있는 구간에서는 식 (11)의 CPSP는 주파수에 상관없이 0에 가까운 값이므로 CPSP-CM-steered는 0에 가까운 값이 나오고, 타겟 신호 방향과 다른 방향에서 듀얼 마이크에 도달하는 간섭 신호의 경우는, CPSP가 주파수에 따라 진동하는 값이므로 식 (13)과 같이 0에서부터 $2\pi$까지 평균을 구하면 0에 가까운 값이 된다. 이에 반해 타겟 신호가 강하게 나타나는 구간에서는 식 (11)의 CPSP는 도달 지연 시간 $D$를 나타내는 위상을 갖게 되고 식 (13)에서 $e^{-\dfrac{j2\pi k}{M}D}$를 곱해줌으로써 위상을 상쇄하여 CPSP-CM-steered는 1에 가까운 값을 갖게 되는 것이다. 그러나 강한 간섭 신호가 존재하는 경우, 즉 SIR이 낮은 경우(예, SIR<0dB)에는 타겟 신호가 존재하는 구간에서도 CPSP가 타겟 신호의 위상을 나타내지 못하게 되고, 이에 따라 $e^{-\dfrac{j2\pi k}{M}D}$를 곱하더라도 CPSP는 여전히 주파수에 따라 진동하게 되며, 주파수에 따라 진동하는 값의 평균은 0에 가까운 값이 나오므로 타겟 신호 구간을 검출하지 못하게 된다. $\tau =D$일 때, SIR 변화에 따른 CPSP-CM의 변화를 확인하기 위해 단일 주파수인 타겟 신호와 간섭 신호에 대한 이론적인 값을 그림 1에 나타내었다. 그림 1은 샘플링 주파수가 16kHz이고 듀얼 마이크의 간격이 34cm인 상황에서, 타겟 신호는 듀얼 마이크의 정면에서 마이크에 도달하고, 간섭 신호는 듀얼 마이크와 40도의 각도로 입사하는 경우, $\tau =0$에서의 CPSP-CM을 표시한 그래프이다. 그림에서 보듯이 SIR이 감소함에 따라 CPSP-CM이 작아지는데 0dB 부근에서 급격하게 감쇄됨을 알 수 있다.

그림. 1. SIR에 따른 CPSP-CM의 변화

Fig. 1. Variation of CPSP-CM according to SIR

../../Resources/kiee/KIEE.2020.69.1.158/fig1.png

따라서 $C(t,\:\tau =D)$를 문턱값과 비교하여 타겟 신호 구간을 검출하고자 할 때, SIR이 0dB보다 작은 경우는 타겟 신호 구간 검출에 실패할 가능성이 높아지게 된다. 음성의 경우 포만트(formant)라고 불리는 공진현상 때문에 좁은 주파수 대역에 신호의 에너지가 집중되어 있는 경우가 많은데, 이러한 이유로 SIR이 0dB보다 조금 큰 경우에도 주파수별 SIR을 들여다보면 대부분의 주파수 대역에서는 SIR이 0dB보다 작고 일부 포만트 영역에서만 SIR이 0dB보다 크게 나타나는 흔히 발생하게 된다. 이렇게 SIR이 0dB보다 작은 주파수 대역이 SIR이 0dB보다 큰 주파수 대역보다 더 넓게 분포한다면 전체 SIR이 0dB보다 큰 구간에서도 CPSP-CM-steered가 문턱값을 넘지 못하는 경우가 발생하게 된다.

본 논문에서는 간섭 신호로 인해 타겟 신호 구간에서 주파수별 SIR이 0dB보다 낮은 주파수 대역이 넓게 분포하는 경우에도 타겟 음성 신호 구간을 검출하기 위해서 SIR이 0dB보다 높은 주파수 대역을 검출하는 방법을 고안하였다. 제안하는 방법은 CPSP-CM-steered를 계산할 때 0에서 $2\pi$까지의 CPSP를 모두 더하는 대신 특정 크기의 윈도우 내에서만 합하는 방식이다.

(14)
$$ \tilde{C}(t, \tau)=\max \ _{i} \left\{\frac{1}{P} \sum_{k=i}^{i+P-1} \phi_{Y_{1} Y_{2}}(t, k) e^{-\frac{j 2 \pi k}{M} \tau}\right\} $$

위의 식에서와 같이 $P$크기의 윈도우 내에서만 CPSP를 더한 뒤 평균을 취한 값의 최대를 찾음으로써 주파수 대역에서 SIR이 0dB보다 큰 영역을 검출하게 되고 이에 따라 SIR이 0dB보다 큰 주파수 구간이 0dB보다 작은 주파수 구간보다 좁게 분포하는 경우에도 타겟 방향의 음성 구간을 검출할 수 있게 된다. 그림 2에 타겟 신호가 듀얼 마이크의 정면에서 입사하고, 간섭 신호는 타겟 신호와 40도 틀어진 방향에서 입사하는 경우에 대한 CPSP-CM-steered를 나타내었다. 그림 2에서 CPSP의 실수부를 나타내는 (a), (b), (d)에서 나타나는 값은 –1에서 1사이의 값을 가지며 (c)는 데시벨로 표시되어 있다. 또한 그림 2의 가로축은 정규화된 주파수를 나타내고 있는데 π는 샘플링 주파수의 1/2에 해당한다. 그림 2의 (a)와 (b)에는 각각 타겟 신호와 간섭 신호의 CPSP 실수부 값을 나타내었다. 타겟 신호의 CPSP는 주파수와 상관없이 거의 1에 가까운 값을 나타내고 있으며 간섭 신호의 CPSP는 주파수에 따라 진동하는 형태가 되는데, 그 진동수는 입사 각도와 듀얼 마이크 간격에 의해 정해진다. 그림 2의 (c)에는 –12.5dB의 SIR로 간섭 신호와 타겟 신호를 섞은 신호에 대한 주파수별 SIR을 나타내고 있는데, SIR이 매우 낮음에도 불구하고 좁은 저주파 대역에서 주파수별 SIR이 0dB보다 높은 구간을 확인할 수 있다. 이 구간을 검출할 수 있다면 SIR이 낮은 간섭 잡음 환경에서도 타겟 음성 신호 구간을 검출할 수 있게 된다. 그림 2의 (d)에는 SIR이 –12.5dB인 신호의 CPSP(실수부)를 나타내고 있는데 전체 주파수 구간에서 평균을 구하면 0에 가까운 값이 나오므로 타겟 음성 신호 구간을 검출할 수 없지만, 적당한 크기의 윈도우를 정하여 그 윈도우 내에서만 CPSP의 평균을 취한다면 SIR이 0dB보다 높은 주파수 구간 동안 평균이 취해진 CPSP의 최댓값은 문턱값을 넘는 값이 될 수 있다. 식 (14)에서 윈도우 크기 $P$는 다음 식과 같이 주파수 상에서 간섭 신호 CPSP 주기의 배수로 정하여야 간섭 신호만 존재하는 구간에서 $\widetilde C(t,\:\tau)$를 0에 가까운 값으로 낮출 수 있다.

(15)
$$P=m\dfrac{M}{\left |\tau_{I}\right |},\: m=1,\:2,\:\cdots ,\:\left |\tau_{I}\right |$$

식 (14)는 이산 푸리에 변환을 이용하므로 $P$는 정수값을 가져야 한다. $\tau_{I}$는 간섭 신호에 대해, 첫 번째 마이크 신호에 대한 두 번째 마이크 신호의 도달 지연 시간을 나타내며, 이 값은 간섭 신호만 존재하는 구간에서 도달 지연 시간 추정 알고리즘으로 추정할 수 있다.

그림. 2. 타겟 신호와 간섭 신호의 주파수에 따른 CPSP: (a) 타겟신호의 CPSP 실수값, (b) 간섭신호의 CPSP 실수값, (c) 간섭신호가 섞인 타겟신호의 주파수별 SIR, (d) 간섭신호가 섞인 타겟신호의 CPSP 실수값

Fig. 2. CPSP of target and interfering signal according to frequencies: (a) Real part of CPSP of target signal, (b) Real part of CPSP of interfering signal, (c) SIR of target signal corrupted by interference, (d) Real part of CPSP of target signal corrupted by interference.

../../Resources/kiee/KIEE.2020.69.1.158/fig2.png

4. 실험 결과

4.1 실험 환경

본 논문에서 제안하는 음성 구간 검출 알고리즘의 성능을 검증하기 위해 RWCP 데이터를 이용하였다[12]. RWCP 데이터는 마이크로폰 어레이를 이용하여 다양한 환경에서 임펄스 응답(impulse response)을 측정한 데이터를 포함하고 있다. 임펄스 응답을 반향음이 없는 음원(anechoic sound)과 컨벌루션 연산을 함으로써 반향음이 존재하는 실제 환경에서의 마이크로폰 어레이 신호를 생성할 수 있다. 본 실험에 사용한 임펄스 응답은 300ms 정도의 반향 시간(reverberation time)을 갖는 환경에서 마이크로폰 어레이로부터 2m 떨어진 지점에서 발생한 음원에 대해 측정되었다. RWCP에는 14개의 마이크로 구성된 선형 마이크로폰 어레이가 있는데, 각 마이크 간의 간격은 2.83cm이다. 본 실험에서는 가장 멀리 떨어진 두 마이크를 선택하였고 두 마이크 간의 간격은 36.8cm이다.

타겟 신호는 듀얼 마이크의 정면 방향에서 입사하고, 간섭 신호는 타겟 신호와 40도의 각도를 이루는 방향에서 듀얼 마이크로 입사하는 상황을 가정하였다. 타겟 신호 생성을 위해서는 TIDIGITS에 포함된 영어 고립 숫자음 (“one”, “two”, “three”, “four”, “five”, “six”, “seven”, “eight”, “nine”, “ten”)을 사용하였다[13]. 간섭 신호로는 영어로 발성된 뉴스 데이터를 사용하였고, 0dB SIR이 되도록 두 신호를 합성하였다. 샘플링 주파수는 16kHz이고, short-time 푸리에 변환을 위해서 512 포인트 DFT를 적용하였다.

그림. 3. 간섭 신호 환경에서의 타겟 음성 구간 검출: (a) 고립 숫자음 신호, (b) 간섭 신호가 섞인 고립 숫자음 신호, (c) 식 (13)으로 계산된 코 히어런스, (d) 식 (14)로 계산된 코히어런스

Fig. 3. Target speech activity detection for interference: (a) Clean isolated digits, (b) Interfered isolated digits, (c) Coherence calculated by (13), (d) Coherence calculated by (14).

../../Resources/kiee/KIEE.2020.69.1.158/fig3.png

그림 3에 간섭 신호 환경에서의 타겟 음성 구간 검출을 위한 코히어런스를 나타내었다. (a)에 타겟 신호로 사용할 6개의 고립 숫자음을 시간 영역에서 표시하였고, (b)에 타겟 신호와 간섭 신호를 0dB SIR로 섞은 신호를 표시하였다. (a), (b)에 나타낸 신호는 16bit 정수형 데이터로 표시된 값이고, (c)와 (d)에 각각 식 (13)식 (14)로 계산한 코히어런스를 나타내었다. 코히어런스 결과 범위가 0과 1 사이가 되도록 정규화하였다. (a)와 (b)의 가로축은 1초당 16000개로 샘플링된 인덱스를 나타내며 (c)와 (d)의 가로축 단위는 ms이다.

4.2 성능 평가

음성 구간 검출 알고리즘에서 음성 구간 검출률(detection rate)과 오검출률(false alarm rate)을 측정함으로써 알고리즘의 성능을 평가할 수 있다. 음성 구간 검출률은 실제 음성 구간을 음성 구간이라고 검출하는 비율이고, 오검출률은 음성 구간이 아닌 구간을 음성 구간으로 잘못 검출하는 비율을 말한다. 문턱값을 사용하는 음성 구간 검출 알고리즘에서는 문턱값이 변함에 따라 음성 구간 검출률과 오검출률이 변하게 되는데, 일반적으로 문턱값이 내려가면 두 검출률 모두 상승하게 되고, 문턱값이 올라가면 두 검출률 모두 하강하게 된다. 문턱값 변화에 따라 음성 구간 검출률과 오검출률을 표시한 것을 ROC(Receiving Operating Characteristic) 곡선이라고 하는데, 음성 구간 검출률은 높고, 오검출률은 낮을수록 우수하므로, 그래프가 왼쪽 상단에 위치할수록 높은 성능을 나타낸다.

그림. 4. 음성 구간 검출률과 오검출률 그래프 (ROC 곡선)

Fig. 4. Voice activity detection rate vs. false alarm rate (ROC curves).

../../Resources/kiee/KIEE.2020.69.1.158/fig4.png

그림 4에 제안하는 알고리즘의 ROC 곡선을 듀얼 마이크 코히어런스를 기반으로 하는 기존 알고리즘들과 비교하여 나타내었다. CPSP-CM-max는 CPSP-CM의 최댓값을 이용하여 음성 구간을 검출하는 알고리즘이고[4], CPSD-var은 CPSD의 분산을 문턱값과 비교하는 알고리즘이다[5]. CPSP-CM-steered_w는 마이크 간 도달 지연 시간을 보상한 후 윈도우 내에서만 평균을 취하는 방법으로서 식 (15)에서 $m$값에 따라 윈도우 크기가 변하게 된다. 그림 4에는 $m$=1,2,3으로 변화시키면서 성능을 평가하였는데, $m$이 1,2,3으로 변함에 따라 그림 2의 (d)에서 평균을 취하는 윈도우가 간섭 신호 CPSP 주기의 1배, 2배, 3배가 된다. 본 실험에서는 $m$=2일 때 가장 좋은 성능을 보임을 확인하였다. $m$=1일 때는 평균을 계산하는 윈도우가 작아 오검출률이 상대적으로 높게 나타나며 $m$=3일 때는 SIR 0dB보다 큰 주파수 영역이 좁게 나타나는 경우 검출을 하지 못하여 음성 구간 검출률이 약간 떨어진 것으로 판단된다.

5. 결 론

본 논문에서는 듀얼 마이크로 취득한 신호에서 타겟 방향의 음성 구간을 검출하는 방법에 대해 다루었다. 듀얼 마이크에 도달하는 신호의 코히어런스를 이용하기 위해 CPSP를 사용하였다. 제안하는 방법은 마이크 신호의 CPSP를 구하고 간섭 신호의 방향에 의해 크기가 정해진 윈도우를 이용하여 CPSP의 평균을 구한 후 최댓값을 찾는다. 이러한 방법을 적용하여 강한 간섭 신호가 존재하는 상황에서도 타겟 방향의 음성 구간을 검출할 수 있게 된다. 제안하는 알고리즘을 평가하기 위해 TIDIGITS 고립 숫자음 신호를 RWCP 임펄스 응답과 컨벌루션한 신호를 사용하였다. 문턱값에 따라 음성 구간 검출률과 오검출률을 나타내는 ROC 곡선을 표시하였으며, 코히어런스 기반의 듀얼 마이크 음성 구간 검출 방법들과 비교하였다.

References

1 
R. Le Bouquin-Jeannes, G. Faucon, 1995, Study of a voice activity detector and its influence on a noise reduction system, Speech Comm., Vol. 16, pp. 245-254DOI
2 
M. Omologo, P. Svaizer, 1997, Use of the cross- power spectrum phase in acoustic event location, IEEE trans. Speech and Audio Proc., Vol. 5, No. 3, pp. 288-292DOI
3 
A. Guerin, R. Le Bouquin, G. Faucon, 2003, A two-sensor noise reduction system: applications for hands-free car kit, EURASIP J. Applied Signal Proc., pp. 1125-1134DOI
4 
L. Armani, et al., September 2003, Use of a CSP-based voice activity detector for distant-talking ASR, Eurospeech, pp. 501-504Google Search
5 
J. Park, et al., 2016, Coherence-based dual microphone wind noise reduction by Wiener filtering, ICSPS, pp. 170-172DOI
6 
O. Hoshuyama, et al., 1998, A realtime robust adaptive microphone array controlled by an SNR estimate, ICASSP, pp. 3605-3608DOI
7 
M. Hoffman, Z. Li, D. Khataniar, 2001, GSC-based spatial voice activity detection for enhanced speeech coding in the presence of competing speech, IEEE Trans. Speech and Audio Processing, Vol. 9, No. 2, pp. 175-179DOI
8 
L. Krasny, S. Oraintara, 2002, Voice activity detector for microphone array processing in hand-free system, SAM, pp. 224-227DOI
9 
T. Yu, J. Hansen, 2010, An efficient microphone array based voice activity detector for driver’s speech in noise and music rich in-vehicle environments, ICASSP, pp. 2834-2837DOI
10 
F. Jacobsen, R. Roisin, 2000, The coherence of reverberant sound fields, J. Acoust. Soc. Am., Vol. 108, No. 1, pp. 204-210DOI
11 
M. Omologo, P. Svaizer, 1994, Acoustic event localization using a crosspower-spectrum phase based technique, ICASSP, pp. 273-276DOI
12 
RWCP Sound Scene Database in Real Acoustical Environments, Real World Computing Partnership, © 1998-2001.Google Search
13 
R. Leonard, 1984, A database for speaker-independent digit recognition, ICASSP, pp. 111-114DOI

저자소개

Gibak Kim
../../Resources/kiee/KIEE.2020.69.1.152/au1.png

He received his B.S. and M.S. degrees in electronics engineering and Ph.D. degree in electrical engineering from Seoul National University, Seoul, Korea, in 1994, 1996 and 2007, respectively.

From 2007 to 2010, he was a Research Associate at the University of Texas at Dallas, Richardson, USA.

He is currently Associate Professor of School of Electrical Engineering at Soongsil University, Seoul, Korea.