Advanced
Voice Activity Detection employing the Generalized Normal-Laplace Distribution
Voice Activity Detection employing the Generalized Normal-Laplace Distribution
Journal of Korea Multimedia Society. 2014. Mar, 17(3): 294-299
Copyright © 2014, Korea Multimedia Society
  • Received : November 27, 2013
  • Accepted : January 28, 2014
  • Published : March 28, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
상균 김
준회원, 인하대학교 전자공학부
장우 권
종신회원, 인하대학교 컴퓨터정보공학부
상민 이
정회원, 인하대학교 전자공학부

Abstract
본 논문에서는 일반화된 정규-라플라스(generalized normal-Laplace) 분포 기반의 음성 검출기(voice activity detection) 알고리즘을 제안한다. 제안된 알고리즘은, 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 정규-라플라스 분포로 표현한 다음, 일반화된 정규-라플라스 분포의 음성과 잡음의 분산을 고차 모멘트(higher order moments)를 이용하여 추정한다. 제안된 알고리즘은 다양한 조건의 잡음 환경에서 기존의 음성 검출기들과 비교하였으며 향상된 성능을 보였다.
Keywords
1. 서 론
최근 ICT(information and communication, technology) 기술의 발달로 인하여 이동통신기기에서의 다양한 멀티미디어 서비스가 제공되면서 제한된 주파수 대역을 효율적으로 사용하기 위한 연구가 활발히 진행되고 있다. 제한된 주파수 대역을 효율적으로 사용하기 위해 최근 음성 부호화기들은 입력신호의 정보량에 따라 전송률을 선택적으로 부여하는 가변 전송률 방식을 채택한다 [1 , 2] . 이러한 가변 전송률 음성 부호화기(variable bit rate speech codec)에서는 입력 신호에 음성이 있으면 전송률을 높이고 잡음만 존재 하면 전송률을 낮게 선택함으로써 통화 음질을 유지하며 평균 전송률을 낮추는 효율적인 방법을 사용한다. 따라서 입력 신호에 음성이 존재 하는지 아닌지를 결정하는 음성 검출기(VAD: voice activity detection)는 매우 중요한 기술이다.
음성 검출기는 음성 부호화기 뿐만 아니라 음성 향상, 음성 인식 등 음성 신호처리 기술에서 필수적으로 사용되는 기술이기 때문에 성능향상을 위한 다양한 알고리즘들이 지속적으로 연구되어지고 있다 [3 , 4] . 그중 Ephraim과 Malah가 발표한 최소 평균 제곱 오차(MMSE: minimum mean square error) 기반의 음성 향상 알고리즘 [5] 에 사용된 음성의 존재와 부재에 대한 통계적 모델을 가우시안 분포로 가정하여 우도비 테스트(LRT: likelihood ratio test)에 적용한 통계적 모델 기반의 음성 검출 알고리즘이 발표되었으며 성능이 우수한 것으로 알려져 있다 [6] . 주목할 점은 직접 구할 수 없는 파라미터를 현재와 과거의 정보로부터 추정하는 DD(decision-directed) 기법을 이용하여 음성의 존재와 부재에 대한 우도비를 구하는 것이다.
통계적 모델 기반의 음성 검출 기법이 발표된 이후 이 알고리즘의 성능을 향상하기위한 연구가 계속 되었다. 그중 음성 활동의 특징을 적용한 것으로 인접 프레임들과의 강력한 상호 연관성을 반영한 조건 사후 최대 확률(CMAP: conditional maximum a posteriori ) 기반의 음성 검출 알고리즘이 있다. 이 방법은 음성이 활동하는 프레임의 바로 전 프레임과 다음 프레임은 음성이 활동할 확률이 높다고 할 수 있고 그 반대 또한 성립하는 조건을 판별식에 반영한 것이다 [7] . 또 다른 최근 연구에서는 Teager Energy를 기반으로 음성 부재 확률을 구하여 음성을 검출하는 방법을 발표하였다 [8] .
기존의 통계적 모델에 기반한 음성 검출 알고리즘은 음성과 잡음 신호의 분산을 가우시안 분포를 따른다고 가정한다. 하지만 최근 연구 보고에 의하면 음성과 잡음 신호는 라플라스와 가우시안 분포를 각각 따른다고 발표했다 [9] . 따라서 본 연구에서는 음성 검출기의 성능을 향상시키기 위해 일반화된 정규-라플라스(GNL: generalized normal-Laplace) 분포를 적용하여 음성을 검출하는 방법을 고찰한다. 우선 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 정규-라플라스 분포로 나타낸 후 음성과 잡음의 분산을 고차 모멘트(higher order moments)를 이용하여 추정하면 우도비를 구할 수 있다. 제안된 음성 검출 방법은 다양한 잡음 환경에서 기존의 음성 검출 알고리즘들과 비교하였으며 향상된 성능을 보였다.
2. 가우시안 분포 기반 기존의 음성 검출기
시간 영역에서 배경 잡음 신호 d ( t )에 깨끗한 음성 신호 x ( t )가 인가된 입력 신호를 y ( t )라 하고 여기서 t 는 샘플링 인덱스를 나타낸다. 입력 신호 y ( t )를 이산 퓨리에 변환(DFT: discrete Fourier transform)하여 주파수 영역으로 변환 하면 아래와 같이 표현된다.
PPT Slide
Lager Image
여기서 n 은 프레임 인덱스를 나타내고 k 는 주파수 밴드를 나타낸다. 일반적으로 배경 잡음은 항상 존재하므로 잡음 신호만 존재하는 경우와 잡음 신호와 음성 신호가 동시에 존재하는 경우로 나눌 수 있다. 따라서 음성의 부재와 존재를 가설 H 0 H 1 로 표현하면 다음과 같이 나타낼 수 있다.
PPT Slide
Lager Image
PPT Slide
Lager Image
음성과 잡음 신호의 스펙트럼이 복소 가우시안 분포를 따른다고 가정을 하면 가설 H 0 , H 1 조건으로 한 확률밀도함수는 다음과 같이 주어진다 [6] .
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 λ x ( k , n )와 λ d ( k , n )는 각 프레임에서 주파수 밴드별 음성과 잡음의 분산이며, 이때 k 번째 주파수 밴드에 대한 우도비는 아래와 같이 구한다.
PPT Slide
Lager Image
여기서 ξ ( k , n )=λ x ( k , n )/λ d ( k , n )과 γ ( k , n )=| Y ( k , n )| 2 d ( k , n )는 사전 신호대 잡음비( a priori SNR: a priori signal-to-noise ratio)와 사후 신호대 잡음비( a posteriori SNR)을 각각 나타낸다 [6] . 사후 신호대 잡음비 γ ( k , n )은 음성 부재 구간에서 갱신되는 신호로부터 얻은 잡음 분산 λ d ( k , n )을 이용하여 추정하며, 사전 신호대 잡음비 ξ ( k , n )은 DD(decision-directed) 기법을 이용하여 다음과 같이 추정한다 [7] .
PPT Slide
Lager Image
여기서 |
PPT Slide
Lager Image
( k , n -1)|은 이전 프레임의 k 번째 주파수 밴드에서 추정된 음성 신호의 스펙트럼 성분의 크기이며, MMSE를 기반으로 구한다 [6] . 또한 α 는 가중치 파라미터이며 0∼1사이 값을 갖는다. P [・]연산자는 다음과 같이 정의된다.
PPT Slide
Lager Image
통계적 모델 기반의 음성 검출기에 대한 결정식은 각 주파수 채널에서 구해진 우도비를 기하평균하여 아래와 같이 음성 활동 여부를 판단한다 [6 - 8] .
PPT Slide
Lager Image
3. 제안된 GNL 분포 기반의 음성 검출기
음성과 잡음 신호의 분산을 추정하기 위해 독립 정규와 일반화된 라플라스 분포의 콘볼루션으로 표현된 GNL 분포는 다음과 같다 [9] .
PPT Slide
Lager Image
여기서 fT ( t ), σ 2 x 그리고 σ 2 d 은 GNL의 확률밀도함수, 음성의 분산 그리고 잡음의 분산을 각각 나타낸다. 특성화함수는 확률밀도함수의 역 퓨리에 변환이므로 위의 식 (10)을 다음과 같이 쓸 수 있다.
PPT Slide
Lager Image
여기서 ՓND ( t ), ՓLD ( t ) 그리고 ՓGNL ( t )는 정규, 라플라스 그리고 GNL 분포의 특성화함수이며 γ 는 형상모수(shape parameter)이다. 위의 식 (11)에서 미지의 파라미터 σ 2 x , σ 2 d 그리고 γ 는 분포의 모멘트를 이용하여 추정할 수 있다. 분포의 모멘트는 특성화함수의 항에서 정의되며 다음과 같다.
PPT Slide
Lager Image
여기서 p 는 모멘트의 차수이다. GNL 분포의 고차 모멘트는 식 (11)과 (12)으로부터 계산되며 아래와 같다 [9] .
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 고차 모메트는 표본 모멘트에 의해 근사화되며 이를 이용하여 음성과 잡음의 분산은 다음과 같다.
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서
PPT Slide
Lager Image
p 차의 표본 모멘텀이다.
GNL의 특징화함수와 고차 모멘텀을 기반으로 음성과 잡음의 분산비(SNRV: speech-to-noise variance ratio)를 구하면 다음과 같다.
PPT Slide
Lager Image
음성이 존재하는 구간과 잡음만 존재하는 구간에서의 입력 신호의 분산은 다른 특성을 보인다 [9] . 그러므로 본 논문에서는 현재 프레임에서의 SNVR(= SNVRc ), 잡음만 존재하는 프레임에서의 SNVR(= SNVRd )를 이용하여 새로운 파라미터를 아래와 같이 구한다.
PPT Slide
Lager Image
그림 1 은 제안한 새로운 파라미터 SNVRr SNVRc 의 음성과 잡음에 대한 분산의 히스토그램을 보여준다. 보는 것과 같이 제안한 새로운 파라미터가 잡음 환경에서 음성과 잡음을 구분하는 능력이 우수한 것을 알 수 있다. 이를 기반으로 음성 활동을 검출하기 위한 제안된 알고리즘의 결정법은 다음과 같다.
PPT Slide
Lager Image
PPT Slide
Lager Image
White, Babble 그리고 Office 잡음들을 5 dB SNR 조건에서 SNVRcSNVRr의 히스토그램
여기서 α 는 음성 쪽으로 바이어스된 것에 대한 보상 값이며 p ( Hi )는 음성의 존재와 부재에 대한 사전 확률 값이다.
4. 실험 방법 및 결과
본 논문에서 제안된 음성검출기의 성능을 평가하기 위해 기존의 통계적 모델에 기반한 음성 검출기, Teager Energy 기반의 음성 검출기 그리고 실제 사용 가능성을 확인하기 위해서 G.729B 음성코덱 [10] 과 음성 검출 성능을 비교하였다. 실험에 사용된 데이터는 음성 검출 알고리즘에서 성능 평가 비교를 위해 사용된 음성 데이터의 길이를 고려하여 각각 4명의 남성, 여성화자가 각각 57초씩 말하였으며, 이 데이터들을 모두 합하여 총 456초의 음성을 8kHz로 샘플링 하였다. 또한 평가를 위해 깨끗한 음성 데이터에 음성과 비음성 부분을 10 ms마다 수동으로 표시하였다. 분류된 음성 데이터의 음성 구간은 총 58.2%로 유성음 44.5%, 무성음 13.4%로 구성되었다. 또한 정상 잡음과 비정상 잡음의 경우에서 성능 평가를 위해 white, babble, office 잡음을 5, 10 dB 그리고 15 dB SNR로 부과하였다.
표 1 은 기존의 음성검출기들과 음성 검출 성능을 비교하기 위해 위에서 설명한 456초의 잡음 섞인 데이터를 사용하여 Pe (probability of total error), Pm (probability of miss) 그리고 Pfa (probability of false alarm)을 나타낸 것이다. 표 1 을 보면 모든 잡음 상황에서 제안된 음성 검출 알고리즘이 기존의 음성 검출 알고리즘보다 성능이 우수한 것을 볼 수 있다. 기존 알고리즘 중에서 가장 성능이 좋은 Teager Energy기반의 음성 검출기와 비교하였을 때, 비정상 잡음인 babble과 office 잡음에서의 Pe 성능 향상 폭은 SNR 5dB [1.3, 0.5]로 정상 잡음인 white 잡음에서의 향상폭인 2.7 보다 낮았다. 이러한 결과는 babble과 office잡음이 음성과 비슷한 특징을 가지고 있는 것을 원인으로 본다. G.729B의 음성검출기는 음성 검출을 위해 음성의 에너지가 저주파 대역에 집중돼있는 특성을 잘 나타내는 파라미터들을 사용한다. 때문에 전체 주파수 대역에 에너지가 고르게 퍼져있는 white 잡음의 경우 잡음 구간뿐만 아니라 음성과 잡음이 섞여있는 구간에서도 잡음으로 판단하여 white 잡음에서 G.729B의 Pfa 가 상대적으로 낮고 Pm 이 높게 나왔다. 이것을 통해 제안된 음성검출기의 성능이 비정상 잡음 환경보다 정상 잡음 환경에서 더 우수하다는 것을 알 수 있다.
기존의 음성 검출기와 제안된 음성검출기의 성능 비교
PPT Slide
Lager Image
기존의 음성 검출기와 제안된 음성검출기의 성능 비교
5. 결 론
본 논문에서는 음성 검출기의 성능을 향상시키기 위해 일반화된 GNL 분포 기반의 음성을 검출 알고리즘을 제안하였다. 제안된 알고리즘에서는 잡음 섞인 음성 신호의 확률밀도함수를 일반화된 GNL 분포로 나타낸 후 음성과 잡음의 분산을 고차 모멘트를 이용하여 추정하였다. 이렇게 구한 음성과 잡음의 분산을 이용하여 음성 검출을 위한 결정식을 구하여 음성 활동 구간을 검출 하였다.
제안된 알고리즘의 성능 평가를 위해 Pe , Pm 그리고 Pfa 값을 표 1 에서 기존의 음성 검출 알고리즘들과 비교하였다. 제안된 알고리즘은 전체적으로 우수한 성능을 보였고 특히 white 잡음에서 보다 뛰어난 성능을 보였다. 이러한 실험결과에서 알 수 있듯이 제안된 음성 검출 알고리즘의 성능이 우수하다는 것을 알 수 있다.
BIO
김 상 균
2008년 2월 인하대학교 전자공학과 학사
2010년 10월 인하대학교 전자공학부 석사
2013년 3월~현재 인하대학교 전자공학부 박사과정
관심분야 : Speech Signal Processing, Acoustic Signal Processing
권 장 우
1990년 2월 인하대학교 전자공학과 공학사
1992년 2월 인하대학교 전자공학과 공학석사
1996년 8월 인하대학교 전자공학과 공학박사
1996년~1998년 특허청 사무관
1998년~2009년 동명대학교 컴퓨터공학과 부교수
2006년~2012년 정보통신산업진흥원 인재양성단장
2012년~현재 인하대학교 컴퓨터공학과 교수
관심분야 : HCI, 생체신호처리, 지능형 시스템
이 상 민
1987년 2월 인하대학교 전자공학과 학사
1989년 2월 인하대학교 전자공학과 석사
2000년 인하대학교 전자공학과 박사
2006년 6월~현재 인하대학교 전자공학과 부교수
관심분야 : Brain-Machine interface, Bio-Siganl Processing, Psyco-Acoustic
References
Gao Y. , Shlomot E. , Benyassine A. , Thyssen J. , Su Huan-yu , Murgia C. 2001 "The SMV Algorithm Selected by TIA and 3GPP2 for CDMA Applications" Proc. the IEEE International Conference on Acoustics, Speech and Signal Processing Vol. 2 709 - 712
3GPP2 Spec. 2005 "Source-controlled Variablerate Multimedia Wideband Speech Codec (VMR- WB), Service Option 62 and 63 for Spread Spectrum Systems" 3GPP2-C.S0052-A Vol. 1
류 종훈 , 김 대경 , 박 장식 , 손 경식 2001 멀티미디어학회논문지 4 (1) 46 - 55
김 태석 , 장 종칠 2005 멀티미디어학회논문지 8 (1) 56 - 61
Ephraim Y. , Malah D. 1984 "Speech Enhancement using a Minimum Mean-square Error Short-time Spectral Amplitude Estimator" IEEE Trans. Acoustics, Speech, Sig. Process. ASSP-32 (6) 1190 - 1121
Sohn J. , Kim N.S. , Sung W. 1999 "A Statistical Model-based Voice Activity Detection" IEEE Sig. Process. Lett. 6 (1) 1 - 3    DOI : 10.1109/97.736233
Shin J.W. , Kwon H.J. , Jin S.H. , Kim N.S. 2008 "Voice Activity Detection based on Conditional MAP Criterion" IEEE Signal Processing Letters 15 257 - 260    DOI : 10.1109/LSP.2008.917027
Park Y.S. , Lee S. 2012 "Voice Activity Detection using Global Speech Absence Probability based on Teager Energy for Speech Enhancement" IEICE Trans. Inform. System E95-D (10)    DOI : 10.1587/transinf.E95.D.2568
Moazzeni T. , Amei A. , Ma J. , Jiang Y. 2012 "Statistic Model Based SNR Estimation Method for Speech Signals" Electronics Letters 48 (12) 727 - 728    DOI : 10.1049/el.2012.0799