Advanced
Feature Extraction Algorithm for Underwater Transient Signal Using Cepstral Coefficients Based on Wavelet Packet
Feature Extraction Algorithm for Underwater Transient Signal Using Cepstral Coefficients Based on Wavelet Packet
Journal of Ocean Engineering and Technology. 2014. Dec, 28(6): 552-559
Copyright © 2014, Korean Society of Ocean Engineers
  • Received : June 14, 2014
  • Accepted : December 15, 2014
  • Published : December 31, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
TagCloud
About the Authors
주호 김
동국 팽
종현 이
승우 이

Abstract
In general, the number of underwater transient signals is very limited for research on automatic recognition. Data-dependent feature extraction is one of the most effective methods in this case. Therefore, we suggest WPCC (Wavelet packet ceptsral coefficient) as a feature extraction method. A wavelet packet best tree for each data set is formed using an entropy-based cost function. Then, every terminal node of the best trees is counted to build a common wavelet best tree. It corresponds to flexible and non-uniform filter bank reflecting characteristics for the data set. A GMM (Gaussian mixture model) is used to classify five classes of underwater transient data sets. The error rate of the WPCC is compared using MFCC (Mel-frequency ceptsral coefficients). The error rates of WPCC-db20, db40, and MFCC are 0.4%, 0%, and 0.4%, respectively, when the training data consist of six out of the nine pieces of data in each class. However, WPCC-db20 and db40 show rates of 2.98% and 1.20%, respectively, while MFCC shows a rate of 7.14% when the training data consists of only three pieces. This shows that WPCC is less sensitive to the number of training data pieces than MFCC. Thus, it could be a more appropriate method for underwater transient recognition. These results may be helpful to develop an automatic recognition system for an underwater transient signal.
Keywords
1. 서 론
수중에서 음향 신호의 식별은 안전하고 효율적인 선박 및 잠수함 운용에 있어서 매우 중요하다. 그러나 음성인식 기술에 큰 발전을 이룬 현재까지도 수중 음향신호 식별 자동화는 더디 진행되고 있으며 주로 숙련된 전문가를 통해 인식을 수행하고 있다. 이는 인식 오류가 선박 및 잠수함 운용에 끼치는 영향이 지대하기 때문이기도 하지만, 수중 신호원의 다양성 및 복합성, 낮은 신호대 잡음비 등이 자동 식별에 큰 어려움을 주기 때문이기도 하다( Oliveira et al, 2002 , Tucker, 2003 ). 특히 수중에서 발생하는 선박 및 잠수함의 해치, 어뢰발사관 등의 중요한 신호들은 짧은 지속시간과 비정재성의 특성도 함께 나타내므로 이러한 자동 인식의 어려움을 극복하기 위해서는 수중 음원 식별에 대한 지속적인 연구가 요구된다( Tucker, 2003 , Kundu et al, 1994 ). 그러나 다른 어떤 제약보다 수중 음원 식별문제에 어려움이 되는 것은 데이터 집단의 통계적 특성을 파악하기 위한 훈련데이터를 수집하기가 매우 어렵다는 점이다.
그럼에도 현재까지 국내·외에서 수중 신호 인식에 대한 연구가 지속적으로 진행되어 오고 있으며 음성인식 분야의 다양한 기술들이 수중 천이신호 인식 연구에 적용되어 오고 있다. Lim et al.(2007) 은 음성인식에 널리 사용되는 MFCC(Mel frequency cepstral coefficient)를 수중 신호 특징 추출에 적용하였고, 그 결과 시간-주파수 분석 기법으로 많이 이용되는 위그너-빌 분포함수(Wigner-Ville distribution) 특징을 이용한 방법에 비해 우수한 성능이 나타나는 것을 확인한 바 있다. 이들이 연구에 사용한 수중 천이신호 자료는 5~7가지 클래스, 40개 이내의 데이터로 일반적인 음성인식 연구에 비해 소규모 데이터 구성이었으며 데이터 확보의 현실적 한계를 보여준다.
한편, Pavez and Silva (2012) 는 음성인식 특징 추출을 위해 웨이브렛 패킷(Wavelet packet) 분해 과정을 통한 비 균일한 필터뱅크를 구성하고 이를 캡스트럼 분석에 적용하였다. 이를 WPCC(Wavelet packet cepstral coefficeint)라 하고 음성 신호에 대해 인식을 수행하였으며 특정 조건하에서 MFCC보다 우수한 결과를 얻었다. 웨이브렛 패킷을 통해 신호를 분해하는 과정은 필터 뱅크를 통한 대역별 신호 분해와 같은 개념이며, 웨이브렛 모함수 및 트리의 가지치기에 적용하는 규준에 따라 필터 뱅크의 개수와 밴드 폭을 가변적으로 구성할 수 있는 장점이 있다. 이 경우 훈련 데이터 집합의 특성이 반영된, 비 균일한 밴드 폭을 갖는 필터뱅크를 구성할 수 있게 된다.
수중 천이신호는 시간과 주파수 공간에서의 특징이 음성신호의 특징과 다르지만, WPCC와 같이 데이터 집합의 특성을 반영할 수 있는 특징추출 방법은 훈련 데이터 수에 제약이 따르는 수중 천이신호 인식에 매우 효과적일 것으로 판단할 수 있다. 따라서 본 논문은 WPCC 특징 추출 기법을 수중 천이신호 인식에 적용해 보았으며 같은 조건에서 MFCC 특징을 이용한 결과와 비교하여 성능을 검증하였다. 뿐만 아니라 훈련 데이터 개수에 따른 결과를 분석하여 수중 천이신호 인식에 있어서 데이터 집합의 특성을 반영하는 특징 추출 방법의 필요성을 강조하였다
논문의 구성은 다음과 같다. 먼저 2장에서는 기본적인 웨이브렛 패킷변환 이론에 대해 설명한 후 개별 데이터의 특성을 반영하는 비 균일 필터뱅크 분할 알고리즘과 여러 클래스에 대한 공통 필터뱅크 구성 방법을 설명한다. 이어서 3장에서는 인식 알고리즘과 구체적인 실험 방법에 대해 소개 한다. 4장에서는 연구에 사용된 수중 과도신호와 이를 이용한 실험 결과들을 절차에 따라 소개하고 최종 인식 결과를 정리 및 분석한다. 마지막으로 5장에서는 연구의 결론을 맺는다.
2. WPCC 특징 벡터 추출
- 2.1. 특징 벡터 추출 방법
특징 벡터 추출 이전에 먼저 웨이브렛 필터뱅크를 구성해야 하지만 그에 대한 구체적인 방법은 다음 절에서 다루기로 하고 본 절에서는 포괄적인 특징 벡터 추출 방법에 대해 설명하겠다. 웨이브렛 필터뱅크가 구성되고 나면 캡스트럼 분석 알고리즘에 따라 WPCC를 추출해 낸다. 이는 MFCC 계수 추출 방법과 유사하며 이를 요약하면 다음과 같다( Fig. 1 ).
PPT Slide
Lager Image
Block diagram for Mel-Frequency Cepstral Coefficient(MFCC) using mel filter bank(dashed line) and Wavelet Packet Cepstral Coefficient(WPCC) using wavelet packet(WP) filter bank(solid line)
① 분석하고자 하는 신호가 입력되면 전처리 과정을 통해 프레임 단위로 나누고, 해밍 윈도우(Hamming window)를 적용한 후 프리 엠퍼시스(Pre-emphasis)를 수행한다. 프리 엠퍼시스는 계수 1과 α를 갖는 고역 통과 FIR(Finite impulse response) 필터로 표현되며, 이때 α는 일반적으로 0.95~0.98의 값을 갖는다.
② MFCC의 경우 신호가 전처리 과정 이후 파워 스펙트럼을 구하고 멜-필터뱅크를 적용시키지만, WPCC는 그 대신 웨이브렛 패킷 분해를 수행하며 각 스케일 별로 분해된 웨이브렛 패킷 계수의 에너지를 구한다.
PPT Slide
Lager Image
를 해상도 수준 j p 번째 웨이브렛 패킷 계수, Sj 를 그것의 샘플 개수라 할 때 웨이브렛 패킷 계수의 에너지는 다음과 같이 구할 수 있다.
PPT Slide
Lager Image
③ 웨이브렛 패킷의 대역별 에너지는 파워 스펙트럼의 필터뱅크 출력으로 대응되며, 이것의 로그를 계산한 후 코사인 변환(DCT, Discrete cosine transform)을 취해 캡스트럼 계수를 얻는다. 이를 WPCC라 한다.
- 2.2. 필터뱅크의 구성
구체적인 필터뱅크 구성 방법은 다음과 같다. 먼저 개별 데이터에 대한 웨이브렛 최적 기저를 찾아내고 모든 데이터 범위에서 빈도수가 많은 최적 기저들을 찾아내 공통 트리를 구성한다. 공통 트리를 구성하는 방법은 여러 가지가 있을 수 있다. 최근 Pavez and Silva(2012) 는 충실도(Fidelity)를 계산하여 공통 최적기저 가지를 구성하는 방법을 제안하기도 했지만 이 경우 각 데이터 마다 모든 노드에서 신호의 에너지를 계산한 후 충실도를 계산 및 비교해야 하므로 많은 계산량이 요구된다. 본 논문에서는 고전적인 방법이지만 널리 사용되어 오고 있는 엔트로피 기반 가지치기 방법을 이용해 공통 트리를 구성하였다.
- 2.2.1. 웨이브렛 패킷 변환
X 를 주어진 신호가 이루는 공간, Z를 정수집합 이라 하고 BL ≡{ φL ( t −2 Ln )} nZ 를 스케일 레벨 2 L 에 상응하는 정규 직교함수 φ 의 집합 이라 하면, 웨이브렛 패킷을 이용해 BL 을 또 다른 정규 직교 함수 집합인
PPT Slide
Lager Image
PPT Slide
Lager Image
로 분해 가능 하다. 이때 정규직교 함수로 이루는 공간을
PPT Slide
Lager Image
PPT Slide
Lager Image
라 하면
PPT Slide
Lager Image
를 만족한다. 웨이브렛 패킷에서
PPT Slide
Lager Image
PPT Slide
Lager Image
은 공액 거울 필터 (Conjugate mirror filter)의 관계를 갖는 h ( n )와 g ( n )에 의해 도출될 수 있는데, 이를 이용하면 해상도에 따른 직교 함수의 관계를 다음과 같이 표현할 수 있다( Mallat, 1999 ).
PPT Slide
Lager Image
여기서
PPT Slide
Lager Image
PPT Slide
Lager Image
h ( n )와 g ( n )를 반복적으로 적용할 경우 새로운 기저 집합들과 그에 상응하는 X 의 부공간들이 이진 트리구조 형태로 형성 될 수 있다( Fig. 2(a) ). 한편 부공간
PPT Slide
Lager Image
로의 정사영은 x ( t )를 정규 직교기저
PPT Slide
Lager Image
로 분해함으로써 얻어지는데 이에 상응하는 계수
PPT Slide
Lager Image
는 이들의 내적을 통해 얻어진다.
PPT Slide
Lager Image
Wavelet packet sub-space decomposition (a) Binary tree structure (b) dual-channel filter bank
PPT Slide
Lager Image
식 (1)과 (2)의 관계를 통해 해상도별 웨이브렛 패킷 계수의 관계를 도출하고, 연속 시간을 이산 시간으로 표현하면 다음의 식을 얻을 수 있다.
PPT Slide
Lager Image
여기서 p ∈{0, 1,..., 2 j − 1}이고
PPT Slide
Lager Image
PPT Slide
Lager Image
는 각각 해상도 수준 j + 1에서
PPT Slide
Lager Image
의 근사계수와 세부계수를 나타낸다. 한편 이산 시간 필터 뱅크 관점에서 볼 때, 식 (3)의 계산은 임펄스 응답 h ( n )와 g ( n )를 갖는 2-채널 필터 그리고 다운 샘플링 연산과 밀접한 관련을 갖는다( Fig. 2(b) ).
웨이브렛 패킷을 통한 신호의 분해는 근사계수만을 연속적으로 분해하는 이산 웨이브렛 변환(Discrete wavelet transform)에 비해 필터뱅크 측면에서 신호의 고주파주 영역 분해능을 높일 수 있다는 장점이 있다. 그러나 분지 깊이 (Depth) L 을 갖는 웨이브렛 패킷의 경우 2 L 개의 말단 노드(Terminal node)를 가지게 되므로, 분지 깊이가 깊어질수록 다루어야 하는 노드 수가 급격히 증가하며, 이로 인해 정보 비용이 증가할 수 있다. 이러한 한계를 극복하기 위해, 불필요한 노드를 제거 하여 최적의 트리를 구성하고 정보비용을 최소화 하는 방법이 연구되어 왔다( Coifman and Wickerhauser, 1992 ; Coifman et al., 1992 ).
- 2.2.2. 개별 최적 트리 선정
개별 데이터의 웨이브렛 최적 트리를 구성하는 것은 기저집합에서 최적의 정규직교 기저(orthonormal basis)를 찾는 것과 같다. 이는 적절한 규준에 따라 웨이브렛 기저의 제거 및 유지를 결정하는 방법으로 수행되며, 이를 위해 특정한 비용함수를 이용한다. 일반적으로 비용함수는 엔트로피 기반의 규준이 사용된다. 정보통신 분야에서 엔트로피는 데이터에 내재되어있는 정보의 양을 의미한다. 따라서 이러한 과정은 최소 정보량을 갖는 웨이브렛 기저 조합으로 신호 x 를 표현할 수 있도록 돕는다. 비용함수로 사용 가능한 몇 가지 함수들이 있으나, 본 논문에서는 엔트로피 계산에 널리 이용되는 Shannon의 엔트로피 함수를 이용한다( Coifman and Wickerhauser, 1992 ).
PPT Slide
Lager Image
여기서
PPT Slide
Lager Image
은 노드 ( j , p )의 비용함수,
PPT Slide
Lager Image
는 해당 노드의 웨이브렛 계수이며 0 log(0)= 0 이다. 웨이브렛 패킷 분해를 하면 말단 노드를 포함하여 모두 2(2 L − 1)개의 노드가 생성되는데, 편의를 위해 노드의 깊이-위치(Depth-position) 표기에서 노드 인덱스(Index)표기로 변경하여 모든 노드를 벡터 열 n 로 표기할 수 있다. i = [0, 1,..., 2 2(2L+1) ]을 모든 노드번호, y ( i )∈{0, 1}를 최적 기저 선별을 위한 식별자 함수라고 할 때, 신호 x 에 대한 이진 웨이브렛 패킷의 최적 기저를 찾기 위한 알고리즘은 다음과 같다. 우선 분지 깊이 L 까지의 모든 웨이브렛 패킷 계수를 구한 후 y ( i )의 모든 값을 0으로 초기화한다. 그런 다음 말단 노드에서 부터 상위노드로 거슬러 올라가면서 모든 노드에 대해 다음을 수행한다.
최종적으로 구해진 y ( i )는 비용함수에 의해 최적 노드로 선정된 위치를 제외한 나머지 위치에서 0을 갖는다. 따라서 u ( i ) = iy ( i )는 최적노드에서의 노드번호를 갖고 나머지는 0을 나타낸다. { v 1 , v 2 , ...}를 0보다 큰 v ( i )의 원소의 집합이라 하고 k 을 그것의 개수라 할 때, 주어진 데이터의 최적 노드를 다음과 같이 나타낼 수 있다.
Algorithm for best node selection
PPT Slide
Lager Image
Algorithm for best node selection
PPT Slide
Lager Image
여기서 1≦ n N 는 클래스 번호를, 1≦ m Nn 은 데이터번호를 의미한다. 즉, Wn,m 는 임의의 클래스에 속하는 임의의 데이터로부터 추출 된 최적 트리의 말단노드를 나타낸다. 이러한 방법을 이용하면 해상도 수준이 증가할 때 비용함수의 합이 유지되거나 감소하는 노드는 살아남고, 증가하는 노드들은 제거되어 최소 비용을 갖는 웨이브렛 기저 집합이 구성되며, 이에 상응하는 비 균일 밴드폭을 갖는 필터뱅크가 만들어지게 된다. Fig. 3 (a) 의 경우 Wn,m = [2, 3, 4]가 되고, Fig. 3 (b) 의 경우 Wn,m = [3, 4, 5, 13, 14]가 된다.
PPT Slide
Lager Image
Examples of best tree computed from wavelet packet and its filter bank
- 2.2.3. 공통 트리 선정
특정 클래스의 데이터들은 통계적으로 유사한 최적트리를 가질 수 있으나, 실질적으로는 같은 클래스라 하더라도 데이터마다 약간씩 다른 트리 구조를 갖는다. 식별 문제에서는 데이터마다 다른 최적트리를 적용시킬 수 없으므로, 개별 훈련 데이터들의 최적트리를 파악하여 모든 클래스에 적용 가능한 공통 최적트리를 구성해야 할 필요가 있다.
공통 최적트리구성을 위해 제안하는 방법은 Fig. 4 와 같다. 먼저 각 클래스의 개별 데이터에 대한 Wn,m 를 구한다. 특정 클래스의 모든 데이터로부터 Wn,m 를 구하고, 각 노드가 선택된 개수를 셈한다. 이는 히스토그램(Histogram)의 방법과 유사하나, 클래스별 데이터 수가 인식률에 미치는 영향을 제거하기 위해 클래스별 데이터 개수( Nn )로 정규화 한다. 만일 클래스별 데이터 개수가 모두 같다면 생략 가능하다. 정규화된 클래스별 최적트리 말단노드 분포를 Hn ( i )라 하며 식 (3)와 (4)로 구할 수 있다. 그런 다음, 식 (5)와 같이, 각 클래스의 Hn ( i )를 모두 종합하여 최적트리 말단노드 분포 H ( i )를 구한다.
PPT Slide
Lager Image
Block diagram for common best tree structure from underwater transient signals data set.
PPT Slide
Lager Image
PPT Slide
Lager Image
PPT Slide
Lager Image
그런 다음 선택된 모든 말단노드의 개수를 세어 가장 많이 선택된 말단노드의 순으로 노드번호를 재 정렬한다. 그런 후 사용자가 원하는 개수의 말단노드 수( K ) 만큼을 선정하고 선택된 노드만을 이용하여 트리를 재구성 한다.
이 때 고려해야 할 사항은 웨이브렛 패킷의 최대 분지 깊이 ( L )와 재구성할 트리의 말단노드 수( K ) 이다. L 은 필터뱅크의 최소 밴드폭(Bandwidth)과 계수의 샘플개수( SL )를, K 는 필터뱅크의 개수를 각각 결정짓기 때문이다. 웨이브렛 패킷 분해시 필터뱅크의 밴드폭이 1/2로 줄어드는 특성을 고려할 때, 말단노드의 최소 밴드폭은 fL /2 L 이 된다. 웨이브렛 패킷 계수의 샘플개수 또한 분지 깊이가 한 단계 증가할 때마다 샘플수가 1/2로 줄어들기 때문에, S 0 를 입력 데이터의 샘플 개수라 할 때, 깊이 L 에서 계수의 샘플개수( SL )는 2 (− L) · S 0 개가 되며 이는 0보다 큰 정수이어야 한다. 따라서 L 은 다음을 만족해야 한다.
PPT Slide
Lager Image
예를 들어 512 샘플의 신호를 이용해 웨이브렛 패킷분해 할 경우, L 은 9이하의 값을 가져야 한다.
K 의 경우 사용자가 임의로 지정할 수 있으나 최대 말단노드 개수 2 L 를 초과할 수 없으므로 다음의 조건을 갖는다.
PPT Slide
Lager Image
본 연구에 사용한 수중 과도신호의 샘플링 주파수는 44.1kHz이며, 프레임 별 특징 추출을 위해 약 10ms의 시간 창을 갖도록 설계하였다. 따라서 식 (9)에 의해 L 은 7로 설정하였으며 이때 필터뱅크 최소 밴드폭은 약 172Hz 가 된다. 또한 25개의 멜 스케일 필터뱅크를 사용하는 MFCC와의 결과 비교를 위해 K 를 25로 설정하였다.
3. 훈련 및 식별 방법
- 3.1. 정규혼합모델(GMM, Gaussian mixture model)
제안된 방법의 검증을 위해 정규혼합모델을 이용한 수중과도신호의 식별을 수행하였다. 정규혼합모델은 음성신호처리 분야의 화자인식 등에 사용되는 패턴인식 기법으로, T 개의 특징벡터를 갖는 클래스 n 의 특징벡터 집합
PPT Slide
Lager Image
의 분포 밀도를 다음 식과 같이 J 개의 가우시안 확률밀도 함수 ( p )로 표현하여 우도(Likelihood)를 최대로 하는 클래스를 선택하는 방법이다( Han, 2009 ).
PPT Slide
Lager Image
PPT Slide
Lager Image
여기서 θ 는 정규혼합모델 파라미터 집합이며 αj , μj , Σj 는 각각 가우시한 혼합성분 밀도의 가중치, 평균 벡터 그리고 공분산 행렬이다. 이 경우 훈련이란 표본데이터 집합의 로그-우도를 최대로 하는 각 혼합 가우시안 성분의 파라미터( θ )를 추정하는 것을 말한다. 이를 위해 다음과 같이 EM(Expectation maximization) 알고리즘을 사용하며, 초기값이 주어지면 반복적인 방법으로 최적의 파라미터를 찾아낸다. 본 논문에서는 가우시안 혼합수 ( J )를 3으로 두고 인식을 수행하였다.
- 3.2. 재 샘플링에 의한 성능평가
서론에서 언급한바와 같이 음원이 알려진 수중 과도신호는 데이터취득의 현실적 제약이 크다. 따라서 데이터 재 샘플링을 이용한 성능평가를 통해 인식 결과의 신뢰도를 높일 필요가 있다. 이를 위해 교차검증(Cross validation)을 응용한 성능평가를 수행하였다. 교차검증은 데이터 집합을 k개의 부분집합으로 나눈 후, k − 1 개로 훈련을 수행하고 나머지 한 개로 식별하는 방법이다. 그러나 데이터 수의 제약 때문에 부분집합을 여러 개로 나누기 어려우므로, 훈련데이터의 개수와 그 조합(Combination)을 먼저 선정한 후 나머지 데이터를 모두 훈련에 사용하는 방법을 이용하였다. 데이터의 조합이 성능에 미치는 영향을 최소화시키기 위해, 훈련과 식별에 사용할 데이터 조합의 모든 경우의 수를 고려하였다. 즉, Nn 개의 데이터 중에서 w 개의 훈련데이터를 만드는 경우의 수는 NnCw 가지가 되며, 총 식별 횟수는 NnCw ×( Nn w )가 된다. 본 논문에서는 총 9개의 데이터 중에서 훈련데이터의 개수를 3개에서 7개까지 변화시켜가며 인식을 수행하였다.
4. 실험 결과
- 4.1. 수중과도신호의 최적 트리
실험에 사용한 수중과도신호 집합은 비 생물 수중 과도신호로서 어뢰 발사관, 체인, 부이, 빙하 갈라짐, 탄성파 탐사신호의 총 5가지 클래스로 구성되어 있으며 각 클래스는 모두 9개씩의 서로 다른 데이터로 구성되어 있다. 이들은 약 150ms ~ 400ms이내의 지속시간을 가지며 단발성, 비주기성의 특징을 보인다. Fig. 5 는 실험에 사용된 각 클래스의 대표적인 데이터의 파형을 나타낸다. 각 신호의 샘플링 주파수는 44.1kHz, 양자화 레벨은 16비트이다.
PPT Slide
Lager Image
Waveforms of underwater transient signals for five different classes. (a) Torpedo tude, (b) Buoy, (c) Chain, (d) Ice cracking, (e) Elastic explosion
수중 과도신호 집합의 공통 트리를 구성하기위해 웨이브렛 변환에 널리 사용되는 Daubechies( db ) 웨이브렛을 이용하였다. db 웨이브렛은 차수 따라 dbN 으로 표시하며 N 에 따라 필터의 주파수 특성이 다른 특징이 있다. Fig. 6 (a) db 20을 이용해 얻어진 개별 데이터 최적트리 말단 노드 v ( i )의 빈도수의 결과를 나타내며 Fig. 6(b) 는 최대 빈도수 말단노드로부터 재구성하여 얻어진 공통 트리구조이다. 웨이브렛 패킷 분해 시 비용함수에 따라 서로 다른 밴드폭을 갖는 기저함수 조합을 선정하였기 때문에, 특정 부분에서 밴드폭이 좁거나 넓게 구성된다 ( Fig. 6(c) ).
PPT Slide
Lager Image
(a) Number of bins of best terminal nodes among all data set (b) reconstructed tree by the most frequently selected terminal nods (c) wavelet packet filter-bank correspond with terminal nodes
이러한 결과는 멜-스케일 필터뱅크와 크게 다른 필터뱅크 구성을 만들어 낸다. 도출된 최적 트리를 이용해 웨이브렛 패킷분해를 수행하면 비균일 필터뱅크 출력에 상응하는 웨이브렛 계수들을 구할 수 있으며, 각 단의 출력신호의 에너지를 계산하여 스펙트럼을 구한다. 이를 이용하여 캡스트럼 분석을 수행하며 결과적으로 수중 천이신호의 WPCC를 얻을 수 있다.
Fig. 7(a) 는 체인 신호 중의 하나를 단구간 푸리에 변환(STFT, short-time Fourier transform)한 결과 이며, Fig. 7(b) (c) 는 그것에 프리 엠퍼시스를 적용한 후, 파워스펙트럼의 Mel-filter 출력과 비 균일 웨이브렛 패킷 분해 신호의 에너지를 나타낸 그림이다. Fig. 7(b) (c) 는 필터 순서에 따라 밴드 폭이 서로 다르므로 결과 값이 서로 다른 양상을 나타내고 있다. 두 경우 모두 단구간 푸리에변환의 특정 주파수 대역이 확대 및 축소된 것과 같은 결과를 나타내고 있다. 최종적으로 Fig. 7(b) (c) 의 결과를 이용해 수중 과도신호의 12차 캡스트럼 계수를 추출하였으며 정규혼합 모델(GMM)을 이용한 인식을 수행하였다.
PPT Slide
Lager Image
(a) Spectrogram (b) Mel-filter output (c) Wavelet packet decomposed signal for underwater transient sound by chain
- 4.2. 수중과도신호 인식 결과
정규혼합모델(GMM)을 이용한 인식을 수행한 결과를 정리하여 Table 2에 나타내었다. 앞서 언급한 바와 같이 훈련 데이터의 개수( w )와 조합을 변화시켜가며 인식을 수행하였으며 훈련 데이터 이외의 모든 데이터를 이용해 인식을 수행하였다. 또한 모웨이브렛 변화가 결과에 미치는 영향을 고려하기 위해 동일한 트리구조에서 db 10과 db 40을 이용해 WPCC를 추출하여 인식을 수행해 보았다.
Comparison of recognition error rate of MFCC and WPCC [%]
PPT Slide
Lager Image
Comparison of recognition error rate of MFCC and WPCC [%]
먼저 db 10을 이용한 WPCC 특징은 모든 경우에서 MFCC에 비해 인식률이 낮은 결과를 보인 반면 db 20과 db 40은 MFCC를 사용 한 경우에 비해 성능이 뛰어났다. db 20과 db 40을 비교해 보았을 때는 db 40이 더 우수한 성능을 보였다. 이는 dbN 웨이브렛이 일반적으로 N 이 증가함에 따라 밴드폭이 넓고 통과대역의 주파수 응답이 평탄한 특성을 나타내기 때문이다. Table 2 의 결과를 종합적으로 볼 때 WPCC- db 40의 인식률이 가장 우수하고 WPCC- db 20은 MFCC와 대등하거나 다소 뛰어난 것으로 확인된다.
성능이 비교적 대등한 MFCC와 WPCC- db 20에 대해 훈련데이터 개수에 따른 특징벡터 성능을 비교해 보면 다음과 같다. 전체 데이터 개수에 대해 비교적 많은 7개의 데이터를 훈련에 이용한 경우 MFCC와 두 가지 WPCC 모두 오류없이 잘 인식하는 것을 볼 수 있다. MFCC와 WPCC- db 20은 훈련데이터가 6개 이하인 경우부터 오류가 발생하는데 훈련데이터 6개인 경우는 오류율이 동일하고 훈련데이터가 5개 이하일 때부터 WPCC- db 20가 MFCC에 비해 인식률이 높은 것으로 확인된다. 이는 MFCC의 경우 훈련데이터의 특성이 전혀 반영되지 않기 때문에 인식률이 훈련 데이터 개수 감소에 민감한 반면 WPCC는 특징 추출과정에서 훈련데이터 집합의 특성을 반영하기 때문에 적은 훈련데이터 개수로도 인식률이 향상되는 결과로 판단된다.
- 4.3. 인식 결과 분석
인식 결과를 분석해 보면, 특정 데이터의 인식 오류가 반복해서 나타나는 현상을 발견할 수 있다. 가령 Tset 3에서 MFCC의 오류는 대부분 체인음이 어뢰 발사관음으로 잘못 인식되어 발생한 결과 였으며, WPCC- db 20의 오류는 대부분 부이음이 빙하 갈라짐음으로 잘못 인식되어 발생한 결과였다. 이러한 원인을 분석하기위해 분산 분석(ANOVA, Analysis of variance)을 이용한 각 클래스별 특징벡터의 변별력을 분석해 보았다. 분산 분석은 주어진 변량이 통계적으로 얼마나 유의미한 차이를 나타내는지 검증하는 방법이다. 먼저 Fig. 8 은 각 클래스의 모든 데이터로부터 캡스트럼 계수를 추출하여 특징벡터의 차원 별 평균과 분산을 나타낸 그림이다. 두 가지 특징 벡터 모두 어뢰발사관과 체인의 캡스트럼 계수는 매우 유사하게 나타나고 있다. 특히 WPCC에 비해 MFCC의 경우 두 클래스의 특징벡터 상당부분의 평균이 표준편차 내에서 겹치는 것이 확인된다. 각 계수의 차원별로 분산 분석을 수행하여 F-value 를 합산한 결과 MFCC는 17502.8, WPCC는 18185.6로 약 4% 향상 된 것으로 나타났으며, 특히 어뢰 발사관음과 체인음의 특징벡터 차원별 F-value 합산 값은 MFCC가 1727.4, WPCC가 2202.5로 약 28% 향상된 것으로 나타났다. 구체적으로 이러한 영향이 인식 수행과정에서 WPCC의 인식률 상승 요인으로 작용한 것으로 판단된다.
PPT Slide
Lager Image
Mean and standard deviation of MFCC and WPCC coefficient values with cepstral order (a) MFCC (b) WPCC
5. 결 론
제한된 데이터 베이스를 이용한 인식에서는 데이터 집단의 특성을 반영하는 특징 추출방법의 효과가 극대 될 수 있다. 최근 음성 인식 특징 추출을 위해 제안된 바 있는 WPCC는 캡스트럼 계수 추출 단계에서 데이터 종속적인 필터뱅크를 구성할 수 있다. 따라서 본 논문에서는 일반적으로 제한된 데이터 베이스 환경에서 인식을 수행하게 되는 수중 천이신호 인식에 WPCC를 적용해 보았으며 기존 수중 천이신호 인식에 사용되고 있는 MFCC 방법과 인식률을 비교하였다.
다섯 가지 클래스의 수중 천이 신호 데이터를 이용하여 WPCC를 추출하였으며, 정규 가우시안 혼합 모델을 이용하여 인식을 수행하였다. 이때, 모 웨이브렛 선정이 인식률에 미칠 수 있으므로 dbN ( N =10, 20, 40) 웨이브렛을 이용하여 각각 WPCC를 추출하였다. db 10 웨이브렛을 이용한 WPCC의 경우 MFCC의 인식결과에 비해 낮은 인식률을 보였지만, 필터 특성이 우수한 db 20와 db 40의 경우 MFCC에 비해 향상된 인식률을 얻을 수 있었으며 N 증가에 따라 우수한 성능을 보였다. 특히 훈련데이터의 개수가 적을 경우 인식률 결과의 차이가 두드러지게 나타났다. 훈련 데이터 개수가 6개 이상인 경우 WPCC- db 20은 MFCC와 같은 인식률을 보였으나 5개 이하로 줄어들 경우 WPCC- db 20의 인식률이 MFCC보다 높게 나타나 데이터 특성을 반영한 WPCC 특징 추출 기법이 훈련데이터 부족에 대해 덜 민감한 것으로 나타났다.
본 논문에서 사용한 모든 데이터를 특징벡터 수준에서 분석해 본 결과 어뢰 발사관음과 체인음의 특성이 매우 유사한 것으로 나타났다. 특히 MFCC의 경우 주로 이 두 가지 클래스의 데이터 인식 과정에서 인식 오류를 보였는데, WPCC를 사용할 경우 오류가 많이 개선된 것으로 나타났다. 분산 분석결과, 이는 WPCC가 MFCC에 비해 특징벡터의 변별력을 약 4% 높였기 때문으로 나타났다.
특징벡터 추출을 위한 효과적인 웨이브렛 최적트리 형성에 관해서는 지속적인 연구가 필요하다. 특히 웨이브렛 트리구조 구성이 인식률에 큰 영향을 미칠 수 있으므로 많은 연구가 필요하다. 또한 보다 강인한 수중 신호의 인식을 위해서는 다양한 수중 환경, 특히 수중 배경소음이 특징벡터와 인식률에 미치는 영향에 대해서도 지속적인 연구가 필요하다.
Acknowledgements
본 연구는 방위사업청과 국방과학연구소의 지원으로 수행되었으며, 이에 깊이 감사를 드립니다. (계약번호 UD100014DD)
References
Coifman R.R. , Wickerhauser M.V. 1992 Entropy-based Algorithm for Best Basis Selection IEEE Transactions on Information Theory 38 (2) 713 - 718    DOI : 10.1109/18.119732
Coifman R.R. , Meyer Y. , Wickerhauser V. 1992 Wavelet Analysis and Signal Processing Wavelets and their Applications 153 - 178
Han H.Y. 2009 Introduction to Pattern Recognition Hanbit Media Inc 184 - 213
Kundu A. , Chen G.C. , Persons C.E. 1994 Transient Sonar Signal Classification Using Hidden Markov Models and Ueural Nets IEEE Journal of Oceanic Engineering 19 (1) 87 - 99    DOI : 10.1109/48.289454
Lim T.G. , Bae K.S. , Hwang C.S. , Lee H.U. 2007 Classification of Underwater Trasient Signals Using MFCC The Journal of Korea Information and Communications Society 32 (8) 675 - 680
Mallat S. 1999 A Wavelet Tour of Signal Processing Academic Press
Oliveira P.M. , Lobo V. , Barroso V. , Moura-Pires F. 2002 Detection and Classification of Underwater Transients with Data Driven Methods Based on Time-frequency Distributions and Non-parametric Classifiers OCEANS '02 MTS/IEEE 1 (1) 12 - 16
Pavez E. , Silva J.F. 2012 Analysis and Design of Wavelet-Packet Cepstral Coefficients for Automatic Speech Recognition Speech Communication 54 (6) 814 - 835    DOI : 10.1016/j.specom.2012.02.002
Tucker S. 2003 An Ecological Approach to the Classification of Transient Underwater Acoustic Events: Perceptual Experiments and Auditory Models. PhD Thesis University of Sheffield