Advanced
Analysis on Vowel and Consonant Sounds of Patent's Speech with Velopharyngeal Insufficiency (VPI) and Simulated Speech
Analysis on Vowel and Consonant Sounds of Patent's Speech with Velopharyngeal Insufficiency (VPI) and Simulated Speech
Journal of the Korea Institute of Information and Communication Engineering. 2014. Jul, 18(7): 1740-1748
Copyright © 2014, The Korea Institute of Information and Commucation Engineering
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License(http://creativecommons.org/li-censes/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
  • Received : March 06, 2014
  • Accepted : March 31, 2014
  • Published : July 31, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Share
Article
Author
Metrics
Cited by
TagCloud
About the Authors
미영 성
School of Computer Science & Engineering, Incheon National University, Incheon 406-772, Korea
희진 김
Otorhinolaryngology, Kyungpook National University School of Medicine, Daegu 700-842, Korea
택균 권
Otorhinolaryngology, Seoul National University College of Medicine, Seoul 110-744, Korea
명훈 성
Otorhinolaryngology, Seoul National University College of Medicine, Seoul 110-744, Korea
우일 김
School of Computer Science & Engineering, Incheon National University, Incheon 406-772, Korea
wikim@incheon.ac.kr

Abstract
본 논문에서는 구개인두부전증 (VPI) 환자 발음과 정상인의 모의 발음에 대한 듣기 평가와 음향 분석을 실시한다. 본 연구를 위해 음성 데이터 수집을 위해 50개의 단어, 모음 및 단음절로 이루어진 발음 목록을 설정한다. 듣기 평가실험의 편의를 위해 웹 기반의 듣기 평가 시스템을 구축한다. 듣기 평가 결과는 실제 VPI 환자의 발음에 대한 오인식 경향과 모의 발음의 오인식 경향이 유사함을 나타낸다. 이러한 유사성은 모음의 포먼트 위치와 자음의 스펙트럼의 비교를 통해서도 확인할 수 있다. 실험 결과는 본 연구에서 사용한 정상인의 VPI 모의 발화 기법이 실제 환자의 음성을 비교적 효과적으로 모의하는 것을 반영하는 결과이다. 향후 VPI 환자의 음성 인식 과정에서 정상인의 모의 발화음성 데이터를 음향 모델의 적응 기법과 같은 분야에 유용하게 사용할 수 있을 것으로 기대한다.
Keywords
I. 서 론
구순구개열은 얼굴의 선천성 기형 중 빈도가 높은 장애의 하나로, 선천적으로 입술 (구순) 또는 입천장 (구개)이 갈라져서 구강과 비강이 연결된 상태를 말하며, 우리나라의 경우 약 700명의 신생아 중 1명 꼴로 발생하는 유병률이 높은 질환이다 [1 , 2] . 정상인이 발성할 때 연구개가 비강과 구강을 차단시켜 비음을 막는 것에 반해, 구순구개열 환자는 경구개 또는 연구개가 갈라져 있거나 연구개가 선천적으로 짧기 때문에 성도로부터 나온 공기 흐름이 비강과 구강 동시에 공명하게 됨으로 써 발성 및 조음 장애가 발생한다. 이러한 증상을 구개인두부전증 (Velopharyngeal Insufficiency, VPI)이라고 한다.
본 연구는 VPI 환자의 음성 복원 및 인식 기술을 개발하기 위한 기초적인 과정으로서, VPI 환자의 발음과 이를 실험적으로 유사하게 발생시킨 정상인의 모의 발음을 분석한다. 이전 연구에서는 VPI 환자의 음성 처리 연구를 위해 공동 음성 데이터베이스 구축을 위한 발음 목록 설계 및 수집 환경 조성 등을 실시하였고, 수집된 일부 음성에 대해 비음도를 측정하였다 [2] . 본 연구는 그 후속 작업으로서, VPI 환자의 음성 인식 연구를 위한 음성 데이터베이스 수집을 목적으로 발음 목록을 재정의하고, 수집된 데이터에 대해 듣기 평가와 음향학적 분석을 실시하였다. 실험적으로 유발시킨 정상인의 모의 발음과 동일인의 정상 발음 비교를 통해 음향학적으로 어떤 변화가 일어나는지 관찰한다. 또한, 모의 발음과 실제 환자의 발음의 유사성을 관찰함으로써, 대용량의 수집이 어려운 실제 VPI 환자 음성 데이터에 대한 연구 및 실험 과정에 모의 발음 음성 데이터를 효과적으로 사용할 수 있는지 여부를 타진하고자 한다.
II. 음성 데이터베이스 수집
본 절에서는 본 연구에서 사용한 음성 데이터베이스의 설계 및 수집 과정을 설명한다.
- 2.1. 단어 목록 선정
본 연구에서는 한국어 PBW (Phoneme Balanced Words) 452 단어 목록 [3] 에서 VPI 환자의 발음 오류의 양상이 주로 나타나는 50개의 단어를 언어치료사가 선정하여 발음 목록으로 사용하였다. 향후 VPI 환자 음성인식 실험 및 연구를 위해 음성 인식 분야에서 단어 인식 시스템에 공통적으로 사용되고 있는 PBW452 목록을 사용하였다. 표 1 은 본 연구에서 발음 목록으로 사용한 50개의 단어 리스트를 나타낸다.
PBW452 목록으로부터 선정된 50개의 단어 목록Table. 150-word list selected from PBW452 list
PPT Slide
Lager Image
PBW452 목록으로부터 선정된 50개의 단어 목록 Table. 1 50-word list selected from PBW452 list
본 연구에서는 VPI 환자 음성의 음향 분석을 위해 단어 목록 뿐 아니라 한국어 음소 발음을 함께 수집하였다. 발음 목록으로는 단모음 7개 (/ㅏ/, /ㅓ/, /ㅗ/, /ㅜ/,/ㅡ/, /ㅣ/, /ㅐ/)를 선정했고, 자음 발음 평가를 위해서는 화자 (Speaker)의 발음과 듣기 평가 과정을 용이하게 하기 위해 초성 자음과 모음 /ㅏ/가 결합된 19개의 단음절 (/가/, /나/, /다/, /라/, /마/, /바/, /사/, /아/, /자/, /차/, /카/, /타/, /파/, /하/, /까/, /따/, /빠/, /싸/, /짜/) 목록을 선정했다 1).
- 2.2. 수집 대상
음성 녹음에 협조가 잘 되고, 발화 목록에 따른 발음이 적절히 되도록 하기 위해 만 10세 이상의 VPI 환자와 정상 발음을 가진 성인을 대상으로 하였다. 모집과 정에서 정상 모의 환자와 VPI 환자의 녹음 의지를 확인한 후 피험자 동의서를 받았다. 대부분의 발화자들은 구개구순열 수술 후 언어 치료를 위해 외래에 정기적으로 내원하는 환자로 구성되었다.
- 2.3. 수집 방법
녹음은 주변 환경 소음을 최대한 피하기 위해 외래진료 후 언어치료실 한 곳을 지정하여 시행하였다. 녹음 과정에는 음성 언어치료사, 의공학과 연구원, 이비인후과 의사가 참여하였고, 언어치료사의 주도하에 발화자가 긴장하지 않도록 최대한 편한 분위기를 조성하였다. 입으로부터 40cm 떨어진 위치에 고감도 마이크를 설치하여 녹음을 실시하였다. 마이크로부터 나오는 음성신호를 다목적 USB 녹음장치인 U46XL (SuESI Audiotechnik GmbH, Leonberg, Germany)을 이용하여 주파수 44.1 kHz, 양자화 비트수 16 bit로 디지털화하고 Cubase LE5 소프트웨어를 이용하여 녹음 파일을 취득 하였다.
정상인으로부터 실험적으로 VPI 환자의 발음을 유발하기 위해 1mm 내경을 가지는 고무관 (Nelaton Catheter)을 사용하였다 [2] . 그림 1 과 같이 카테터를 양측 비강을 통해 넣고, 긴장도가 없는 상태에서 위치 (1)을 지혈겸자 (Hemostatic Clamp)로 표시해 놓고, 통증을 유발하지 않는 선에서 최대의 긴장도가 생성되는 위치 (2)를 표시하였다. 넬라톤 카테터가 (2)의 위치에 있을 때를 VPI 모의 환자 중증 (Severe) 상태로 하였고, (1)가 (2)의 중간위치에 있을 때 VPI 발음이 녹음된 것을 경도 (Mild) 상태로 정의하였다.
PPT Slide
Lager Image
넬라톤 카테터를 사용하여 구개인두부전증을 모의한 그림 [2] Fig. 1 Illustration of simulated velopharyngeal Insufficiency with a nelaton tube [2]
본 논문에서는 수집된 데이터베이스 중 VPI 환자 2명과 정상인 2명의 데이터를 사용하였다. VPI 환자는 남녀 각 1명으로 구성되고, 정상인은 30대의 남성 2명으로 구성되었다. VPI 환자는 단어 목록 및 음소 세트를 3회 반복 발음하였고, 정상인은 정상 발음과 모의 발음에 대해 단어 목록은 3회, 음소 세트를 5회 발음하였다.
III. 듣기 평가 시스템 및 결과 분석
본 절에서는 VPI 환자의 발음과 정상인의 모의 발음의 음소별 명료도 (Intelligibility)를 측정하기 위해 실시한 듣기 평가 실험의 결과를 기술한다. 이에 앞서 듣기평가 실험을 위해 구축한 웹 기반의 듣기 평가 시스템에 대해서 설명한다.
- 3.1. 웹 기반 평가 시스템 설계 및 구축
본 연구에서는 다수의 듣기 평가 시험자를 확보하고 실험의 편의를 위해 인터넷으로 접속하여 듣기 평가 실험에 참여할 수 있는 웹 기반의 듣기 평가 시스템을 구축하였다. 평가 시험자들은 인터넷을 통해 듣기 평가 시스템에 접속하여 부여받은 아이디로 로그인을 하여 평가에 참여하게 된다. 그림 2 와 같이 해당 평가 시험자에 부여된 평가 목록에서 각 파일을 클릭하여 해당 음성 (모음 또는 단음절)을 들을 수 있게 하고, 평가 시험자가 인식하여 판단한 음성의 내용을 선택하고 저장함으로써 평가를 실시한다. 음성 파일은 16 kHz로 다운 샘플링되어 Windows *.wav 형식으로 저장되었다. 각 음성 파일 당 듣기 횟수는 최대 5회로 제한하였으며, 각 평가 시험자는 집, 사무실, 연구실 등과 같이 조용한 환경에서 헤드폰 또는 이어폰을 사용하여 듣기 평가에 참여하는 것을 원칙으로 했다.
PPT Slide
Lager Image
웹 기반 듣기 평가 시스템의 샘플 페이지. Fig. 2 A sample page of the web-based listening evaluation system developed for this research.
주관적 듣기 평가 실험에는 총 15명의 정상 듣기 능력을 가진 20-30대의 남녀로 구성된 시험자가 참여하였다. 한명의 피시험자 (즉, VPI 환자 또는 정상인 발화자) 음성의 각 음소 종류에 대해 20회의 듣기 평가가 실시될 수 있도록 평가 시험자의 듣기 평가 목록을 설계하였다. 그 결과 각 시험자는 총 8개의 발음 세트 (모음 7개, 단음절 19개)에 대해 듣기 평가에 참여하였다. 시험자에게는 발화자에 대한 어떠한 정보도 제공되지 않고, 각 평가 목록의 음소 및 단음절 순서는 무작위로 나열되도록 설계하여 평가 시험자가 예측에 의한 판단이 불가능하도록 하였다.
- 3.2. 듣기 평가 결과 및 분석
표 2 는 앞 절에서 설명한 웹 기반 듣기 평가 시스템을 이용하여 실시한 정상인 화자의 정상 발화 및 모의 발화 음성에 대한 듣기 평가 결과이다. 정상인의 경우 정상 발화에 대해서는 모음과 단음절 모두 80-90% 정도의 인식정확도를 나타냈다. 모의 발음의 경우 모음에 대해서는 70% 정도의 정확도를 나타냈지만, 단음절의 경우 정상인 1은 28.95%, 정상인 2는 59.21%의 인식정확도를 보였다. 특히 정상인 1의 모의 발음의 자음 성분을 포함한 단음절에 대해 오인식 정도가 심한 것을 알 수 있다. 이러한 결과는 모의 발화의 경우 모음에 비해 자음의 음성 변형이 심한 것을 반증한다.
정상인의 정상 발화 및 모의 발화에 대한 듣기 평가 결과 (인식 정확도, %)Table. 2Result of listening test for normal speakers' normal speech and simulation speech (recognition accuracy, %)
PPT Slide
Lager Image
정상인의 정상 발화 및 모의 발화에 대한 듣기 평가 결과 (인식 정확도, %) Table. 2 Result of listening test for normal speakers' normal speech and simulation speech (recognition accuracy, %)
표 3 부터 표 6 까지는 정상인 화자의 모의 발음에 대한 듣기 평가 결과를 오인식표 (Confusion Matrix)로 나타낸 것이다. 본 논문에서의 오인식표는 각 행의 발음에 대해 각 열의 어떤 발음으로 몇 회 인식되었는지를 나타낸다. 표 3 4 는 정상인 화자 1과 2의 모음 발음에 대한 오인식표를 나타낸다. 총 20회 듣기 평가 중 10회 이상 정확하게 인식된 결과를 불투명한 칸으로 표시하였다. 모의 발화 모음의 경우 /우/와 /이/ 발음에 대해 인식 정확도가 매우 낮은 것을 알 수 있다. 발음 /우/는 주로 /오/ 발음으로 오인식 되었으며, 발음 /이/는 주로 /으/ 발음으로 오인식된 것을 확인할 수 있다.
정상인 1의 모의 발화 모음에 대한 오인식표Table. 3Confusion matrix for normal speaker 1's simulation vowel speech
PPT Slide
Lager Image
정상인 1의 모의 발화 모음에 대한 오인식표 Table. 3 Confusion matrix for normal speaker 1's simulation vowel speech
정상인 2의 모의 발화 모음에 대한 오인식표Table. 4Confusion matrix for normal speaker 2's simulation vowel speech
PPT Slide
Lager Image
정상인 2의 모의 발화 모음에 대한 오인식표 Table. 4 Confusion matrix for normal speaker 2's simulation vowel speech
표 5 6 은 정상인의 모의 발화의 단음절에 대한 듣기 평가를 실시한 결과로서, 자음 성분에 관한 인식 명료도를 나타낸다. 자음의 경우에는 총 20회 중 8회 이상 인식된 결과를 불투명한 칸으로 나타내었다. 정상인 1과 2 모두 발음 /나/를 /아/로 오인식 하는 경우가 많았고, 발음 /다/와 /자/의 경우 인식정확도가 극히 낮았다. 또한 많은 자음 성분이 발음 /하/로 오인식되는 경우가 많았다.
정상인 1의 모의 발화 자음에 대한 오인식표.Table. 5Confusion matrix for normal speaker 1's simulation consonant speech.
PPT Slide
Lager Image
정상인 1의 모의 발화 자음에 대한 오인식표. Table. 5 Confusion matrix for normal speaker 1's simulation consonant speech.
정상인 2의 모의 발화 자음에 대한 오인식표Table. 6Confusion matrix for normal speaker 2's simulation consonant speech
PPT Slide
Lager Image
정상인 2의 모의 발화 자음에 대한 오인식표 Table. 6 Confusion matrix for normal speaker 2's simulation consonant speech
표 7 은 VPI 환자의 음성에 대한 듣기 평가 결과이다. 정상인 화자에 비해 전체적으로 인식 정확도가 낮았다. 특히 환자 1의 경우 모음과 자음 모두 인식 정확도가 특히 낮은 것을 알 수 있다. 정상인 화자와 마찬가지로 VPI 환자의 음성에 대한 듣기 평가 결과를 표 8 에서 11 까지의 오인식표로 나타내었다. 표 8 9 는 환자 1과 2 의 모음 발음에 대한 오인식표이다. 환자 1의 발음이 상대적으로 오인식한 정도가 많은 것을 확인할 수 있다. 환자 1의 경우 /어/, /우/, /으/의 발음이 모두 /오/로 오인식되는 경우가 많은 것을 확인할 수 있다. 환자 1과 2의 모음 발음 듣기 평가에서 공통적으로 나타나는 결과는, (1) /우/의 발음이 오인식 정도가 상대적으로 높았고, (2) /이/의 발음이 대부분 /으/로 오인식되었다. 이와 같은 결과는 앞에서 정상인의 모의 발화 모음의 오인식표에서 살펴본 결과와 유사한 양상이다. 이와 같은 유사성은 본 연구에서 사용한 모의 발화 방법이 VPI 환자의 모음의 장애 발음을 비교적 유사하게 모의하는 것을 입증하는 결과이다.
VPI 환자의 발화에 대한 듣기 평가 결과 (인식 정확도, %)Table. 7Result of listening test for VPI patients' speech (recognition accuracy, %)
PPT Slide
Lager Image
VPI 환자의 발화에 대한 듣기 평가 결과 (인식 정확도, %) Table. 7 Result of listening test for VPI patients' speech (recognition accuracy, %)
환자 1의 발화 모음에 대한 오인식표Table. 8Confusion matrix for patient 1's vowel speech.
PPT Slide
Lager Image
환자 1의 발화 모음에 대한 오인식표 Table. 8 Confusion matrix for patient 1's vowel speech.
환자 2의 발화 모음에 대한 오인식표Table. 9Confusion matrix for patient 2's vowel speech
PPT Slide
Lager Image
환자 2의 발화 모음에 대한 오인식표 Table. 9 Confusion matrix for patient 2's vowel speech
표 10 11 은 환자 1, 2의 자음 발음에 대한 듣기 평가 결과의 오인식표이다. 두 환자의 평가에서 공통으로 나타나는 사항은 다음과 같다. (1) 발음 /다/에 대한 인식정확도가 극히 낮다. (2) /카/, /타/의 발음이 모두 /파/로 오인식되는 정도가 높다. (3) 경음 /까/, /따/, /빠/, /싸/, /짜/ 모두 인식 정확도가 매우 낮다. (4) 많은 자음이 /파/로 오인식되는 경우가 많다. 경음을 발음하기 위해서는 연구개의 작용이 동반되는 후두 긴장을 요구하는 데, VPI 환자의 경우 연구개의 동작이 불완전해짐에 따라 정확한 경음을 발음하기 어려워지는 것으로 해석할 수 있다.
환자 1의 발화 자음에 대한 오인식표Table. 10Confusion matrix for patient 1's consonant speech
PPT Slide
Lager Image
환자 1의 발화 자음에 대한 오인식표 Table. 10 Confusion matrix for patient 1's consonant speech
환자 2의 발화 자음에 대한 오인식표Table. 11Confusion matrix for patient 1's consonant speech
PPT Slide
Lager Image
환자 2의 발화 자음에 대한 오인식표 Table. 11 Confusion matrix for patient 1's consonant speech
IV. VPI 장애/모의 발음의 음향 분석
정상인의 정상 발화와 모의 발화, VPI 환자의 발화의 음소 발음에 대해 음향 분석을 실시하였다. 모음에 대한 분석은 포먼트 (Formant) 위치를 측정하여 비교하였다. 그림 3 은 정상인 1의 정상 발화와 모의 발화에 대해 각 모음의 제 1, 제 2 포먼트 (F1, F2)의 위치를 비교한 것이다. 5회 발음한 각 모음의 포먼트 위치의 평균을 구하여 나타냈다. 그림 3의 점선과 같이 정상 발화의 경우 각 모음의 F1과 F2의 평균 위치가 뚜렷이 구분되는 위치에서 관찰되는 것을 알 수 있다. 모의 발화의 경우 /으/, /이/, /애/의 발음의 경우 제 1 포먼트의 중심 주파수가 상승하고 제 2 포먼트의 위치는 대폭적으로 하락한 주파수에서 형성됨으로써 전체적으로 F1과 F2를 나타내는 면적이 축소되는 것을 확인할 수 있다. 특히, /오/와 /우/의 F1과 F2의 위치가 겹쳐지게 되는데, 이것은 표 3 에서 관찰한 것과 같이 정상인 1의 모의 발화에 대한 듣기 평가 실험에서 /우/ 발음을 /오/로 오인식되는 정도가 높은 것을 설명해주는 증거이다. 또한, /이/ 발음의 경우 제 2 포먼트 주파수가 대폭 하락하게 되어 정상 발음의 /으/의 위치와 유사하게 되어, 표 2 에서 관찰한것과 같이 /으/ 발음으로 오인식하게 되는 빈도가 높아지는 것을 알 수 있다. /으/와 /애/ 모음의 경우에는 포먼트 주파수 위치가 대폭적으로 변하지만, 다른 모음들의 포먼트 위치와 차별되는 위치에 존재함으로써 모의 발화에서 도 비교적 정확하게 인식하는 결과를 가져온 것으로 유추할 수 있다.
PPT Slide
Lager Image
정상인 1의 정상 및 모의 발화 중 모음의 F1과 F2 위치 비교 Fig. 3 F1 & F2 location comparison for vowels of normal speaker 1's normal & simulation speech
그림 4 는 정상인 2의 정상 발화와 모의 발화에서의 모음의 F1, F2 위치 변화를 나타낸 것이다. 전체적으로 F1과 F2의 위치가 주파수 축에서 낮아짐으로써 서로 다름 음소의 포먼트의 위치가 상대적으로 가까워진 것을 확인할 수 있다. 이와 같이 포먼트 위치가 대폭적으로 이동함으로써 표 4 에서 관찰된 모음의 오인식 결과를 초래한 것으로 해석할 수 있다.
PPT Slide
Lager Image
정상인 2의 정상 및 모의 발화 중 모음의 F1과 F2 위치 비교 Fig. 4 F1 & F2 location comparison for vowels of normal speaker 2's normal & simulation speech
그림 5 는 VPI 환자 1의 모음 음성의 포먼트 위치를 나타낸 것이다. 정상 발음과의 비교를 위해 그림 3 4 에서 살펴본 정상인 1과 2의 정상 발화 모음의 F1, F2 위치의 평균을 점선으로 나타내었다. 정상인 발음과 비교하여 /오/와 /우/ 발음을 제외하고 모두 제 2 포먼트 주파수가 대폭적으로 하락하는 것을 관찰할 수 있다. 특히, /어/, /우/, /으/ 발음 모두 정상인의 발음 /오/의 포먼트 위치와 유사하게 나타나는 것을 알 수 있으며, /이/와/애/ 발음은 제 2 포먼트 위치가 급격하게 낮아지는 것을 알 수 있다 [4] .
PPT Slide
Lager Image
VPI 환자 1과 정상 발음의 모음의 F1과 F2 위치 비교 Fig. 5 F1 & F2 location comparison for vowels of VPI patient 1 and normal speakers' normal speech
한국어 단모음 /이/, /애/와 같은 전설 모음에서는 제 2 포먼트의 위치가 높은 주파수에서 형성되는데 [5] , VPI 환자의 경우에는 연구개의 차단 동작이 불완전해지면서 후설 모음화되는 것으로 해석할 수 있다. 이와 같은 결과는 표 8에서 확인한 오인식 경향을 설명해주는 결과이다. 제 2 포먼트 주파수가 급격하게 낮아지는 현상은 그림 3 4 와 같이 정상인 1과 2의 경우에서도 유사하게 관찰할 수 있다. 이러한 양상은 듣기 평가의 결과와 유사한 결과로서 본 실험에서 사용한 VPI 모의 발화 방법이 실제 환자와 유사한 경향의 모음 발음을 발생시키는 것을 음향학적 측정값 (즉, 포먼트의 위치)으로 확인한 것이다. 환자 2는 여성이고 정상인 화자는 모두 남성이므로 본 실험에서 포먼트 위치 비교는 생략 하였다.
그림 6 은 VPI 환자 및 모의 발화의 듣기평가에서 공통적으로 오인식이 많이 나타난 단모음 /자/에서 자음 /ㅈ/ 부분의 평균 스펙트럼을 (a) 정상인 1, (b) 정상인 2, (c) 환자 1에 대해 나타낸 것이다. 그림 (a)와 (b)에서 점선은 정상 발음, 실선은 모의 발음을 나타내며, 그림 (c)에서 점선은 정상인 1과 2의 평균, 실선은 환자 1의 발음이다. 모의 발음과 실제 VPI 환자의 자음 /ㅈ/ 발음의 경우 정상 발음에 비해 3kHz 이상의 고주파수 성분의 크기가 작아진 것을 알 수 있다. 이러한 대폭적인 주파수 성분의 변화가 자음 /ㅈ/의 음가 성질을 변형함으로 써 높은 오인식률을 가져온 것으로 해석할 수 있다.
PPT Slide
Lager Image
자음 /ㅈ/의 스펙트럼 비교; (a) 정상인 1의 정상 및 모의 발음, (b) 정상인 2의 정상 및 모의 발음, (c) VPI 환자 및 정상 발음 Fig. 6 Spectrum comparison for consonant /ㅈ/ (a) Normal speaker 1, (b) normal speaker 2, and (c) VPI patient
V. 결 론
본 논문에서는 VPI 환자의 발음과 정상인의 모의 발음에 대한 듣기 평가와 음향 분석을 실시하였다. 음성 데이터 수집을 위해 PBW452 목록에서 50개의 단어를 선택하고, 모음과 단음절로 이루어진 발음 목록을 설정하였다. 다수의 평가자를 확보하고 듣기 평가의 편의를 위해 웹 기반의 듣기 평가 시스템을 구축하였다. 듣기평가 결과를 오인식표를 통해 분석하였으며, 모음 성분에 대한 포먼트 위치 비교와 자음 성분에 대한 스펙트럼 비교를 통해 음향학적 분석을 실시하였다. 듣기 평가 결과는 실제 VPI 환자의 발음에 대한 오인식 경향과 모의 발음의 오인식 경향이 유사함을 나타내었다. 이러한 유사성은 포먼트의 위치와 스펙트럼의 변화를 통해서도 확인할 수 있는 결과이다. 이러한 결과는 본 연구에서 사용한 정상인의 VPI 모의 발화 기법이 실제 VPI 환자의 음성을 비교적 효과적으로 모의하는 것을 반영하는 결과이며, 향후 VPI 환자의 음성 인식 연구에서 정상인의 모의 발화 음성 데이터를 음향 모델의 적응 기법과 같은 분야에 유용하게 사용할 수 있을 것으로 기대한다.
/아/는 자음+/아/의 형식이 아니지만, 듣기평가 비교에서 /아/를 사용하기 위해 단음절 목록에 포함시켰다.
Acknowledgements
이 논문은 미래창조과학부 공공복지안전연구사업(No. 2013-2244) 지원에 의하여 연구되었음.
BIO
성미영(Mee Young Sung)
1990년 프랑스 INSA de Lyon 컴퓨터공학 박사
1990년 ~ 1993년 한국전자통신연구소 선임연구원
1993년 ~ 현재 인천대학교 컴퓨터공학부 교수
2001년 ~ 2002년 미국 카네기 멜론 대학교 교환교수
2008년 ~ 2009년 미국 UC 버클리 대학교 교환교수
※관심분야 : 멀티미디어, 가상현실, 햅틱스, 음성인식
김희진(Heejin Kim)
2007년 서울대학교 의과대학 학사
2011년 ~ 2013년 서울대학교 의과대학 이비인후과학 석사
2014년 ~ 서울대학교 의과대학 이비인후과학 박사
2013년 ~ 현재 경북대학교 의과대학 이비인후과 임상조교수
※관심분야 : 두경부 종양, 음성수술, 음성질환
권택균(Tack-Kyun Kwon)
2006년 서울대학교 의과대학 의학박사
2003년 ~ 2004년 미국 피츠버그 의과대학 Voice Clinic Fellow
2012년 ~ 2013년 미국 샌디에고 대학 Clinical Research 석사과정
2012년 ~ 현재 서울대학교 의과대학 이비인후과학 부교수
※관심분야 : 음성수술, 음성질환진단, 음성분석, 임상시험 및 연구
성명훈(Myung-Whun Sung)
1991년 서울대학교 의과대학 의학박사
1990년 ~ 1999년 서울대학교 의과대학 이비인후과 조교수
1993년 ~ 1995년 미국 피츠버그 의과대학 Research Fellow
1999년 ~ 2004년 서울대학교 의과대학 이비인후과 부교수
2004년 ~ 현재 서울대학교 의과대학 이비인후과 교수
※관심분야 : 두경부 종양, 음성수술, 음성질환, 임상시험 및 연구
김우일(Wooil Kim)
2003년 고려대학교 전자공학과 공학박사
2004년 ~ 2005년 미국 카네기 멜론 대학교 박사후 연구원
2005년 ~ 2012년 미국 텍사스 주립대 (University of Texas at Dallas) 연구원 및 연구교수
2012년 ~ 현재 인천대학교 컴퓨터공학부 조교수
※관심분야 : 신호처리, 패턴인식, 음성인식, 휴먼 컴퓨터 인터페이스
References
Fletcher S. G. 1970 “Theory and instrumentation for quantitative measurement of nasality,” Cleft Palate Journal 7 601 - 609
Lee J.-E. 2012 “Research on Construction of the Korean Speech Corpus in Patient with Velopharyngeal Insufficiency,” Korean Journal of Otorhinolaryngol - Head & Neck Surgery 55 (8) 498 - 507    DOI : 10.3342/kjorl-hns.2012.55.8.498
Kim B.-W. 1997 “A Study on the Design and the Construction of a Korean Speech DB for Common Use,” The Journal of the Acoustical Society of Korea 16 (4) 35 - 41
Yun J. 1997 “Nasometric and Acoustic Analysis in Experimentally Induced Velopharyngeal Insufficiency in Human,” The Journal of the Korean Society of Logopedics and Phoniatrics 8 (2) 210 - 216
Shin J. 2011 Voice of Korean Language Jisk and Gyoyang