Advanced
Analysis on Scream and Ambient Noise for Security System with Audio Capability
Analysis on Scream and Ambient Noise for Security System with Audio Capability
The Transactions of The Korean Institute of Electrical Engineers. 2014. Jun, 63(6): 804-809
Copyright © 2014, The Korean Institute of Electrical Engineers
  • Received : December 17, 2013
  • Accepted : May 28, 2014
  • Published : June 01, 2014
Download
PDF
e-PUB
PubReader
PPT
Export by style
Article
Author
Metrics
Cited by
TagCloud
About the Authors
주 현 박
Dept. of Media Software, Sangmyung University, Korea
지 훈 서
Dept. of Media Software, Sangmyung University, Korea
석 필 이
Corresponding Author : Dept. of Media Software, Sangmyung University, Korea E-mail :esprit@smu.ac.kr

Abstract
Recently, the prevention of crime using CCTV draws special in accordance with the higher crime incidence rate. Therefore security systems like a CCTV with audio capability are developing for giving an instant alarm. This paper proposes an analysis on screams and ambient noises for security systems with audio capability. This analysis result will be helpful for security systems to detect screams well with various ambient noises in real environment.
Keywords
1. 서 론
최근 우리 사회는 급속하게 발전해가며 사람을 위협할 수 있는 다양한 요소들 또한 생겨나고 있다. 그 중 국민의 안전을 위협하는 범죄 문제는 발생률이 급증하면서 인력, 장비, 예산 낭비뿐만 아니라 사회적으로 국민의 불안감을 심화시키며 범죄 예방에 대한 경각심을 일깨우고 있다[ 1 ][ 2 ]. 범죄를 예방하기 위해 순찰 활동과 여러 방범용 시스템의 구축 등을 수행하고 있지만 현재의 시스템만으로는 범죄예방이 만족스럽지 못한 상황이다.
현재까지 구축된 방범용 시스템은 특정 지역에 침입이 발생했을 때 센서를 통하여 경비요원이 바로 출동할 수 있도록 하는 무인경비 시스템[ 3 ]과 범죄 발생 시 해당 지역에서 녹화된 영상물 수집을 통해 수사에 도움을 주는 블랙박스[ 4 ], 카메라에서 촬영된 화상정보를 이용하여 원하는 지역을 감시할 수 있도록 하는 CCTV[ 5 ] 등이 있다. 그 중 CCTV는 기능 면에서 볼 때 경찰의 부족한 인력과 장비를 보완해주며 범죄의 예방과 통제의 수단으로 가장 큰 역할을 해왔기 때문에 화질개선, 영상전송, 영상저장 등 기술면에 있어서 계속해서 발전 중에 있다[ 6 ][ 7 ].
현재 CCTV 시스템은 카메라의 촬영 영상에서 사람이 움직이는 이상 신호가 감지되면 그 정보를 중앙감시부로 전송하여 정보에 해당하는 카메라가 자동으로 발생지역을 촬영하도록 하는 영상조합 기능[ 8 ], 사각지역을 촬영할 수 있도록 형성된 다수의 보조 카메라에 의해 실시간 사각지역 발생 없이 감시할 수 있는 집중감시 기능[ 9 ], 회전형 카메라를 이용하여 인력이 직접 순찰 및 확인해야 하는 업무를 무인카메라와 각종 제어장치를 통해 기본적인 관리가 가능한 듀얼 모니터링 기능[ 10 ] 등을 토대로 발전해왔다.
그러나 CCTV는 기능면에서 볼 때 경찰의 부족한 인력과 장비를 보완해주는 중요한 역할을 수행하고 있고 범죄의 예방과 통제의 수단으로 가장 효과적이지만 사람이 직접 순찰 및 확인해야 하는 어려움이 있다. 때문에 더 지능적이고 효율적인 방범용 시스템을 위하여 기존의 영상 데이터뿐만 아니라 음성 데이터를 함께 사용하는 CCTV를 사용한다면 실제 위기상황이나 범죄가 발생했을 때 현장에서 나타날 수 있는 비명소리를 감지하여 추가적인 인력, 장비, 예산 없이도 위험 상황을 식별할 수 있기 때문에 더욱 효과적인 범죄예방을 기대할 수 있다.
본 논문에서는 환경 잡음 속에서 비명 소리를 감지할 수 있는 방범용 CCTV를 위해 환경 잡음과 비명 소리를 주파수 영역에서 분석한다. 2장에서는 환경 잡음과 비명 소리데이터에 대해 설명하고 3장에서는 각각의 데이터에 대한 분석한 결과를, 4장에서는 결과를 통해 결론 및 향후과제의 순서로 서술한다.
2. 실험 데이터
- 2.1 환경 잡음 데이터
환경 잡음 데이터는 9가지의 위치와 3가지의 시간대를 두어 총 27개의 환경 잡음을 녹음하였다. 녹음 장비로는 실제 사용할 방범용 CCTV의 음질을 고려하여 휴대용 마이크로폰을 이용하였다. 우선 9가지의 위치로는 한적한 골목길, 번화가, 차도를 3가지 장소로 정하여 각각의 장소에 대해 3가지 위치를 정하였고, 시간대는 아침, 점심, 저녁으로 나누었다. 이렇게 녹음된 데이터는 16kHz로 샘플링 했으며 모노채널을 사용하였다.
PPT Slide
Lager Image
골목 아침 Fig. 1 Alley on morning
PPT Slide
Lager Image
골목 점심 Fig. 2 Alley on afternoon
PPT Slide
Lager Image
골목 저녁 Fig. 3 Alley on night
PPT Slide
Lager Image
번화가 아침 Fig. 4 Main street on morning
PPT Slide
Lager Image
번화가 점심 Fig. 5 Main street on afternoon
PPT Slide
Lager Image
번화가 저녁 Fig. 6 Main street on night
그림 1 , 그림 2 , 그림 3 은 골목길의 전체 시간에 대한 시계열 그래프를, 그림 4 , 그림 5 , 그림 6 은 번화가의 전체 시간에 대한 시계열 그래프를, 그림 7 , 그림 8 , 그림 9 는 차도의 전체 시간에 대한 시계열 그래프를 나타낸다.
PPT Slide
Lager Image
차도 아침 Fig. 7 Driveway on morning
PPT Slide
Lager Image
차도 점심 Fig. 8 Driveway on afternoon
PPT Slide
Lager Image
차도 저녁 Fig. 9 Driveway on night
- 2.2 비명 소리 데이터
비명 소리 데이터는 총 60명으로 나이는 21 – 50세 사이이며 남자 30명, 여자 30명으로 구성되어 있다. 비명 소리는 놀랐을 때와 다급할 때, 아플 때의 3가지 상황을 설정하여 총 180개의 비명 데이터를 녹음하였다. 또한, 잡음이 거의 없는 조용한 곳에서 실험자와 피실험자의 거리를 약 5m로 두어 2 – 3초간 녹음하였고, 녹음 장비로는 실제 사용할 방범용 CCTV의 음질을 고려하여 휴대용 마이크로폰을 이용하였다. 녹음된 데이터는 16kHz로 샘플링 했으며 모노 채널을 사용하였다.
그림 10 , 그림 11 은 각각 남자와 여자의 비명소리에 대한 시계열 그래프를 나타낸다.
PPT Slide
Lager Image
남자 비명소리 Fig. 10 Scream of man
PPT Slide
Lager Image
여자 비명소리 Fig. 11 Scream of woman
3. 분 석
- 3.1 환경 잡음 분석
실험은 환경 잡음 데이터를 1초 단위의 프레임으로 Hamming 윈도우를 적용해 주파수 영역에서 분석하였다.
환경 잡음이 시작되는 부분과 끝나는 부분을 제외한 나머지 부분에서 각각의 장소에 대해 아침, 점심, 저녁으로 나누어 주파수 분포를 비교하여 분석하였다.
그림 12 , 13 , 14 는 각각 골목에서의 아침, 점심, 저녁에 대한 주파수 영역 그래프이다.
PPT Slide
Lager Image
골목 아침 Fig. 12 Alley on morning
PPT Slide
Lager Image
골목 점심 Fig. 13 Alley on afternoon
PPT Slide
Lager Image
골목 저녁 Fig. 14 Alley on night
골목의 아침, 점심, 저녁의 데이터에 대하여 분석해보면 아침, 점심, 저녁 모두 주로 300Hz 이하에서 큰 에너지가 발생하였고 아침과 점심에 매미소리로 인해 각각 5000 – 5500Hz, 6000 – 7000Hz 부근에서 큰 에너지가 발생한 것을 알 수 있다.
그림 15 , 16 , 17 은 각각 번화가에서의 아침, 점심, 저녁에 대한 주파수 영역 그래프이다.
PPT Slide
Lager Image
번화가 아침 Fig. 15 Main street on morning
PPT Slide
Lager Image
번화가 점심 Fig. 16 Main street on afternoon
PPT Slide
Lager Image
번화가 저녁 Fig. 17 Main street on night
번화가의 아침, 점심, 저녁의 데이터에 대하여 분석해보면 아침, 점심, 저녁 모두 주로 600Hz 이하에서 큰 에너지가 발생하였고 점심에 음악소리로 인하여 1700Hz, 2300Hz, 3500Hz, 4700Hz 에서 큰 에너지가 발생하였고, 저녁에 사람말소리로 인하여 800Hz, 1100Hz, 1300Hz 에서 큰 에너지가 발생한 것을 알 수 있다.
PPT Slide
Lager Image
차도 아침 Fig. 18 Driveway on morning
PPT Slide
Lager Image
차도 점심 Fig. 19 Driveway on afternoon
그림 18 , 19 , 20 은 각각 차도에서의 아침, 점심, 저녁에 대한 주파수 영역 그래프이다.
PPT Slide
Lager Image
차도 저녁 Fig. 20 Driveway on night
차도의 아침, 점심, 저녁의 데이터에 대하여 분석해보면 아침, 점심, 저녁 모두 주로 300Hz 이하에서 큰 에너지가 발생하였고 아침, 점심에 각각 찻소리로 인하여 800 - 2000Hz에서 큰 에너지가 발생한 것을 알 수 있다.
- 3.2 비명 소리 분석
실험은 짧은 비명 소리의 특정 데이터를 약 0.03초 간격으로 Hamming 윈도우를 적용해 주파수 영역에서 분석하였다.
비명이 시작되는 부분과 끝나는 부분을 제외한 나머지 부분에서 최대 amplitude값을 갖는 주파수 대역을 보고, 3가지상황의 주파수 분포를 비교하여 상황에 따른 비명소리의 주파수 분포도 차이와 성별에 따른 비명소리의 분포도 차이를 분석하였다.
그림 19 , 그림 20 , 그림 21 은 남자의 비명소리 중 하나의 샘플로, 각각 놀랐을 때와 다급할 때, 아플 때의 실험 데이터를 분석한 결과이다.
PPT Slide
Lager Image
남자 – 놀랐을 때 Fig. 21 Man - fright
남자 비명소리를 분석해보면 놀랐을 때의 경우 대체로 600 - 1000Hz 사이와 1000 – 1600Hz 에서 피크점이 검출되었고, 다급할 때의 경우 500 – 1000Hz 에서 피크점이 검출되었다. 반면에, 아플 때의 경우 600 - 1000Hz 와 1000 - 1600Hz 에서 번갈아 가며 피크점이 검출되었다.
그림 22 , 그림 23 . 그림 24 는 여자의 비명소리 중 하나의 샘플로, 각각 놀랐을 때, 다급할 때, 아플 때의 실험 데이터를 분석한 결과이다.
PPT Slide
Lager Image
남자 – 다급할 때 Fig. 22 Man - precipitancy
PPT Slide
Lager Image
남자 – 아플 때 Fig. 23 Man - pain
PPT Slide
Lager Image
여자 – 놀랐을 때 Fig. 24 Woman - fright
PPT Slide
Lager Image
여자 – 다급할 때 Fig. 25 Woman - precipitancy
PPT Slide
Lager Image
여자 – 아플 때 Fig. 26 Woman - pain
여자의 비명소리에서는 놀랐을 때, 다급할 때, 아플 때 1000 – 1500Hz 에서 피크점이 검출되었고, 다급할 때, 아플 때의 경우 1000Hz와 함께 2000Hz 부근에서 피크점이 같이 검출된 반면에 놀랐을 때의 경우 1000Hz 부근에서만 피크점이 검출되었다.
- 3.3 환경 잡음과 비명 소리 비교 분석
환경 잡음이 섞인 오디오 데이터에서 비명 소리를 검출하기 위하여 환경 잡음과 비명 소리의 주파수 영역을 분석하였다.
아래의 표 1 , 표 2 는 위의 환경 잡음과 비명 소리의 분석 결과를 토대로 각 상황에 맞게 주파수 분포를 나타낸 결과이다.
환경 잡음 분석 결과Table 1 Result of analysis on environment noise
PPT Slide
Lager Image
환경 잡음 분석 결과 Table 1 Result of analysis on environment noise
비명 소리 분석 결과Table 2 Result of analysis on scream
PPT Slide
Lager Image
비명 소리 분석 결과 Table 2 Result of analysis on scream
환경 잡음 데이터 중 골목의 경우 대부분 300Hz 이하에서 큰 에너지가 발생하며 5000 – 5500Hz 와 6000 – 7000Hz 의 주파수 대역 또한 비명 소리와 주파수 대역이 겹치지 않기 때문에 비명 소리를 쉽게 검출할 수 있을 것으로 생각된다. 그러나 번화가의 경우 600Hz 이하에서 큰 에너지를 갖는 부분은 비명 소리와 주파수 대역이 겹치지 않으나 점심과 저녁의 경우 1700Hz, 2300Hz, 3500Hz, 4700Hz와 800Hz, 1100Hz, 1300Hz 에서 비명 소리와 겹치는 부분이 있고 차도의 경우도 번화가의 경우와 마찬가지로 300Hz에서 큰 에너지를 갖는 부분은 비명 소리와 주파수 대역이 겹치지 않으나 아침과 점심의 경우 800 - 2000Hz 부분에서 비명소리와 주파수 대역이 겹치기 때문에 단순히 주파수 대역의 비교로는 비명 소리의 검출이 어려울 것으로 판단된다.
4. 결 론
본 논문에서는 오디오 취득 기반의 방범용 CCTV를 위하여 환경잡음 속에서 비명소리를 검출할 수 있도록 환경잡음과 비명소리를 주파수 영역에서 분석하였다. 이를 위해 공통적으로 휴대용 마이크로폰을 이용하였고, 3가지 장소인 골목, 번화가, 차도와 3가지 시간대인 오전, 오후, 밤으로 이루어진 총 27가지의 환경잡음과 남자 30명, 여자 30명으로 이루어진 60명의 비명소리를 녹음하여 실험을 진행하였다.
환경 잡음의 경우 많은 부분에서 비명 소리의 주파수 대역과 겹치지 않아 비명 소리의 검출이 용이할 것으로 생각되나 번화가의 점심과 저녁 시간대의 경우와 차도의 아침과 점심 시간대의 경우 비명 소리와 주파수 대역이 겹치기 때문에 비명 소리의 검출이 어려울 것으로 생각된다. 본 분석데이터는 실지 환경에서 다양한 환경 잡음들 속에서 비명소리를 검출하는 데에 많은 도움이 될 것으로 판단된다.
향후 환경 잡음 속에서 비명 소리를 검출하기 위하여 여러 알고리즘을 이용한 연구 및 개발이 필요하다.
Acknowledgements
본 연구는 2014년도 상명대학교 교내연구비를 지원 받아 수행하였음.
BIO
박 주 현 (朴 奏 炫) 2011년 ~ 현재 상명대학교 미디어 소프트웨어학과 학석사 연계과정 <주관심분야> 오디오 신호처리, 패턴인식
서 지 훈 (徐 智 訓) 2014년 상명대학교 디지털미디어학과 이학사, 2014년 ~ 현재 상명대학교 컴퓨터 과학과 석사과정 <주관심분야> 오디오 신호처리, 패턴인식
이 석 필 (李 錫 弼) 1990년 연세대학교 전기공학과 공학사, 1992년 연세대학교 전기공학과 공학석사, 1997년 연세대학교 전기공학과 공학박사, 1997년 ~ 2002년 대우전자 영상연구소 선임연구원, 2002년 ~ 2012년 KETI 디지털미디어연구센터 센터장, 2010년 ~ 2011년 미국 Georgia Tech. 방문연구원, 2012년 ~ 현재 상명대학교 미디어소프트웨어 학과 교수 <주관심분야> 멀티미디어 검색, 디지털 신호처리, 인공지능
References
Lee S. W. , Park Y. K. 2006 “A Study on Revitalization of CCTV for Crime Prevention” Korean Association of Police Science 12 195 - 217
Lim M. H. , Hong J. H. 2008 “Directions of Crime Prevention Policy Through the Analysis of Crime Prevention Effects of CCTV” Korean Association of Police Science 12 (4) 77 - 101
Lee S. J. , Kim H. B. , Yeom H. Y. 2006 “Study on the OMAC-SNEP for Unattended Security System Using Wireless Sensor Networks” Trans. KIISC 16 (1) 105 - 114
Choi J. D. , Chae K. S. , Jung S. H. 2012 “Video Data Collection Scheme From Vehicle Black Box Using Time and Location Information for Public Safety” Trans. KIISC 22 (4) 771 - 783
Kim I. S. , Yu J. D. , Kim B. H. 2008 “A Monitoring Way and Installation of Monitoring System using Intelligent CCTV under the u-City Environment" Trans. KIECS 3 (4)
Kim Y. H. , Kim J. H. 2010 “Development of Real-Time Face Region Recognition System for City-Security CCTV” Trans. KMMS 13 (4) 504 - 511
O S. K. , Lee J. W. , Lee H. S. , Jung Y. H. , Park D. H. 2012 “Abnormal Sound Detection and Identification in Surveillance System” Trans. KIISE : software and applications 39 (2) 144 - 152
Monthly publication. Securitywold no. 166
Monthly publication. Securitywold no. 167
Monthly publication. Securitywold no. 168